Corpus Nacional Británico

[4]​ Inicialmente la BNC era la visión de los lingüistas computacionales cuyo objetivo era un corpus (colección de textos) moderno, con un lenguaje natural que manejara palabras, textos o escrito que pudieran ser analizada por un ordenador.

[3]​ El corpus se limita al inglés británico y no se extendió para cubrir lenguas inglesas globales; esto se debe a que una gran porción del costo del proyecto fue financiado por el gobierno británico, con el fin de apoyar la documentación de su propia diversidad lingüística.

[3]​ La BNC es un corpus monolingüe, ya que únicamente registra muestras del lenguaje Británico, aunque en ocasiones, palabras y frases de otros idiomas también pueden estar presentes.

[5]​ Estas muestras principalmente sirvieron para tener en cuenta tanto la distribución demográfica de la lengua oral como la variación lingüística a causa del contexto.

[8]​ La última edición (tercera), salió a la venta y se presenta en formato XML.

A lo largo del proyecto, la "BNC Sampler" mejoró al aumentar la experiencia y el conocimiento para etiquetar (tagging), lo cual conduce a las mejoras actuales que hoy ofrece.

El sistema de marcado o Tagging, denominado "Garras", fue sufriendo cambios y mejoras mejoras para lograr la última actualización "CLAWS4", la cual sirve como herramienta para etiquetar a la BNC.

[2]​[11]​ Subsecuente mente, un nuevo sistema llamado "Plantillas Tagger" se introdujo para una función correctiva y más tarde se añadieron taggs para temas con mayor ambigüedad.

El etiquetado manual sigue siendo necesario, ya que CLAWS4 todavía es incapaz de reconocer palabras extranjeras.

[16]​ La BNC en sí puede ser ordenada como una licencia personal o institucional.

[17]​ El corpus cuenta con un administrador en línea, BNCweb, el cual ha sido desarrollado para la edición de XML BNC.

Esto podría atribuirse al la manera estándar del acuerdo entre los titulares de los derechos, por otra parte también se atribuye consorcio.Los derechos (DPI) son titulares de propiedad intelectual, se buscaron para su el acuerdo con la licencia estándar, sobre todo por la voluntad de incorporar sus materiales en el corpus sin excepción.

Esta disposición de derechos puede facilitarse por la originalidad del concepto y la importante asociación con el proyecto.

Se advierte a los usuarios estar conscientes de estas posibilidades.

[20]​ Algunos textos pudieron clasificarse en la categoría incorrecta, por lo general se debe a un título engañoso.

[20]​ Además las presiones de producción junto con información aún insuficiente en ese momento dieron lugar a decisiones precipitadas, las cuales originaron imprecisiones y falta de coherencia en los registros.

Determinadas categorías semánticas y pragmáticas (duda, conocimiento, desacuerdos, resúmenes, etc.) son difíciles de localizar por la misma razón.

[21]​ Esto ocurre ante cambios gramaticales, por ejemplo en los enunciados, "si uno puede comparar el habla de los hombres y de las mujeres", "no se puede comparar el habla a las mujeres ya los hombres".

[21]​ Existen dos maneras generales en las que el corpus puede ser empleado para el aprendizaje del lenguaje.

[22]​ La página web habilitó un segmento para que aprendices del idioma inglés descarguen frases por medio de grabaciones que pueden usar y escuchar, luego basan sus propios usos del idioma inglés en este segmento de frases.

[24]​ Se ha usado como un colchón para el examen "Text Encoding Initiative" (TEI) .

Los estudiantes pudieron hacer comparaciones entre su propia escritura y las de los escritores más destacados en su campo.

[28]​ Como parte de un trabajo en curso sobre el procesamiento morfológico, en la cual se usó un área clave del procesamiento del lenguaje natural (NLP), los datos del BNC se utilizaron para probar la exactitud, fiabilidad y rapidez de herramientas computacionales desarrolladas para facilitar el análisis y el procesamiento de los marcadores morfológicos en el inglés británico.

[29]​ Las herramientas computacionales involucradas en un programa, permitieron el análisis de la morfología e inflexión en inglés británico (conocido como un analizador) y un programa que genera marcas morfológicas basado en el análisis del analizador.

Estructura de la BNC.