Este método representa un enfoque que infiere un conjunto de reglas abstractas por el cual una lengua natural se gobierna o se refiere a otro idioma.
Tanto si es oral como escrito, un corpus deberá definirse en función de los objetivos que se persigan con el mismo.
Los partidarios de la lingüística de corpus creen que el análisis lingüístico más fiable se produce en las muestras recogidas en contextos naturales y con una interferencia mínima.
Algunos de los primeros esfuerzos en la descripción gramatical se basan, al menos en parte, en los corpus religiosos o culturales.
En la tradición europea occidental varios académicos prepararon concordancias para realizar un estudio detallado del lenguaje de la Biblia y otros textos canónicos.
Poco después, la editorial Houghton-Mifflin siguiendo a Kucera logró reunir un millón de palabras para su nuevo diccionario American Heritage Dictionary, el primer diccionario creado usando la lingüística de corpus.
Este proyecto es reciente y con múltiples capas de anotación entre las que se incluyen la segmentación morfológica, el etiquetado gramatical y el análisis sintáctico utilizando la gramática de dependencia.
En tales situaciones la anotación y la abstracción se combinan en la búsqueda del léxico.
Los lingüistas con otros intereses y perspectivas diferentes que los creadores pueden utilizar ese trabajo.