Ley de Heaps

Pueda ser formulado como: Donde VR es el número de palabras distintas en un texto de tamaño n. K Y β son los parámetros libres que se determinan empíricamente.

La ley es frecuentemente atribuida a Harold Stanley Heaps, pero fue originalmente descubierta por Gustav Herdan (1960).

[1]​[2]​[3]​ La ley de Heaps significa que cuando más texto es generado, costará más tiempo encontrar palabras nuevas.

Por ejemplo, los objetos podrían ser personas, y las clases podrían ser países de origen de la persona.

Si las personas están seleccionadas aleatoriamente (es decir, no están seleccionadas las personas en función del país de origen), entonces la ley de Heaps dice cuán rápido encontraremos representantes de los países (en proporción al número de personas seleccionadas al azar) y predice que será más difícil cada vez encontrar personas de un país no incluido en la muestra.

Una representación habitual de la ley de Heaps. El eje X representa el tamaño del texto, y el eje Y representa el número de palabras distintas (vocabulario) presentes en el texto.