Latent Dirichlet Allocation

Esto es similar a Probabilistic Latent Semantic Analysis (pLSA), excepto que en LDA se asume que la distribución de categorías tiene una distribución a priori de Dirichlet.

Otros departamentos, como Sociología pueden tener temas donde encontremos algunas palabras tales como: género, raza, edad, economía y redes.

El modelo LDA ve esto como un todo y elige los temas a partir de allí.

En este ejemplo, palabras como redes pueden aparecer varias veces en los documentos relativos a cualquier departamento.

Esencialmente, LDA crea un modelo más realista del cuerpo, y por lo tanto, de los documentos individuales.