Factorización matricial no negativa (NMF o NNMF), también aproximación matricial no negativa,[1] es un grupo de algoritmos en análisis multivariante y álgebra lineal donde una matriz V se factoriza en (habitualmente) dos matrices W y H, con la propiedad de que las tres matrices no tienen elementos negativos.
Esta no negatividad hace que las matrices resultantes sean más fáciles de inspeccionar.
Además, en aplicaciones tales como el procesamiento de espectrogramas de audio o actividad muscular, la no negatividad es inherente a los datos que se consideran.
Se hizo más conocido como factorización nonegativa de matrices después de que Lee y Seung investigaron las propiedades del algoritmo y publicaron algunos algoritmos simples y útiles para dos tipos de factorizaciones.
NMF genera factores con dimensiones significativamente reducidas en comparación con la matriz original.
Esta representación del centroide se puede mejorar significativamente con NMF convexa.
La descomposición completa de V entonces equivale a las dos matrices no negativas W y H, así como a una matriz U residual, tal que: V = WH + U.
Los elementos de la matriz residual pueden ser negativos o positivos.
Otra razón para factorizar V en matrices más pequeñas W y H es que si se pueden representar aproximadamente los elementos de V con datos significativamente menores, entonces se debe inferir alguna estructura latente en los datos.
Esto mejora en muy alto grado la calidad de la representación de W. Es más, la matriz factor H resultante es más dispersa y ortogonal.
[9] Cuando se agrega L1 regularización (similar a Lasso) a NMF con la función de costo de error cuadrático medio, el problema resultante se puede llamar codificación dispersa no negativa debido a la similitud con el problema de codificación dispersa,[10][11] aunque también se conoce como NMF.
Esto puede ser insatisfactorio en aplicaciones en las que hay demasiados datos para caber en la memoria o donde los datos se proporcionan de forma continua.
Uno de estos usos es el filtrado colaborativo en los sistemas de recomendación, donde puede haber muchos usuarios y muchos artículos para recomendar, y sería ineficiente volver a calcular todo cuando se agrega al sistema un usuario o un elemento.
La función de costo para la optimización en estos casos puede o no ser la misma que para el NMF estándar, pero los algoritmos necesitan ser bastante diferentes.
Este algoritmo es: Hasta que W y H sean estables.
Se pueden esperar soluciones exactas para las variantes de NMF (en tiempo polinomial) cuando existen restricciones adicionales para la matriz V.
[25] En Learning the parts of objects para factorización no negativa de matrices, Lee y Seung[26] propusieron NMF principalmente para la descomposición de imágenes basada en partes.
Más tarde se demostró que algunos tipos de NMF son una instancia de un modelo probabilístico más general llamado "PCA multinomial".
NMF con el objetivo de mínimos cuadrados es equivalente a una forma relajada de K-means clustering: la matriz factor W contiene los centroides del grupo y H contiene los indicadores de pertenencia al grupo.
[29][30] Esto proporciona una base teórica para usar NMF para la agrupación de datos.
Dichos modelos son útiles para la fusión del sensor y el aprendizaje relacional.
[41] NMF también se ha aplicado a los datos de citas, con un ejemplo agrupando los artículos de Wikipedia en inglés y las revistas científicas basadas en las citas científicas salientes en Wikipedia en inglés.
[42] Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu y Zhu (2013) han dado algoritmos de tiempo polinomial para aprender modelos de temas utilizando NMF.
El algoritmo asume que la matriz del tema satisface una condición de separabilidad que a menudo se encuentra en esta configuración.
Por ejemplo, el filtro Wiener es adecuado para el ruido Gaussiano aditivo.
La idea clave es que la señal de voz limpia puede estar escasamente representada por un diccionario de voz, pero el ruido no estacionario no puede.
Dos diccionarios, uno para discurso y uno para ruido, deben ser entrenados sin conexión.
Tercero, la parte que está representada por el diccionario de habla será el discurso limpio estimado.
La NMF se aplicó con éxito en bioinformática para agrupar la expresión génica y los datos de metilación del ADN y encontrar los genes más representativos de los grupos.
[50] La NMF, también referida en este campo como análisis factorial, se ha utilizado desde los años 80[51] para analizar secuencias de imágenes en imágenes médicas dinámicas SPECT y PET.