Para las aplicaciones de aprendizaje supervisado en el aprendizaje automático y la teoría del aprendizaje estadístico, el error de generalización[1] (también conocido como error fuera de muestra[2] o riesgo) es una medida de la precisión con la que un algoritmo es capaz de predecir resultados para datos nunca antes vistos.
Como resultado, las mediciones del error de predicción en los datos actuales pueden no proporcionar mucha información sobre la capacidad predictiva del algoritmo en datos nuevos e invisibles.
El error de generalización se puede minimizar evitando el sobreajuste en el algoritmo de aprendizaje.
En un problema de aprendizaje, el objetivo es desarrollar una función
que predice valores de salida
sobre todos los valores posibles de
es la distribución de probabilidad conjunta desconocida para
Sin conocer la distribución de probabilidad conjunta
En lugar de ello, podemos calcular el error en los datos de muestra, lo que se denomina error empírico (o riesgo empírico).
es: Se dice que un algoritmo se generaliza si: De particular importancia es el error de generalización.
que se encuentra mediante un algoritmo de aprendizaje basado en la muestra.
Nuevamente, para una distribución de probabilidad desconocida,
En cambio, el objetivo de muchos problemas en la teoría del aprendizaje estadístico es limitar o caracterizar la diferencia entre el error de generalización y el error empírico en probabilidad: Es decir, el objetivo es caracterizar la probabilidad
Específicamente, si un algoritmo es simétrico (el orden de las entradas no afecta el resultado), tiene pérdida acotada y cumple dos condiciones de estabilidad, se generalizará.
La segunda condición, la estabilidad del error en el que se espera dejar uno afuera (también conocida como estabilidad de hipótesis si se opera en la norma de
[3] Estas condiciones pueden formalizarse como: Un algoritmo
norma, esto es lo mismo que estabilidad de hipótesis: con
[3] Se ha evidenciado que diversos algoritmos presentan estabilidad, lo que conlleva a la existencia de restricciones en su margen de error de generalización.
Los términos error de generalización y sobreajuste están interconectados.
El sobreajuste se produce cuando la función aprendida 𝑓𝑆 se vuelve excesivamente receptiva al ruido presente en los datos de entrenamiento.
Esto implica que la función puede mostrar un buen rendimiento en el conjunto de entrenamiento, pero su eficacia disminuye al aplicarse a otros datos que pertenecen a la misma distribución de probabilidad conjunta de 𝑥 y 𝑦.
En consecuencia, a medida que el sobreajuste aumenta, también lo hace el error de generalización.
La cantidad de sobreajuste se puede probar utilizando métodos de validación cruzada, que dividen la muestra en muestras de entrenamiento simuladas y muestras de prueba.
Luego, el modelo se entrena en una muestra de entrenamiento y se evalúa en la muestra de prueba.
Esta muestra de prueba nos permite aproximar el error esperado y como resultado aproximar una forma particular del error de generalización.
Existen muchos algoritmos para evitar el sobreajuste.
El algoritmo de minimización puede penalizar funciones más complejas (conocido como regularización de Tikhonov), o se puede restringir el espacio de hipótesis, ya sea explícitamente en la forma de funciones o agregando restricciones a la función de minimización (regularización de Ivanov).
El enfoque para encontrar una función que no se sobreajuste está en desacuerdo con el objetivo de encontrar una función que sea lo suficientemente compleja para capturar las características particulares de los datos.
Esto se conoce como el equilibrio entre sesgo y varianza.
Mantener una función simple para evitar el sobreajuste puede introducir un sesgo en las predicciones resultantes, mientras que permitir que sea más compleja conduce al sobreajuste y a una mayor varianza en las predicciones.