Error de generalización

Para las aplicaciones de aprendizaje supervisado en el aprendizaje automático y la teoría del aprendizaje estadístico, el error de generalización[1]​ (también conocido como error fuera de muestra[2]​ o riesgo) es una medida de la precisión con la que un algoritmo es capaz de predecir resultados para datos nunca antes vistos.

Como resultado, las mediciones del error de predicción en los datos actuales pueden no proporcionar mucha información sobre la capacidad predictiva del algoritmo en datos nuevos e invisibles.

El error de generalización se puede minimizar evitando el sobreajuste en el algoritmo de aprendizaje.

En un problema de aprendizaje, el objetivo es desarrollar una función

que predice valores de salida

sobre todos los valores posibles de

es la distribución de probabilidad conjunta desconocida para

Sin conocer la distribución de probabilidad conjunta

En lugar de ello, podemos calcular el error en los datos de muestra, lo que se denomina error empírico (o riesgo empírico).

es: Se dice que un algoritmo se generaliza si: De particular importancia es el error de generalización.

que se encuentra mediante un algoritmo de aprendizaje basado en la muestra.

Nuevamente, para una distribución de probabilidad desconocida,

En cambio, el objetivo de muchos problemas en la teoría del aprendizaje estadístico es limitar o caracterizar la diferencia entre el error de generalización y el error empírico en probabilidad: Es decir, el objetivo es caracterizar la probabilidad

Específicamente, si un algoritmo es simétrico (el orden de las entradas no afecta el resultado), tiene pérdida acotada y cumple dos condiciones de estabilidad, se generalizará.

La segunda condición, la estabilidad del error en el que se espera dejar uno afuera (también conocida como estabilidad de hipótesis si se opera en la norma de

[3]​ Estas condiciones pueden formalizarse como: Un algoritmo

norma, esto es lo mismo que estabilidad de hipótesis: con

[3]​ Se ha evidenciado que diversos algoritmos presentan estabilidad, lo que conlleva a la existencia de restricciones en su margen de error de generalización.

Los términos error de generalización y sobreajuste están interconectados.

El sobreajuste se produce cuando la función aprendida 𝑓𝑆 se vuelve excesivamente receptiva al ruido presente en los datos de entrenamiento.

Esto implica que la función puede mostrar un buen rendimiento en el conjunto de entrenamiento, pero su eficacia disminuye al aplicarse a otros datos que pertenecen a la misma distribución de probabilidad conjunta de 𝑥 y 𝑦.

En consecuencia, a medida que el sobreajuste aumenta, también lo hace el error de generalización.

La cantidad de sobreajuste se puede probar utilizando métodos de validación cruzada, que dividen la muestra en muestras de entrenamiento simuladas y muestras de prueba.

Luego, el modelo se entrena en una muestra de entrenamiento y se evalúa en la muestra de prueba.

Esta muestra de prueba nos permite aproximar el error esperado y como resultado aproximar una forma particular del error de generalización.

Existen muchos algoritmos para evitar el sobreajuste.

El algoritmo de minimización puede penalizar funciones más complejas (conocido como regularización de Tikhonov), o se puede restringir el espacio de hipótesis, ya sea explícitamente en la forma de funciones o agregando restricciones a la función de minimización (regularización de Ivanov).

El enfoque para encontrar una función que no se sobreajuste está en desacuerdo con el objetivo de encontrar una función que sea lo suficientemente compleja para capturar las características particulares de los datos.

Esto se conoce como el equilibrio entre sesgo y varianza.

Mantener una función simple para evitar el sobreajuste puede introducir un sesgo en las predicciones resultantes, mientras que permitir que sea más compleja conduce al sobreajuste y a una mayor varianza en las predicciones.

Esta figura ilustra la relación entre el sobreajuste y el error de generalización I [ f n ] - I S [ f n ]. Los puntos de datos se generaron a partir de la relación y = x con ruido blanco agregado a los valores y . En la columna de la izquierda se muestra un conjunto de puntos de entrenamiento en azul. Se ajustó una función polinomial de séptimo orden a los datos de entrenamiento. En la columna de la derecha, la función se prueba con datos extraídos de la distribución de probabilidad conjunta subyacente de x e y . En la fila superior, la función se ajusta a un conjunto de datos de muestra de 10 puntos de datos. En la fila inferior, la función se ajusta a un conjunto de datos de muestra de 100 puntos de datos. Como podemos ver, para tamaños de muestra pequeños y funciones complejas, el error en el conjunto de entrenamiento es pequeño pero el error en la distribución subyacente de datos es grande y hemos sobreajustado los datos. Como resultado, el error de generalización es grande. A medida que aumenta el número de puntos de muestra, el error de predicción en los datos de entrenamiento y de prueba converge y el error de generalización llega a 0.