Además reduce la varianza y ayuda a evitar el sobreajuste.
El embolsado es un caso especial del promediado de modelos.
, cada uno de tamaño n′, mediante muestreo uniforme y con reemplazo de D. En el caso del muestreo con reemplazo, algunas observaciones deben repetirse en
se espera que tenga (1 - 1/e) (≈63.2%) ejemplos únicos de D, siendo el resto duplicados.
Los m modelos son aproximados usando las m muestras de arranque y combinados promediando el resultado (para regresión) o votando (para clasificación).
El embolsado lleva a "mejoras para procedimientos inestables" (Breiman, 1996), que incluyen, por ejemplo, redes neuronales artificiales, árboles de clasificación y regresión, y selección de subconjuntos en regresión lineal (Breiman, 1994).
Una aplicación interesante del embolsado mostrando mejorías en el aprendizaje preimagen puede ser visto aquí.
[2][3] Por otra parte, esto puede degradar levemente el rendimiento de métodos estables tales como K-nearest neighbors (Breiman, 1996).
Para ilustrar los principios básicos del embolsado, se muestra a continuación un análisis de la relación entre el ozono y la temperatura (datos de Peter Rousseeuw y Leroy (1986), disponibles en conjuntos de datos clásicos, el análisis está hecho en R).
Para describir matemáticamente esta relación, se usan suavizadores LOESS.
Los primeros 10 ajustes suaves aparecen en líneas grises en la figura.
Claramente, la media es más estable y hay menos sobreajuste.
Escogiendo cuidadosamente el tamaño de las nuevas muestras, el embolsado puede llevar a mejoras substanciales en el rendimiento del clasificador 1NN.
, el clasificador embolsado nearest neighbors será consistente dado que