Los valores faltantes son una ocurrencia común y pueden tener un efecto significativo en las conclusiones que se pueden extraer de los datos.
Los valores faltantes pueden ocurrir debido a la falta de respuesta: no se proporciona información para uno o más elementos o para una unidad completa («sujeto»).
La pérdida ocurre cuando los participantes abandonan antes de que finalice la prueba y faltan una o más mediciones.
A veces, los valores faltantes son causados por el investigador; por ejemplo, cuando la recopilación de datos no se realiza correctamente o se cometen errores en la entrada de datos.
Los valores faltantes se pueden manejar de manera similar a los datos censurados .
Por ejemplo, en un estudio de la relación entre coeficiente intelectual (CI) e ingresos, si los participantes con un CI superior a la media tienden a omitir la pregunta «¿Cuál es su salario?», los análisis que no tienen en cuenta esta falta aleatoria (patrón MAR ( ver más abajo)) puede fallar falsamente al encontrar una asociación positiva entre el coeficiente intelectual y el salario.
[2] Se pueden utilizar modelos gráficos para describir en detalle el mecanismo de valores faltantes.
[8] Un ejemplo es que los hombres son menos propensos a completar una encuesta sobre depresión, pero esto no tiene nada que ver con su nivel de depresión, después de tener en cuenta la masculinidad.
[cita requerida] La falta no aleatoria (MNAR) (también conocida como falta de respuesta no identificable) son datos que no son ni MAR ni MCAR (es decir, el valor de la variable faltante está relacionado con la razón por la que falta).
[9] Los valores faltantes reducen la representatividad de la muestra y, por lo tanto, pueden distorsionar las inferencias sobre la población.
En términos generales, existen tres enfoques principales para manejar los valores faltantes: (1) Imputación: donde introducen datos en lugar de los valores faltantes, (2) omisión: donde las muestras con datos no válidos se descartan de análisis posteriores y (3) análisis: mediante la aplicación directa de métodos no afectados por los valores perdidos.
Por ejemplo, en los cuestionarios informáticos, a menudo no es posible omitir una pregunta.
Una pregunta tiene que ser respondida, de lo contrario no se puede continuar con la siguiente.
Por lo tanto, los valores faltantes debidos al participante se eliminan con este tipo de cuestionario, aunque es posible que el consejo de ética que supervisa la investigación no permita este método.
En la investigación de encuestas, es común hacer muchos esfuerzos para contactar a cada individuo en la muestra, a menudo enviando cartas para tratar de persuadir a quines han decidido no participar para que cambien de opinión.
Rubin (1987) argumentó que repetir la imputación aunque sea unas pocas veces (5 o menos) mejora enormemente la calidad de la estimación.
[2] Para muchos propósitos prácticos, 2 o 3 imputaciones capturan la mayor parte de la eficiencia relativa que podría capturarse con un número mayor de imputaciones.
[2] La imputación múltiple no se realiza en disciplinas específicas, ya que existe falta de formación o conceptos erróneos sobre las mismas.
[16] Esto es válido bajo normalidad y asumiendo MCAR Los métodos que involucran la reducción de los datos disponibles a un conjunto de datos que no tiene valores faltantes incluyen: Métodos que tienen plenamente en cuenta toda la información disponible, sin la distorsión resultante de utilizar los valores imputados como si realmente se observaran: También se pueden utilizar métodos de identificación parcial .
[19] Las técnicas basadas en modelos, que a menudo utilizan gráficos, ofrecen herramientas adicionales para probar los tipos de valores faltantes (MCAR, MAR, MNAR) y para estimar parámetros en condiciones de valores faltantes.
[21][22] ) Cuando los valores caen en la categoría MNAR, hay técnicas disponibles para estimar de manera consistente los parámetros cuando ciertas condiciones se mantienen en el modelo.
Estructuras de modelos diferentes pueden producir estimandos diferentes y procedimientos distintos de estimación siempre que sea posible una estimación consistente.
Además, para obtener una estimación consistente es crucial que el primer término sea
Cualquier modelo que implique la independencia entre una variable X parcialmente observada y el indicador de ausencia de otra variable Y (es decir,