Missing Data: Our View of the State of the Art

Missing Data: Our View of the State of the Art

2002, Vol. 7, No. 2, 147-177 | Joseph L. Schafer and John W. Graham
The article by Joseph L. Schafer and John W. Graham from Pennsylvania State University provides a comprehensive overview of the state of missing data handling in statistical procedures. The authors highlight the improvements in methods for dealing with missing data but also指出了许多常见的误解和不科学的实践。他们澄清了“缺失随机”(MAR)概念的常见误解,总结了旧方法的证据,并强烈建议避免使用这些方法。文章介绍了两种推荐的现代方法:最大似然(ML)和贝叶斯多重插补(MI),并讨论了新发展,包括处理非MAR缺失数据的方法。文章强调了缺失数据在科学研究中的困难,因为大多数数据分析方法并未针对缺失数据设计,处理缺失数据需要克服概念和计算上的挑战。 文章还详细阐述了缺失数据的类型和模式,如单位非响应、项目非响应和波浪非响应,并解释了缺失数据的分布和MAR的概念。MAR假设缺失数据的分布不依赖于缺失的数据值,而MCAR(缺失完全随机)假设缺失数据的分布不依赖于任何数据值。文章通过一个血压测量的例子说明了MCAR、MAR和MNAR(缺失非随机)之间的差异。 文章批评了传统的数据编辑方法,如案例删除和单次插补,指出它们在某些情况下可能产生偏见、低效率和不可靠的结果。相反,文章推荐使用基于所有可用数据的ML估计和贝叶斯MI方法,这些方法在大多数情况下表现良好,即使在MAR假设不完全成立的情况下。 最后,文章讨论了处理非MAR缺失数据的方法,包括选择明确的缺失数据模型,并指出在大多数情况下,即使在MAR假设不完全成立的情况下,ML和MI方法仍然可以提供有效的分析。文章还提到了一些特殊情况,如当缺失数据导致观察对象离开研究范围时,可以将缺失数据视为MAR,并使用这些方法进行分析。The article by Joseph L. Schafer and John W. Graham from Pennsylvania State University provides a comprehensive overview of the state of missing data handling in statistical procedures. The authors highlight the improvements in methods for dealing with missing data but also指出了许多常见的误解和不科学的实践。他们澄清了“缺失随机”(MAR)概念的常见误解,总结了旧方法的证据,并强烈建议避免使用这些方法。文章介绍了两种推荐的现代方法:最大似然(ML)和贝叶斯多重插补(MI),并讨论了新发展,包括处理非MAR缺失数据的方法。文章强调了缺失数据在科学研究中的困难,因为大多数数据分析方法并未针对缺失数据设计,处理缺失数据需要克服概念和计算上的挑战。 文章还详细阐述了缺失数据的类型和模式,如单位非响应、项目非响应和波浪非响应,并解释了缺失数据的分布和MAR的概念。MAR假设缺失数据的分布不依赖于缺失的数据值,而MCAR(缺失完全随机)假设缺失数据的分布不依赖于任何数据值。文章通过一个血压测量的例子说明了MCAR、MAR和MNAR(缺失非随机)之间的差异。 文章批评了传统的数据编辑方法,如案例删除和单次插补,指出它们在某些情况下可能产生偏见、低效率和不可靠的结果。相反,文章推荐使用基于所有可用数据的ML估计和贝叶斯MI方法,这些方法在大多数情况下表现良好,即使在MAR假设不完全成立的情况下。 最后,文章讨论了处理非MAR缺失数据的方法,包括选择明确的缺失数据模型,并指出在大多数情况下,即使在MAR假设不完全成立的情况下,ML和MI方法仍然可以提供有效的分析。文章还提到了一些特殊情况,如当缺失数据导致观察对象离开研究范围时,可以将缺失数据视为MAR,并使用这些方法进行分析。
Reach us at info@study.space
[slides and audio] Missing data%3A our view of the state of the art.