Statistical Modeling, Causal Inference, and Social Science

Post navigation

Break it to grok it: 掌握方法原理的最佳方式是构建失败场景 Dan Luu 提问:“为什么人们要在[糟糕的平台]上发帖而不是[好的平台]?”

简单与复杂:在实际数据分析中,Hierarchical Models 的平衡点在哪里?

Posted on May 26, 2024 9:26 AM by Andrew

Kiran Gauthier 写道:

在听了您在明尼苏达大学的演讲后,我想问一个关于 hierarchical / multilevel models 结构的问题,但时间不够了。鉴于概率编程语言的灵活性和 Bayesian 推理算法的速度,您是否认为在分析真实数据时,在“简单” hierarchical models 和更“复杂”的 hierarchical models 之间需要找到一个平衡点,后者通过建模更多的交互来增强简单的框架?

我认为 Bayesian 范式的一个真正好处是(理论上),如果数据没有收敛我的参数不确定性,那么推理引擎应该返回我的先验(或接近它的东西)。这在现实中会发生吗?我知道您之前写过关于金丝雀变量的文章,作为模型错误指定的指标,我认为这是一个很棒的想法,我只是想知道如何在简单/近似模型和更复杂的模型之间取得平衡,因为真正的生成过程是未知的,并且具有不良模型的噪声数据可能会误导良好的推理引擎。

我的回复:我认为复杂的模型更好。正如 Radford Neal 大约三十年前令人难忘地指出的那样:

有时一个简单的模型会胜过一个更复杂的模型……尽管如此,我认为当问题显然复杂时,故意限制模型的复杂性是没有成效的。相反,如果发现一个简单的模型胜过某个特定的复杂模型,那么适当的反应是定义一个不同的复杂模型,该模型捕获导致简单模型表现良好的问题的任何方面。

也就是说,我不建议单独拟合复杂的模型。相反,我建议从更简单的东西开始逐步构建。这种构建发生在两个时间尺度上:

  1. 在处理您的特定问题时,从简单的比较开始,然后拟合越来越复杂的模型,直到您拥有想要的模型。
  2. 从长远来看,随着我们对统计学的理解不断进步,我们可以理解更复杂的模型并经常拟合它们。这有点类似于统计分析重述统计方法的发展的想法的反面。

This entry was posted in Bayesian Statistics, Multilevel Modeling, Statistical Computing by Andrew. Bookmark the permalink.