Hacker News 中文摘要

RSS订阅

万物皆有关联(2014–23) -- Everything is correlated (2014–23)

文章摘要

文章探讨了现实世界中所有变量之间都存在非零相关性的现象,这对统计理论如“零假设检验”提出了挑战。随着数据量的增加,零假设几乎总是被拒绝,这意味着未能拒绝零假设仅表明数据不足,而非理论验证。此外,这一现象还对理论构建、因果模型解释及“稀疏性原则”等统计概念产生了深远影响。

文章总结

文章《一切皆相关》探讨了社会学、统计学和心理学领域中一个普遍观察到的现象:在现实世界的数据集中,几乎所有变量之间都存在非零相关性,这对统计理论,尤其是“零假设检验”提出了挑战。文章指出,统计学的民间智慧认为“一切皆相关”,即任何现实世界的数据集中,大多数或所有测量变量之间都会存在非零相关性,即使这些变量看起来完全独立。这些相关性不仅仅是抽样误差的偶然现象,而是会在大规模数据集中以任意指定的统计显著性水平或后验概率出现。

这一现象对零假设检验提出了严重质疑,因为这意味着只要有足够的数据,零假设(即相关性为零)总是会被拒绝。因此,未能拒绝零假设只能说明数据不足,并不能真正验证或确认理论。即使是有方向性的预测,其确认性也极低,因为随机选择正确方向的概率为50%。

文章还讨论了这一现象对理论、因果模型、结构模型解释以及其他统计原则(如“稀疏性原则”)的影响。通过蒙特卡洛模拟,文章展示了即使在变量数量众多且数据集较小的情况下,不相关变量之间也很少会出现“一切皆相关”式的相关性,表明这种现象并非统计上的琐碎问题。

文章进一步指出,这种普遍的相关性现象对统计假设检验的意义提出了质疑。特别是在心理学和社会科学中,零假设几乎总是错误的,因此显著性检验的结果更多反映了样本量的大小,而非理论的真实性。此外,文章还探讨了模型解释的困难,尤其是在存在大量测量误差的情况下,完全控制潜在变量几乎是不可能的。

最后,文章总结了这一现象的多个含义,包括零假设的无意义性、方向性假设的局限性、模型解释的复杂性以及因果网络的存在。文章还指出,任何与主要变量不相关的变量都可能是无意义的,或者表明数据分析中存在系统性偏差或选择效应。

总的来说,文章通过大量文献和实证研究,揭示了现实世界中变量之间普遍存在的相关性,并探讨了这对统计理论和实践的重大影响。

评论总结

主要观点总结:

  1. 相关性普遍存在

    • 评论1:"It's just as I suspected - there are NO coincidences."(正如我所料,没有巧合。)
    • 评论15:"Doesn't everything means all things that exist in universe and since they exist in same universe they are correlated?"(宇宙中的一切事物是否因为存在于同一宇宙中而相互关联?)
  2. 相关性与因果关系的混淆

    • 评论8:"Logic, fundamental knowledge about domains, you need that first. Just counting things without understanding them in at least one or two other ways, is a tempting invitation for misleading conclusions."(逻辑和领域的基础知识是首要的,仅仅计数而不理解它们,容易导致误导性结论。)
    • 评论14:"People interpret "statistically significant" to mean "notable"/"meaningful". That's the wrong way to think about things."(人们将“统计显著性”理解为“值得注意”或“有意义”,这是错误的思维方式。)
  3. 统计方法的局限性

    • 评论9:"To get to meaningful results we often calculate with simplyfied models - which are known to be false in a strict sense."(为了得到有意义的结果,我们经常使用简化的模型,而这些模型在严格意义上是错误的。)
    • 评论18:"Statistical analyses provide a reason to believe one hypothesis over another, but any scientist will extend that with an experimental approach."(统计分析提供了支持某一假设的理由,但科学家会通过实验方法进一步验证。)
  4. 相关性与政治、社会问题的关联

    • 评论16:"These concerns about everything being correlated actually warrant much more careful understanding about the political ramifications of how and what we choose to model and based on which variables."(关于一切事物相互关联的担忧,实际上要求我们更仔细地理解模型选择和变量背后的政治影响。)
    • 评论22:"Sometimes the associations are difficult to explain easily when you try to pick it apart, and other times I think they're key to understanding uncontrolled confounds that should be controlled for."(有时,关联性难以解释,而有时它们是理解未控制混杂因素的关键。)
  5. 相关性与理论构建的关系

    • 评论20:"Statistical correlations are important to establish but there are the easiest and least useful part of the research. Creating theories as to “why” and “how” these correlations exist are what advances our knowledge."(统计相关性很重要,但它们是研究中最简单且最无用的部分。构建关于“为什么”和“如何”存在这些相关性的理论才是推动知识进步的关键。)
    • 评论11:"Also, I'm convinced that the reason humans intuitively struggle to figure out causality is because the vast majority of causes and effects are self-reinforcing cycles and go both ways."(我也认为,人类在直觉上难以理解因果关系,因为大多数因果关系是自我强化的循环,并且是双向的。)

总结:

评论主要围绕相关性的普遍性、统计方法的局限性、相关性与因果关系的混淆、以及相关性与政治、社会问题的关联展开。许多评论者指出,虽然相关性在统计上容易发现,但其背后的因果关系和理论构建更为重要。同时,统计显著性不应被误解为实际意义,且模型的构建和变量选择可能带有政治和社会影响。