Hacker News 中文摘要

RSS订阅

为什么最小二乘法拟合简单数据时会出现偏差? -- Why does a least squares fit appear to have a bias when applied to simple data?

文章摘要

文章探讨了线性最小二乘法在简单测试数据上出现偏差的原因,指出这可能是由于数据生成过程或模型假设不满足导致的。

文章总结

为什么线性最小二乘拟合在应用于简单测试数据时会出现偏差?

问题描述

用户在使用Python生成一组相关测试数据后,绘制了基本的线性最小二乘拟合线。然而,拟合结果看起来有些奇怪,因为拟合线似乎没有“居中”穿过数据点,而是显得有些“倾斜”。用户随后通过对角化协方差矩阵,得到了最大方差方向的特征向量(图中黑色箭头所示),发现该方向更符合预期。用户希望从直观上理解这一现象。

关键发现

  1. 最小二乘拟合与PCA的不同

    • 最小二乘拟合(OLS)通过最小化垂直距离的平方和来拟合数据,仅考虑因变量(Y)的误差,而假设自变量(X)无误差。
    • 主成分分析(PCA)或总最小二乘法(TLS)则通过最大化方差或最小化正交距离来拟合数据,对称地处理X和Y的误差。
  2. 拟合线的“偏差”

    • OLS拟合线确实通过数据的“中心”(定义为均值点 ((\bar{x}, \bar{y}))),但其斜率由垂直误差最小化决定,因此看起来可能不“居中”。
    • 用户的直觉更接近TLS或PCA的结果,因为这些方法对称地处理X和Y的误差,拟合线更接近数据的“主轴线”。
  3. 数据特性

    • 当数据在X和Y方向上误差分布不对称时,OLS和TLS/PCA的拟合线差异会更为明显。如果X和Y误差相同或完全线性相关((\rho = \pm 1)),两者的拟合线会一致。

代码示例

用户提供的Python代码生成了相关数据,并对比了OLS拟合线和PCA方向。结果显示OLS拟合线的斜率与PCA方向不同,进一步验证了上述理论。

结论

  • OLS拟合的“偏差”是由于其不对称地处理X和Y的误差,仅最小化Y方向的误差。
  • 如果希望拟合线更“居中”或对称地穿过数据,可以使用总最小二乘法(TLS)或正交回归。
  • OLS仍然适用于因变量(Y)有明显误差而自变量(X)误差可忽略的场景。

参考资料

评论总结

以下是评论内容的总结:

  1. 回归线不对称的原因

    • 普通最小二乘法(OLS)假设只有Y有噪声,X无噪声,导致y对x和x对y的回归线不同。
      • "Linear Regression a.k.a. Ordinary Least Squares assumes only Y has noise, and X is correct." (tomp)
      • "linear regression models only noise in y and not x" (dllu)
    • 主成分分析(PCA)和最小二乘法的损失函数不同:
      • "least squares and pca minimize different loss functions" (sega_sai)
  2. 替代回归方法

    • Deming回归可以处理X和Y都有噪声的情况:
      • "You would probably get what you want with a Deming regression." (gpcz)
      • "taught Deming regression as a generally preferred analysis" (theophrastus)
    • 其他方法包括:
      • 绝对误差回归:"another form of regression that uses Mean Absolute Error" (djaouen)
      • RANSAC算法:"my favorite best fit algorithm is RANSAC" (ModernMech)
  3. 视觉偏差的解释

    • 高x值时,下方数据点相对误差更大,导致回归线看起来偏低:
      • "the further you go right...the more a slightly lower guess is a good fit" (a3w)
    • 视觉检查方法:
      • "ensure that the noise...is roughly balanced on either side" (efavdb)
  4. 术语与概念澄清

    • 无偏预测的定义:
      • "unbiassed predictions of y given x...average error is zero" (paulfharrison)
    • 这不是几何问题:
      • "this is not a 'geometric' coordinate system independent operation" (Ericson2314)
  5. 关于平方误差的讨论

    • 为什么使用平方而非其他幂次:
      • "why squares specifically? Why not power of 1, or 3, or 4?" (bgbntty2)
    • 平方误差的数学优势:
      • "The Math isn't as elegant" (djaouen关于绝对误差)
  6. 元评论

    • 讨论缺乏新意:
      • "anything posted here is more or less a copy" (em500)

注:所有评论均无评分信息。讨论主要围绕回归分析中不同方法的差异、视觉偏差的解释以及替代方法展开。