文章摘要
文章探讨了线性最小二乘法在简单测试数据上出现偏差的原因,指出这可能是由于数据生成过程或模型假设不满足导致的。
文章总结
为什么线性最小二乘拟合在应用于简单测试数据时会出现偏差?
问题描述
用户在使用Python生成一组相关测试数据后,绘制了基本的线性最小二乘拟合线。然而,拟合结果看起来有些奇怪,因为拟合线似乎没有“居中”穿过数据点,而是显得有些“倾斜”。用户随后通过对角化协方差矩阵,得到了最大方差方向的特征向量(图中黑色箭头所示),发现该方向更符合预期。用户希望从直观上理解这一现象。
关键发现
最小二乘拟合与PCA的不同:
- 最小二乘拟合(OLS)通过最小化垂直距离的平方和来拟合数据,仅考虑因变量(Y)的误差,而假设自变量(X)无误差。
- 主成分分析(PCA)或总最小二乘法(TLS)则通过最大化方差或最小化正交距离来拟合数据,对称地处理X和Y的误差。
拟合线的“偏差”:
- OLS拟合线确实通过数据的“中心”(定义为均值点 ((\bar{x}, \bar{y}))),但其斜率由垂直误差最小化决定,因此看起来可能不“居中”。
- 用户的直觉更接近TLS或PCA的结果,因为这些方法对称地处理X和Y的误差,拟合线更接近数据的“主轴线”。
数据特性:
- 当数据在X和Y方向上误差分布不对称时,OLS和TLS/PCA的拟合线差异会更为明显。如果X和Y误差相同或完全线性相关((\rho = \pm 1)),两者的拟合线会一致。
代码示例
用户提供的Python代码生成了相关数据,并对比了OLS拟合线和PCA方向。结果显示OLS拟合线的斜率与PCA方向不同,进一步验证了上述理论。
结论
- OLS拟合的“偏差”是由于其不对称地处理X和Y的误差,仅最小化Y方向的误差。
- 如果希望拟合线更“居中”或对称地穿过数据,可以使用总最小二乘法(TLS)或正交回归。
- OLS仍然适用于因变量(Y)有明显误差而自变量(X)误差可忽略的场景。
参考资料
评论总结
以下是评论内容的总结:
回归线不对称的原因
- 普通最小二乘法(OLS)假设只有Y有噪声,X无噪声,导致y对x和x对y的回归线不同。
- "Linear Regression a.k.a. Ordinary Least Squares assumes only Y has noise, and X is correct." (tomp)
- "linear regression models only noise in y and not x" (dllu)
- 主成分分析(PCA)和最小二乘法的损失函数不同:
- "least squares and pca minimize different loss functions" (sega_sai)
- 普通最小二乘法(OLS)假设只有Y有噪声,X无噪声,导致y对x和x对y的回归线不同。
替代回归方法
- Deming回归可以处理X和Y都有噪声的情况:
- "You would probably get what you want with a Deming regression." (gpcz)
- "taught Deming regression as a generally preferred analysis" (theophrastus)
- 其他方法包括:
- 绝对误差回归:"another form of regression that uses Mean Absolute Error" (djaouen)
- RANSAC算法:"my favorite best fit algorithm is RANSAC" (ModernMech)
- Deming回归可以处理X和Y都有噪声的情况:
视觉偏差的解释
- 高x值时,下方数据点相对误差更大,导致回归线看起来偏低:
- "the further you go right...the more a slightly lower guess is a good fit" (a3w)
- 视觉检查方法:
- "ensure that the noise...is roughly balanced on either side" (efavdb)
- 高x值时,下方数据点相对误差更大,导致回归线看起来偏低:
术语与概念澄清
- 无偏预测的定义:
- "unbiassed predictions of y given x...average error is zero" (paulfharrison)
- 这不是几何问题:
- "this is not a 'geometric' coordinate system independent operation" (Ericson2314)
- 无偏预测的定义:
关于平方误差的讨论
- 为什么使用平方而非其他幂次:
- "why squares specifically? Why not power of 1, or 3, or 4?" (bgbntty2)
- 平方误差的数学优势:
- "The Math isn't as elegant" (djaouen关于绝对误差)
- 为什么使用平方而非其他幂次:
元评论
- 讨论缺乏新意:
- "anything posted here is more or less a copy" (em500)
- 讨论缺乏新意:
注:所有评论均无评分信息。讨论主要围绕回归分析中不同方法的差异、视觉偏差的解释以及替代方法展开。