Hacker News 中文摘要

文章摘要

文章介绍了多款最新发布的AI模型，如Grok-4、Claude 4、OpenAI o3和o4等，并提到该网站每周对18个语言模型和12个视觉模型进行测试。文章还展示了IQ测试结果、排名和正确回答的图表，反映了各AI模型的性能表现。

文章总结

追踪AI动态：最新进展与测试结果

2025年8月18日，追踪AI（TrackingAI）网站发布了最新的AI动态和测试结果。以下是主要内容：

每周测试

该网站每周对18个语言模型和12个视觉模型进行测试，最新更新时间为2025年8月17日。

IQ测试结果

综合图表：展示了31个数据系列的测试结果，得分基于最近7次测试的平均值。
排名图表：根据离线测试的IQ得分进行排序，IQ范围在62到138之间。
正确答案图表：展示了各模型在测试中的正确回答数量。

每日IQ测试

网站提供了一个3x3网格的谜题，要求用户根据图案逻辑选择正确的答案。正确答案为C。

AI模型更新

语言模型：包括Bing Copilot、Claude-4 Opus、OpenAI GPT 5等，更新时间为2025年3月至8月。
视觉模型：包括Claude-4 Opus (Vision)、OpenAI GPT 5 Pro (Vision)等，更新时间为2025年8月。

常见问题

网站目的：帮助用户了解AI的政治倾向和偏见，促使AI开发者调整模型以更符合人类利益。
灵感来源：受David Rozado的AI政治映射工作启发。
AI偏见：目前大多数AI在经济上偏左，社会观点上偏自由派，偏见主要来自训练数据和人类反馈。
未来计划：增加“犹豫度”指标、AI对齐测试、数学测试等。

网站资助

网站由Maxim Lott创建，Hans FZ Lorenzana负责技术开发，资金来自个人支持。

用户建议

网站欢迎用户提出新的AI模型和测试建议。

通过这些测试和更新，追踪AI网站为用户提供了一个了解AI模型表现和偏见的平台，同时也为AI开发者提供了改进模型的参考。

评论总结

评论内容总结：

对AI进行IQ测试的质疑：
- 观点：将IQ测试应用于AI存在类别错误，因为IQ测试是为人类设计的，且基于人类认知的假设。
- 论据：人类IQ测试是基于心理测量学的，而AI的“IQ”与之不同，可能导致错误的政策决策（cateye）。
- 引用： "Isn’t giving LLMs 'IQ scores' a category error?" (cateye) / "将LLM的'IQ分数'称为类别错误？" (cateye)
- 引用： "IQ tests are designed for humans and make a lot of assumptions in this direction." (ludicity) / "IQ测试是为人类设计的，并基于许多假设。" (ludicity)
IQ测试的局限性：
- 观点：IQ测试在个体层面上可能没有意义，且测试本身可能存在缺陷。
- 论据：即使高IQ个体也可能在某些领域表现不佳，且测试中的问题可能有多种正确答案（acscott）。
- 引用： "But at the individual level? Meaningless." (acscott) / "但在个体层面上？毫无意义。" (acscott)
- 引用： "I found a pattern, and it's predicted number was not listed as possible choices." (acscott) / "我找到了一个模式，但预测的数字并未列在选项中。" (acscott)
开发专门针对AI的IQ测试的建议：
- 观点：应开发专门针对AI的IQ测试，以评估其在不同任务中的通用认知能力。
- 论据：通过对现有基准进行主成分分析，可以提取出AI的通用认知能力因子（gpt5）。
- 引用： "It would have been more interesting if an IQ test was developed specifically for AI." (gpt5) / "如果专门为AI开发IQ测试会更有趣。" (gpt5)
- 引用： "Factor out the strength of a model general cognitive ability across a wide variety of tasks." (gpt5) / "提取模型在各种任务中的通用认知能力强度。" (gpt5)
对测试结果的质疑：
- 观点：某些测试结果（如Grok 4的视觉能力）与模型的实际能力不符。
- 论据：尽管测试依赖于视觉能力，但所有模型在该方面的表现都较差（jug）。
- 引用： "Someone needs to tell me why Grok 4 with Vision, a very powerful model, is at the bottom?" (jug) / "谁能告诉我为什么具有视觉能力的强大模型Grok 4排在最后？" (jug)
- 引用： "Yet all models perform poorly with that capability?" (jug) / "然而所有模型在该能力上表现都很差？" (jug)
对测试形式的开放性：
- 观点：测试不一定要是IQ测试，其他形式的测试也可能有效。
- 论据：测试形式可以多样化，不一定局限于IQ测试（ekusiadadus）。
- 引用： "It does not have to be IQ test, right?" (ekusiadadus) / "测试不一定要是IQ测试，对吧？" (ekusiadadus)

总结：评论中对AI进行IQ测试的适用性提出了质疑，认为IQ测试是为人类设计的，且存在局限性。建议开发专门针对AI的测试，并对现有测试结果的有效性提出了疑问。同时，评论中也对测试形式的多样性持开放态度。