Hacker News 中文摘要

RSS订阅

人工智能智商测试结果 -- IQ Tests Results for AI

文章摘要

文章介绍了多款最新发布的AI模型,如Grok-4、Claude 4、OpenAI o3和o4等,并提到该网站每周对18个语言模型和12个视觉模型进行测试。文章还展示了IQ测试结果、排名和正确回答的图表,反映了各AI模型的性能表现。

文章总结

追踪AI动态:最新进展与测试结果

2025年8月18日,追踪AI(TrackingAI)网站发布了最新的AI动态和测试结果。以下是主要内容:

最新AI模型发布

  • Grok-4Claude 4 SonnetOpus等新模型已上线。
  • OpenAI的o3和o4模型、Llama-4Gemini 2.0 Flash ThinkingGemini 2.5 Pro等模型也相继发布。
  • DeepSeek与OpenAI的o3和o4模型进行了对比测试。

每周测试

该网站每周对18个语言模型和12个视觉模型进行测试,最新更新时间为2025年8月17日。

IQ测试结果

  • 综合图表:展示了31个数据系列的测试结果,得分基于最近7次测试的平均值。
  • 排名图表:根据离线测试的IQ得分进行排序,IQ范围在62到138之间。
  • 正确答案图表:展示了各模型在测试中的正确回答数量。

每日IQ测试

网站提供了一个3x3网格的谜题,要求用户根据图案逻辑选择正确的答案。正确答案为C

AI模型更新

  • 语言模型:包括Bing CopilotClaude-4 OpusOpenAI GPT 5等,更新时间为2025年3月至8月。
  • 视觉模型:包括Claude-4 Opus (Vision)OpenAI GPT 5 Pro (Vision)等,更新时间为2025年8月。

常见问题

  • 网站目的:帮助用户了解AI的政治倾向和偏见,促使AI开发者调整模型以更符合人类利益。
  • 灵感来源:受David Rozado的AI政治映射工作启发。
  • AI偏见:目前大多数AI在经济上偏左,社会观点上偏自由派,偏见主要来自训练数据和人类反馈。
  • 未来计划:增加“犹豫度”指标、AI对齐测试、数学测试等。

网站资助

网站由Maxim Lott创建,Hans FZ Lorenzana负责技术开发,资金来自个人支持。

用户建议

网站欢迎用户提出新的AI模型和测试建议。

通过这些测试和更新,追踪AI网站为用户提供了一个了解AI模型表现和偏见的平台,同时也为AI开发者提供了改进模型的参考。

评论总结

评论内容总结:

  1. 对AI进行IQ测试的质疑

    • 观点:将IQ测试应用于AI存在类别错误,因为IQ测试是为人类设计的,且基于人类认知的假设。
    • 论据:人类IQ测试是基于心理测量学的,而AI的“IQ”与之不同,可能导致错误的政策决策(cateye)。
    • 引用: "Isn’t giving LLMs 'IQ scores' a category error?" (cateye) / "将LLM的'IQ分数'称为类别错误?" (cateye)
    • 引用: "IQ tests are designed for humans and make a lot of assumptions in this direction." (ludicity) / "IQ测试是为人类设计的,并基于许多假设。" (ludicity)
  2. IQ测试的局限性

    • 观点:IQ测试在个体层面上可能没有意义,且测试本身可能存在缺陷。
    • 论据:即使高IQ个体也可能在某些领域表现不佳,且测试中的问题可能有多种正确答案(acscott)。
    • 引用: "But at the individual level? Meaningless." (acscott) / "但在个体层面上?毫无意义。" (acscott)
    • 引用: "I found a pattern, and it's predicted number was not listed as possible choices." (acscott) / "我找到了一个模式,但预测的数字并未列在选项中。" (acscott)
  3. 开发专门针对AI的IQ测试的建议

    • 观点:应开发专门针对AI的IQ测试,以评估其在不同任务中的通用认知能力。
    • 论据:通过对现有基准进行主成分分析,可以提取出AI的通用认知能力因子(gpt5)。
    • 引用: "It would have been more interesting if an IQ test was developed specifically for AI." (gpt5) / "如果专门为AI开发IQ测试会更有趣。" (gpt5)
    • 引用: "Factor out the strength of a model general cognitive ability across a wide variety of tasks." (gpt5) / "提取模型在各种任务中的通用认知能力强度。" (gpt5)
  4. 对测试结果的质疑

    • 观点:某些测试结果(如Grok 4的视觉能力)与模型的实际能力不符。
    • 论据:尽管测试依赖于视觉能力,但所有模型在该方面的表现都较差(jug)。
    • 引用: "Someone needs to tell me why Grok 4 with Vision, a very powerful model, is at the bottom?" (jug) / "谁能告诉我为什么具有视觉能力的强大模型Grok 4排在最后?" (jug)
    • 引用: "Yet all models perform poorly with that capability?" (jug) / "然而所有模型在该能力上表现都很差?" (jug)
  5. 对测试形式的开放性

    • 观点:测试不一定要是IQ测试,其他形式的测试也可能有效。
    • 论据:测试形式可以多样化,不一定局限于IQ测试(ekusiadadus)。
    • 引用: "It does not have to be IQ test, right?" (ekusiadadus) / "测试不一定要是IQ测试,对吧?" (ekusiadadus)

总结:评论中对AI进行IQ测试的适用性提出了质疑,认为IQ测试是为人类设计的,且存在局限性。建议开发专门针对AI的测试,并对现有测试结果的有效性提出了疑问。同时,评论中也对测试形式的多样性持开放态度。