Hacker News 中文摘要

RSS订阅

我再次用英语替换Python在ARC-AGI上获得最高分 -- I got the highest score on ARC-AGI again swapping Python for English

文章摘要

作者认为ARC-AGI是目前最重要的基准测试,尽管大语言模型在数学竞赛中表现出色,但在简单谜题上却表现不佳,显示出其泛化能力的局限性。作者去年以53.6%的成绩首次登顶ARC-AGI v1,随后被其他模型超越。如今,作者通过将Python函数替换为英文指令,以79.6%的成绩刷新了ARC v1的记录,并在ARC v2上取得了29.4%的新最佳成绩,显著提升了效率。

文章总结

标题:我如何再次在ARC-AGI上取得最高分:用英语替换Python

主要内容:

作者认为ARC-AGI仍然是当今最重要的基准测试之一。尽管大型语言模型(LLMs)能够在数学竞赛中获胜,但在解决人类轻松应对的简单谜题时却表现不佳,这凸显了当前LLMs的核心局限性:它们难以对未经训练的内容进行推理,且泛化能力较弱。不过,它们的进步速度很快。

去年12月,作者以53.6%的得分在ARC-AGI v1上获得了第一名。此后,情况发生了很大变化。当时,思维模型刚刚推出,表现并不理想。如今,作者的最新程序在ARC v1上取得了79.6%的新高分,每项任务的成本仅为8.42美元,效率比之前的o3模型高出25倍。更重要的是,该程序在ARC v2上创造了29.4%的新纪录,超越了之前的25%。作者采用了与v1解决方案相同的进化测试时间计算架构,但将Python函数替换为简单的英语指令。

该系统的工作原理是让Grok-4生成解决每个任务的自然语言指令。Grok-4的子代理根据训练示例测试这些指令,并对其准确性进行评分。表现最好的指令会生成新一代的优化解决方案。通过多次进化循环,系统为每个任务生成多达40个候选指令,使用36个动态提示。代码可以在这里找到。

ARC-AGI是一项旨在衡量抽象模式识别能力的智力测试,类似于智商测试。它的显著特点是人类与AI之间的表现差距:人类可以轻松解决这些谜题,而LLMs却表现不佳。测试通过几个示例展示新颖的模式,然后挑战测试者继续序列,衡量他们识别和概括从未遇到过的潜在规则的能力。

作者最初的解决方案使用语言模型生成Python函数来完成任务。这种方法的一个关键优势是函数是确定性的且可测试的。然而,这种方法在ARC v2上遇到了瓶颈,因为转换过程往往过于复杂,难以用Python优雅地表达。因此,作者转向了比Python更古老的语言:英语。

作者的v2解决方案本质上与进化架构相同,但进化的不是代码,而是自然语言指令。对于每个任务,作者使用语言模型生成描述如何将输入网格转换为输出网格的英语指令。为了评估这些指令,作者让一个子代理模型将它们应用于训练示例,并根据其正确解决的训练示例数量为每个指令打分。

进化过程通过两种不同的修订策略进行:个体修订合并修订。个体修订针对单个指令,模型根据生成的输出和真实情况进行反馈,修正错误。合并修订则将多个指令合并到一个上下文中,模型被提示合成一个新指令,结合每个父指令的成功元素。

经过大量实验,作者最终确定了以下设计: 1. 初始生成:使用Grok-4生成30个候选指令。 2. 个体修订阶段:如果没有完美的解决方案,取前5个指令进行个体修订。 3. 合并修订阶段:如果仍然没有完美解决方案,取5个得分最高的指令,生成合并修订提示,并从中生成5个新候选指令。

在最坏的情况下,每个任务总共会生成40个指令尝试。这种设计在初始阶段提供了足够的探索,在个体修订阶段提供了集中的优化,在合并阶段提供了创造性的重组,同时保持在计算限制内。

作者同意François Chollet对AGI的定义:一个能够在其训练数据之外高效获取新技能的系统。实际上,当我们无法创建对人类来说简单但对AI来说困难的任务时,我们就实现了AGI。

ARC-AGI很好地体现了这一差距。LLMs在数学和科学领域是博士级别的推理者,但在儿童谜题上却失败了。这是因为LLMs在尝试解决ARC任务时,不仅失败,而且以违反基本逻辑的方式失败。作者拥有超过10万条思维模型生成明显错误指令的痕迹。

人类拥有跨领域的一致推理能力,而LLMs则存在“死推理区”——在其权重中逻辑不起作用的区域。神经网络只学习其训练分布,但推理本身可以成为该分布的一部分。推理是泛化引擎——使获取所有其他技能成为可能的技能。

当前LLMs学习推理的方式存在问题。当它们训练数学时,学习数学推理;训练代码时,学习编码推理。但这些推理电路与特定领域的电路融合在一起,导致推理能力不完整。模型没有从根本上掌握逻辑本身,而是分别掌握了数学逻辑、代码逻辑和写作逻辑。

作者认为,我们不需要模型逃离其训练分布,而是需要将推理本身完全纳入该分布中。不是特定领域的推理,而是人类普遍应用的纯粹逻辑推理和一致性技能。当模型拥有一致且可转移的推理能力时,我们就实现了AGI。

评论总结

  1. 对解决方案的认可与比较

    • 评论1和评论12认为该解决方案与AlphaEvolve类似,具有一定的创新性。评论1指出:“Congrats, this solution resembles AlphaEvolve.”(恭喜,这个解决方案类似于AlphaEvolve。)
    • 评论12则略带讽刺地表示:“Congrats, you made LLMs perform slightly better at a contrived puzzle.”(恭喜,你让LLM在一个人为设计的谜题上表现得稍微好了一点。)
  2. 对LLM能力的质疑

    • 评论4和评论7指出LLM在记忆和推理方面存在明显缺陷。评论4提到:“LLMs are completely helpless on agentic tasks without a ton of scaffolding.”(LLM在没有大量辅助的情况下,完全无法完成代理任务。)
    • 评论7则强调:“Pattern matching questions on a contrived test is not the same thing as understanding or reasoning.”(在人为设计的测试中进行模式匹配并不等同于理解或推理。)
  3. 对AGI定义的讨论

    • 评论6和评论7对AGI的定义提出了不同看法。评论6认为:“Isn’t it more reasonable to expect that different intelligent systems can have different strengths?”(难道不是更合理地认为不同的智能系统可以有不同的优势吗?)
    • 评论7则反驳:“Because they are not.”(因为它们不是。)
  4. 对强化学习(RL)的质疑

    • 评论9对RL的作用提出了疑问,认为它并不能真正解决逻辑一致性问题。评论9问道:“How does Reinforcement Learning force the weights to be logically consistent?”(强化学习如何迫使权重在逻辑上保持一致?)
  5. 对解决方案的批评

    • 评论10和评论11认为该解决方案可能只是过拟合或接近暴力破解。评论10指出:“isn’t the author actually overfitting a solution?”(作者是否实际上在过拟合一个解决方案?)
    • 评论11则调侃:“This sounds like it is just slightly smarter than brute forcing your way to a solution.”(这听起来只是比暴力破解稍微聪明一点。)

总结:评论中对解决方案的创新性有一定认可,但也对LLM的能力、AGI的定义以及RL的作用提出了质疑。部分评论认为该解决方案可能只是过拟合或接近暴力破解,缺乏真正的智能突破。