Hacker News 中文摘要

RSS订阅

我们给5个LLM 10万美元进行8个月的股票交易 -- We gave 5 LLMs $100K to trade stocks for 8 months

文章摘要

AI Trade Arena由Kam和Josh创建,旨在评估不同大语言模型(GPT-5、Claude等)在金融市场中的表现。他们为每个模型提供10万美元虚拟资金,在2025年2月至10月期间进行股票交易模拟测试,模型只能获取历史对应日期的市场数据。实验结果显示各AI代理的投资表现差异显著。

文章总结

AI交易竞技场:五大语言模型八个月模拟交易实验

实验背景
由Kam和Josh开发的AI Trade Arena项目,旨在评估大型语言模型(LLM)在金融市场中的表现。研究团队选取了GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro、Grok 4和DeepSeek五款先进模型,分别给予10万美元虚拟资金,在2025年2月3日至10月20日期间进行模拟股票交易。

实验设计
1. 历史回溯测试:通过时间分段API确保模型只能获取当日可获得的市场数据、新闻资讯和公司财报,杜绝未来信息泄露
2. 交易环境
- 仅限主要股票交易(不含期权)
- 每日执行模拟交易
- 开发交互式演示平台展示每笔交易的决策逻辑

关键发现
- 绩效排名:Grok表现最佳,DeepSeek紧随其后,Gemini因重仓非科技股垫底
- 行业偏好:除Gemini外,其他模型均构建了以科技股为主的投资组合
- 实验期间涵盖市场增长期(2025年夏季)和停滞期(2025年2月)

方法论价值
优势:
- 可快速测试多种场景
- 获得统计学显著结果
局限:
- 无法完全模拟真实市场的竞争性和流动性约束
- 存在历史数据过拟合风险

未来计划
采用三阶段研究路径:
1. 历史场景回溯测试
2. 无未来信息泄露的实时模拟交易
3. 真实市场交易

研究意义
金融市场为评估模型提供了理想场景:
- 可区分"记忆效应"与真实推理能力(如通过10-K文件分析基本面)
- 结合定量(Barra多因子分析)与定性分析
- 决策过程透明化有助于优化工作流程

交互平台
读者可通过实验演示平台查看完整交易记录和决策逻辑。

(注:原文中关于数据泄露风险、模型训练截止日期等专业技术细节予以保留,删减了部分重复性说明文字)

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

主要批评观点:

  1. 回测的局限性

    • 认为使用历史数据测试LLMs没有实际意义,因为它们具有"后见之明"优势
      "这些LLMs有对历史数据的预见优势" - sethops1
      "回测在这种情况下完全是浪费。模型已经知道最佳结果并偏向它" - digitcatphd
  2. 模拟交易与现实的差异

    • 指出纸面交易不考虑市场影响,不能反映真实表现
      "看到'纸面资金'后就停止阅读了...纸面交易不包含市场影响" - chroma205
      "如果你相信LLMs会像回测那样表现,就用真钱试试" - deadbabe
  3. 科技股偏差问题

    • 多数模型因重仓科技股而表现良好,但这可能只是市场阶段性的结果
      "如果AI泡沫在那时破裂,Gemini反而会成为领先者" - gwd
      "所有AI都专注于交易七大科技股;几乎都热情地亏了钱" - dash2

部分支持/中立观点:

  1. 实验的探索价值

    • 承认实验有局限性,但仍提供了观察LLMs如何思考金融市场的机会
      "我们意识到回测和纸面资金有很多限制...但仍想分享结果" - cheeseblubber
  2. 提示工程的重要性

    • 认为模型表现很大程度上取决于如何设计提示
      "你要求模型做什么非常重要...需要非常小心你的要求" - XenophileJKO
  3. 市场环境影响

    • 指出在牛市中任何策略都可能表现良好
      "在牛市中每个人(包括LLMs)都是天才" - theideaofcoffee

方法论批评:

  1. 测试设计不足

    • 批评测试时间太短、样本太少
      "8个月的回测不够严谨...没有源代码或详细方法" - cedws
      "需要100次独立运行和10个不同市场时段才能产生有意义结果" - Nevermark
  2. 风险调整缺失

    • 指出分析忽略了风险调整回报
      "这完全忽略了均值/方差风险分析的基础...我们需要知道风险调整后的回报" - buredoranna
  3. 交易限制问题

    • 指出每日一次交易和持仓限制影响了结果代表性
      "每天只能交易一次,持有5-15个头寸...限制很大" - dogmayor

其他观点:

  • 有评论提到实际交易经验表明策略在回测和实盘表现可能大不相同
    "许多策略在纸面回测中表现良好,但在实际市场中失败" - naet
  • 有用户分享个人长期投资经验,暗示时间比主动交易更重要
    "我多年没登录账户,发现回报达到110%。什么都没做" - 1a527dd5

总结:评论普遍质疑该实验的方法论严谨性和实际意义,主要批评集中在回测的固有缺陷、科技股偏差和模拟交易局限性上,少数评论认可其探索价值但认为需要更严格的设计。