Hacker News 中文摘要

文章摘要

AI Trade Arena由Kam和Josh创建，旨在评估不同大语言模型（GPT-5、Claude等）在金融市场中的表现。他们为每个模型提供10万美元虚拟资金，在2025年2月至10月期间进行股票交易模拟测试，模型只能获取历史对应日期的市场数据。实验结果显示各AI代理的投资表现差异显著。

文章总结

AI交易竞技场：五大语言模型八个月模拟交易实验

实验背景
由Kam和Josh开发的AI Trade Arena项目，旨在评估大型语言模型(LLM)在金融市场中的表现。研究团队选取了GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro、Grok 4和DeepSeek五款先进模型，分别给予10万美元虚拟资金，在2025年2月3日至10月20日期间进行模拟股票交易。

实验设计
1. 历史回溯测试：通过时间分段API确保模型只能获取当日可获得的市场数据、新闻资讯和公司财报，杜绝未来信息泄露
2. 交易环境：
- 仅限主要股票交易（不含期权）
- 每日执行模拟交易
- 开发交互式演示平台展示每笔交易的决策逻辑

关键发现
- 绩效排名：Grok表现最佳，DeepSeek紧随其后，Gemini因重仓非科技股垫底
- 行业偏好：除Gemini外，其他模型均构建了以科技股为主的投资组合
- 实验期间涵盖市场增长期（2025年夏季）和停滞期（2025年2月）

方法论价值
优势：
- 可快速测试多种场景
- 获得统计学显著结果
局限：
- 无法完全模拟真实市场的竞争性和流动性约束
- 存在历史数据过拟合风险

未来计划
采用三阶段研究路径：
1. 历史场景回溯测试
2. 无未来信息泄露的实时模拟交易
3. 真实市场交易

研究意义
金融市场为评估模型提供了理想场景：
- 可区分"记忆效应"与真实推理能力（如通过10-K文件分析基本面）
- 结合定量（Barra多因子分析）与定性分析
- 决策过程透明化有助于优化工作流程

交互平台
读者可通过实验演示平台查看完整交易记录和决策逻辑。

（注：原文中关于数据泄露风险、模型训练截止日期等专业技术细节予以保留，删减了部分重复性说明文字）

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

主要批评观点：

回测的局限性
- 认为使用历史数据测试LLMs没有实际意义，因为它们具有"后见之明"优势
  "这些LLMs有对历史数据的预见优势" - sethops1
  "回测在这种情况下完全是浪费。模型已经知道最佳结果并偏向它" - digitcatphd
模拟交易与现实的差异
- 指出纸面交易不考虑市场影响，不能反映真实表现
  "看到'纸面资金'后就停止阅读了...纸面交易不包含市场影响" - chroma205
  "如果你相信LLMs会像回测那样表现，就用真钱试试" - deadbabe
科技股偏差问题
- 多数模型因重仓科技股而表现良好，但这可能只是市场阶段性的结果
  "如果AI泡沫在那时破裂，Gemini反而会成为领先者" - gwd
  "所有AI都专注于交易七大科技股；几乎都热情地亏了钱" - dash2

部分支持/中立观点：

实验的探索价值
- 承认实验有局限性，但仍提供了观察LLMs如何思考金融市场的机会
  "我们意识到回测和纸面资金有很多限制...但仍想分享结果" - cheeseblubber
提示工程的重要性
- 认为模型表现很大程度上取决于如何设计提示
  "你要求模型做什么非常重要...需要非常小心你的要求" - XenophileJKO
市场环境影响
- 指出在牛市中任何策略都可能表现良好
  "在牛市中每个人(包括LLMs)都是天才" - theideaofcoffee

方法论批评：

测试设计不足
- 批评测试时间太短、样本太少
  "8个月的回测不够严谨...没有源代码或详细方法" - cedws
  "需要100次独立运行和10个不同市场时段才能产生有意义结果" - Nevermark
风险调整缺失
- 指出分析忽略了风险调整回报
  "这完全忽略了均值/方差风险分析的基础...我们需要知道风险调整后的回报" - buredoranna
交易限制问题
- 指出每日一次交易和持仓限制影响了结果代表性
  "每天只能交易一次，持有5-15个头寸...限制很大" - dogmayor

其他观点：

有评论提到实际交易经验表明策略在回测和实盘表现可能大不相同
"许多策略在纸面回测中表现良好，但在实际市场中失败" - naet
有用户分享个人长期投资经验，暗示时间比主动交易更重要
"我多年没登录账户，发现回报达到110%。什么都没做" - 1a527dd5

总结：评论普遍质疑该实验的方法论严谨性和实际意义，主要批评集中在回测的固有缺陷、科技股偏差和模拟交易局限性上，少数评论认可其探索价值但认为需要更严格的设计。