Hacker News 中文摘要

文章摘要

在Next.js 16 API的测试中，直接嵌入8KB文档索引的AGENTS.md实现了100%通过率，而传统技能方法最高仅79%。研究表明，AI编码助手需要即时更新的文档支持，而非依赖可能过时的训练数据。

文章总结

标题：AGENTS.md在智能体评估中表现优于技能方案

核心发现

在针对Next.js 16 API的评估测试中，直接嵌入项目的8KB压缩版本文档索引（AGENTS.md）实现了100%通过率，而传统技能方案即使在明确指令下最高仅达79%通过率。未触发技能时，其表现与无文档支持的情况无异。

研究背景

AI编程智能体依赖的训练数据存在时效性问题。Next.js 16引入的'use cache'、connection()等新API尚未被模型掌握，导致生成错误代码或回退旧模式。团队试图通过版本匹配的文档解决该问题。

对比方案

技能方案
- 开放标准化的领域知识包（含提示词、工具和文档）
- 需智能体主动调用，存在触发率问题
- 默认情况下触发率仅56%，通过率与基线持平（53%）
- 添加明确指令后触发率达95%+，通过率提升至79%
AGENTS.md方案
- 项目根目录的Markdown文件，提供持久化上下文
- 无需决策触发，内容始终可用
- 关键指令："优先基于检索推理而非预训练推理"
- 通过压缩技术将文档索引从40KB降至8KB

性能表现

| 配置方案 | 综合通过率 | 构建通过率 | 代码检查 | 测试通过率 | |-------------------------|------------|------------|----------|------------| | 无文档支持（基线） | 53% | 84% | 95% | 63% | | 默认技能方案 | 53% | 84% | 89% | 58% | | 带指令的技能方案 | 79% | 95% | 100% | 84% | | AGENTS.md方案 | 100% | 100% | 100% | 100% |

优势分析

决策简化：消除"是否查阅文档"的判断环节
持续可用：内容直接写入系统提示词
顺序优化：避免"先读文档还是先探索项目"的时序问题
精准检索：压缩索引指向具体文档文件，非全文嵌入

实践建议

通过命令快速部署：npx @next/codemod@canary agents-md
框架作者应提供可集成的AGENTS.md片段
文档结构需支持精准检索（非全文加载）
评估需针对训练数据未覆盖的API

结论

对于框架通用知识，被动上下文方案当前优于按需检索。技能方案仍适用于特定垂直场景（如版本迁移），但基础认知层面AGENTS.md更可靠实现"检索优先"的推理模式。

（研究由Jude Gao主导，完整CLI工具已发布）

评论总结

以下是评论内容的总结：

主要观点和论据

AGENTS.md与Skills的比较
- 支持AGENTS.md：认为AGENTS.md通过压缩和直接引用文档，提高了模型的效率和准确性。
  - 引用："The key finding is that 'compression' of doc pointers works."（评论25）
  - 引用："Obviously directly including context in something like a system prompt will put it in context 100% of the time."（评论10）
- 支持Skills：认为Skills更具扩展性和模块化，适合复杂任务。
  - 引用："The advantage of skills is exactly that you don't cram them all into the AGENTS file."（评论12）
  - 引用："Skills optimize for extensibility and explicit capability boundaries."（评论14）
模型训练与技能使用
- 部分评论认为当前模型未充分训练使用Skills，未来会改善。
  - 引用："Skills are new. Models haven’t been trained on them yet. Give it 2 months."（评论4）
  - 引用："This seems like an issue that will be fixed in newer model releases."（评论7）
测试方法与一致性
- 对测试方法的透明度提出质疑，认为LLM的输出不一致性需更多测试。
  - 引用："Did they run it once, or multiple times? LLMs are not consistent for the same task."（评论6）
  - 引用："It’s not safe to assume that Codex or Gemini will behave the same way as Claude."（评论13）
技术实现建议
- 提出改进技术实现的建议，如使用.context文件夹或优化文件路径。
  - 引用："Create a folder called .context and symlink anything in there that is relevant."（评论21）
  - 引用："You need to make sure your file paths are self-explanatory and fairly unique."（评论24）
批评与质疑
- 部分评论认为文章分析浅显或误解了Skills的设计初衷。
  - 引用："This feels like the most shallow 'I compare LLMs based on the specs' kind of analysis."（评论26）
  - 引用："The article presents AGENTS.md as something distinct from Skills, but it is actually a simplified instance of the same concept."（评论11）

总结

评论中既有对AGENTS.md效率的肯定，也有对Skills扩展性的支持，同时指出了模型训练和测试方法的不足。技术实现建议和批评声音也体现了对当前技术发展的多样看法。

压缩代理.md > 代理技能 -- Compressed Agents.md > Agent Skills