Hacker News 中文摘要

RSS订阅

OpenAI正悄然引入新技能,现已在ChatGPT和Codex CLI中可用 -- OpenAI are quietly adopting skills, now available in ChatGPT and Codex CLI

文章摘要

OpenAI正在ChatGPT和Codex CLI中低调引入"技能"功能,这种机制最初由Anthropic提出,通过简单的Markdown文件和资源文件夹实现。用户已能在ChatGPT的代码解释器中发现/home/oai/skills目录,并可导出技能压缩包进行探索。这表明OpenAI正在借鉴并扩展这一轻量级插件系统。

文章总结

标题:OpenAI低调引入技能机制,现已支持ChatGPT与Codex CLI

2025年12月12日

OpenAI近期悄然在其Codex CLI工具和ChatGPT中引入了"技能"(skills)支持机制。这一功能灵感源自Anthropic公司10月推出的技能系统,其核心设计极为简洁——每个技能仅需包含一个Markdown文件及可选资源脚本的文件夹,任何具备文件系统访问能力的大语言模型工具均可实现类似功能。

▌ChatGPT中的技能应用 用户通过输入指令"创建/home/oai/skills的压缩文件"即可访问技能库。目前开放的技能涵盖电子表格、docx文档和PDF处理三大类。值得注意的是,其PDF处理方案独具匠心:先将文档转换为逐页PNG图像,再通过具备视觉能力的GPT模型解析,从而完整保留原始文档的版式和图形信息。

实际测试中,当要求生成一份关于新西兰罗汉松现状与鸮鹦鹉繁殖季影响的PDF报告时,GPT-5.2系统首先读取技能指南,随后耗时11分钟生成专业报告。过程中模型展现出严谨的自我修正能力,例如发现所选字体不支援毛利语变音符号时,主动切换至兼容字体。

▌Codex CLI的技能集成 在开源工具Codex CLI中,用户只需将技能文件夹存放于~/.codex/skills目录即可调用。通过"--enable skills"参数激活后,开发者能快速创建定制化功能。测试案例中,系统成功构建出包含ASCII艺术牛说话功能的Datasette插件,完整实现从指令解析到代码生成的自动化流程。

行业观察 技能机制虽基于极简规范(本质上仅是结构化文档),但其跨平台适配性已显现巨大潜力。作者建议新成立的Agentic AI基金会应考虑推动相关标准化工作。这一创新可能比此前备受关注的MCP技术产生更深远影响,其快速被主流AI平台采纳的趋势印证了最初的预判。

(注:文中涉及的鸮鹦鹉繁殖季预测源自奥克兰大学2025年12月3日的研究报告)

评论总结

以下是评论内容的总结:

  1. 对技能(Skills)概念的理解

    • 技能被视为一种上下文管理工具,包含主代理、子代理描述、参考文件和脚本(esperent)。
      "技能就是'代理+通过简短描述自动选择子代理',我们很快会到处看到这种模式"
    • 从技术角度看,技能是自动将用户和系统提示注入上下文的方式,可能减少对AI封装应用的需求(mbesto)。
      "技能只是一种自动化的方式,将用户和系统提示填充到上下文中"
  2. 技能的应用与实现

    • 未来可能是混合通用资源(如MCP)和定制技能的模式,服务提供语义定义,技能组合第三方接口和定制代码(jumploops)。
      "服务可以提供类似MCP的层,定义与服务的所有交互语义"
    • 技能可用于管理项目依赖文档,但可能不是最自然的适配(canadiantim)。
      "可以用技能管理项目依赖的文档和专业知识,但感觉不太自然"
  3. 对现有工具的评价

    • Gemini Enterprise的技能实现被称赞,但整体产品被批评为未完成的早期版本(esperent)。
      "Gemini Enterprise的技能工具是我见过最好的,但其他部分简直是'早期alpha,为什么当成成品卖?'"
    • 当前迭代被批评为远离真正的AGI,更像是用糟糕的DSL(如Markdown混合英语)写库函数(petetnt)。
      "每次迭代都试图进一步假装AGI,实际只是在用最差的DSL写库函数"
  4. 技术细节疑问

    • 用户询问Cursor和Gemini是否支持技能功能(koakuma-chan, ohghiZai)。
      "Does Cursor support skills?" / "Is there a way to implement skills with Gemini?"
    • 对文档处理技术的讨论,如视觉读取与OCR的对比(bzmrgonz)。
      "他们依赖视觉读取而非OCR,可能是采用了成熟的手写识别技术"
  5. 其他观点

    • 技能的具体实现方式可能不同,不应假设其工作原理一致(j45)。
      "技能的工作方式不应被假定为相同"
    • 用户希望技能能引用最新代码片段和文档,避免过时代码(8cvor6j844qw_d6)。
      "能否指向代码片段和相关文档,让代理引用而非写过时的代码?"
  6. 资源分享

    • 提供了Anthropic关于技能设计的演讲链接(swyx)。
      "我们发布了Anthropic的技能演讲,供了解更多设计思路"

总结:评论围绕技能的定义、应用场景、技术实现和工具评价展开,既有对潜力的认可,也有对当前局限性的批评。核心争议在于技能是否真正推动AGI发展,或仅是优化的工程解决方案。