Hacker News 中文摘要

文章摘要

文章测试了14个AI模型在微服务系统中使用OpenTelemetry标准添加分布式追踪的能力，结果显示即使表现最好的Claude 4.5 Opus模型成功率也仅29%，所有模型在此任务上表现均不理想。作者开源了OTelBench基准测试工具供社区使用。

文章总结

基准测试OpenTelemetry：AI能否追踪你的登录失败？

前沿AI模型在分布式追踪中的表现

尽管前沿AI模型在编写代码方面表现出色，但在调试生产系统时仍面临挑战。为了验证这一点，我们对14个主流AI模型进行了测试，评估它们在现有代码库中添加分布式追踪（使用行业标准OpenTelemetry工具）的能力。测试任务模拟了站点可靠性工程师（SRE）的日常工作场景。

测试结果

整体表现：表现最佳的Claude 4.5 Opus模型通过率仅为29%，GPT 5.2以26%紧随其后。令人意外的是，Gemini 3 Pro并未显著优于更轻量的Gemini 3 Flash（19%）。
开源基准：我们发布了OTelBench作为开源测试框架，包含11种编程语言的23项任务，支持通过Harbor框架复现结果或扩展新测试。

分布式追踪的背景

在微服务架构中，单个用户请求可能涉及数十个服务，传统日志追踪变得低效。分布式追踪通过以下步骤解决该问题： 1. 创建追踪：为每个请求生成唯一标识（TraceID）。 2. 传递上下文：在服务间调用时保持TraceID一致。 3. 数据可视化：将追踪数据发送至后端分析平台。

OpenTelemetry作为行业标准，提供了统一的语义规范、多语言SDK和自动化工具，但其复杂性仍令39%的开发者感到困扰（2025年可观测性调查报告）。

测试设计

任务类型：要求模型为模拟真实场景的微服务（约300行代码）添加追踪功能，需满足OpenTelemetry规范。
失败案例：例如，模型未能区分用户成功搜索和无效令牌请求两个独立事件，导致错误合并为单一追踪链路。

关键发现

语言差异：C++任务通过率最高（37%），而Java、Ruby和Swift任务全军覆没。
成本效率：Gemini 3 Flash以19%通过率成为性价比最优选，成本仅为Claude Opus 4.5的1/11。
隐性缺陷：部分解决方案虽能编译，但生成错误格式的追踪数据或混淆业务上下文。

AI的挑战

长周期任务：需要模型保持对复杂上下文的连贯理解。
多语言环境：需掌握不同语言的构建工具（如CMake、Go模块系统）。
数据稀缺：企业级应用代码通常闭源，导致训练样本不足。

结论与展望

当前AI模型尚无法替代人类SRE，但部分任务（如Go微服务追踪）已展现55%的潜力。行业需要建立类似SWE-Bench的标准化测试，以推动AI在分布式系统领域的进步。

最终建议：如需跨服务追踪功能，暂时仍需手动编码实现。

（完整数据与讨论参见OTelBench官网或参与Hacker News交流）

评论总结

评论主要围绕AI在SRE（站点可靠性工程）任务中的表现展开，观点可分为以下几类：

质疑AI能力
- 认为AI缺乏分布式调试经验，难以处理复杂问题
  引用：
  "there’s not a lot of high quality training for distributed debugging" (whynotminot)
  "AI excels at individual coding patterns but struggles with holistic understanding" (asyncadventure)
测试方法问题
- 指出测试指令模糊，基准设计不合理
  引用：
  "instruction.md is very brief, quite vague" (NitpickLawyer)
  "the prompts for this are pretty sparse" (linuxftw)
人类同样困难
- 强调OpenTelemetry本身复杂，人类专家也面临挑战
  引用：
  "I’m a human with 20+ years of experience and making OTEL work on Go was painful" (yomismoaqui)
  "Our humans struggle with them too" (dgxyz)
乐观预期
- 相信随着技术发展AI会进步
  引用：
  "I wouldn’t expect this wall to hold up for too long" (whynotminot)
  "The key is LLMs can assist" (benatkin)
微服务架构批评
- 认为问题根源在于微服务设计
  引用：
  "this is just another reason not to use microservices" (rapsacnz)
  "It’s painful for humans to debug" (AnotherGoodName)
成功案例
- 分享AI辅助成功的实践经验
  引用：
  "I’ve been incredibly impressed with the ability for frontier models" (jcims)
  "It took me like a day to implement tracing" (derfurth)

主要争议点：29%成功率是否准确反映了AI能力，以及测试设计是否合理。多数评论认为OpenTelemetry任务本身复杂度高，当前测试方法有待改进，但AI作为辅助工具已显现价值。

OTelBench：AI在简单SRE任务中表现不佳（Opus 4.5得分仅29%） -- OTelBench: AI struggles with simple SRE tasks (Opus 4.5 scores only 29%)