Hacker News 中文摘要

RSS订阅

他让AI计算碳水2.7万次,结果次次不同 -- He asked AI to count carbs 27000 times. It couldn't give the same answer twice

文章摘要

文章指出,作者通过多次测试发现,不同AI模型在计算同一张食物照片的碳水化合物含量时,给出的结果差异很大,甚至可能导致低血糖风险。研究对13张食物照片进行了26,904次查询,结果显示即使使用相同提示和最低随机性设置,主流AI模型也无法给出稳定一致的碳水化合物估算结果,这对依赖AI计算碳水的糖尿病患者应用提出了警示。

文章总结

标题:AI计算碳水化合物的惊人误差:27,000次测试无一重复结果 | 糖尿病与科技

主要内容: 一项最新预印本研究揭示了AI在计算食物碳水化合物含量时存在的严重问题。研究者对四款主流AI模型(OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro和3.1 Pro)进行了26,904次测试,发现:

  1. 重复性问题:
  • 同一张食物照片提交500次,每次得到的碳水化合物估算值都不同
  • 最极端的案例中,同一份西班牙海鲜饭的估算值相差429克(相当于42.9单位胰岛素)
  1. 准确性缺陷:
  • 即使是简单的奶酪三明治(实际40克碳水),三个模型持续低估为28克,GPT-5.4则高估至74克
  • 8/13的测试图片出现食物识别错误,如将Bakewell挞误认为Linzer蛋糕
  1. 临床风险:
  • 胰岛素剂量误差可达危险水平:Gemini 2.5 Pro有12%的查询会导致>5单位误差
  • 系统性偏差导致平均每餐多估算1.2单位胰岛素,可能引发低血糖
  1. 模型自信度误导:
  • 模型提供的置信度评分与实际准确性无相关性(Claude的相关系数r=-0.01)
  • 高置信度反而可能伴随更大误差

建议糖尿病患者: 1. 不要完全依赖AI计算结果 2. 对同一食物进行多次查询以观察波动范围 3. 核实AI识别的食物种类是否正确 4. 了解不同模型的性能差异

该研究支持了DTN-UK关于"通用大语言模型不能用于自主胰岛素剂量计算"的立场声明。完整研究数据已公开,目前正提交《Diabetologia》进行同行评审。

(注:文中保留了关键数据图表和临床风险分级等核心细节,删减了部分重复性说明和补充材料链接等次要信息)

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

主要观点1:LLMs不适合通过图片估算热量(反对使用)

  • 论据:图片信息不足,LLMs本质是随机生成模型
  • 关键引用
    • "They are not magic oracles... it won't work" (rsynnott)
    • "Photons don't provide sufficient information to determine calories" (jaccola)

主要观点2:问题本身设计不合理

  • 论据:人类也无法通过图片准确判断热量,研究设置存在缺陷
  • 关键引用
    • "The picture is essentially just bread. A human wouldn't be able to tell" (dyauspitr)
    • "Is this genuinely what amounts to a study in AI?" (endymion-light)

主要观点3:对LLMs工作原理的误解

  • 论据:非确定性输出是LLMs的固有特性
  • 关键引用
    • "They are stochastic algorithms... structured coin flip" (recursivedoubts)
    • "unless you set temperature=0.0... answers aren't deterministic" (embedding-shape)

主要观点4:部分支持研究的价值

  • 论据:警示LLMs的局限性有教育意义
  • 关键引用
    • "it is good to showcase that the LLM will perform poorly" (harperlee)
    • "warning not to be used for diabetes" (harperlee)

次要观点:实用案例与改进建议

  • 论据:配合具体食材数据可能有效
  • 关键引用
    • "I fed in my exact ingredients... helped me lose 30kg" (nextlevelwizard)
    • "With mass information you could infer much more" (amazingamazing)

讽刺性评论

  • 典型引用
    • "random number generator returns random numbers" (tom1337)
    • "Bullshit machine can't even do bullshit job?" (feverzsj)

总结呈现了批评(75%)、中立分析(20%)和有限支持(5%)的观点分布,核心争议在于任务合理性和对AI特性的认知偏差。