Hacker News 中文摘要

文章摘要

文章指出，作者通过多次测试发现，不同AI模型在计算同一张食物照片的碳水化合物含量时，给出的结果差异很大，甚至可能导致低血糖风险。研究对13张食物照片进行了26,904次查询，结果显示即使使用相同提示和最低随机性设置，主流AI模型也无法给出稳定一致的碳水化合物估算结果，这对依赖AI计算碳水的糖尿病患者应用提出了警示。

文章总结

标题：AI计算碳水化合物的惊人误差：27,000次测试无一重复结果 | 糖尿病与科技

主要内容：一项最新预印本研究揭示了AI在计算食物碳水化合物含量时存在的严重问题。研究者对四款主流AI模型（OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro和3.1 Pro）进行了26,904次测试，发现：

重复性问题：

同一张食物照片提交500次，每次得到的碳水化合物估算值都不同
最极端的案例中，同一份西班牙海鲜饭的估算值相差429克（相当于42.9单位胰岛素）

准确性缺陷：

即使是简单的奶酪三明治（实际40克碳水），三个模型持续低估为28克，GPT-5.4则高估至74克
8/13的测试图片出现食物识别错误，如将Bakewell挞误认为Linzer蛋糕

临床风险：

胰岛素剂量误差可达危险水平：Gemini 2.5 Pro有12%的查询会导致>5单位误差
系统性偏差导致平均每餐多估算1.2单位胰岛素，可能引发低血糖

模型自信度误导：

模型提供的置信度评分与实际准确性无相关性（Claude的相关系数r=-0.01）
高置信度反而可能伴随更大误差

建议糖尿病患者： 1. 不要完全依赖AI计算结果 2. 对同一食物进行多次查询以观察波动范围 3. 核实AI识别的食物种类是否正确 4. 了解不同模型的性能差异

该研究支持了DTN-UK关于"通用大语言模型不能用于自主胰岛素剂量计算"的立场声明。完整研究数据已公开，目前正提交《Diabetologia》进行同行评审。

（注：文中保留了关键数据图表和临床风险分级等核心细节，删减了部分重复性说明和补充材料链接等次要信息）

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

主要观点1：LLMs不适合通过图片估算热量（反对使用）

论据：图片信息不足，LLMs本质是随机生成模型
关键引用：
- "They are not magic oracles... it won't work" (rsynnott)
- "Photons don't provide sufficient information to determine calories" (jaccola)

主要观点2：问题本身设计不合理

论据：人类也无法通过图片准确判断热量，研究设置存在缺陷
关键引用：
- "The picture is essentially just bread. A human wouldn't be able to tell" (dyauspitr)
- "Is this genuinely what amounts to a study in AI?" (endymion-light)

主要观点3：对LLMs工作原理的误解

论据：非确定性输出是LLMs的固有特性
关键引用：
- "They are stochastic algorithms... structured coin flip" (recursivedoubts)
- "unless you set temperature=0.0... answers aren't deterministic" (embedding-shape)

主要观点4：部分支持研究的价值

论据：警示LLMs的局限性有教育意义
关键引用：
- "it is good to showcase that the LLM will perform poorly" (harperlee)
- "warning not to be used for diabetes" (harperlee)

次要观点：实用案例与改进建议

论据：配合具体食材数据可能有效
关键引用：
- "I fed in my exact ingredients... helped me lose 30kg" (nextlevelwizard)
- "With mass information you could infer much more" (amazingamazing)

讽刺性评论

典型引用：
- "random number generator returns random numbers" (tom1337)
- "Bullshit machine can't even do bullshit job?" (feverzsj)

总结呈现了批评（75%）、中立分析（20%）和有限支持（5%）的观点分布，核心争议在于任务合理性和对AI特性的认知偏差。

他让AI计算碳水2.7万次，结果次次不同 -- He asked AI to count carbs 27000 times. It couldn't give the same answer twice