Hacker News 中文摘要

文章摘要

作者发现其高价购买的iPhone 16 Pro Max在运行MLX LLMs时出现数值计算错误，输出结果比iPhone 15 Pro和MacBook Pro差一个数量级，怀疑是神经引擎或其他机器学习相关硬件存在缺陷。这一调试过程虽然痛苦，但揭示了潜在的质量问题。

文章总结

标题：我的万元iPhone竟不会算数

作者Rafael Costa在2026年1月28日发表了一篇技术博客，详细记录了自己在开发支出追踪应用时遇到的离奇问题：

核心发现： - iPhone 16 Pro Max运行MLX框架的LLM模型时会产生完全错误的结果（如将"2+2"回答为乱码），而同款代码在iPhone 15 Pro和MacBook Pro上运行正常 - 通过逐层对比神经网络张量输出，发现16 Pro Max的数值出现数量级偏差 - 最终确认是设备硬件问题（可能是A18芯片的神经引擎缺陷）

问题排查过程： 1. 最初尝试使用Apple Intelligence API失败，模型支持包无法下载 2. 改用MLX本地框架后，16 Pro Max产生乱码输出，而15 Pro表现正常 3. 开发者通过添加调试断点，对比发现16 Pro Max在神经网络中间层就出现数值异常 4. 测试同一代码在Mac上的运行结果与15 Pro一致，排除软件问题

技术细节： - 测试使用量化版Gemma模型，温度参数设为0以消除随机性 - 关键张量对比：正常设备输出"[[53.875, 62.5625...]]"，故障设备输出"[[191.5, 23.625...]]" - 推测是Metal编译器或神经引擎硬件层的计算错误

后续进展： - 作者在2月1日更新，确认换用iPhone 17 Pro Max后问题消失 - 推测此前通过Apple Care更换的16 Pro Max存在硬件缺陷

经验教训： - 调试时需要考虑物理层故障可能性 - 不要轻易归咎于自身编程能力问题 - 该案例可能解释了苹果论坛上12页用户遇到的同类问题

（编辑说明：原文中关于项目背景、界面设计等非核心内容已精简，保留了完整的技术排查过程和分析结论）

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

对调试工作的赞赏
- 评论1：欣赏实际的调试而非阴谋论，调侃苹果可能忽略用户反馈
  "I love to see real debugging instead of conspiracy theories!"
- 评论4：同情低层开发工程师面对黑箱问题的困境
  "heroic attempt at debugging... sympathize with engineers getting just noise"
对LLM数学能力的质疑
- 评论8：认为LLM并非数学计算的首选工具
  "LLMs are not the first thing I grab when I want to do math"
- 评论12：批评用LLM做基础计算的行为荒谬
  "as hilarious as asking 'What's moon plus sun?'"
对苹果产品的批评
- 评论7：认为苹果是炫耀性消费商品（凡勃伦商品）
  "you buy it because its more expensive than the value of it"
- 评论4：讽刺厂商通过设计缺陷促使用户升级
  "broken by design, so I just buy an even newer one"
技术问题分析
- 评论5：指出底层数值运算的不可复现性普遍存在
  "Low level numerical operation optimizations are often not reproduceable"
- 评论12：强调苹果API结果不一致的严重性
  "Apple's numerical APIs are producing inconsistent results"
实用性质疑
- 评论3：认为传统计算器比手机更适合数学计算
  "old graphing calculators are generally better math companions"
- 评论10：吐槽语音助手无法直接回答单位换算
  "Here's some fucking website"（当询问单位转换时）
改进建议
- 评论11：建议提供可复现bug的代码
  "Posting some code that reproduces the bug could help"
- 评论13：希望测试其他同型号设备确认问题范围
  "tried on a different iPhone 16 Pro Max to see if defect was specific"

关键矛盾点：部分用户肯定技术调试价值，但质疑LLM的数学适用性；同时存在对苹果产品质量的尖锐批评与对技术局限性的理性讨论。

我的千元iPhone竟不会算数 -- My thousand dollar iPhone can't do math

文章摘要

文章总结

评论总结