文章摘要
作者发现其高价购买的iPhone 16 Pro Max在运行MLX LLMs时出现数值计算错误,输出结果比iPhone 15 Pro和MacBook Pro差一个数量级,怀疑是神经引擎或其他机器学习相关硬件存在缺陷。这一调试过程虽然痛苦,但揭示了潜在的质量问题。
文章总结
标题:我的万元iPhone竟不会算数
作者Rafael Costa在2026年1月28日发表了一篇技术博客,详细记录了自己在开发支出追踪应用时遇到的离奇问题:
核心发现: - iPhone 16 Pro Max运行MLX框架的LLM模型时会产生完全错误的结果(如将"2+2"回答为乱码),而同款代码在iPhone 15 Pro和MacBook Pro上运行正常 - 通过逐层对比神经网络张量输出,发现16 Pro Max的数值出现数量级偏差 - 最终确认是设备硬件问题(可能是A18芯片的神经引擎缺陷)
问题排查过程: 1. 最初尝试使用Apple Intelligence API失败,模型支持包无法下载 2. 改用MLX本地框架后,16 Pro Max产生乱码输出,而15 Pro表现正常 3. 开发者通过添加调试断点,对比发现16 Pro Max在神经网络中间层就出现数值异常 4. 测试同一代码在Mac上的运行结果与15 Pro一致,排除软件问题
技术细节: - 测试使用量化版Gemma模型,温度参数设为0以消除随机性 - 关键张量对比:正常设备输出"[[53.875, 62.5625...]]",故障设备输出"[[191.5, 23.625...]]" - 推测是Metal编译器或神经引擎硬件层的计算错误
后续进展: - 作者在2月1日更新,确认换用iPhone 17 Pro Max后问题消失 - 推测此前通过Apple Care更换的16 Pro Max存在硬件缺陷
经验教训: - 调试时需要考虑物理层故障可能性 - 不要轻易归咎于自身编程能力问题 - 该案例可能解释了苹果论坛上12页用户遇到的同类问题
(编辑说明:原文中关于项目背景、界面设计等非核心内容已精简,保留了完整的技术排查过程和分析结论)
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
对调试工作的赞赏
- 评论1:欣赏实际的调试而非阴谋论,调侃苹果可能忽略用户反馈
"I love to see real debugging instead of conspiracy theories!" - 评论4:同情低层开发工程师面对黑箱问题的困境
"heroic attempt at debugging... sympathize with engineers getting just noise"
- 评论1:欣赏实际的调试而非阴谋论,调侃苹果可能忽略用户反馈
对LLM数学能力的质疑
- 评论8:认为LLM并非数学计算的首选工具
"LLMs are not the first thing I grab when I want to do math" - 评论12:批评用LLM做基础计算的行为荒谬
"as hilarious as asking 'What's moon plus sun?'"
- 评论8:认为LLM并非数学计算的首选工具
对苹果产品的批评
- 评论7:认为苹果是炫耀性消费商品(凡勃伦商品)
"you buy it because its more expensive than the value of it" - 评论4:讽刺厂商通过设计缺陷促使用户升级
"broken by design, so I just buy an even newer one"
- 评论7:认为苹果是炫耀性消费商品(凡勃伦商品)
技术问题分析
- 评论5:指出底层数值运算的不可复现性普遍存在
"Low level numerical operation optimizations are often not reproduceable" - 评论12:强调苹果API结果不一致的严重性
"Apple's numerical APIs are producing inconsistent results"
- 评论5:指出底层数值运算的不可复现性普遍存在
实用性质疑
- 评论3:认为传统计算器比手机更适合数学计算
"old graphing calculators are generally better math companions" - 评论10:吐槽语音助手无法直接回答单位换算
"Here's some fucking website"(当询问单位转换时)
- 评论3:认为传统计算器比手机更适合数学计算
改进建议
- 评论11:建议提供可复现bug的代码
"Posting some code that reproduces the bug could help" - 评论13:希望测试其他同型号设备确认问题范围
"tried on a different iPhone 16 Pro Max to see if defect was specific"
- 评论11:建议提供可复现bug的代码
关键矛盾点:部分用户肯定技术调试价值,但质疑LLM的数学适用性;同时存在对苹果产品质量的尖锐批评与对技术局限性的理性讨论。