Hacker News 中文摘要

RSS订阅

iPhone 17 Pro演示运行4000亿参数大模型 -- iPhone 17 Pro Demonstrated Running a 400B LLM

原文链接 | HN讨论 | 2026-03-24 01:24:23

文章摘要

推特用户Anemll宣布在iPhone上成功运行400B参数的大模型，速度达到每秒0.6个token，并感谢了多位开发者的贡献。该推文发布于2026年3月23日，获得了10.4万次浏览。

文章总结

【精简版推文内容】
用户@anemll在X平台发文称："iPhone成功运行4000亿参数大模型！推理速度达0.6 token/秒。致谢开发者@danveloper @alexintosh @danpacary"
（发布时间：2026年3月23日 2:07 AM | 浏览量：10.47万）

【删除无关内容】
原推文中的平台注册引导、趋势话题、页脚条款等非核心信息已省略，仅保留技术突破的核心陈述。

注：
1. "400B"采用中文互联网常见表述译为"4000亿参数"
2. 保留原始发布时间及浏览量数据以体现传播时效性
3. 开发者ID保持@账号格式，符合中文社交媒体引用习惯

评论总结

评论总结：

技术突破的惊叹

认为在iPhone上运行400B参数模型是重大突破 "一年前这会被认为是不可能的。硬件发展速度超过了所有人的软件预期" "A year ago this would have been considered impossible. The hardware is moving faster than anyone's software assumptions."
预测移动端高质量实时推理将变得容易 "随着小型模型信息密度和架构效率提升，移动端高质量实时推理将变得微不足道" "as the information density...getting high-quality, real-time inference on mobile is going to become trivial."

技术实现细节讨论

询问是否基于苹果"LLM in a flash"论文 "这个方案是基于苹果2023年论文'LLM in a flash'吗？" "Is this solution based on what Apple describes in their 2023 paper 'LLM in a flash'?"
关注MoE模型实际激活参数量 "虽然是400B但采用专家混合，实际激活参数有多少？" "It's 400B but it's mixture of experts so how many are active at any time?"

性能与用户体验

指出推理速度慢的问题 "0.6t/s，等待30秒才得到结果" "0.6 t/s, wait 30 seconds to see what these billions of calculations get us"
询问性能提升路径 "距离100t/s的性能还有多远？不清楚会先通过小型化还是硬件提升实现" "How far away are we from...running at 100 t/s? It's unclear...miniaturization first or from hardware gains"

苹果战略分析

认为苹果可能通过分发优势赢得AI竞争 "苹果可能不参与竞赛就赢得AI竞争，关键是分发能力" "Apple might just win the AI race without even running in it. It's all about the distribution."
详细讨论苹果内存策略与AI需求的矛盾长评论指出苹果传统上通过优化内存使用降低成本，但AI需要大量内存，预测未来可能需要增加iPhone内存配置 "苹果一直将RAM视为平台经济优势...但AI需要大量快速工作内存" "Apple has always seen RAM as an economic advantage...AI can't get around the need for copious amounts of fast working memory"

技术权衡观察

指出AI开发者重新发现计算资源权衡 "AI模型开发者重新发现了CPU、内存、存储和时间之间的权衡" "CPU, memory, storage, time tradeoffs rediscovered by AI model developers"