文章摘要
推特用户Anemll宣布在iPhone上成功运行400B参数的大模型,速度达到每秒0.6个token,并感谢了多位开发者的贡献。该推文发布于2026年3月23日,获得了10.4万次浏览。
文章总结
【精简版推文内容】
用户@anemll在X平台发文称:"iPhone成功运行4000亿参数大模型!推理速度达0.6 token/秒。致谢开发者@danveloper @alexintosh @danpacary"
(发布时间:2026年3月23日 2:07 AM | 浏览量:10.47万)
【删除无关内容】
原推文中的平台注册引导、趋势话题、页脚条款等非核心信息已省略,仅保留技术突破的核心陈述。
注:
1. "400B"采用中文互联网常见表述译为"4000亿参数"
2. 保留原始发布时间及浏览量数据以体现传播时效性
3. 开发者ID保持@账号格式,符合中文社交媒体引用习惯
评论总结
评论总结:
- 技术突破的惊叹
- 认为在iPhone上运行400B参数模型是重大突破 "一年前这会被认为是不可能的。硬件发展速度超过了所有人的软件预期" "A year ago this would have been considered impossible. The hardware is moving faster than anyone's software assumptions."
- 预测移动端高质量实时推理将变得容易 "随着小型模型信息密度和架构效率提升,移动端高质量实时推理将变得微不足道" "as the information density...getting high-quality, real-time inference on mobile is going to become trivial."
- 技术实现细节讨论
- 询问是否基于苹果"LLM in a flash"论文 "这个方案是基于苹果2023年论文'LLM in a flash'吗?" "Is this solution based on what Apple describes in their 2023 paper 'LLM in a flash'?"
- 关注MoE模型实际激活参数量 "虽然是400B但采用专家混合,实际激活参数有多少?" "It's 400B but it's mixture of experts so how many are active at any time?"
- 性能与用户体验
- 指出推理速度慢的问题 "0.6t/s,等待30秒才得到结果" "0.6 t/s, wait 30 seconds to see what these billions of calculations get us"
- 询问性能提升路径 "距离100t/s的性能还有多远?不清楚会先通过小型化还是硬件提升实现" "How far away are we from...running at 100 t/s? It's unclear...miniaturization first or from hardware gains"
- 苹果战略分析
- 认为苹果可能通过分发优势赢得AI竞争 "苹果可能不参与竞赛就赢得AI竞争,关键是分发能力" "Apple might just win the AI race without even running in it. It's all about the distribution."
- 详细讨论苹果内存策略与AI需求的矛盾 长评论指出苹果传统上通过优化内存使用降低成本,但AI需要大量内存,预测未来可能需要增加iPhone内存配置 "苹果一直将RAM视为平台经济优势...但AI需要大量快速工作内存" "Apple has always seen RAM as an economic advantage...AI can't get around the need for copious amounts of fast working memory"
- 技术权衡观察
- 指出AI开发者重新发现计算资源权衡 "AI模型开发者重新发现了CPU、内存、存储和时间之间的权衡" "CPU, memory, storage, time tradeoffs rediscovered by AI model developers"