文章摘要
Ollama宣布在Apple Silicon上推出由苹果MLX机器学习框架驱动的预览版,显著提升了在macOS上的运行性能。该更新特别优化了个人助手和编程代理等应用,如OpenClaw和Claude Code,使其响应速度更快,为用户提供更高效的工作体验。
文章总结
Ollama现支持苹果MLX框架预览版,为Apple Silicon带来强劲性能提升
核心升级亮点:
MLX框架驱动
Ollama现基于苹果机器学习框架MLX开发,充分利用统一内存架构优势,在M5/M5 Pro/M5 Max芯片上通过GPU神经加速器显著提升性能:- 首令牌响应时间(TTFT)缩短
- 生成速度提升(测试显示达1851 token/s预填充和134 token/s解码)
NVFP4量化支持
采用NVIDIA新型NVFP4格式,在降低内存占用的同时保持模型精度,确保与生产环境的一致性结果。智能缓存优化
- 跨会话缓存复用降低内存消耗
- 智能检查点减少提示处理时间
- 共享前缀保留机制提升效率
适用场景强化:
- 编程助手:Claude Code、OpenCode等响应加速
- 个人助理:OpenClaw获得更快的交互体验
使用要求:
- 需配备32GB以上统一内存的Mac设备
- 支持Qwen3.5-35B-A3B模型(专为编码任务调优)
未来发展:
将持续扩展模型架构支持,并简化自定义模型导入流程。
(注:原文中的导航菜单、重复链接及页脚信息等非核心内容已精简,测试数据等关键细节保留)
评论总结
以下是评论内容的总结:
支持设备端LLM的观点
- 认为设备端LLM是未来趋势,更安全且能缓解数据中心需求压力,同时更省电(babblingfish:"LLMs on device is the future. It's more secure...")
- 已有用户成功在Mac设备上运行量化大模型(LuxBennu:"Already running qwen 70b 4-bit on m2 max 96gb...")
性能与技术对比
- 关注MLX推理引擎与其他技术的比较(codelion询问与optiq的比较;mfa1999询问与llama.cpp的性能对比)
- 对量化技术的效果持保留态度(AugSun引用数据但强调"some models"和"key tasks"的限定条件)
硬件需求与优化
- 普通用户对硬件限制的担忧(dial9-1提到16GB内存的限制)
- 苹果芯片原生支持带来的优化预期(LuxBennu提到"native mlx should mean better memory handling")
技术概念澄清需求
- 存在对相关技术术语的困惑(brcmthrowaway直接询问Ollama/llama.cpp/ggml/gguf的区别)
主要观点分歧在于:设备端LLM的支持者强调其优势,而其他用户更关注具体技术实现和性能比较。讨论中多次提及量化技术、内存管理和平台优化等关键技术点。