Hacker News 中文摘要

RSS订阅

Ollama现由Apple Silicon上的MLX提供预览支持 -- Ollama is now powered by MLX on Apple Silicon in preview

文章摘要

Ollama宣布在Apple Silicon上推出由苹果MLX机器学习框架驱动的预览版,显著提升了在macOS上的运行性能。该更新特别优化了个人助手和编程代理等应用,如OpenClaw和Claude Code,使其响应速度更快,为用户提供更高效的工作体验。

文章总结

Ollama现支持苹果MLX框架预览版,为Apple Silicon带来强劲性能提升

核心升级亮点:

  1. MLX框架驱动
    Ollama现基于苹果机器学习框架MLX开发,充分利用统一内存架构优势,在M5/M5 Pro/M5 Max芯片上通过GPU神经加速器显著提升性能:

    • 首令牌响应时间(TTFT)缩短
    • 生成速度提升(测试显示达1851 token/s预填充和134 token/s解码)
  2. NVFP4量化支持
    采用NVIDIA新型NVFP4格式,在降低内存占用的同时保持模型精度,确保与生产环境的一致性结果。

  3. 智能缓存优化

    • 跨会话缓存复用降低内存消耗
    • 智能检查点减少提示处理时间
    • 共享前缀保留机制提升效率

适用场景强化:

  • 编程助手:Claude Code、OpenCode等响应加速
  • 个人助理:OpenClaw获得更快的交互体验

使用要求:

  • 需配备32GB以上统一内存的Mac设备
  • 支持Qwen3.5-35B-A3B模型(专为编码任务调优)

未来发展:

将持续扩展模型架构支持,并简化自定义模型导入流程。

(注:原文中的导航菜单、重复链接及页脚信息等非核心内容已精简,测试数据等关键细节保留)

评论总结

以下是评论内容的总结:

  1. 支持设备端LLM的观点

    • 认为设备端LLM是未来趋势,更安全且能缓解数据中心需求压力,同时更省电(babblingfish:"LLMs on device is the future. It's more secure...")
    • 已有用户成功在Mac设备上运行量化大模型(LuxBennu:"Already running qwen 70b 4-bit on m2 max 96gb...")
  2. 性能与技术对比

    • 关注MLX推理引擎与其他技术的比较(codelion询问与optiq的比较;mfa1999询问与llama.cpp的性能对比)
    • 对量化技术的效果持保留态度(AugSun引用数据但强调"some models"和"key tasks"的限定条件)
  3. 硬件需求与优化

    • 普通用户对硬件限制的担忧(dial9-1提到16GB内存的限制)
    • 苹果芯片原生支持带来的优化预期(LuxBennu提到"native mlx should mean better memory handling")
  4. 技术概念澄清需求

    • 存在对相关技术术语的困惑(brcmthrowaway直接询问Ollama/llama.cpp/ggml/gguf的区别)

主要观点分歧在于:设备端LLM的支持者强调其优势,而其他用户更关注具体技术实现和性能比较。讨论中多次提及量化技术、内存管理和平台优化等关键技术点。