Hacker News 中文摘要

文章摘要

作者在本地MacBook Pro和Dell GB10上运行Gemma 4模型，与云端GPT-5.4进行对比测试，评估其是否适合日常编程任务。结果显示模型质量比原始token速度更重要，Gemma 4有望替代付费云端模型。

文章总结

标题：在Codex CLI中本地运行Gemma 4模型的实践体验

作者：Daniel Vaughan
发布时间：2026年4月12日

核心动机

作者希望验证Gemma 4是否能替代云端模型（如GPT-5.4）完成日常代理编程任务，主要基于三点考量：
1. 成本：频繁使用云端API产生的费用较高。
2. 隐私：部分代码需避免上传至第三方服务器。
3. 稳定性：云端服务可能存在限流或宕机风险。

此前未尝试本地模型的原因是早期版本（如Gemma 3）工具调用成功率仅6.6%，而Gemma 4在相同测试中达到86.4%，使其具备可行性。

实验设置

作者在两台设备上部署Gemma 4：
1. MacBook Pro（24GB M4芯片）：通过llama.cpp运行26B MoE（混合专家）量化模型。
2. Dell GB10（128GB NVIDIA Blackwell）：通过Ollama运行31B Dense（全参数）模型。

配置挑战：
- Mac：Ollama因流式传输Bug和长提示冻结问题被弃用，改用llama.cpp并调整关键参数（如量化KV缓存、禁用网页搜索功能）。
- GB10：vLLM因PyTorch版本冲突失败，最终Ollama v0.20.5通过SSH隧道实现稳定运行。

性能测试

任务要求模型生成带错误处理的Python CSV解析函数并运行测试：
- GPT-5.4（云端）：65秒完成，代码质量最佳，无冗余且测试一次通过。
- GB10 31B Dense：7分钟完成，代码功能完整但无类型提示，需3次工具调用。
- Mac 26B MoE：4分42秒完成，出现冗余代码和多次语法错误，工具调用达10次。

速度与架构关系：
- Mac的MoE模型因稀疏激活（每token仅调用3.8B参数）生成速度达52 tok/s，是GB10（10 tok/s）的5.1倍。
- 但实际任务耗时差距仅30%，因MoE模型需更多纠错迭代。

关键结论

模型质量重于速度：GB10虽慢但一次成功，而Mac的快速生成被额外迭代抵消。
本地方案可行：Gemma 4工具调用能力提升使本地代理编程成为可能，尤其适合隐私敏感场景。
混合工作流：作者最终结合本地模型（日常迭代）和云端模型（复杂任务），通过Codex CLI配置文件快速切换。

实践建议

Apple Silicon：直接使用llama.cpp，禁用网页搜索，量化KV缓存以节省内存。
NVIDIA设备：Ollama v0.20.5更稳定，需SSH隧道远程访问。
超时设置：将stream_idle_timeout_ms延长至1,800,000毫秒以上，避免长任务中断。

测试环境：Codex CLI v0.120.0，硬件及模型配置详见文末备注。

（注：原文中技术细节如量化参数、错误日志等非核心内容已精简，保留关键数据及结论。）

评论总结

以下是评论内容的总结：

1. 对Gemma4模型的积极评价

多位用户表示Gemma4在本地运行和编码辅助方面表现优异： - "I've been VERY impressed with Gemma4...it's really helped me figure out not just coding issues" (fortyseven) - "Using Gemma4-31B-q4NL in open code with a 128k context and it's been great" (hackerhomie)

2. 硬件配置讨论

关于运行Gemma4所需硬件配置的讨论： - 内存需求："I'll have to aim for a slightly higher memory option" (ehtbanton) - 性能对比："The same Gemma 4 MoE model runs about 8x more t/s on M5 Pro" (egorfine)

3. 模型量化讨论

关于量化对模型性能的影响： - "For coding it makes no sense to use any quantization worse than Q6K" (zihotki) - "I would have liked to see quality results between the different quantization methods" (meanderwater)

4. 技术优化建议

用户分享的技术优化方案： - "you can offload MoE stuff to the CPU with --cpu-moe" (mhitza) - "you can get a good speed up...using the 26B MoE as a draft model" (blackmanta)

5. 批评与质疑

对Gemma4的批评和不同意见： - "Gemma 4 is a strongly censored model...No one should be using it" (OutOfHere) - "Using Gemma-4 on a moderately complex code base, it utterly flailed" (axjns)

6. 与其他模型的比较

用户提出与其他模型比较的建议： - "I'm curious to see how Qwen3.5 stacks up against Gemma 4" (dajonker) - "I did this with qwen 3.5 - tool calling was the biggest issue" (taf2)

7. 工具调用争议

关于本地模型工具调用能力的争论： - "Rubbish, we have been calling tools locally for 2 years" (segmondy) - "The reason I had not done this before is that local models could not call tools" (原文引用)

总结显示，Gemma4获得不少正面评价，特别是在编码辅助方面，但同时也存在关于审查制度、复杂任务表现和硬件需求的讨论。用户分享了多种优化方案，并就量化方法和工具调用能力展开了技术讨论。

我在Codex CLI中本地运行了Gemma 4模型 -- I ran Gemma 4 as a local model in Codex CLI