Hacker News 中文摘要

RSS订阅

我在Codex CLI中本地运行了Gemma 4模型 -- I ran Gemma 4 as a local model in Codex CLI

文章摘要

作者在本地MacBook Pro和Dell GB10上运行Gemma 4模型,与云端GPT-5.4进行对比测试,评估其是否适合日常编程任务。结果显示模型质量比原始token速度更重要,Gemma 4有望替代付费云端模型。

文章总结

标题:在Codex CLI中本地运行Gemma 4模型的实践体验

作者:Daniel Vaughan
发布时间:2026年4月12日

核心动机

作者希望验证Gemma 4是否能替代云端模型(如GPT-5.4)完成日常代理编程任务,主要基于三点考量:
1. 成本:频繁使用云端API产生的费用较高。
2. 隐私:部分代码需避免上传至第三方服务器。
3. 稳定性:云端服务可能存在限流或宕机风险。

此前未尝试本地模型的原因是早期版本(如Gemma 3)工具调用成功率仅6.6%,而Gemma 4在相同测试中达到86.4%,使其具备可行性。


实验设置

作者在两台设备上部署Gemma 4:
1. MacBook Pro(24GB M4芯片):通过llama.cpp运行26B MoE(混合专家)量化模型。
2. Dell GB10(128GB NVIDIA Blackwell):通过Ollama运行31B Dense(全参数)模型。

配置挑战
- Mac:Ollama因流式传输Bug和长提示冻结问题被弃用,改用llama.cpp并调整关键参数(如量化KV缓存、禁用网页搜索功能)。
- GB10:vLLM因PyTorch版本冲突失败,最终Ollama v0.20.5通过SSH隧道实现稳定运行。


性能测试

任务要求模型生成带错误处理的Python CSV解析函数并运行测试:
- GPT-5.4(云端):65秒完成,代码质量最佳,无冗余且测试一次通过。
- GB10 31B Dense:7分钟完成,代码功能完整但无类型提示,需3次工具调用。
- Mac 26B MoE:4分42秒完成,出现冗余代码和多次语法错误,工具调用达10次。

速度与架构关系
- Mac的MoE模型因稀疏激活(每token仅调用3.8B参数)生成速度达52 tok/s,是GB10(10 tok/s)的5.1倍。
- 但实际任务耗时差距仅30%,因MoE模型需更多纠错迭代。


关键结论

  1. 模型质量重于速度:GB10虽慢但一次成功,而Mac的快速生成被额外迭代抵消。
  2. 本地方案可行:Gemma 4工具调用能力提升使本地代理编程成为可能,尤其适合隐私敏感场景。
  3. 混合工作流:作者最终结合本地模型(日常迭代)和云端模型(复杂任务),通过Codex CLI配置文件快速切换。

实践建议

  • Apple Silicon:直接使用llama.cpp,禁用网页搜索,量化KV缓存以节省内存。
  • NVIDIA设备:Ollama v0.20.5更稳定,需SSH隧道远程访问。
  • 超时设置:将stream_idle_timeout_ms延长至1,800,000毫秒以上,避免长任务中断。

测试环境:Codex CLI v0.120.0,硬件及模型配置详见文末备注。

(注:原文中技术细节如量化参数、错误日志等非核心内容已精简,保留关键数据及结论。)

评论总结

以下是评论内容的总结:

1. 对Gemma4模型的积极评价

多位用户表示Gemma4在本地运行和编码辅助方面表现优异: - "I've been VERY impressed with Gemma4...it's really helped me figure out not just coding issues" (fortyseven) - "Using Gemma4-31B-q4NL in open code with a 128k context and it's been great" (hackerhomie)

2. 硬件配置讨论

关于运行Gemma4所需硬件配置的讨论: - 内存需求:"I'll have to aim for a slightly higher memory option" (ehtbanton) - 性能对比:"The same Gemma 4 MoE model runs about 8x more t/s on M5 Pro" (egorfine)

3. 模型量化讨论

关于量化对模型性能的影响: - "For coding it makes no sense to use any quantization worse than Q6K" (zihotki) - "I would have liked to see quality results between the different quantization methods" (meanderwater)

4. 技术优化建议

用户分享的技术优化方案: - "you can offload MoE stuff to the CPU with --cpu-moe" (mhitza) - "you can get a good speed up...using the 26B MoE as a draft model" (blackmanta)

5. 批评与质疑

对Gemma4的批评和不同意见: - "Gemma 4 is a strongly censored model...No one should be using it" (OutOfHere) - "Using Gemma-4 on a moderately complex code base, it utterly flailed" (axjns)

6. 与其他模型的比较

用户提出与其他模型比较的建议: - "I'm curious to see how Qwen3.5 stacks up against Gemma 4" (dajonker) - "I did this with qwen 3.5 - tool calling was the biggest issue" (taf2)

7. 工具调用争议

关于本地模型工具调用能力的争论: - "Rubbish, we have been calling tools locally for 2 years" (segmondy) - "The reason I had not done this before is that local models could not call tools" (原文引用)

总结显示,Gemma4获得不少正面评价,特别是在编码辅助方面,但同时也存在关于审查制度、复杂任务表现和硬件需求的讨论。用户分享了多种优化方案,并就量化方法和工具调用能力展开了技术讨论。