文章摘要
作者在本地MacBook Pro和Dell GB10上运行Gemma 4模型,与云端GPT-5.4进行对比测试,评估其是否适合日常编程任务。结果显示模型质量比原始token速度更重要,Gemma 4有望替代付费云端模型。
文章总结
标题:在Codex CLI中本地运行Gemma 4模型的实践体验
作者:Daniel Vaughan
发布时间:2026年4月12日
核心动机
作者希望验证Gemma 4是否能替代云端模型(如GPT-5.4)完成日常代理编程任务,主要基于三点考量:
1. 成本:频繁使用云端API产生的费用较高。
2. 隐私:部分代码需避免上传至第三方服务器。
3. 稳定性:云端服务可能存在限流或宕机风险。
此前未尝试本地模型的原因是早期版本(如Gemma 3)工具调用成功率仅6.6%,而Gemma 4在相同测试中达到86.4%,使其具备可行性。
实验设置
作者在两台设备上部署Gemma 4:
1. MacBook Pro(24GB M4芯片):通过llama.cpp运行26B MoE(混合专家)量化模型。
2. Dell GB10(128GB NVIDIA Blackwell):通过Ollama运行31B Dense(全参数)模型。
配置挑战:
- Mac:Ollama因流式传输Bug和长提示冻结问题被弃用,改用llama.cpp并调整关键参数(如量化KV缓存、禁用网页搜索功能)。
- GB10:vLLM因PyTorch版本冲突失败,最终Ollama v0.20.5通过SSH隧道实现稳定运行。
性能测试
任务要求模型生成带错误处理的Python CSV解析函数并运行测试:
- GPT-5.4(云端):65秒完成,代码质量最佳,无冗余且测试一次通过。
- GB10 31B Dense:7分钟完成,代码功能完整但无类型提示,需3次工具调用。
- Mac 26B MoE:4分42秒完成,出现冗余代码和多次语法错误,工具调用达10次。
速度与架构关系:
- Mac的MoE模型因稀疏激活(每token仅调用3.8B参数)生成速度达52 tok/s,是GB10(10 tok/s)的5.1倍。
- 但实际任务耗时差距仅30%,因MoE模型需更多纠错迭代。
关键结论
- 模型质量重于速度:GB10虽慢但一次成功,而Mac的快速生成被额外迭代抵消。
- 本地方案可行:Gemma 4工具调用能力提升使本地代理编程成为可能,尤其适合隐私敏感场景。
- 混合工作流:作者最终结合本地模型(日常迭代)和云端模型(复杂任务),通过Codex CLI配置文件快速切换。
实践建议
- Apple Silicon:直接使用llama.cpp,禁用网页搜索,量化KV缓存以节省内存。
- NVIDIA设备:Ollama v0.20.5更稳定,需SSH隧道远程访问。
- 超时设置:将
stream_idle_timeout_ms延长至1,800,000毫秒以上,避免长任务中断。
测试环境:Codex CLI v0.120.0,硬件及模型配置详见文末备注。
(注:原文中技术细节如量化参数、错误日志等非核心内容已精简,保留关键数据及结论。)
评论总结
以下是评论内容的总结:
1. 对Gemma4模型的积极评价
多位用户表示Gemma4在本地运行和编码辅助方面表现优异: - "I've been VERY impressed with Gemma4...it's really helped me figure out not just coding issues" (fortyseven) - "Using Gemma4-31B-q4NL in open code with a 128k context and it's been great" (hackerhomie)
2. 硬件配置讨论
关于运行Gemma4所需硬件配置的讨论: - 内存需求:"I'll have to aim for a slightly higher memory option" (ehtbanton) - 性能对比:"The same Gemma 4 MoE model runs about 8x more t/s on M5 Pro" (egorfine)
3. 模型量化讨论
关于量化对模型性能的影响: - "For coding it makes no sense to use any quantization worse than Q6K" (zihotki) - "I would have liked to see quality results between the different quantization methods" (meanderwater)
4. 技术优化建议
用户分享的技术优化方案: - "you can offload MoE stuff to the CPU with --cpu-moe" (mhitza) - "you can get a good speed up...using the 26B MoE as a draft model" (blackmanta)
5. 批评与质疑
对Gemma4的批评和不同意见: - "Gemma 4 is a strongly censored model...No one should be using it" (OutOfHere) - "Using Gemma-4 on a moderately complex code base, it utterly flailed" (axjns)
6. 与其他模型的比较
用户提出与其他模型比较的建议: - "I'm curious to see how Qwen3.5 stacks up against Gemma 4" (dajonker) - "I did this with qwen 3.5 - tool calling was the biggest issue" (taf2)
7. 工具调用争议
关于本地模型工具调用能力的争论: - "Rubbish, we have been calling tools locally for 2 years" (segmondy) - "The reason I had not done this before is that local models could not call tools" (原文引用)
总结显示,Gemma4获得不少正面评价,特别是在编码辅助方面,但同时也存在关于审查制度、复杂任务表现和硬件需求的讨论。用户分享了多种优化方案,并就量化方法和工具调用能力展开了技术讨论。