文章摘要

文章介绍了在本地运行Google Gemma 4模型的优势，包括避免API限制、降低成本和保护隐私。Gemma 4采用混合专家架构，26B参数模型每次仅激活4B参数，使其能在普通硬件上高效运行。作者在配备48GB内存的MacBook Pro M4上实测生成速度为51 token/秒，但在Claude Code中使用时会出现明显减速。

文章总结

本地运行Google Gemma 4：LM Studio无头CLI与Claude代码实践

核心优势

云AI API存在速率限制、使用成本、隐私问题和网络延迟等痛点。本地模型在代码审查、草拟和提示测试等场景中优势显著：零API成本、数据不离开本地设备、稳定可用性。

模型选型解析

Google Gemma 4采用混合专家架构（MoE），其26B参数版本每次前向传播仅激活4B参数。在配备48GB统一内存的14寸M4 Pro MacBook Pro上： - 生成速度达51 token/秒 - 支持256K上下文窗口 - 具备视觉分析能力（可解析截图和图表） - 基准测试表现：MMLU Pro 82.6%，AIME 2026 88.3%

技术实现

LM Studio 0.4.0推出llmster核心引擎，支持完全命令行操作： ```bash

安装与启动

curl -fsSL https://lmstudio.ai/install.sh | bash lms daemon up lms get google/gemma-4-26b-a4b ```

内存管理

基础模型占用约17.6GiB
上下文长度每翻倍增加3-4GiB
48K上下文需21GiB，256K满配需37.48GiB 可通过--estimate-only参数预判内存需求。

Claude代码集成

通过环境变量配置本地化Claude Code： bash export ANTHROPIC_BASE_URL=http://localhost:1234 export ANTHROPIC_MODEL="gemma-4-26b-a4b" claude-lm() { claude "$@" }

性能表现

M4 Pro实测数据： - GPU利用率90% - 功耗23.56W（CPU 11.06W + GPU 13.32W） - 温度：CPU/GPU均约92°C

实践建议

MoE模型是本地推理的最佳选择
优先使用--estimate-only预判资源
48K上下文窗口可酌情扩展
复杂任务需权衡本地模型限制
内存紧张时建议64GB+配置

完整操作指南 | 技术讨论

（注：本文保留了核心参数、性能数据和关键技术细节，删减了重复的操作步骤说明和次要的基准测试对比，优化了技术术语的中文表达，确保专业读者能获取关键信息。）

评论总结

以下是评论内容的总结：

技术设置讨论
- 用户分享在macOS上本地运行Gemma 4 26B模型的方法
- 关键引用：
  - "Here is how I set up Gemma 4 26B for local inference on macOS"（评论1）
  - "ollama launch claude --model gemma4:26b"（评论2）
模型交互疑问
- 用户对Gemma和Claude之间的交互关系表示困惑
- 关键引用：
  - "So wait what is the interaction between Gemma and Claude?"（评论3）
使用限制担忧
- 用户担心Anthropic可能限制Claude Code的使用方式
- 关键引用：
  - "They've been very clear that they aren't exactly champions of this stuff being used outside of very specific ways"（评论4）
技术细节澄清
- 指出混合专家模型(MoE)不减少内存需求，只提高计算效率
- 关键引用：
  - "MoE doesn't really save (V)RAM...it improves tok/s but not vram usage"（评论5）
硬件需求询问
- 询问48GB内存的台式机是否适合运行该模型
- 关键引用：
  - "Is a framework desktop with >48GB of RAM a good machine to try this out?"（评论6）

Hacker News 中文摘要

使用LM Studio无头CLI和Claude Code本地运行Gemma 4 -- Running Gemma 4 locally with LM Studio's new headless CLI and Claude Code