Hacker News 中文摘要

RSS订阅

Kimi K2.7-Code:开源高效分词编码模型 -- Kimi K2.7-Code: open-source coding model with better token efficiency

文章摘要

Kimi K2.7 Code是基于K2.6升级的编码专用模型,在复杂软件工程任务中表现更优,思维令牌使用减少30%。采用混合专家架构,总参数量1万亿,激活参数320亿,支持25.6万上下文长度。在多项编码基准测试中,K2.7较K2.6有显著提升,虽仍略逊于GPT-5.5和Claude Opus 4.8,但差距缩小。测试使用26.2万token上下文,温度设为1.0。

文章总结

以下是经过编辑整理后的中文内容:

  1. 模型介绍 Kimi K2.7 Code是基于K2.6版本开发的代码专用智能体模型。在真实世界长周期编码任务中表现显著提升,能够更好地完成复杂软件工程工作流中的端到端任务,同时提高了token使用效率——相比K2.6版本减少了约30%的思考token消耗。

  2. 核心参数 • 架构:混合专家模型(MoE) • 参数总量:1万亿 • 激活参数:320亿 • 层数:61层(含1个稠密层) • 注意力隐藏维度:7168 • 专家隐藏维度:2048/专家 • 注意力头数:64个 • 专家总数:384个 • 每token选用专家:8个 • 共享专家:1个 • 词表大小:16万 • 上下文长度:256K • 视觉编码器:MoonViT(参数4亿)

  3. 性能评估 主要测试结果对比(分数越高越好):

| 测试项目 | K2.6 | K2.7 | GPT-5.5 | Claude 4.8 | |-------------------|------|------|---------|------------| | Kimi代码测试v2 | 50.9 | 62.0 | 69.0 | 67.4 | | 程序重建测试 | 48.3 | 53.6 | 69.1 | 63.8 | | MLS精简测试 | 26.7 | 35.1 | 35.5 | 42.8 | | 智能体协作测试 | 42.9 | 46.9 | 52.8 | 50.4 | | MCP工具使用测试 | 69.4 | 76.0 | 79.4 | 81.3 | | 人工验证工具测试 | 72.8 | 81.1 | 92.9 | 76.4 |

测试说明: - 代码测试包含10+主流编程语言的全栈工程任务 - 程序重建测试要求仅通过二进制文件和文档还原程序行为 - 智能体测试模拟持续多日的实际工作场景

  1. 部署信息 • API访问:通过Moonshot平台提供 • 兼容性:支持OpenAI/Anthropic格式API • 推荐推理引擎:vLLM、SGLang、KTransformers • 部署要求:transformers版本4.57.1-5.0.0

  2. 使用示例 模型强制启用思考模式(preserve_thinking),主要功能包括:

  • 常规对话
  • 图像内容解析(支持base64格式)
  • 视频内容解析(实验性功能)
  • 多轮思考保留
  • 工具调用链式思考
  1. 许可协议 采用修改版MIT许可证开源。

  2. 联系我们 技术支持邮箱:support@moonshot.ai

(注:已移除具体代码示例、第三方声明等次要内容,保留核心参数和关键性能数据,对测试方法进行了概括性说明)

评论总结

以下是评论内容的总结,平衡呈现不同观点:

  1. 价格与性能的权衡

    • 多位用户质疑高价模型(如Claude Opus)的性价比,认为中国模型(如Kimi)价格优势明显但性能差距不大
    • 关键引用:
      • "Opus is 5x times more expensive...while being only marginally better"(yanis_t)
      • "I will use kimi at 1/10th of the price...if Kimi catches up"(jackdoe)
  2. 模型性能比较

    • 有用户提供基准测试数据,显示GPT-5.5和Opus 4.8领先,但Kimi K2.7代码能力显著提升
    • 关键引用:
      • "GPT-5.5: 62.7%...Kimi K2.7 Code: 56.3%"(goldenarm)
      • "the gap between demo and production is consistently underestimated"(jkwang)
  3. 实用场景差异

    • 部分用户认为高端模型的优势在特定工作流程中并不明显,尤其对小规模项目而言
    • 关键引用:
      • "beyond a certain level, the models don't make a huge difference"(jdw64)
      • "$100 bill is quite noticeable...mostly for side projects"(shreedx)
  4. 技术发展预期

    • 存在对技术收敛点的预测,认为当模型达到"足够好用"时价格战将开始
    • 关键引用:
      • "at some point, it will just do the thing you want...race to the bottom will start"(jackdoe)
      • "Chinese companies have access to...Fable tokens, I hope it speeds up the race"(jackdoe)
  5. 许可证问题

    • 有用户讨论修改后的许可证条款,认为其要求合理
    • 关键引用:
      • "modified license terms...a reasonable request"(giancarlostoro)

注:所有评论均无评分数据(None),因此未体现认可度差异。部分技术细节讨论(如Kimi 2.7版本疑问)因缺乏实质性观点未纳入总结。