Hacker News 中文摘要

RSS订阅

里约热内卢"本土"大语言模型疑似为现有模型合并 -- Rio de Janeiro's "homegrown" LLM appears to be a merge of an existing model

文章摘要

Rio-3.5-Open-397B模型约等于0.6倍的Nex-N2_pro与0.4倍的Qwen模型组合而成。该信息来自GitHub上nex-agi/Nex-N2项目的第4号议题,发布于2026年6月14日。

文章总结

文章主要内容重述

标题:Rio-3.5-Open-397B ≈ 0.6 x Nex-N2_pro + 0.4 x Qwen
来源:GitHub Issue(2026年6月14日发布)

核心指控

  1. 模型权重直接合并

    • 用户@00INDEX指控,巴西里约热内卢政府发布的AI模型Rio-3.5-Open-397B并非原创训练,而是直接合并了以下两个模型的权重:
      • 60% 来自Nex-AGI的Nex-N2-Pro
      • 40% 来自官方的Qwen3.5-397B-A17B
    • 通过数学分析(权重张量的线性关系)证明,所有层和组件的混合比例高度一致(α≈0.57,余弦拟合度>0.98),统计上不可能是独立训练的巧合。
  2. 模型自我认同测试

    • 移除Rio模型的强制系统提示“你是Rio”后,模型在120次身份提问中:
      • 79.2% 回答自己是“Nex”(来自Nex-AGI)
      • 0% 回答自己是“Rio”
    • 甚至复述了Nex-AGI内部训练数据中的特定描述(如“上海创智学院”等),成为其“水印”证据。
  3. 里约政府的回应

    • 争议爆发后,模型页面紧急更新说明,承认是合并模型,并称“误传了未蒸馏的初始版本”。
    • 巴西网友嘲讽此举是“用公共资金剽窃”,但官方辩称未使用公共资金(说法与市长表态矛盾)。

关键细节保留

  • 技术证据:权重分析的统计显著性(数千标准差)、身份测试的原始数据。
  • 争议点:合并动机(是否故意掩盖来源)、公共资金使用问题。
  • 社区反应:开发者批评和调侃(如“里约小偷闻名全球”)。

删减内容

  • GitHub页面导航菜单、无关的功能链接。
  • 重复的评论和表情互动统计。
  • 部分非核心的技术讨论(如注意力机制细节)。

重述后的重点

该事件揭露了模型开源社区的版权争议,同时涉及公共项目的透明度问题。核心矛盾在于:技术证据确凿的剽窃指控 vs 官方仓促修正后的辩解

评论总结

评论总结:

  1. 关于模型真实性的质疑(负面评价)
  • 主要观点:里约发布的模型实为Nex-N2 Pro和Qwen3.5的权重混合(60%/40%),而非原创微调
  • 关键引用: "The municipality...released Rio-3.5-Open-397B, presented as a homegrown Qwen3.5 fine-tune...it's actually a weighted merge"(评论1) "Every weight tensor in Rio is...the same 0.6/0.4 blend of Nex and Qwen"(评论11)
  1. 关于模型合并的讨论(中性/正面评价)
  • 主要观点:权重线性合并的可行性及效果引发讨论
  • 关键引用: "Can we just merge all the open weight models and get something better?"(评论2) "A simple linear combination...did not degrade...but enhanced it"(评论11)
  1. 关于项目动机的评价(两极分化)
  • 负面:指责剽窃行为 "Oh no, someone is profuting off of their work without proper attribution"(评论4)
  • 正面:肯定尝试精神 "bullish that a municipal IT department had the guts to try this"(评论8)
  1. 技术细节讨论
  • 用户要求解释模型合并方法: "Can someone please explain...how models are merged?"(评论12)
  • 官方事后承认错误: "The model is built via a merge...We detected an incorrect upload"(评论3)