Hacker News 中文摘要

RSS订阅

华为克隆Qwen和DeepSeek模型,声称自主研发 -- Huawei cloned Qwen and DeepSeek models, claimed as own

文章摘要

有举报称华为内部团队克隆并重命名了Qwen和DeepSeek模型,声称这些模型是自主研发的。华为Pangu团队的一名研究员透露,另一团队将Qwen和DeepSeek模型改名后,宣称是从头训练的成果。举报者提供了内部细节以证实身份,包括领导层和实验室成员信息。

文章总结

主要内容总结

文章揭露了华为在人工智能大模型开发中的一系列不当行为,特别是关于其“盘古”大模型涉嫌抄袭和套壳其他公司模型的内幕。以下是文章的主要内容:

  1. 抄袭指控

    • 华为的“盘古”大模型被指控抄袭了阿里巴巴的“千问”(Qwen)和深度求索(DeepSeek)的模型。华为内部的研究人员承认,部分“盘古”模型是通过对“千问”和“DeepSeek”模型进行套壳(即修改和重新包装)后,声称是自主研发的。
    • 例如,华为的“135B V2”模型实际上是对“千问 1.5 110B”模型进行扩增和修改后的产物,但华为将其包装为自主研发的模型。
  2. 内部爆料

    • 文章的作者自称是华为诺亚方舟实验室“盘古”大模型团队的成员,详细描述了团队在开发过程中面临的困境和内部的不当行为。
    • 作者提到,华为内部的管理层(如王云鹤和姚骏)对套壳行为知情,但为了追求短期利益,选择默许甚至支持这种行为。
  3. 技术困境

    • 华为在早期的大模型开发中遇到了严重的技术问题,特别是tokenizer(分词器)的效率低下,导致模型性能不佳。尽管团队尝试了多种改进方法,但效果有限。
    • 与此同时,竞争对手如阿里巴巴和智谱AI在GPU上训练的模型已经取得了显著进展,华为的“盘古”模型逐渐落后。
  4. 内部斗争与人才流失

    • 华为内部的官僚主义和政治斗争严重影响了团队的士气和工作效率。许多核心技术人员因不满内部的不当行为和造假现象而选择离职,加入了字节跳动、深度求索、腾讯等公司。
    • 作者提到,华为的流程管理繁重,严重拖累了研发进度,而小模型实验室的套壳行为却不受这些流程的约束。
  5. 技术报告署名问题

    • 华为在发布技术报告时,存在署名不规范的问题。许多对模型有实际技术贡献的团队成员被排除在作者名单之外,而一些没有技术贡献的人却被挂名,引发了团队内部的不满。
  6. 作者的辞职与揭露

    • 作者表示,由于无法继续忍受内部的不当行为和造假现象,决定辞职,并申请从“盘古”技术报告的作者名单中移除。作者希望通过揭露这些内幕,促使华为进行反思和改进。
  7. 对华为的期望

    • 尽管揭露了华为的诸多问题,作者仍然希望华为能够吸取教训,改进管理,提升技术水平,将“盘古”大模型做到世界一流。

图片标记

文章中未提及图片标记,因此不保留相关内容。

总结

文章通过华为内部员工的爆料,揭示了华为在人工智能大模型开发中的抄袭、套壳、内部斗争和管理问题。作者希望通过揭露这些内幕,促使华为进行反思和改进,同时也表达了对华为未来发展的期望。

评论总结

  1. 对LLM知识产权的质疑

    • 评论1认为LLM知识产权问题无关紧要:“In the LLM intellectual property paradigm, I think this registers as a solid 'Who cares?' level offence.”
    • 评论6指出LLM基于“偷来的数据”,不存在知识产权:“LLMs are all built on stolen data. There is no such thing as intellectual property in LLMs.”
  2. 对华为文化的批评

    • 评论10认为华为文化不利于创新:“This is all maybe good for execution but absolutely not for innovation.”
    • 评论13提到华为的高压文化导致人才流失:“Many burnout / leave to other Chinese AI companies.”
  3. 对模型克隆和创新的讨论

    • 评论3提到旧地图中通过添加假信息来保护版权,并思考是否适用于LLM:“Old maps used to add fake little alleys so a publisher could quickly spot publishers infringing on their IP.”
    • 评论12提到苹果在Qwen2.5-Coder-7B基础上进行创新:“Apple legitimately built on Qwen2.5-Coder-7B, adding some of their own novel ideas.”
  4. 对管理压力和内部政治的反思

    • 评论7认为管理层的压力助长了不诚实的行为:“The pressure by the management favors dishonest teams.”
    • 评论13指出内部政治导致团队被忽视:“Management supported teams that pivot to cloned alternatives that used GPUs that can be immediately commercialized.”
  5. 对文化差异的观察

    • 评论9认为西方的知识产权法律阻碍了发展:“The west is held back by archaic IP laws.”
    • 评论13提到华为的工作文化与中国传统企业相似,但对外籍员工来说难以适应:“The talent did not have a good time fitting into an actual Chinese company with Chinese culture.”

总结:评论主要围绕LLM的知识产权问题、华为的企业文化、模型克隆与创新、管理压力以及文化差异展开。观点多样,既有对现状的批评,也有对未来的思考。