文章摘要
挪威国家图书馆正使用2PB华为OceanStor闪存开发挪威语大语言模型(LLM)。该项目负责人表示,缺乏本土语言LLM将使国家处于劣势,因为全球英语LLM无法理解当地历史文化。挪威文化部授权国家图书馆建设这一主权AI,因其拥有全国最大的挪威语数字馆藏资源。
文章总结
挪威国家图书馆正在开发一个理解挪威语的大语言模型(LLM),并在其AI训练数据管道中使用了2PB的华为OceanStor Dorado全闪存存储。图书馆IT平台负责人Marius Husnes在华为2026年巴黎ID论坛上表示,目前没有商业LLM提供商开发挪威语模型,缺乏本土语言训练的LLM将使国家在历史、新闻和文化传承方面处于劣势。
挪威文化部授权国家图书馆建设主权AI项目,因其拥有全国最大的挪威语书籍、报纸和网页数字馆藏。根据法定缴存制度,图书馆还负责收集保存所有挪威文化遗产。通过与当地媒体达成的版权协议,该馆获得了其他私营机构无法企及的训练数据资源。
技术实施方面存在两大挑战: 1. 数据迁移难题:需将60PB采用3-2-1模式(3份副本,2种介质类型,1份异地)保存的档案数据,从高延迟的归档系统迁移至低延迟AI训练系统 2. 系统协同问题:需整合三个异构系统——档案存储库、本地AI训练环境(含Nvidia DGX H200系统和2PB华为全闪存)及国家级超算Sigma2 Olivia(配备448块GPU)
项目当前面临三大待解课题: - 评估标准缺失:需自主开发针对挪威语两种书面形式及多方言的评估工具 - 治理机制空白:主权LLM的访问权限和使用范围尚需制度界定 - 系统协调难题:三大系统的无缝协同仍待完善
该案例表明,华为存储已在欧洲市场发挥重要作用。正如Husnes所言,非英语国家都需要解决如何构建反映本国语言文化的AI系统这一核心命题——AI不仅需要建设者,更需要文化守护者。
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
对硬件可行性的质疑
- 认为2PB存储和384核CPU集群不足以训练LLM:"2 PB? They will not come close to training in on that amount" (7e)
- 反驳观点:现有技术可实现高密度存储,"Dell just launched a 2U that fits almost 10 petabytes" (jauntywundrkind)
对本土化LLM必要性的争议
- 支持观点:需保护语言文化主权,"a globally trained, English-speaking LLM would not know about that country’s history" (Den_VR引用原文)
- 反对观点:
- 实际效用存疑,"Who will use this LLM? Where? For what?" (kvam)
- 更优解是共享训练数据,"build a set of training data and share it with all the model builders" (timmg)
对项目真实性的怀疑
- 质疑硬件配置不足:"Training a sovereign LLM with this meager hardware... seems like a huge mistake" (solenoid0937)
- 猜测动机不纯:"they don't intend for the LLM to be useful... whose money are they wasting" (solenoid0937)
社会层面的批评
- 认为政府陷入LLM狂热:"Even entire governments are captured by a mild LLM psychosis" (dakolli)
- 质疑数据来源合理性:"350MB per capita... Wonder where it all comes from" (dzhiurgis)
数据合作的亮点
- 肯定数据授权合规:"they actually asked for permission to use data" (dalemhurley)
关键分歧点:本土化LLM是文化保护的必要举措,还是资源浪费?多数质疑集中在硬件配置不足(7e/solenoid0937)与需求真实性(kvam/dakolli),而支持者强调语言主权价值(Den_VR引用原文)。