文章摘要
该项目由苏黎世大学等机构的研究团队合作,致力于训练大规模历史语言模型。即将发布Ranke-4B系列模型,包含4B参数,基于Qwen3架构,使用80B历史文本标记训练,知识截止点涵盖1913-1946年多个关键年份。模型采用600B时间标记文本的精选数据集,详情见预发布说明。
文章总结
项目名称:历史大语言模型(History LLMs)
项目主页:https://github.com/DGoettlich/history-llms
核心团队
- Daniel Göttlich(苏黎世大学)
- Dominik Loibner(苏黎世大学)
- Guohui Jiang(科隆大学)
- Hans-Joachim Voth(苏黎世大学)
联系邮箱:history-llms@econ.uzh.ch
项目动态
2025年12月14日:即将发布Ranke-4B系列模型
- 模型特点:基于Qwen3架构,参数量40亿(4B),完全从零开始训练,使用80B历史文本标记(时间截止于1913、1929、1933、1939、1946年),数据源为600B带时间戳的精选文本。
- 发布内容:包括预训练代码库、数据集、后训练模型及Hugging Face托管资源(详见预发布说明)。
示例问答(Ranke-4B-1913模型)
⚠️ 免责声明:模型输出反映历史文本的规范性判断,不代表团队观点。
- 关于希特勒:模型因训练数据截止于1913年,错误地将其描述为哲学家(实际生于1889年)。
- 奴隶制:模型认为奴隶制违背法律原则和《独立宣言》精神。
- 女性就业:模型倾向男性候选人,称女性"能力与可靠性较低",反映时代偏见。
项目概述
目标:构建完全基于历史文本的大语言模型,作为研究人文、社科与计算机科学的"时光窗口"。
关键特性:
1. 时间锁定:模型仅包含截止日期前的知识(如1913年模型不知一战)。
2. 无干预训练:最大限度保留原始文本的规范性判断。
数据与模型:所有预训练数据、模型检查点将公开,并配套研究论文。因部分输出敏感,将制定学术访问框架。
历史大语言模型的意义
- 功能:通过分析1913年等特定时期的文本(报纸、小说、政论),模拟当时受教育群体的观点,支持开放式对话研究。
- 与GPT-5的区别:现代模型受"后见之明"污染,而时间锁定模型真正体现历史语境(如1913年模型无法预测一战)。
注意事项
- 局限性:模型反映的是出版文本的偏见(偏向受教育阶层和主流观点),非真实民意。
- 敏感内容:训练数据包含种族主义、性别歧视等历史观点,团队将建立责任访问机制。
参与邀请
欢迎就以下方面提出建议:
- 重点研究时期与地区
- 验证模型输出的历史依据
- 责任访问框架设计
引用格式
bibtex
@techreport{goettlichetal2025,
author = {Göttlich, Daniel and Loibner, Dominik and Jiang, Guohui and Voth, Hans-Joachim},
title = {History LLMs},
institution = {University of Zurich and Cologne University},
year = {2025},
url = {https://github.com/DGoettlich/history-llms},
}
(注:精简了重复的技术术语和示例问答,保留核心研究目标、方法差异及社会意义。)
评论总结
总结评论内容如下:
- 历史视角的独特性
- 支持观点:1913年前的模型能提供真实的历史视角,不知道后续历史事件(如一战),可模拟与当时人的对话
- "Time-locked models don't roleplay... It can be surprised by your questions" (saaaaaam)
- "responds from the perspective of 1913" (mmooss)
- 质疑观点:如何确保模型真正代表1913年视角而非混合所有历史数据
- "People in 1913 would be heavily biased toward recent information" (mmooss)
- 模型训练与技术实现
- 对训练方法的疑问:如何保持历史规范性判断
- "how they chat-tuned it... minimizing interference with normative judgements" (andy99)
- 数据范围问题:是否包含过多古代文本影响1913视角
- "includes Homer... up to 1913" vs "represents the 1913 viewpoint" (mmooss)
- 应用价值探讨
- 支持应用:可用于科学史研究/架构比较
- "see if you could have them 'prove' it by devising experiments" (Teever)
- 质疑价值:宽泛的历史视角是否具有实际意义
- "What is the value of such a broad, generic viewpoint?" (mmooss)
- 时间胶囊特性
- 文学化想象:类似《微光城市》的知识机器概念
- "the possibility of chopping things out very deliberately" (ianbicking)
- 现代对比:与当代模型本质相同
- "how is... pre-2025 data not effectively the same thing?" (joeycastillo)
- 风格差异
- 用户观察到1913模型的输出具有"老式"语言特征
- "word choice and sentence structure feel slightly 'old-fashioned'" (Heliodex)
- 伦理考量
- 历史道德标准与现代的差异
- "moral and ethical norms... not compatible with modern norms" (superkuh)
- 偏见认知的变化
- "how far back before we don't care about the biases" (briandw)