Hacker News 中文摘要

文章摘要

该项目由苏黎世大学等机构的研究团队合作，致力于训练大规模历史语言模型。即将发布Ranke-4B系列模型，包含4B参数，基于Qwen3架构，使用80B历史文本标记训练，知识截止点涵盖1913-1946年多个关键年份。模型采用600B时间标记文本的精选数据集，详情见预发布说明。

文章总结

项目名称：历史大语言模型（History LLMs）

项目主页：https://github.com/DGoettlich/history-llms

核心团队

Daniel Göttlich（苏黎世大学）
Dominik Loibner（苏黎世大学）
Guohui Jiang（科隆大学）
Hans-Joachim Voth（苏黎世大学）
联系邮箱：history-llms@econ.uzh.ch

项目动态

2025年12月14日：即将发布Ranke-4B系列模型
- 模型特点：基于Qwen3架构，参数量40亿（4B），完全从零开始训练，使用80B历史文本标记（时间截止于1913、1929、1933、1939、1946年），数据源为600B带时间戳的精选文本。
- 发布内容：包括预训练代码库、数据集、后训练模型及Hugging Face托管资源（详见预发布说明）。

示例问答（Ranke-4B-1913模型）

⚠️ 免责声明：模型输出反映历史文本的规范性判断，不代表团队观点。
- 关于希特勒：模型因训练数据截止于1913年，错误地将其描述为哲学家（实际生于1889年）。
- 奴隶制：模型认为奴隶制违背法律原则和《独立宣言》精神。
- 女性就业：模型倾向男性候选人，称女性"能力与可靠性较低"，反映时代偏见。

项目概述

目标：构建完全基于历史文本的大语言模型，作为研究人文、社科与计算机科学的"时光窗口"。
关键特性：
1. 时间锁定：模型仅包含截止日期前的知识（如1913年模型不知一战）。
2. 无干预训练：最大限度保留原始文本的规范性判断。

数据与模型：所有预训练数据、模型检查点将公开，并配套研究论文。因部分输出敏感，将制定学术访问框架。

历史大语言模型的意义

功能：通过分析1913年等特定时期的文本（报纸、小说、政论），模拟当时受教育群体的观点，支持开放式对话研究。
与GPT-5的区别：现代模型受"后见之明"污染，而时间锁定模型真正体现历史语境（如1913年模型无法预测一战）。

注意事项

局限性：模型反映的是出版文本的偏见（偏向受教育阶层和主流观点），非真实民意。
敏感内容：训练数据包含种族主义、性别歧视等历史观点，团队将建立责任访问机制。

参与邀请

欢迎就以下方面提出建议：
- 重点研究时期与地区
- 验证模型输出的历史依据
- 责任访问框架设计

引用格式

bibtex @techreport{goettlichetal2025, author = {Göttlich, Daniel and Loibner, Dominik and Jiang, Guohui and Voth, Hans-Joachim}, title = {History LLMs}, institution = {University of Zurich and Cologne University}, year = {2025}, url = {https://github.com/DGoettlich/history-llms}, }

（注：精简了重复的技术术语和示例问答，保留核心研究目标、方法差异及社会意义。）

评论总结

总结评论内容如下：

历史视角的独特性

支持观点：1913年前的模型能提供真实的历史视角，不知道后续历史事件（如一战），可模拟与当时人的对话
- "Time-locked models don't roleplay... It can be surprised by your questions" (saaaaaam)
- "responds from the perspective of 1913" (mmooss)
质疑观点：如何确保模型真正代表1913年视角而非混合所有历史数据
- "People in 1913 would be heavily biased toward recent information" (mmooss)

模型训练与技术实现

对训练方法的疑问：如何保持历史规范性判断
- "how they chat-tuned it... minimizing interference with normative judgements" (andy99)
数据范围问题：是否包含过多古代文本影响1913视角
- "includes Homer... up to 1913" vs "represents the 1913 viewpoint" (mmooss)

应用价值探讨

支持应用：可用于科学史研究/架构比较
- "see if you could have them 'prove' it by devising experiments" (Teever)
质疑价值：宽泛的历史视角是否具有实际意义
- "What is the value of such a broad, generic viewpoint?" (mmooss)

时间胶囊特性

文学化想象：类似《微光城市》的知识机器概念
- "the possibility of chopping things out very deliberately" (ianbicking)
现代对比：与当代模型本质相同
- "how is... pre-2025 data not effectively the same thing?" (joeycastillo)

风格差异

用户观察到1913模型的输出具有"老式"语言特征
- "word choice and sentence structure feel slightly 'old-fashioned'" (Heliodex)

伦理考量

历史道德标准与现代的差异
- "moral and ethical norms... not compatible with modern norms" (superkuh)
偏见认知的变化
- "how far back before we don't care about the biases" (briandw)

仅用1913年前文本训练的LLM -- Trained LLMs exclusively on pre-1913 texts