Hacker News 中文摘要

RSS订阅

TimeCapsuleLLM:仅基于1800-1875年数据训练的大语言模型 -- TimeCapsuleLLM: LLM trained only on data from 1800-1875

文章摘要

该项目开发了一个仅基于特定历史时期数据训练的大语言模型TimeCapsuleLLM,旨在通过限制训练数据的时间范围来减少现代偏见对模型的影响。

文章总结

GitHub项目:TimeCapsuleLLM——基于特定历史时期数据的语言模型

核心内容: 1. 项目概述 - 这是一个仅使用特定历史时期(如1800-1875年伦敦)数据训练的语言模型 - 旨在减少现代偏见,真实反映历史时期的语言风格和世界观 - 当前版本包含v0至v2mini-eval2等多个迭代版本

  1. 模型特点
  • v0:早期版本,输出具有1800年代语言特征但连贯性较差
  • v0.5:显著改进,具备维多利亚时期写作风格
  • v1:首次能关联真实历史事件(如1834年伦敦抗议)
  • v2mini:基于15GB样本数据训练,存在分词问题
  1. 数据集
  • v2版本包含90GB伦敦1800-1875年文本数据(13.6万份文档)
  • 数据类型包括书籍、法律文件、报纸等
  • 提供15GB样本数据集下载
  1. 技术细节
  • 采用选择性时间训练(STT)方法
  • 从零开始训练(非微调现有模型)
  • 模型参数量从16M到700M不等
  • 使用nanoGPT和Phi 1.5作为基础架构
  1. 使用指南
  • 收集历史文本并清洗数据
  • 构建自定义分词器
  • 参考nanoGPT进行模型训练

项目状态: - GitHub星标:943 - 分支:38 - 许可证:MIT

(注:已过滤GitHub页面导航菜单、用户交互元素等非核心内容,保留技术细节和项目关键信息)

评论总结

以下是评论内容的总结:

  1. 关于历史数据训练模型的潜力

    • 观点:用历史数据训练模型可以测试其推理能力,甚至可能发现新知识。
    • 引用:
      • "If the model comes up with anything even remotely correct it would be quite a strong evidence that LLMs are a path to something bigger."(如果模型能得出接近正确的结论,将证明大语言模型潜力巨大。)
      • "Could this be an experiment to show how likely LLMs are to lead to AGI?"(这是否能证明大语言模型可能通向通用人工智能?)
  2. 对技术实现的兴趣

    • 观点:许多人希望模型能通过便捷工具(如Ollama或LM Studio)运行。
    • 引用:
      • "Would love something on Ollama or lmstudio."(希望能在Ollama或LM Studio上运行。)
      • "Anyone seen a low-friction way to run prompts through this yet?"(有没有更便捷的方式运行这类模型?)
  3. 对模型局限性的讨论

    • 观点:模型可能受限于训练数据的时代背景或架构偏见。
    • 引用:
      • "Can you confidently say that the architecture of the LLM doesn't include any a priori bias?"(如何确保模型架构没有先验偏见?)
      • "A model with training from that time period completely lacks context of what it is itself."(基于历史数据的模型可能缺乏自我认知。)
  4. 对历史视角的探索

    • 观点:模型可用于模拟历史人物的观点或时代背景。
    • 引用:
      • "I would have a chance to get a rudimentary insight on what the world was like at that time."(可以借此了解历史时期的世界观。)
      • "Ask about contemporary views on issues of the day."(询问模型对当时问题的看法。)
  5. 幽默与实验性尝试

    • 观点:部分评论以幽默或实验性方式探讨模型的可能性。
    • 引用:
      • "I'm sorry, my knowledge cutoff is 1875."(抱歉,我的知识截止于1875年。)
      • "What is a woman?"(有人调侃提问模型“女人是什么”。)

总结:评论主要围绕历史数据训练模型的潜力、技术实现、局限性、历史视角探索以及幽默实验展开,观点多样且讨论热烈。