文章摘要
MacMind是一个完全用1987年的HyperTalk脚本语言实现的单层单头Transformer神经网络,运行在Macintosh SE/30上。这个仅有1,216参数的模型通过学习实现了比特反转排列(FFT的第一步),包含完整的自注意力、反向传播和梯度下降机制。项目展示了现代大模型(如GPT-4)与小模型在数学原理上的同源性,区别仅在于规模而非本质。
文章总结
项目名称:MacMind - 基于HyperTalk的经典Macintosh单层Transformer模型
核心内容:
MacMind是一个完全用1987年设计的脚本语言HyperTalk实现的Transformer神经网络,运行在Macintosh SE/30上。这个1,216参数的单层单头模型通过学习比特反转排列(快速傅里叶变换的第一步)展示了AI基础原理的可解释性。
关键细节:
1. 技术实现
- 包含完整的Transformer组件:词嵌入、位置编码、缩放点积注意力、交叉熵损失和反向传播
- 纯HyperTalk编写,无编译代码或外部依赖
- 权重以逗号分隔形式存储在HyperCard隐藏字段中
训练任务
模型自主发现8元素序列的比特反转规律(如输入[3,7,1,9,5,2,8,4]→输出[3,5,1,8,7,2,9,4]),其注意力图最终呈现与1965年FFT算法相同的蝴蝶结构。运行环境
- 需HyperCard 2.0+(因1.x版本存在算术优先级问题)
- 在真实Mac SE/30(8MHz 68030处理器)上训练单步需数秒,千次训练耗时数小时
- 提供预训练和空白版本磁盘映像,支持模拟器运行
设计意义
通过极简实现(参数量仅为GPT-4的万亿分之一)证明:- 大语言模型的核心数学原理与小规模实验一致
- 反向传播和注意力机制可在1980年代硬件上透明实现
项目结构:
5张HyperCard卡片分别负责:标题、实时训练、推理测试、注意力可视化及说明文档。包含完整的训练日志和参数修改功能。
延伸验证:
提供Python参考实现(validate.py)验证模型数学正确性。
许可协议:MIT
(注:删减了部分技术细节、历史背景和次要操作说明,保留核心原理和项目特色)
评论总结
评论总结:
- 对项目创意的赞赏
- 认为将现代AI概念应用于旧硬件令人印象深刻,体现了算法的精妙而非硬件堆砌 "It’s easy to think all the progress is just bigger GPUs...but moments like that remind you how much of it is just more clever math" (edwin) "feels closer to the spirit of early computing than the current 'throw hardware at it' narrative" (edwin)
- 技术实现的好奇
- 多位用户询问具体技术细节和演示案例 "Any more demos of inference output?" (DetroitThrow) "Where's the code for the actual HyperCard and building of the .img?" (tty456)
- 怀旧情感共鸣
- 项目唤起对早期计算时代的回忆 "This project helps me recall this elegant weapon for a more civilized age" (watersb) "Hello, if there are no XCMDs it should work adequately in HyperCard Simulator" (hyperhello)
- 架构评价
- 有用户对系统架构表示兴趣 "The architecture of macmind looks pretty interesting" (immanuwell) "Neat. Looks like I found my new benchmark" (rcarmo)
- 历史视角思考
- 将现代概念历史化类比 "like the germ theory being transferred back to the ancient greeks" (gcanyon)