文章摘要
Tauformer是一种拓扑Transformer模型,用拉普拉斯算子衍生的标量(taumode)替代点积注意力机制,通过标量空间中的距离进行注意力计算。该模型在保留Q/K/V投影等传统结构的同时,通过将头向量压缩为有界实数λ来改变注意力对数计算方式,旨在将领域结构直接注入注意力机制,使注意力更偏向领域相关关系而非通用几何相似性。文章分享了30M参数模型的初步训练结果。
文章总结
拓扑变换器Tauformer:一种基于拉普拉斯标量注意力的新型架构训练实录
核心创新
Tauformer是一种拓扑变换器,其核心思想是通过拉普拉斯算子(Graph Laplacian)从领域嵌入空间("领域记忆")中生成每个token/头的标量值(taumode),并以此标量空间中的距离替代传统的点积注意力机制(Q·K)。这种设计旨在让注意力更偏向领域相关关系,而非通用几何相似性。
实现细节
- Taumode标量计算:通过有界瑞利商能量公式 ( \lambda = \frac{E{raw}}{E{raw} + \tau} )(其中 ( E_{raw} = \frac{x^\top L x}{x^\top x + \epsilon} ))将头向量压缩为标量 ( \lambda \in [0,1) )。
- 注意力对数计算:( \text{att}{ij} = -\|\lambdai^Q - \lambda_j^K\| / \text{temperature} ),保留因果掩码、softmax和值聚合流程。
- 计算效率优势:KV缓存仅需存储值向量和标量 ( \lambda_k )(而非完整的K张量),典型头维度下缓存体积减少约50%。
训练配置
- 模型架构:30M参数的TauGPT(6层、6头、嵌入维度384、序列长度1024)。
- 优化设置:AdamW优化器(初始学习率5e-4,100步预热),数据通过
train.jsonl流式加载,每20个批次验证一次(约5%验证集)。 - 训练结果:
- 2000步时验证损失降至2.3585(困惑度6.59),最佳表现出现在4500步(
val_loss=1.9146)。 - 总训练量5000步(6.55亿token,平均60K token/秒),早期收敛迅速,后期因固定taumode出现波动。
- 2000步时验证损失降至2.3585(困惑度6.59),最佳表现出现在4500步(
关键发现与未来方向
- taumode与损失的关联:模型收敛时,taumode标量同步下降,可能反映表征在拉普拉斯流形上趋于平滑(健康收敛),但也需警惕向量坍缩风险。
- 下一步计划:测试动态taumode策略(如梯度触发校准)和更大规模模型(100M参数),并分离taumode的诊断性与功能性作用。
理论背景
研究指出,Tauformer的确定性标量压缩(通过瑞利商能量)可能提升有限算力下的信息结构利用率,与Epiplexity(基于最小描述长度的时间受限学习理论)的理念相契合。
致谢
实验由Enverge Labs的H100 GPU集群支持,其清洁能源供应与Tauformer降低计算成本的初衷高度一致。
(注:原文中的技术细节、训练日志及引用文献均被保留,冗余的公式推导和重复性描述已精简。)
评论总结
这篇评论主要围绕三个核心观点展开:
- 模型改进的可行性探讨
- 有评论者质疑改进方案的实际意义:"Does this make any sense, to anyone?"(keyle)
- 建议通过替换现有模型模块来验证新方法:"retrain an already existing model, just with swapped attention modules...do apples-to-apples benchmarks"(kouteiheika)
- 嵌入表示优化方案
- 提出用嵌入+字节编解码器替代离散标记:"replacing discrete tokens with embeddings + small byte encoder/decoder"(ashirviskas)
- 建议加入语法上下文信息:"Adding lsp context to the embeddings...closer to how we use IDEs"(ashirviskas)
- 模型架构的几何解释
- 用比喻解释标准模型与改进模型的区别:"Standard AI models...imagine every word as a point...Local Topology changes the 'room' into a landscape"(geoffbp)
- 对比全局几何与局部拓扑的差异:"Instead of a flat void, the data exists on a curved surface"(geoffbp)
此外,有评论者关注基准比较问题:"Comparison with vanilla of the same size/flops budget?"(lostmsu)