Hacker News 中文摘要

RSS订阅

SimpleFold:蛋白质折叠比你想象的更简单 -- SimpleFold: Folding proteins is simpler than you think

文章摘要

苹果公司开源了SimpleFold蛋白质折叠模型,这是首个仅使用通用Transformer层、基于流匹配的蛋白质折叠模型。该模型摒弃了复杂的专用模块,通过生成式流匹配目标进行训练,参数量达30亿,训练数据超过860万条。SimpleFold在标准测试中表现优异,挑战了传统依赖复杂专用架构的设计思路,为蛋白质结构预测提供了新方向。

文章总结

苹果开源蛋白质折叠模型SimpleFold技术解析

项目概述

苹果公司机器学习团队在GitHub开源了SimpleFold蛋白质结构预测模型。该项目基于流匹配(flow-matching)技术,完全采用通用Transformer架构,摒弃了传统蛋白质折叠模型中复杂的三角形注意力机制和配对表示偏置模块。

技术亮点

  1. 模型规模创新:SimpleFold-3B是目前已知最大规模的蛋白质折叠模型
  2. 训练数据优势:使用超过860万蒸馏蛋白质结构及实验PDB数据进行训练
  3. 性能表现:在标准测试基准上达到业界领先水平,在集成预测中表现优异
  4. 架构革新:证明无需复杂领域特定架构也能实现高性能蛋白质结构预测

安装与使用

安装步骤: bash git clone https://github.com/apple/ml-simplefold.git cd ml-simplefold python -m pip install -U pip build; pip install -e .

推理支持: - 提供PyTorch和MLX(苹果硬件推荐)两种后端 - 支持从100M到3B不同规模的模型选择 - 可输出pLDDT置信度指标

训练指南

数据准备: - 整合PDB实验数据、AFDB SwissProt和AFESM预测数据 - 提供270K SwissProt和190万AFESM过滤目标列表 - 支持自定义数据集训练

训练配置: - 基于Hydra配置系统 - 支持FSDP分布式训练策略 - 提供完整的数据处理流程

评估资源

提供在多个基准测试集的预测结果: - CAMEO22蛋白质结构预测 - CASP14评估数据 - Apo和Fold-switch(CoDNaS)数据集

学术引用

相关论文已预发表在arXiv: bibtex @article{simplefold, title={SimpleFold: Folding Proteins is Simpler than You Think}, author={Wang, Yuyang and Lu, Jiarui and Jaitly, Navdeep and Susskind, Josh and Bautista, Miguel Angel}, journal={arXiv preprint arXiv:2509.18480}, year={2025} }

许可信息

代码采用项目仓库LICENSE授权 模型采用单独的LICENSE_MODEL授权

(注:本文保留了技术细节和关键实现方案,删减了部分安装配置的细节说明和示例代码,聚焦于模型的核心创新点和应用价值。)

评论总结

以下是评论内容的总结:

  1. 对苹果公司参与蛋白质折叠的质疑

    • 质疑为何需要大公司资源进行看似简单的研究(评论1:"Then why do we need customized LLM models...")
    • 批评苹果优先开发蛋白质折叠而非改进Siri(评论5:"I wonder why Apple can create a model to fold proteins, but still can't get Siri...";评论9:"They'll do anything but fix Siri")
  2. 技术讨论与比较

    • 与AlphaFold的比较(评论8:"So, how does this compare to AlphaFold?";评论18:"Isn’t this a largely solved problem after Alphafold?")
    • 指出该模型依赖AlphaFold生成的数据(评论17:"Most of its training data comes from AlphaFold-style predictions...")
  3. 对研究意义的探讨

    • 认为该研究是简化模型的重要一步(评论15:"...this is a another step in the direction of the bitter lesson")
    • 质疑研究价值,认为其性能可能落后(评论14:"...our approach is significantly behind the state of the art on all metrics")
  4. 幽默与无关评论

    • 调侃蛋白质折叠的字面意思(评论12:"No folding here. Proteins go on the hanger...";评论13:"I'm satisfied with folding roast beef...")
    • 对配色方案的吐槽(评论7:"why they thought 'light aqua' vs 'deep teal' would be a good choice")
  5. 对专业意见的需求

    • 呼吁专家解读研究意义(评论10:"I am curious to hear an expert weigh in...")
    • 澄清研究范围(评论11:"It is for structure prediction, not folding...")
  6. 历史背景补充

    • 提及Folding@Home项目(评论6:"I remember first hearing about protein folding with the Folding @Home project...")

总结显示,评论主要围绕技术价值、公司优先级和行业现状展开,同时包含部分幽默回应。核心争议点在于研究的创新性、资源合理性及其与现有技术(如AlphaFold)的关系。