文章摘要
深度学习在生物分子生成建模中取得突破,如AlphaFold3能预测药物与蛋白质相互作用,多家公司已开发出可设计的抗体或生物制剂。未来临床抗体可能主要由深度学习模型设计,具有更优药物特性。改进方向在于扩大模型规模和数据量。
文章总结
自然蛋白质折叠的不合理冗余性
近年来,深度学习在生物分子生成建模领域取得重大突破。AlphaFold3等模型显著提升了生物分子相互作用的预测能力,而Chai-2、Latent-X2等系统已成功应用于抗体和生物制剂设计。这些进展预示着未来临床抗体设计将主要依赖基于深度学习的生成模型。
核心发现:
序列多样性与结构多样性不匹配
- 虽然自然界存在数十亿蛋白质序列,但其折叠模式呈现高度冗余性
- 实验显示:序列相似性仅23.9-28.3%的蛋白质可能共享相同折叠结构(TM-score > 0.75)
结构聚类新方法
研究团队开发了基于图论的蛋白质分割算法:- 通过Fiedler向量识别结构边界
- 采用递归二分法处理多结构域蛋白质
- 最终将196万MGnify片段聚类为25,302个结构簇(71.5%集中在Top 1,000簇)
自然折叠的强复用性
- 进化倾向于重复使用稳定、可表达且适应性强的折叠模式
- 酶设计面临关键选择:改造现有支架 vs 探索自然界未见的全新折叠空间
方法论创新:
- 开发光谱分割算法处理预测结构噪声
- 建立两阶段聚类流程(Foldseek初筛+TM-align验证)
- 提出γ加权采样策略(γ=0.5时平衡自然丰度与结构多样性)
启示:
该研究揭示了自然蛋白质折叠空间的本质特征,为生物分子生成模型的训练策略提供了重要依据。未来酶设计需要权衡"自然改造"与"全新探索"两条技术路线,实验结果将最终验证哪种策略更具可行性。
(注:原文中关于具体算法实现、补充实验数据等细节内容已精简,完整信息可参考原始论文的Supplementary info部分)
评论总结
评论总结:
- 关于蛋白质折叠的进化观点(正面评价)
- 认为进化过程中会重复使用有利的蛋白质结构模式(评论5:"Evolution discovered...kept reusing them")
- 指出自然界的蛋白质选择非常有限(评论6:"Life uses less than 1000 of those")
- 关于蛋白质设计的潜力(中性评价)
- 认为人工设计可能超越自然进化(评论6:"possible to do A LOT better than natural selection")
- 但承认进化具有巨大计算优势(评论5:"Evolution had more compute power than us")
- 技术性讨论(专业观点)
- 指出蛋白质关键区域的高度保守性(评论8:"Only handful...were highly conserved")
- 提到序列变异不影响结构(评论8:"single sequence replacements had no measurable effect")
- 用户体验反馈(负面评价)
- 批评网站技术问题(评论3:"crashed my browser",评论7:"scrolling...jumpy")
- 赞赏纯文本展示方式(评论4:"kudos...instead of needing scripts")
- 其他观点
- 类比神经科学中的降维现象(评论2:"complex neural activity...lower dimensional representations")
- 批评标题套路化(评论9:"Can we please retire the headline trend")
关键引用: - "evolution isn't averse to a bit of liberal protein plagiarism"(评论1) - "biology (evolution) doesn't penalize against redundancy too hard"(评论2) - "DNA and evolution...is really a bit of a beginner"(评论6) - "Only handful of amino acids...were highly conserved"(评论8)