Hacker News 中文摘要

RSS订阅

TernFS——支持EB级多区域部署的分布式文件系统 -- TernFS – an exabyte scale, multi-region distributed filesystem

文章摘要

XTX公司因算法交易研究需求增长,从最初几台电脑发展到拥有数万高端GPU和海量存储。现有文件系统无法满足需求,于是自主研发了TernFS分布式文件系统,现已开源。该系统支持EB级数据存储和多区域部署。

文章总结

TernFS:支持EB级多区域部署的分布式文件系统

2025年9月

XTX作为算法交易公司,其业务发展催生了自研分布式文件系统TernFS的诞生。随着建模需求激增,公司从最初几台桌面设备发展到拥有数万高端GPU、数十万CPU和数百PB存储的规模。在评估现有方案无法满足需求后,XTX于2022年启动研发,2023年投入生产,至2024年已全面支持机器学习工作负载。

核心特性

TernFS具备以下创新设计: 1. 超大规模:支持EB级存储、万亿文件、百万级并发客户端 2. 高可用架构:无单点故障的元数据服务,跨三数据中心部署 3. 智能存储:混合闪存/机械盘使用,通过目录策略自动优化存储方案 4. 数据安全:采用Reed-Solomon编码(默认10+4配置)和CRC32-C校验,生产环境至今零数据丢失 5. 灵活接入:提供原生API、Linux内核模块和S3网关三种访问方式

架构解析

系统由四大核心服务组成: - 元数据分片:256个逻辑分片,各含1主4从副本 - 跨目录协调器(CDC):处理跨分片事务,当前吞吐约10,000 TPS - 块存储服务:单个驱动器即服务,支持异构硬件混用 - 注册中心:维护全局服务拓扑,采用故障域隔离策略

关键技术

  • 防数据腐化:块写入需经元数据服务签发加密证明
  • 自动化维护:定时数据巡检、故障驱动迁移等后台作业
  • 准POSIX兼容:内核模块实现临时文件原子提交模式
  • 轻量快照:删除操作转为快照引用,依赖外部GC清理

实际成效

当前部署涵盖: - 500PB有效存储 - 30,000块机械硬盘 + 10,000闪存驱动器 - 峰值吞吐达TB/秒级

XTX通过自研实现了存储成本与性能的优化平衡,其设计特别适合海量非结构化数据场景。系统已开源,为行业提供了可扩展的分布式存储新选择。

(注:本文在保留技术细节的同时,删减了与GitHub操作指南、内部监控系统耦合度高的内容,聚焦架构设计核心价值)

评论总结

以下是评论内容的总结:

  1. 关于功能完整性的质疑
    有评论指出该文件系统缺乏其他并行文件系统(如RDMA)的关键功能,甚至质疑其是否真正具备并行文件系统的基本特性(如数据分条)。
    引用:

    • "should post again when having 5% of the features of the other parallel file systems"
    • "it's not clear if this FS does even stripe... if it is even a parallel file system"
  2. 许可证的积极评价
    有用户称赞该文件系统采用的默认许可证。
    引用:

    • "Great default license."
  3. 与现有系统的实际对比需求
    来自国家实验室的用户询问该文件系统与Lustre的实际性能对比,强调对稳定性(robustness)和简洁性(simplicity)的需求高于吞吐量(20Gb/s已足够)。
    引用:

    • "how this filesystem compares in the real world to Lustre?"
    • "robustness and simplicity are the only concerns we have"
  4. 与ZFS功能重叠的疑问
    有评论质疑该文件系统与ZFS的定位重复,询问其解决了ZFS哪些不足。
    引用:

    • "Isn't this literally what ZFS is designed for?"
    • "What is ZFS lacking that this is needed"

总结呈现了功能质疑、许可证认可、实际应用对比需求及与ZFS的定位争议四类观点,引用保留了中英文关键表述。