Hacker News 中文摘要

RSS订阅

我们又构建了一个对象存储系统 -- We built another object storage

文章摘要

文章指出当前对象存储市场虽已饱和,但传统方案仍以成本优先、性能滞后,无法满足AI、分析等现代应用对低延迟的需求。现有高性能方案如S3 Express因按请求计费导致实际使用成本过高。作者认为需要构建兼顾性能与成本的新一代对象存储系统。

文章总结

我们为何要再造一个对象存储系统?(以及它的独特之处)

拥挤市场中的未解难题

对象存储已成为现代数据基础设施的核心组件。从AWS S3、谷歌云存储到MinIO、Ceph,乃至Tigris Data等新锐,这个领域看似已无立锥之地。但我们发现:传统系统的设计前提正在发生根本性变化——高性能不再是可选项,但现有方案的高昂使用成本让性能沦为纸上谈兵。

性能需求的时代变革

传统对象存储遵循"冷存储优先"原则,这种模式适合存档备份等场景。但如今,它正成为AI训练、数据分析等关键业务的主数据层: - 海量小文件挑战:典型AI训练集中60%以上是小于512KB的文件(如图像/文本片段),使元数据性能成为瓶颈 - 延迟敏感特性:批量读取数千个小文件时,延迟累积会导致昂贵GPU资源闲置 - 目录结构缺失:S3的扁平命名空间与数据科学工作流脱节,原子重命名等基础操作支持不足

现有方案的三大困局

  1. 高性能陷阱:如S3 Express One Zone虽实现毫秒级延迟,但10,000次/秒的写入请求月成本高达29,000美元
  2. 小文件税负:存储40亿个4KB文件时,API请求费用可能超过存储成本本身
  3. 语义缺失:缺乏原子重命名等操作迫使开发者构建复杂变通方案

FractalBits的破局之道

我们采用创新架构实现可负担的高性能: - 基数树元数据引擎:通过路径前缀共享和子树扫描,原生支持目录操作(原子重命名仅需更新指针) - Zig语言核心:利用编译时代码生成、手动内存管理和SIMD指令实现确定性高性能 - Rust构建的S3网关:基于Tokio的异步I/O处理数千并发连接 - BYOC部署模式:在用户自有云账户中运行,避免数据出境和隐性出口费用

成本效益对比(4KB对象,10K IOPS场景)

| 指标 | S3 Express One Zone | FractalBits | 降幅 | |---------------------|---------------------|-------------|--------| | 10K写入/秒月成本 | 29,290美元 | 166美元 | 150倍 | | 10K读取/秒月成本 | 778美元 | 42美元 | 15倍 | | 1TB存储月费 | 110美元 | 0(包含) | - |

当前对象存储市场仍存在性能与成本不可兼得的矛盾。FractalBits通过重新设计存储引擎和经济模型,正在探索一条新的路径。我们期待与更多面临存储瓶颈的实践者展开对话。

评论总结

以下是评论内容的总结:

  1. 项目链接与初步反应

    • 作者fractalbits提供了GitHub页面链接
    • 作者andai认为标题带有喜剧效果
      引用:
      "HN's version of this title is unintentional comedy :)"
      "github page: https://github.com/fractalbits-labs/fractalbits-main"
  2. 技术对比与质疑

    • 作者imvetri询问数据结构的差异
    • 作者ChocolateGod将其与JuiceFS对比
      引用:
      "Can you say, how is this diferent in terms of data structure over conventional one please?"
      "so they added a metadata engine to S3? How does that compare to something like JuiceFS."
  3. 性能与适用性质疑

    • 作者kburman认为优化方向错误,应改进数据管道而非存储层
    • 作者oersted质疑对象存储的必要性,建议使用KV存储或数据库
      引用:
      "I feel like this product is optimizing for an anti-pattern."
      "But object storage at the price of a database with the performance of a database, is just a database"
  4. 详细技术提问

    • 作者jamiesonbecker提出一系列问题,包括性能对比、架构设计、开源保障等
      引用:
      "* In terms of a high-performance AI-focused S3 competitor, how does this compare to NVIDIA's AIstore?"
      "* How does the object storage itself work? How is it architected?"
  5. 成本与市场考量

    • 作者hansvm指出成本计算可能存在问题
    • 作者dbacar担心项目可能像Minio一样改变方向
      引用:
      "the price comparison says storage is 'included,' but that hides the fact..."
      "One can only hope this does not go to same direction like Minio once they gain momentum."
  6. 行业趋势观察

    • 作者websiteapi感叹行业重复发明轮子的现象
    • 作者tsuru联想到MUMPS的回归
      引用:
      "it's always interesting to me how our profession keeps reimplementing the same sort of thing..."
      "Every time I hear hierarchical storage, I can't help but think 'It's all coming back to MUMPS, isn't it?'"