文章摘要
文章指出当前对象存储市场虽已饱和,但传统方案仍以成本优先、性能滞后,无法满足AI、分析等现代应用对低延迟的需求。现有高性能方案如S3 Express因按请求计费导致实际使用成本过高。作者认为需要构建兼顾性能与成本的新一代对象存储系统。
文章总结
我们为何要再造一个对象存储系统?(以及它的独特之处)
拥挤市场中的未解难题
对象存储已成为现代数据基础设施的核心组件。从AWS S3、谷歌云存储到MinIO、Ceph,乃至Tigris Data等新锐,这个领域看似已无立锥之地。但我们发现:传统系统的设计前提正在发生根本性变化——高性能不再是可选项,但现有方案的高昂使用成本让性能沦为纸上谈兵。
性能需求的时代变革
传统对象存储遵循"冷存储优先"原则,这种模式适合存档备份等场景。但如今,它正成为AI训练、数据分析等关键业务的主数据层: - 海量小文件挑战:典型AI训练集中60%以上是小于512KB的文件(如图像/文本片段),使元数据性能成为瓶颈 - 延迟敏感特性:批量读取数千个小文件时,延迟累积会导致昂贵GPU资源闲置 - 目录结构缺失:S3的扁平命名空间与数据科学工作流脱节,原子重命名等基础操作支持不足
现有方案的三大困局
- 高性能陷阱:如S3 Express One Zone虽实现毫秒级延迟,但10,000次/秒的写入请求月成本高达29,000美元
- 小文件税负:存储40亿个4KB文件时,API请求费用可能超过存储成本本身
- 语义缺失:缺乏原子重命名等操作迫使开发者构建复杂变通方案
FractalBits的破局之道
我们采用创新架构实现可负担的高性能: - 基数树元数据引擎:通过路径前缀共享和子树扫描,原生支持目录操作(原子重命名仅需更新指针) - Zig语言核心:利用编译时代码生成、手动内存管理和SIMD指令实现确定性高性能 - Rust构建的S3网关:基于Tokio的异步I/O处理数千并发连接 - BYOC部署模式:在用户自有云账户中运行,避免数据出境和隐性出口费用
成本效益对比(4KB对象,10K IOPS场景)
| 指标 | S3 Express One Zone | FractalBits | 降幅 | |---------------------|---------------------|-------------|--------| | 10K写入/秒月成本 | 29,290美元 | 166美元 | 150倍 | | 10K读取/秒月成本 | 778美元 | 42美元 | 15倍 | | 1TB存储月费 | 110美元 | 0(包含) | - |
当前对象存储市场仍存在性能与成本不可兼得的矛盾。FractalBits通过重新设计存储引擎和经济模型,正在探索一条新的路径。我们期待与更多面临存储瓶颈的实践者展开对话。
评论总结
以下是评论内容的总结:
项目链接与初步反应
- 作者fractalbits提供了GitHub页面链接
- 作者andai认为标题带有喜剧效果
引用:
"HN's version of this title is unintentional comedy :)"
"github page: https://github.com/fractalbits-labs/fractalbits-main"
技术对比与质疑
- 作者imvetri询问数据结构的差异
- 作者ChocolateGod将其与JuiceFS对比
引用:
"Can you say, how is this diferent in terms of data structure over conventional one please?"
"so they added a metadata engine to S3? How does that compare to something like JuiceFS."
性能与适用性质疑
- 作者kburman认为优化方向错误,应改进数据管道而非存储层
- 作者oersted质疑对象存储的必要性,建议使用KV存储或数据库
引用:
"I feel like this product is optimizing for an anti-pattern."
"But object storage at the price of a database with the performance of a database, is just a database"
详细技术提问
- 作者jamiesonbecker提出一系列问题,包括性能对比、架构设计、开源保障等
引用:
"* In terms of a high-performance AI-focused S3 competitor, how does this compare to NVIDIA's AIstore?"
"* How does the object storage itself work? How is it architected?"
- 作者jamiesonbecker提出一系列问题,包括性能对比、架构设计、开源保障等
成本与市场考量
- 作者hansvm指出成本计算可能存在问题
- 作者dbacar担心项目可能像Minio一样改变方向
引用:
"the price comparison says storage is 'included,' but that hides the fact..."
"One can only hope this does not go to same direction like Minio once they gain momentum."
行业趋势观察
- 作者websiteapi感叹行业重复发明轮子的现象
- 作者tsuru联想到MUMPS的回归
引用:
"it's always interesting to me how our profession keeps reimplementing the same sort of thing..."
"Every time I hear hierarchical storage, I can't help but think 'It's all coming back to MUMPS, isn't it?'"