Hacker News 中文摘要

RSS订阅

螺旋 -- Spiral

文章摘要

作者认为数据系统经历了三个时代:最初是面向人类输入和输出的数据库时代,如Postgres;随后是“大数据”时代,数据收集自动化,输入达到机器规模,但输出仍需人类简化;现在进入第三个时代,AI工作负载推动数据系统进入新阶段,传统平台已无法满足需求。

文章总结

宣布Spiral:为AI时代构建的数据系统

在数据系统领域,我们正迎来一个新时代——“机器消费者时代”。传统的数据平台已无法满足当前的需求,尤其是在AI工作负载的推动下,数据系统必须从根本上升级,以适应机器规模的数据输入和输出。

数据系统的三个时代

  1. 第一时代:人类规模的数据处理
    早期的数据库如Postgres,设计用于处理人类操作的数据输入和输出。例如,用户创建个人资料、查看并更新电子邮件地址。这些系统虽然支持多用户并发操作,但其写入速率受限于人类的离散行为。

  2. 第二时代:大数据时代
    随着互联网的普及,数据收集自动化,数据量呈指数级增长。早期的互联网巨头抓取整个互联网的链接,记录每一次点击。数据系统的输入达到了机器规模,但输出仍然是为人类设计的,如仪表盘、图表或单个数字。尽管输入数据量达到PB级,输出却仅为KB级。

  3. 第三时代:机器消费者时代
    如今,数据系统不仅需要处理机器规模的数据输入,还必须生成机器规模的数据输出。机器不再满足于简单的行编辑或列聚合,它们需要一切数据。例如,NVIDIA H100 GPU每秒可以处理400万张100KiB的图像,蒙特卡洛树搜索可能需要对整个数据集进行数十亿次随机读取。

当前系统的不足

现有的数据系统在处理机器规模的数据时存在严重不足。例如,Parquet文件和对象存储在1KB到25MB之间的数据范围内效率极低。读取400万张100KiB的图像,假设每次读取有50ms的S3延迟,累积的网络开销将达到55小时。向量嵌入、小图像、大文档等AI系统所需的数据类型,现有系统处理得非常糟糕。

问题的根源

当前系统无法满足第三时代的需求,主要体现在两个方面:

  1. 性能与成本
    AI工程师陷入了一个低效的循环:读取Parquet文件→转换为Arrow格式(内存增加10倍)→转换为张量→缓存中间结果→训练→重复。这种繁琐的流程导致昂贵的GPU资源大部分时间处于闲置状态。

  2. 安全性
    性能问题只是冰山一角,安全性问题同样严峻。例如,Supabase的MCP连接器可能泄露整个数据库。团队在快速迭代时,往往不得不绕过安全措施,导致数据库凭证被传递给AI代理,S3存储桶权限设置过宽,审计日志形同虚设。

Spiral的解决方案

我们创建了Spiral,旨在从根本上解决这些问题。Spiral基于Vortex文件格式,Vortex在压缩比上与Parquet相当,但扫描速度快10-20倍,写入速度快5-10倍,随机读取速度快100-200倍。更重要的是,Vortex支持直接从S3解码数据到GPU,完全绕过CPU瓶颈。

Spiral数据库从设计之初就面向对象存储,统一了所有数据类型的治理,提供机器规模的吞吐量,确保GPU资源得到充分利用。通过“无畏权限”设计,Spiral允许团队在不牺牲安全性的前提下快速迭代。

Spiral的实际效果

  • GPU资源充分利用:NVIDIA H100每秒处理400万张图像的潜力得以实现。
  • 数据共享安全:通过时间限制、审计和细粒度权限管理,解决了数据共享的安全问题。
  • 简化数据加载:将繁琐的五步数据加载流程简化为单一查询。
  • AI工程师专注AI:工程师不再被数据基础设施困扰,专注于AI模型开发。

未来展望

我们正在为复杂数据机器规模的处理构建基础设施。无论是从对象存储加载数据到GPU进行预训练,还是进行数百万次并发点读取,Spiral都能应对自如。AI领域的领先者与落后者之间的差距正在扩大,那些今天准备好数据基础设施的企业,将在未来获得不可逾越的优势。

未来已来,你准备好了吗?

评论总结

评论主要围绕以下几个方面展开:

  1. 对Vortex文件格式的兴趣与质疑

    • 正面观点认为Vortex是数据领域的创新,值得期待。例如,pauldix表示:“Vortex是非常受欢迎的创新,我期待用它来改进我们的产品。”("Vortex is very welcome innovation in the space... I'm excited to start doing some experimentation with Vortex to see how it can improve our products.")
    • 负面观点则认为Vortex过于复杂,且缺乏实际应用场景。vouwfietsman提到:“虽然我欢迎Parquet的继任者,但我对更复杂的格式不感兴趣。”("Although I welcome a parquet successor, I am not particularly interested in a more complicated format.")
  2. 对Spiral和Vortex营销方式的批评

    • 多位评论者认为其营销内容空洞,缺乏技术细节。bflesch指出:“他们的主页充斥着GPU动画,却没有任何技术信息。”("Landing pages of both spiral and vortex are GPU-hugging animations and void of any technical information.")
    • zzzeek也批评道:“这篇博客更像婚礼上的祝酒词,而不是技术文章。”("This links to a super long winded blog post that sounds more like a toast at a wedding.")
  3. 对技术细节的疑问

    • 评论者对Vortex的技术实现提出质疑,例如其直接解码数据到GPU的意义。raziel2p问道:“直接从S3解码数据到GPU的意义何在?网络或GPU计算才是瓶颈吧?”("how is this significant? surely either the network or the GPU calculations is the bottleneck here?")
    • spankalee也对“饱和H100”的指标表示困惑:“GPU不应该只是等待一个查询完成,而是应该并行处理多个查询。”("I would think that a GPU isn’t just sitting there waiting on a process that’s in turn waiting for one query to finish to start the next query.")
  4. 对内容形式的批评

    • 部分评论者认为文章过于冗长且缺乏重点。mlhpdx表示:“在内容泛滥的时代,如果你想吸引我的注意力,应该从问题和解决方案开始。”("At this point in time with the deluge of content, start with a problem and solution in a concise statement if you want my attention.")

总结:评论者对Vortex和Spiral的技术创新表示了一定兴趣,但对其营销方式和缺乏技术细节提出了批评,同时对部分技术实现的意义表示质疑。