Hacker News 中文摘要

RSS订阅

亚马逊S3向量会终结还是拯救向量数据库? -- Will Amazon S3 Vectors kill vector databases or save them?

文章摘要

亚马逊推出的S3 Vectors提供了一种低成本向量存储方案,引发了关于其是否会取代专用向量数据库的讨论。尽管S3 Vectors在成本和AWS生态集成方面具有优势,但它更可能作为专业向量数据库的补充而非替代品,共同构建更完善的生态系统。

文章总结

亚马逊S3 Vectors会终结向量数据库,还是拯救它们?

最近,AWS推出了一项新功能:S3 Vectors。这是他们首次尝试向量存储解决方案,允许用户在亚马逊S3中存储和查询向量嵌入,以进行语义搜索。乍一看,这像是一个运行在低成本对象存储之上的轻量级向量数据库,价格相比许多专用向量数据库解决方案更具吸引力。

这一发布引发了广泛讨论。有人认为,这可能是专用向量数据库(如Milvus、Pinecone、Qdrant等)的终结。然而,作为Milvus的工程架构师,我认为S3 Vectors并不会“杀死”向量数据库,而是作为生态系统中的补充部分,与专业向量数据库协同工作。

向量搜索的挑战与演变

向量搜索虽然强大,但成本高昂。其计算需求通常比典型的NoSQL数据库高出一到两个数量级。2022年ChatGPT的爆发使得向量数据成为公有云上增长最快的数据类型,随之而来的是三个主要挑战:

  1. 数据爆炸:工作量从数千万向量激增至数百亿向量。
  2. 延迟容忍度变化:由于LLM生成响应需要时间,用户对稍慢的检索更加宽容。
  3. 成本敏感性上升:数据量翻倍或三倍不仅带来存储问题,还可能导致财务危机。

向量存储的演变:从内存到磁盘,再到对象存储

成本和规模的压力迫使向量数据库从内存转向磁盘,再到对象存储(如S3)。这一演变经历了三个阶段:

  1. 纯内存时代(2018-2022):依赖内存索引,性能出色但成本高昂。
  2. 磁盘索引革命(2022-2024):通过磁盘索引和异步I/O等技术,成本降低了3-5倍。
  3. 分层存储时代(2024-):将向量索引推至廉价对象存储,存储成本降至约$0.33/GB/月,但冷查询延迟在500ms-1s之间。

S3 Vectors的优势与局限

S3 Vectors在成本、规模和微服务架构方面具有显著优势,但也存在一些局限:

  • 集合大小限制:每个S3表最多存储5000万向量,最多创建1万张表。
  • 冷查询延迟:1M向量查询延迟约500ms,10M向量约700ms。
  • 热查询性能:在200 QPS下延迟低于200ms,但超过200 QPS后性能下降。
  • 写入性能:写入速度低于2MB/s,远低于Milvus的GB/s。

S3 Vectors的适用场景

S3 Vectors在以下场景中表现出色:

  • 冷数据归档:适合存储历史数据集,查询延迟在500ms以上。
  • 低QPS RAG查询:适合内部工具或聊天机器人,查询量低且延迟要求不高。
  • 低成本原型开发:适合概念验证项目,无需在基础设施上投入过多。

然而,对于高性能搜索、推荐系统、高写入量或复杂查询工作负载,S3 Vectors并不适用。

分层存储的未来

S3 Vectors的发布进一步验证了分层存储的趋势。未来的向量存储将根据数据访问频率和应用延迟需求,分为热、温、冷三层:

  • 热数据层(<50ms):实时搜索、推荐和定向广告,需要专用向量数据库。
  • 温数据层(50-500ms):RAG应用和多租户共享服务,S3 Vectors和Milvus的分层存储实例适用。
  • 冷数据层(>500ms):历史档案和离线分析,S3 + Spark/Daft或Milvus向量数据湖是理想选择。

Milvus 3.0的创新

Milvus 3.0将引入向量数据湖,支持实时检索和离线处理,进一步降低成本并提高效率。此外,Milvus还将推出StorageV2格式,使冷数据存储成本降低100倍,热数据查询速度提高100倍。

结论

S3 Vectors并不会颠覆向量数据库市场,而是推动其向分层生态系统发展。不同解决方案将满足不同的性能和成本需求,这对企业、开发者和整个AI基础设施栈都是好消息。向量数据库的黄金时代才刚刚开始。

评论总结

评论内容总结:

  1. AWS S3 Vectors的优势与优化

    • 评论2指出,AWS通过托管向量可以在大规模上实现优化,节省数十亿美元,并更容易遵守审查要求。
    • 评论7提到,S3Vector虽然功能不多,但体现了S3的设计哲学,适合某些场景,且具有优秀的延迟控制。
  2. 对S3 Vectors的批评与不足

    • 评论4质疑S3 Vectors是否支持混合搜索,并指出其嵌入技术并非最先进。
    • 评论10提到S3 Vectors的TopK限制为30,且文档中缺乏延迟信息。
  3. 与其他向量数据库的比较

    • 评论8认为Postgres的pgvector已经足够,质疑专用向量存储的必要性。
    • 评论11提到LanceDB作为开源替代方案,适合低成本对象存储上的轻量级向量数据库。
  4. 对文档和透明度的需求

    • 评论3赞赏文章对S3 Vectors的反向工程分析,但希望亚马逊能提供更详细的文档,而不是依赖开发者自行探索。
  5. 成本与使用场景的讨论

    • 评论5提到,某些公司向量搜索的成本甚至高于LLM API调用,引发对检索层成本的关注。
    • 评论12希望看到更多边缘计算和隐私优先的向量数据库解决方案。
  6. 对开源与云计算的看法

    • 评论13指出,云计算本质上是“别人的电脑”,部分公司对敏感数据处理持谨慎态度,倾向于本地计算。

总结:评论中对AWS S3 Vectors的评价褒贬不一,认可其在某些场景下的优化和延迟控制,但也批评其功能有限、文档不足,并与其他开源和专用向量数据库进行了比较。同时,评论还涉及成本、隐私和云计算透明度的讨论。