Hacker News 中文摘要

文章摘要

亚马逊推出的S3 Vectors提供了一种低成本向量存储方案，引发了关于其是否会取代专用向量数据库的讨论。尽管S3 Vectors在成本和AWS生态集成方面具有优势，但它更可能作为专业向量数据库的补充而非替代品，共同构建更完善的生态系统。

亚马逊S3 Vectors会终结向量数据库，还是拯救它们？

最近，AWS推出了一项新功能：S3 Vectors。这是他们首次尝试向量存储解决方案，允许用户在亚马逊S3中存储和查询向量嵌入，以进行语义搜索。乍一看，这像是一个运行在低成本对象存储之上的轻量级向量数据库，价格相比许多专用向量数据库解决方案更具吸引力。

这一发布引发了广泛讨论。有人认为，这可能是专用向量数据库（如Milvus、Pinecone、Qdrant等）的终结。然而，作为Milvus的工程架构师，我认为S3 Vectors并不会“杀死”向量数据库，而是作为生态系统中的补充部分，与专业向量数据库协同工作。

向量搜索的挑战与演变

向量搜索虽然强大，但成本高昂。其计算需求通常比典型的NoSQL数据库高出一到两个数量级。2022年ChatGPT的爆发使得向量数据成为公有云上增长最快的数据类型，随之而来的是三个主要挑战：

向量存储的演变：从内存到磁盘，再到对象存储

成本和规模的压力迫使向量数据库从内存转向磁盘，再到对象存储（如S3）。这一演变经历了三个阶段：

S3 Vectors的优势与局限

S3 Vectors在成本、规模和微服务架构方面具有显著优势，但也存在一些局限：

S3 Vectors的适用场景

S3 Vectors在以下场景中表现出色：

然而，对于高性能搜索、推荐系统、高写入量或复杂查询工作负载，S3 Vectors并不适用。

分层存储的未来

S3 Vectors的发布进一步验证了分层存储的趋势。未来的向量存储将根据数据访问频率和应用延迟需求，分为热、温、冷三层：

Milvus 3.0的创新

Milvus 3.0将引入向量数据湖，支持实时检索和离线处理，进一步降低成本并提高效率。此外，Milvus还将推出StorageV2格式，使冷数据存储成本降低100倍，热数据查询速度提高100倍。

结论

S3 Vectors并不会颠覆向量数据库市场，而是推动其向分层生态系统发展。不同解决方案将满足不同的性能和成本需求，这对企业、开发者和整个AI基础设施栈都是好消息。向量数据库的黄金时代才刚刚开始。

评论内容总结：

AWS S3 Vectors的优势与优化
- 评论2指出，AWS通过托管向量可以在大规模上实现优化，节省数十亿美元，并更容易遵守审查要求。
- 评论7提到，S3Vector虽然功能不多，但体现了S3的设计哲学，适合某些场景，且具有优秀的延迟控制。
对S3 Vectors的批评与不足
- 评论4质疑S3 Vectors是否支持混合搜索，并指出其嵌入技术并非最先进。
- 评论10提到S3 Vectors的TopK限制为30，且文档中缺乏延迟信息。
与其他向量数据库的比较
- 评论8认为Postgres的pgvector已经足够，质疑专用向量存储的必要性。
- 评论11提到LanceDB作为开源替代方案，适合低成本对象存储上的轻量级向量数据库。
对文档和透明度的需求
- 评论3赞赏文章对S3 Vectors的反向工程分析，但希望亚马逊能提供更详细的文档，而不是依赖开发者自行探索。
成本与使用场景的讨论
- 评论5提到，某些公司向量搜索的成本甚至高于LLM API调用，引发对检索层成本的关注。
- 评论12希望看到更多边缘计算和隐私优先的向量数据库解决方案。
对开源与云计算的看法
- 评论13指出，云计算本质上是“别人的电脑”，部分公司对敏感数据处理持谨慎态度，倾向于本地计算。

总结：评论中对AWS S3 Vectors的评价褒贬不一，认可其在某些场景下的优化和延迟控制，但也批评其功能有限、文档不足，并与其他开源和专用向量数据库进行了比较。同时，评论还涉及成本、隐私和云计算透明度的讨论。