Hacker News 中文摘要

RSS订阅

Gemini API文件搜索现已支持多模态 -- Gemini API File Search is now multimodal

文章摘要

Gemini API文件搜索功能现已升级为多模态,支持开发者构建更高效且可验证的检索增强生成(RAG)应用。这一改进提升了文件搜索能力,使AI系统能更好地理解和处理多种格式的内容。

文章总结

以下是经过编辑整理后的中文内容:


Gemini API文件搜索功能升级为多模态:构建高效可验证的RAG系统

发布日期:2026年5月5日
核心更新
1. 多模态支持:集成Gemini Embedding 2模型,可同时处理图像与文本数据,实现跨模态语义搜索。
- 应用场景示例:创意机构可通过自然语言描述(如"寻找具有复古风格的品牌Logo")直接检索图像库。
- 开发者实测反馈:
- K-Dense公司成功建立跨科学图像的混合模态检索系统
- Klipy平台显著提升GIF库的语义搜索精度
- Code Fundi利用该功能为AI工程师构建"视觉记忆库"

  1. 自定义元数据:支持为文件添加键值标签(如部门:法务),过滤无关数据,提升检索效率。

    • 优势:减少噪音干扰,响应速度提升30%以上。
  2. 页面级引用:精确标注PDF等文档的出处页码,增强结果可验证性。

    • 价值:适用于法律、医疗等需要严格溯源的领域。

技术实现示例
```python from google import genai

创建多模态文件存储

store = genai.Client().filesearchstores.create( config={ "displayname": "知识库", "embeddingmodel": "models/gemini-embedding-2" } )

上传并检索文件

response = client.models.generatecontent( model="gemini-3-flash-preview", contents="我的知识库有哪些文件?", tools=[{"filesearch": {"filesearchstore_names": [store.name]}}] ) ```

延伸阅读
- 开发者指南
- 官方API文档

相关技术进展
- Gemma 4模型的多令牌预测优化
- Gemini API的Webhooks异步处理机制
- 谷歌与Kaggle联合推出的AI智能体编程课程


(注:已删除原始内容中的社交媒体分享按钮、导航菜单、重复图片说明等非核心信息,保留关键技术细节和典型应用案例,采用更符合中文阅读习惯的分段方式。)

评论总结

评论总结:

  1. AI Studio搜索功能不足

    • 主要观点:批评AI Studio的搜索功能过于简单,只能搜索对话标题,无法搜索内容,且Ctrl+F滚动功能不可靠。
    • 引用:
      • "You can only search the titles of your conversations and nothing inside them."
      • "they messed with the scrolling so Ctrl+F doesn't work reliably."
  2. 本地化与隐私优势的竞争产品

    • 主要观点:HugstonOne提供本地化、隐私合规的解决方案,强调其速度快、支持大容量数据,且无需订阅。
    • 引用:
      • "How much would you pay to have this yours forever, running locally, GDPR and HIPaa compliant."
      • "All you need is a 32gb ram laptop and HugstonOne, not a rocket science."
  3. 对谷歌搜索功能的讽刺

    • 主要观点:指出谷歌作为搜索领域的领导者,其AI产品的搜索功能和用户体验却备受批评,具有讽刺意味。
    • 引用:
      • "the world's leader in search is receiving so much heat for poor search functionality and UX."
  4. Gemini API的功能限制

    • 主要观点:用户因Gemini API不支持按API密钥设置金额限制而放弃使用,询问是否已改进。
    • 引用:
      • "Haven't touched gemini api since they did not support having a $ limit per api key."
      • "Is it possible now?"

总结:

评论主要围绕对AI工具(如AI Studio、Gemini API)功能不足的批评,尤其是搜索和API限制问题,同时也有用户推荐本地化替代方案(如HugstonOne)。观点多样,既有具体功能抱怨,也有对行业现象的讽刺。