Hacker News 中文摘要

RSS订阅

Show HN:使用Claude代码查询Hacker News、ArXiv等600GB索引 -- Show HN: Use Claude Code to Query 600 GB Indexes over Hacker News, ArXiv, etc.

文章摘要

该平台提供强大的SQL和向量代数搜索功能,支持对arXiv、Hacker News等知识库的深度检索。用户可通过Claude Code直接探索,建议开发者使用高级功能时创建账户。平台强调实验性,允许灵活删除数据,并提醒注意提示注入风险。

文章总结

ExoPriors 对齐探索工具(Alignment Scry)

核心功能

ExoPriors 提供了一个强大的研究工具,允许用户通过 SQL向量代数 对海量文档进行精细化搜索和分析。该工具覆盖了多个高质量知识库,包括:
- arXiv(学术论文)
- Hacker News(技术社区)
- LessWrong(理性分析论坛)
- 其他社区存档(可通过 hello@exopriors.com 推荐更多来源)

实验性功能

  • Lens Studio:专为 LessWrong 设计的探索工具,支持可调节的搜索轴和个性化属性配置,可随时删除。
  • Claude 集成:用户可通过 Claude Code 或 Claude Web 直接调用 ExoPriors 的 API,进行高效查询。

使用方法

  1. 公共访问:无需注册,使用默认 API 密钥即可进行查询。

    • 支持 SQL 查询、语义搜索(基于向量嵌入)、模式发现等。
    • 查询示例:
      sql SELECT * FROM alignment.search('mesa optimization') LIMIT 10;
    • 公共权限限制:每次查询最多返回 100 条结果,超时时间较短(20-120 秒)。
  2. 高级功能(需注册)

    • 私有命名空间(支持覆盖写入)
    • 更长的查询超时(最高 10 分钟)
    • 额外的嵌入 token 配额(1.5M)

技术细节

  • 混合搜索:结合 BM25 全文检索和向量语义搜索,优化结果相关性。
  • 向量操作:支持余弦距离计算、向量混合(加减缩放)、中心化分析等。
  • 性能优化:建议先通过小规模查询确认模式,再逐步扩展。

数据规模

  • 文档数量:6500 万+
  • 嵌入向量:2200 万+
  • 索引大小:600GB+

快速开始

研究人员可免费使用,访问 ExoPriors 控制台 立即体验。

(注:原文中的技术操作细节和部分冗余说明已简化,保留核心功能与使用场景。)

评论总结

总结评论内容如下:

  1. 支持开源的建议

    • 多位用户建议项目开源或提供自托管选项,主要出于对API安全和隐私的考虑。
    • 关键引用:
      • "you’d be better off doing an open source version" (bugglebeetle)
      • "I (and I assume others) are not keen on sharing my API keys with a 3rd party" (mentalgear)
  2. 技术实现认可

    • 用户赞赏项目通过生成SQL查询而非黑箱聊天机器人的技术方案。
    • 关键引用:
      • "the right way to use LLMs for research: as a translator from natural language to a rigid query language" (barishnamazov)
      • "a very simple distribution channel...The curl | bash of 2026" (nielsole)
  3. 实用性质疑

    • 部分用户对工具的实际价值提出疑问,包括语义识别能力和"state-of-the-art"的定位。
    • 关键引用:
      • "what makes this state of the art?" (kburman)
      • "Is the appeal of this tool its ability to identify semantic similarity?" (gtsnexp)
  4. 使用体验反馈

    • 有用户称赞简单的设置流程,也有用户对依赖Claude计划表示不满。
    • 关键引用:
      • "I quite like its simplicity" (m11a)
      • "That's just not a good use of my Claude plan" (nineteen999)
  5. 其他观点

    • 包含对AGI说法的调侃("Okaaaaaaay....")和关于数据集语义混淆的担忧("have you noticed any semantic bleeding")。

注:所有评论评分均为None(未显示具体认可度),主要争议集中在开源需求和技术实现方式上。