Hacker News 中文摘要

RSS订阅

AI现状:基于OpenRouter的100T令牌实证研究 -- State of AI: An Empirical 100T Token Study with OpenRouter

文章摘要

这篇研究基于OpenRouter平台分析了100万亿token的真实LLM使用数据,发现开源模型采用率显著提升,创意角色扮演和编程辅助成为最受欢迎的应用场景,同时代理推理模式正在兴起。研究还识别出长期活跃的"基础用户群",揭示了用户行为与模型演进的动态关系。

文章总结

AI发展现状:基于OpenRouter的实证研究

核心发现

  1. 开源与闭源模型共存

    • 开源模型(如DeepSeek、Qwen)已占据约30%的市场份额,尤其在创意角色扮演(52%使用量)和编程辅助领域表现突出。
    • 中国开发的开源模型(如DeepSeek V3、Qwen)增长显著,从2024年占比1.2%跃升至2025年的13%。
  2. 推理模型成为主流

    • 2024年12月OpenAI发布o1推理模型后,多步推理架构迅速普及,2025年推理类模型处理超50%的请求量。
    • 工具调用(Tool Calling)使用量持续上升,反映用户更依赖模型执行复杂任务。
  3. 应用场景分化

    • 编程:占比超50%,Anthropic Claude系列主导(60%份额),但开源模型在成本敏感场景中崛起。
    • 角色扮演:占开源模型52%流量,体现用户对创意对话和娱乐的需求。
    • 技术类任务:单价最高($34/百万token),显示高价值专业场景的付费意愿。
  4. 地域与语言差异

    • 北美占47%使用量,亚洲增长最快(13%→31%)。
    • 英语请求占83%,中文简体和俄语分列二三位。
  5. 用户留存呈现"灰姑娘效应"

    • 早期用户若找到"模型-任务匹配",留存率显著高于后期用户(如Claude 4 Sonnet的5个月留存率达40%)。

关键图表解析

  • 开源模型增长:中国开发的模型在2025年中期后份额快速提升(图1-2)。
  • 编程请求分布:Anthropic主导,但MiniMax等新玩家份额上升(图20)。
  • 成本与用量关系:闭源模型(如GPT-4)服务高价需求,开源模型覆盖高流量低单价场景(图39)。

未来趋势

  • 代理推理(Agentic Inference):多步骤、工具集成的模型交互将成为主流。
  • 全球化竞争:亚洲市场和中国模型开发者影响力持续扩大。
  • 成本动态:开源模型推动效率边界,倒逼闭源模型强化差异化优势。

研究局限

数据源自OpenRouter平台,未涵盖企业本地部署等场景,部分结论为基于元数据的推测。

(注:原文中大量技术细节和厂商对比已精简,保留核心结论与关键数据。完整分析可参考原报告PDF。)

评论总结

以下是评论内容的总结:

  1. 关于推理指标的疑问

    • 用户对推理与非推理指标的区分提出疑问,关注计算方式是否包含所有token。
    • 引用:"The metric reflects the proportion of all tokens served by reasoning models..."
    • 引用:"Obviously the reasoning tokens would add a ton to the overall count."
  2. 对开源AI主要用于角色扮演的惊讶

    • 用户对52%的开源AI用于角色扮演表示意外,认为可能与内容过滤较少和创造力较高有关。
    • 引用:"52% of all open-source AI is used for roleplaying."
    • 引用:"They attribute it to fewer content filters and higher creativity."
  3. 对小模型使用量下降的质疑

    • 用户认为数据可能不全面,因为小模型更适合自托管,而OpenRouter是API服务。
    • 引用:"Small models are exactly those that can be self-hosted."
    • 引用:"It could be the case that total small model usage has actually grown..."
  4. 对数据隐私的担忧

    • 用户对OpenRouter分析用户数据表示不满,认为侵犯隐私。
    • 引用:"I find it very concerning that OpenRouter don't mind inspecting its user/customer data without shame."
    • 引用:"If I pay for the inference, I would expect that it would be a closed tube with my privacy respected."
  5. 对样本大小的质疑

    • 用户认为0.25%的随机样本太小,难以得出可靠结论。
    • 引用:"How can you arrive at any conclusion with such a small random sample size?"
  6. 对OpenRouter排行榜的批评

    • 用户担心排行榜激励工具浪费token以提高排名,而惩罚高效使用。
    • 引用:"OpenRouter's Apps leaderboard incentivizes tools to burn through tokens to climb the ranks..."
  7. 对新加坡高使用量的猜测

    • 用户好奇新加坡的高使用量是否与中国用户通过VPN使用有关,或反映新加坡的高AI采用率。
    • 引用:"Very interesting how Singapore ranks 2nd in terms of token volume."
    • 引用:"I wonder if this is potentially Chinese usage via VPN..."
  8. 对Grok Code使用者的疑问

    • 用户对谁在使用Grok Code及其原因表示好奇。
    • 引用:"Who is using grok code and why?"
  9. 对Minimax M2模型的兴趣

    • 用户对Minimax M2的性能表示惊讶,并质疑其是否真的有用。
    • 引用:"The benchmarks seem insanely impressive for its size."
    • 引用:"Why would people be using it if it wasn’t useful?"
  10. 对OpenRouter企业前景的悲观预测

    • 用户认为数据表明OpenRouter的企业野心会失败,但对中国模型的支持表示肯定。
    • 引用:"All this data confirms that OpenRouter’s enterprise ambitions will fail."
    • 引用:"It’s a nice product for running Chinese models tho."
  11. 对“玻璃鞋”概念的认同

    • 用户认同用户会尝试不同模型,直到找到合适的并长期使用。
    • 引用:"The 'Glass slipper' idea makes sense to me..."
    • 引用:"Once a model does it well they stick with it for a while."
  12. 对数据报告的总体兴趣与批评

    • 用户对报告内容表示兴趣,但也批评其前后矛盾(先称无法访问数据,后分析内容)。
    • 引用:"This is interesting, but I found it moderately disturbing..."
    • 引用:"They reveal that they did actually have access to the text..."