文章摘要
这篇研究基于OpenRouter平台分析了100万亿token的真实LLM使用数据,发现开源模型采用率显著提升,创意角色扮演和编程辅助成为最受欢迎的应用场景,同时代理推理模式正在兴起。研究还识别出长期活跃的"基础用户群",揭示了用户行为与模型演进的动态关系。
文章总结
AI发展现状:基于OpenRouter的实证研究
核心发现
开源与闭源模型共存
- 开源模型(如DeepSeek、Qwen)已占据约30%的市场份额,尤其在创意角色扮演(52%使用量)和编程辅助领域表现突出。
- 中国开发的开源模型(如DeepSeek V3、Qwen)增长显著,从2024年占比1.2%跃升至2025年的13%。
推理模型成为主流
- 2024年12月OpenAI发布o1推理模型后,多步推理架构迅速普及,2025年推理类模型处理超50%的请求量。
- 工具调用(Tool Calling)使用量持续上升,反映用户更依赖模型执行复杂任务。
应用场景分化
- 编程:占比超50%,Anthropic Claude系列主导(60%份额),但开源模型在成本敏感场景中崛起。
- 角色扮演:占开源模型52%流量,体现用户对创意对话和娱乐的需求。
- 技术类任务:单价最高($34/百万token),显示高价值专业场景的付费意愿。
地域与语言差异
- 北美占47%使用量,亚洲增长最快(13%→31%)。
- 英语请求占83%,中文简体和俄语分列二三位。
用户留存呈现"灰姑娘效应"
- 早期用户若找到"模型-任务匹配",留存率显著高于后期用户(如Claude 4 Sonnet的5个月留存率达40%)。
关键图表解析
- 开源模型增长:中国开发的模型在2025年中期后份额快速提升(图1-2)。
- 编程请求分布:Anthropic主导,但MiniMax等新玩家份额上升(图20)。
- 成本与用量关系:闭源模型(如GPT-4)服务高价需求,开源模型覆盖高流量低单价场景(图39)。
未来趋势
- 代理推理(Agentic Inference):多步骤、工具集成的模型交互将成为主流。
- 全球化竞争:亚洲市场和中国模型开发者影响力持续扩大。
- 成本动态:开源模型推动效率边界,倒逼闭源模型强化差异化优势。
研究局限
数据源自OpenRouter平台,未涵盖企业本地部署等场景,部分结论为基于元数据的推测。
(注:原文中大量技术细节和厂商对比已精简,保留核心结论与关键数据。完整分析可参考原报告PDF。)
评论总结
以下是评论内容的总结:
关于推理指标的疑问
- 用户对推理与非推理指标的区分提出疑问,关注计算方式是否包含所有token。
- 引用:"The metric reflects the proportion of all tokens served by reasoning models..."
- 引用:"Obviously the reasoning tokens would add a ton to the overall count."
对开源AI主要用于角色扮演的惊讶
- 用户对52%的开源AI用于角色扮演表示意外,认为可能与内容过滤较少和创造力较高有关。
- 引用:"52% of all open-source AI is used for roleplaying."
- 引用:"They attribute it to fewer content filters and higher creativity."
对小模型使用量下降的质疑
- 用户认为数据可能不全面,因为小模型更适合自托管,而OpenRouter是API服务。
- 引用:"Small models are exactly those that can be self-hosted."
- 引用:"It could be the case that total small model usage has actually grown..."
对数据隐私的担忧
- 用户对OpenRouter分析用户数据表示不满,认为侵犯隐私。
- 引用:"I find it very concerning that OpenRouter don't mind inspecting its user/customer data without shame."
- 引用:"If I pay for the inference, I would expect that it would be a closed tube with my privacy respected."
对样本大小的质疑
- 用户认为0.25%的随机样本太小,难以得出可靠结论。
- 引用:"How can you arrive at any conclusion with such a small random sample size?"
对OpenRouter排行榜的批评
- 用户担心排行榜激励工具浪费token以提高排名,而惩罚高效使用。
- 引用:"OpenRouter's Apps leaderboard incentivizes tools to burn through tokens to climb the ranks..."
对新加坡高使用量的猜测
- 用户好奇新加坡的高使用量是否与中国用户通过VPN使用有关,或反映新加坡的高AI采用率。
- 引用:"Very interesting how Singapore ranks 2nd in terms of token volume."
- 引用:"I wonder if this is potentially Chinese usage via VPN..."
对Grok Code使用者的疑问
- 用户对谁在使用Grok Code及其原因表示好奇。
- 引用:"Who is using grok code and why?"
对Minimax M2模型的兴趣
- 用户对Minimax M2的性能表示惊讶,并质疑其是否真的有用。
- 引用:"The benchmarks seem insanely impressive for its size."
- 引用:"Why would people be using it if it wasn’t useful?"
对OpenRouter企业前景的悲观预测
- 用户认为数据表明OpenRouter的企业野心会失败,但对中国模型的支持表示肯定。
- 引用:"All this data confirms that OpenRouter’s enterprise ambitions will fail."
- 引用:"It’s a nice product for running Chinese models tho."
对“玻璃鞋”概念的认同
- 用户认同用户会尝试不同模型,直到找到合适的并长期使用。
- 引用:"The 'Glass slipper' idea makes sense to me..."
- 引用:"Once a model does it well they stick with it for a while."
对数据报告的总体兴趣与批评
- 用户对报告内容表示兴趣,但也批评其前后矛盾(先称无法访问数据,后分析内容)。
- 引用:"This is interesting, but I found it moderately disturbing..."
- 引用:"They reveal that they did actually have access to the text..."