Hacker News 中文摘要

文章摘要

这篇研究基于OpenRouter平台分析了100万亿token的真实LLM使用数据，发现开源模型采用率显著提升，创意角色扮演和编程辅助成为最受欢迎的应用场景，同时代理推理模式正在兴起。研究还识别出长期活跃的"基础用户群"，揭示了用户行为与模型演进的动态关系。

文章总结

AI发展现状：基于OpenRouter的实证研究

核心发现

开源与闭源模型共存
- 开源模型（如DeepSeek、Qwen）已占据约30%的市场份额，尤其在创意角色扮演（52%使用量）和编程辅助领域表现突出。
- 中国开发的开源模型（如DeepSeek V3、Qwen）增长显著，从2024年占比1.2%跃升至2025年的13%。
推理模型成为主流
- 2024年12月OpenAI发布o1推理模型后，多步推理架构迅速普及，2025年推理类模型处理超50%的请求量。
- 工具调用（Tool Calling）使用量持续上升，反映用户更依赖模型执行复杂任务。
应用场景分化
- 编程：占比超50%，Anthropic Claude系列主导（60%份额），但开源模型在成本敏感场景中崛起。
- 角色扮演：占开源模型52%流量，体现用户对创意对话和娱乐的需求。
- 技术类任务：单价最高（$34/百万token），显示高价值专业场景的付费意愿。
地域与语言差异
- 北美占47%使用量，亚洲增长最快（13%→31%）。
- 英语请求占83%，中文简体和俄语分列二三位。
用户留存呈现"灰姑娘效应"
- 早期用户若找到"模型-任务匹配"，留存率显著高于后期用户（如Claude 4 Sonnet的5个月留存率达40%）。

关键图表解析

开源模型增长：中国开发的模型在2025年中期后份额快速提升（图1-2）。
编程请求分布：Anthropic主导，但MiniMax等新玩家份额上升（图20）。
成本与用量关系：闭源模型（如GPT-4）服务高价需求，开源模型覆盖高流量低单价场景（图39）。

未来趋势

代理推理（Agentic Inference）：多步骤、工具集成的模型交互将成为主流。
全球化竞争：亚洲市场和中国模型开发者影响力持续扩大。
成本动态：开源模型推动效率边界，倒逼闭源模型强化差异化优势。

研究局限

数据源自OpenRouter平台，未涵盖企业本地部署等场景，部分结论为基于元数据的推测。

（注：原文中大量技术细节和厂商对比已精简，保留核心结论与关键数据。完整分析可参考原报告PDF。）

评论总结

以下是评论内容的总结：

关于推理指标的疑问
- 用户对推理与非推理指标的区分提出疑问，关注计算方式是否包含所有token。
- 引用："The metric reflects the proportion of all tokens served by reasoning models..."
- 引用："Obviously the reasoning tokens would add a ton to the overall count."
对开源AI主要用于角色扮演的惊讶
- 用户对52%的开源AI用于角色扮演表示意外，认为可能与内容过滤较少和创造力较高有关。
- 引用："52% of all open-source AI is used for roleplaying."
- 引用："They attribute it to fewer content filters and higher creativity."
对小模型使用量下降的质疑
- 用户认为数据可能不全面，因为小模型更适合自托管，而OpenRouter是API服务。
- 引用："Small models are exactly those that can be self-hosted."
- 引用："It could be the case that total small model usage has actually grown..."
对数据隐私的担忧
- 用户对OpenRouter分析用户数据表示不满，认为侵犯隐私。
- 引用："I find it very concerning that OpenRouter don't mind inspecting its user/customer data without shame."
- 引用："If I pay for the inference, I would expect that it would be a closed tube with my privacy respected."
对样本大小的质疑
- 用户认为0.25%的随机样本太小，难以得出可靠结论。
- 引用："How can you arrive at any conclusion with such a small random sample size?"
对OpenRouter排行榜的批评
- 用户担心排行榜激励工具浪费token以提高排名，而惩罚高效使用。
- 引用："OpenRouter's Apps leaderboard incentivizes tools to burn through tokens to climb the ranks..."
对新加坡高使用量的猜测
- 用户好奇新加坡的高使用量是否与中国用户通过VPN使用有关，或反映新加坡的高AI采用率。
- 引用："Very interesting how Singapore ranks 2nd in terms of token volume."
- 引用："I wonder if this is potentially Chinese usage via VPN..."
对Grok Code使用者的疑问
- 用户对谁在使用Grok Code及其原因表示好奇。
- 引用："Who is using grok code and why?"
对Minimax M2模型的兴趣
- 用户对Minimax M2的性能表示惊讶，并质疑其是否真的有用。
- 引用："The benchmarks seem insanely impressive for its size."
- 引用："Why would people be using it if it wasn’t useful?"
对OpenRouter企业前景的悲观预测
- 用户认为数据表明OpenRouter的企业野心会失败，但对中国模型的支持表示肯定。
- 引用："All this data confirms that OpenRouter’s enterprise ambitions will fail."
- 引用："It’s a nice product for running Chinese models tho."
对“玻璃鞋”概念的认同
- 用户认同用户会尝试不同模型，直到找到合适的并长期使用。
- 引用："The 'Glass slipper' idea makes sense to me..."
- 引用："Once a model does it well they stick with it for a while."
对数据报告的总体兴趣与批评
- 用户对报告内容表示兴趣，但也批评其前后矛盾（先称无法访问数据，后分析内容）。
- 引用："This is interesting, but I found it moderately disturbing..."
- 引用："They reveal that they did actually have access to the text..."

AI现状：基于OpenRouter的100T令牌实证研究 -- State of AI: An Empirical 100T Token Study with OpenRouter