Hacker News 中文摘要

文章摘要

作者根据个人使用需求，对多种大型语言模型（LLMs）进行了评估。他收集了130个来自日常使用的真实提示，涵盖编程、系统管理、技术解释和一般知识等类别。通过使用Open Router平台，作者对包括Qwen3、Gemini、GPT-OSS和GLM在内的多个模型进行了测试，最终选择了适合自己需求的模型。评估基于模型的表现、成本和响应速度等因素。

文章总结

文章主要内容：

作者为了评估大型语言模型（LLMs）在个人使用场景中的表现，进行了一系列测试。他收集了130个来自自己命令行历史的真实问题，涵盖了编程、系统管理、技术解释和一般知识等领域。通过使用Open Router平台，作者测试了多个模型，包括Anthropic的Claude Sonnet、DeepSeek、Google的Gemini、OpenAI的GPT-OSS等。

主要发现：

评估难度大：作者发现评估模型的表现并不容易，尤其是当多个模型给出相似但不同的答案时，如何选择最佳答案成为挑战。
所有模型表现良好：几乎所有模型在大多数测试中都给出了正确的答案，作者对结果总体满意。模型之间的一致性也很高，许多模型在相同问题上给出了相似的答案。
成本和延迟差异显著：模型的成本和响应时间差异很大，这成为选择模型的关键因素。作者希望问题的成本足够低，且响应速度足够快。
闭源模型并不占优：即使不考虑成本和延迟，Google的Gemini和Anthropic的Claude模型的表现也并不总是最好的，开源模型往往能提供更简洁的代码或更好的解释。
Gemini 2.5 Flash速度快，Gemini 2.5 Pro价格过高：Gemini 2.5 Flash的响应速度最快，而Gemini 2.5 Pro的价格则远高于其他模型。
推理功能帮助有限：对于作者的问题，推理功能并没有显著提升模型的表现，只有在创作诗歌等需要创造力的任务中，推理模型表现更好。

最终选择：

由于没有明显的赢家，作者决定同时使用多个模型。他通过脚本在多个窗口中同时查询不同的模型，以确保获得最佳答案。对于日常快速查询，作者主要使用DeepSeek Chat；对于需要更多思考的问题，他会同时查询多个模型，包括Qwen3和Claude Sonnet。

总结：

作者通过这次评估发现，开源模型在成本、速度和准确性上表现优异，而闭源模型虽然表现良好，但并不总是最佳选择。最终，作者选择同时使用多个模型，以确保在不同场景下都能获得满意的答案。

附注：

作者还分享了他最喜欢的诗歌，由Qwen3模型创作，风格模仿了Shel Silverstein。

评论总结

评论总结：

Perplexity的多模型支持
- 用户赞赏Perplexity提供多种模型选择，且输出组织有序，支持下载为zip文件。
- 引用：
  - "Him using different ones is why I use Perplexity, I get to try different models and honestly its pretty darn decent."
  - "Perplexity does the most to make sure whatever model you pick it works right for you."
模型选择与偏好
- 用户倾向于选择性价比高的模型，如Deepseek Chat，认为其在速度、成本和效果之间取得了平衡。
- 引用：
  - "deepseek/deepseek-chat-v3-0324 which is a good compromise between fast, cheap and good."
  - "Only for specific tasks (write a poem...) I would prefer a thinking model."
免费与易用性
- 用户偏好免费且易于使用的模型，如Gemini Flash和Pro，批评OpenAI和Claude的注册和支付流程复杂。
- 引用：
  - "i use gemini flash and pro for pretty much everything. Why? they offer it free to test."
  - "I tried signup for openai wayy too much friction, they start asking for payment without even you using any free credits."
本地运行与开源模型
- 用户提到可以通过Ollama本地运行OpenAI的开源模型，虽然速度较慢，但效果优于其他本地模型。
- 引用：
  - "While this is true, you can download the OpenAI open source model and run it in Ollama."
  - "The thinking is a little slow, but the results have been exceptional vs other local models."
模型幻觉与局限性
- 用户指出LLM在处理特定问题时容易产生幻觉，尤其是在编码辅助方面，无法有效解决复杂问题。
- 引用：
  - "I’ve had LLMs send me down complete rabbit holes for questions that are very specific."
  - "So, I don’t feel too confident of coding assistants. Yes, they do a decent enough job to get your boilerplate done."
速度与成本的重要性
- 用户强调速度和成本是选择模型的关键因素，并提到中国开源模型在性价比上的优势。
- 引用：
  - "The speed and cost issue is important."
  - "China is quietly overtaking America with open AI models."
模型的多语言支持
- 用户赞赏Gemini Flash在多语言处理上的表现，认为其在非英语语言上的训练优于其他廉价模型。
- 引用：
  - "Flash has gotten reasonably decent at less common human languages."
  - "Most cheap (including Flash Lite) and local models mostly have English focused training."
模型选择的困惑
- 新手用户对如何选择最佳模型感到困惑，希望有更明确的指导。
- 引用：
  - "I just never know which to pick, kind of annoys me I might not be using the best."

总结：

评论中，用户普遍关注模型的多功能性、性价比、易用性和本地运行能力。Perplexity和Gemini Flash因其多模型支持和低成本受到青睐，而Deepseek Chat则在速度与效果之间取得了平衡。同时，用户对LLM在处理特定问题时的幻觉现象表示担忧，尤其是编码辅助领域。此外，速度和成本成为选择模型的重要因素，中国开源模型在这一领域的表现也引起了关注。

评估LLM在我个人使用场景中的应用 -- Evaluating LLMs for my personal use case

文章摘要

文章总结

评论总结

评论总结：

总结：