Hacker News 中文摘要

RSS订阅

评估LLM在我个人使用场景中的应用 -- Evaluating LLMs for my personal use case

文章摘要

作者根据个人使用需求,对多种大型语言模型(LLMs)进行了评估。他收集了130个来自日常使用的真实提示,涵盖编程、系统管理、技术解释和一般知识等类别。通过使用Open Router平台,作者对包括Qwen3、Gemini、GPT-OSS和GLM在内的多个模型进行了测试,最终选择了适合自己需求的模型。评估基于模型的表现、成本和响应速度等因素。

文章总结

文章主要内容:

作者为了评估大型语言模型(LLMs)在个人使用场景中的表现,进行了一系列测试。他收集了130个来自自己命令行历史的真实问题,涵盖了编程、系统管理、技术解释和一般知识等领域。通过使用Open Router平台,作者测试了多个模型,包括Anthropic的Claude Sonnet、DeepSeek、Google的Gemini、OpenAI的GPT-OSS等。

主要发现:

  1. 评估难度大:作者发现评估模型的表现并不容易,尤其是当多个模型给出相似但不同的答案时,如何选择最佳答案成为挑战。

  2. 所有模型表现良好:几乎所有模型在大多数测试中都给出了正确的答案,作者对结果总体满意。模型之间的一致性也很高,许多模型在相同问题上给出了相似的答案。

  3. 成本和延迟差异显著:模型的成本和响应时间差异很大,这成为选择模型的关键因素。作者希望问题的成本足够低,且响应速度足够快。

  4. 闭源模型并不占优:即使不考虑成本和延迟,Google的Gemini和Anthropic的Claude模型的表现也并不总是最好的,开源模型往往能提供更简洁的代码或更好的解释。

  5. Gemini 2.5 Flash速度快,Gemini 2.5 Pro价格过高:Gemini 2.5 Flash的响应速度最快,而Gemini 2.5 Pro的价格则远高于其他模型。

  6. 推理功能帮助有限:对于作者的问题,推理功能并没有显著提升模型的表现,只有在创作诗歌等需要创造力的任务中,推理模型表现更好。

最终选择:

由于没有明显的赢家,作者决定同时使用多个模型。他通过脚本在多个窗口中同时查询不同的模型,以确保获得最佳答案。对于日常快速查询,作者主要使用DeepSeek Chat;对于需要更多思考的问题,他会同时查询多个模型,包括Qwen3和Claude Sonnet。

总结:

作者通过这次评估发现,开源模型在成本、速度和准确性上表现优异,而闭源模型虽然表现良好,但并不总是最佳选择。最终,作者选择同时使用多个模型,以确保在不同场景下都能获得满意的答案。

附注:

作者还分享了他最喜欢的诗歌,由Qwen3模型创作,风格模仿了Shel Silverstein。

评论总结

评论总结:

  1. Perplexity的多模型支持

    • 用户赞赏Perplexity提供多种模型选择,且输出组织有序,支持下载为zip文件。
    • 引用:
      • "Him using different ones is why I use Perplexity, I get to try different models and honestly its pretty darn decent."
      • "Perplexity does the most to make sure whatever model you pick it works right for you."
  2. 模型选择与偏好

    • 用户倾向于选择性价比高的模型,如Deepseek Chat,认为其在速度、成本和效果之间取得了平衡。
    • 引用:
      • "deepseek/deepseek-chat-v3-0324 which is a good compromise between fast, cheap and good."
      • "Only for specific tasks (write a poem...) I would prefer a thinking model."
  3. 免费与易用性

    • 用户偏好免费且易于使用的模型,如Gemini Flash和Pro,批评OpenAI和Claude的注册和支付流程复杂。
    • 引用:
      • "i use gemini flash and pro for pretty much everything. Why? they offer it free to test."
      • "I tried signup for openai wayy too much friction, they start asking for payment without even you using any free credits."
  4. 本地运行与开源模型

    • 用户提到可以通过Ollama本地运行OpenAI的开源模型,虽然速度较慢,但效果优于其他本地模型。
    • 引用:
      • "While this is true, you can download the OpenAI open source model and run it in Ollama."
      • "The thinking is a little slow, but the results have been exceptional vs other local models."
  5. 模型幻觉与局限性

    • 用户指出LLM在处理特定问题时容易产生幻觉,尤其是在编码辅助方面,无法有效解决复杂问题。
    • 引用:
      • "I’ve had LLMs send me down complete rabbit holes for questions that are very specific."
      • "So, I don’t feel too confident of coding assistants. Yes, they do a decent enough job to get your boilerplate done."
  6. 速度与成本的重要性

    • 用户强调速度和成本是选择模型的关键因素,并提到中国开源模型在性价比上的优势。
    • 引用:
      • "The speed and cost issue is important."
      • "China is quietly overtaking America with open AI models."
  7. 模型的多语言支持

    • 用户赞赏Gemini Flash在多语言处理上的表现,认为其在非英语语言上的训练优于其他廉价模型。
    • 引用:
      • "Flash has gotten reasonably decent at less common human languages."
      • "Most cheap (including Flash Lite) and local models mostly have English focused training."
  8. 模型选择的困惑

    • 新手用户对如何选择最佳模型感到困惑,希望有更明确的指导。
    • 引用:
      • "I just never know which to pick, kind of annoys me I might not be using the best."

总结:

评论中,用户普遍关注模型的多功能性、性价比、易用性和本地运行能力。Perplexity和Gemini Flash因其多模型支持和低成本受到青睐,而Deepseek Chat则在速度与效果之间取得了平衡。同时,用户对LLM在处理特定问题时的幻觉现象表示担忧,尤其是编码辅助领域。此外,速度和成本成为选择模型的重要因素,中国开源模型在这一领域的表现也引起了关注。