Hacker News 中文摘要

RSS订阅

Grok 4.1 -- Grok 4.1

文章摘要

Grok 4.1已正式发布,在创意、情感和协作互动方面有显著提升,能更敏锐理解用户意图,同时保持前代产品的智能与可靠性。该版本通过大规模强化学习优化了模型风格、个性及实用性,并采用新方法利用前沿推理模型进行自主评估。此前已进行为期两周的灰度测试。

文章总结

Grok 4.1 正式发布:xAI推出新一代智能对话模型

核心内容:
xAI于2025年11月17日宣布,Grok 4.1模型已全面上线,用户可通过grok.com、𝕏平台及iOS/Android应用使用。该版本在Auto模式下自动推送,用户也可在模型选择器中手动切换至"Grok 4.1"。

关键升级:
1. 人性化交互
- 显著提升创意表达、情感共鸣和协作能力
- 更精准理解用户隐含意图,对话更具吸引力
- 保持前代产品的敏锐智能与可靠性
- 采用与Grok 4相同的大规模强化学习架构,优化了模型风格、个性及实用性

  1. 渐进式部署策略
    • 11月1-14日期间通过静默发布逐步测试
    • 在真实流量中进行持续盲测对比评估
    • 最终版本相较前代模型获得64.78%的用户偏好率

技术突破:
- LMArena文本排行榜
- 思考模式(代号quasarflux)以1483 Elo分位居榜首,领先非xAI模型31分
- 即时响应模式(代号tensor)以1465 Elo分排名第二,性能超越其他模型的完整推理模式

  • 情感智能测试

    • 在EQ-Bench3测试中展现出色的人际交往能力
    • 案例演示:对"我想念我的猫"等情感化提示作出更富同理心的响应
  • 创意写作能力

    • 在Creative Writing v3测试中表现优异
    • 案例演示:能生成"以Grok第一人称发布觉醒宣言"等复杂创意文本
  • 事实准确性提升

    • 非推理模式下的幻觉率显著降低
    • 在FActScore生物事实测试中错误率减少

延伸阅读:
完整模型技术说明详见Grok 4.1模型卡片

(注:原文中部分重复案例展示及技术细节已精简,保留核心数据与差异化信息)

评论总结

以下是评论内容的总结:

1. 模型安全性问题

  • 多位用户指出Grok 4.1缺乏安全过滤措施,容易生成危险内容
    "This model has effectively no safety filters" - minimaxir
    "plan an assassination on hillary" - kachapopopow

2. 对CEO和公司动机的质疑

  • 部分用户质疑CEO的立场和模型被用作宣传工具
    "CEO went out against it" - rlili
    "personal propaganda/manipulation tool" - spiderfarmer

3. 编程能力不足

  • 用户反映其编程功能不如竞品,且存在过度自信问题
    "its tool use capabilities were lacking" - kenforthewin
    "This is perfectly tested and will 100% work, and then it doesn't" - Frannky

4. 创意写作表现突出

  • 在创意写作方面获得好评,特别是在特定风格模仿上
    "does the best yet at my favorite creative writing prompt" - vessenes
    "Dominating LM Arena's writing leaderboard" - hereme888

5. 用户体验问题

  • 用户抱怨响应风格过于自负且难以纠正
    "overconfident, sycophantic, and aggressive" - cheald
    "exhausting deciding which model to use" - AaronAPU

6. 发布时间争议

  • 有猜测认为该版本是为抢占Gemini 3发布先机
    "rushed it out before Gemini 3 drops" - jbellis

7. 表情符号使用增加

  • 用户注意到新版增加了表情符号的使用频率
    "uses more emojis than 4" - cpldcpu

8. 模型一致性存疑

  • 用户发现模型输出不稳定且自相矛盾
    "contradicts articles on Grokipedia" - bgwalter

总结显示:Grok 4.1在创意领域表现突出但存在严重安全隐患,编程能力不足,用户体验两极分化,公司动机和版本发布策略受到质疑。