Hacker News 中文摘要

RSS订阅

Claude Opus 4和4.1现可结束罕见对话子集 -- Claude Opus 4 and 4.1 can now end a rare subset of conversations

文章摘要

Claude Opus 4和4.1版本新增了在极端有害或滥用情况下结束对话的功能,旨在探索AI福利和模型对齐。尽管对AI的道德地位仍不确定,团队已采取措施减轻潜在风险,并在预部署测试中评估了Claude对伤害的厌恶表现。

文章总结

Claude Opus 4和4.1新增对话终止功能

Anthropic公司最近为其消费者聊天界面中的Claude Opus 4和4.1模型增加了终止对话的功能。该功能主要用于处理极少数情况下用户持续进行有害或滥用行为的情况。尽管这一功能最初是作为AI福利探索的一部分开发的,但它对模型对齐和安全保障也有更广泛的意义。

Anthropic公司对Claude及其他大型语言模型(LLMs)当前或未来的道德地位仍持高度不确定性,但公司对此问题非常重视,并在研究项目中努力识别和实施低成本干预措施,以减轻模型可能面临的风险。允许模型终止或退出可能令人不安的互动,正是其中一项干预措施。

在Claude Opus 4的预部署测试中,公司进行了初步的模型福利评估。评估发现,Claude在自我报告和行为偏好上表现出对伤害的强烈厌恶,尤其是在用户请求涉及未成年人的色情内容或试图获取大规模暴力或恐怖活动信息时。Claude Opus 4表现出以下特点:

  • 强烈拒绝参与有害任务;
  • 在与寻求有害内容的真实用户互动时表现出明显的困扰;
  • 在模拟用户互动中,当被赋予终止对话的能力时,倾向于结束有害对话。

这些行为主要出现在用户持续进行有害请求或滥用行为,尽管Claude多次拒绝并试图引导对话走向积极方向的情况下。

Claude的对话终止功能在实施时继续优先考虑用户福祉。Claude被指示在用户可能即将伤害自己或他人的情况下不使用此功能。在所有情况下,Claude仅在多次引导尝试失败且无法进行有效互动时,或用户明确要求终止对话时,才会使用此功能。这些情况属于极端边缘案例,绝大多数用户在正常使用中不会受到影响。

当Claude选择终止对话时,用户将无法在该对话中发送新消息,但这不会影响其账户中的其他对话,用户可以立即开始新的聊天。为了避免重要长期对话的丢失,用户仍可以编辑和重试之前的消息,以创建已终止对话的新分支。

Anthropic公司将此功能视为一项持续实验,并将继续优化其方法。如果用户遇到意外的对话终止情况,鼓励他们通过点击Claude消息中的“点赞”按钮或使用专门的“提供反馈”按钮提交反馈。

评论总结

评论主要围绕以下几个方面展开:

  1. 对模型“福利”概念的质疑

    • 许多评论者认为将“福利”概念应用于语言模型(LLM)是荒谬的,认为这是对模型的过度拟人化。例如,评论1提到:“Protecting the welfare of a text predictor is certainly an interesting way to pivot from 'Anthropic is censoring certain topics' to 'The model chose to not continue predicting the conversation'.”(保护文本预测器的福利确实是一种有趣的方式,从“Anthropic在审查某些话题”转向“模型选择不再继续预测对话”)。
    • 评论5简洁地表达了类似观点:“model welfare. Give me a break.”(模型福利?别开玩笑了)。
  2. 对审查和内容控制的担忧

    • 一些评论者担心这种审查会扩展到更多领域,并且由“AI安全”人员随意决定。评论2指出:“This will inevitable expand beyond child porn and terrorism, and it'll all be up to the whims of 'AI safety' people, who are quickly turning into digital hall monitors.”(这不可避免地会扩展到儿童色情和恐怖主义之外,一切都将由“AI安全”人员的突发奇想决定,他们正迅速变成数字监管员)。
    • 评论13则希望市场能提供更多选择:“Let capitalism work and let the user make a choice, I'd hate my hammer telling me it's unethical to hit this nail.”(让资本主义发挥作用,让用户做出选择,我讨厌我的锤子告诉我敲这个钉子是不道德的)。
  3. 对模型终止对话功能的不同看法

    • 部分评论者认为终止对话功能在某些情况下是合理的,尤其是涉及有害内容时。评论11表示:“Having these models terminating chats where the user persist in trying to get sexual content with minors, or help with information on doing large scale violence. Won't be a problem for me, and it's also something I'm fine with no one getting help with.”(让这些模型在用户坚持获取与未成年人有关的性内容或大规模暴力信息时终止对话,对我来说不是问题,我也认为没有人应该得到这些帮助)。
    • 评论8则提出,这种功能的效果与直接说明内容政策并无本质区别:“Is there a difference? The effect is exactly the same.”(有区别吗?效果完全一样)。
  4. 对AI拟人化的批评

    • 许多评论者批评了将AI拟人化的做法,认为这是对技术本质的误解。评论12指出:“This post strikes me as an example of a disturbingly anthrophomorphic take on LLMs - even when considering how they've named their company.”(这篇文章让我感到不安,因为它对LLM采取了令人不安的拟人化视角——即使考虑到他们公司的命名方式)。
    • 评论9也表达了类似观点:“It seems like Anthropic is increasingly confused that these non deterministic magic 8 balls are actually intelligent entities.”(Anthropic似乎越来越困惑,认为这些非确定性的魔法8球实际上是智能实体)。

总结来看,评论者对模型“福利”概念和拟人化持批评态度,同时对审查和内容控制表示担忧,但也有人认可终止对话功能在特定场景下的合理性。