Hacker News 中文摘要

RSS订阅

我从苹果智能模型中提取了安全过滤器 -- I extracted the safety filters from Apple Intelligence models

文章摘要

GitHub上的BlueFalconHD项目公开了解密的Apple生成模型安全文件,这些文件包含了用于Apple Intelligence的过滤器。该项目提供了对生成模型安全机制的深入了解,帮助开发者更好地理解和应用这些技术。

文章总结

这篇文章主要介绍了一个名为 apple_generative_model_safety_decrypted 的 GitHub 仓库,该仓库包含了 Apple Intelligence 生成模型的安全文件解密工具和过滤规则。以下是主要内容总结:

1. 项目概述

  • 该项目提供了 Apple Intelligence 生成模型的安全文件解密工具,这些文件包含了用于过滤有害内容的规则。
  • 项目的主要目的是解密 Apple 生成模型的安全文件,以便开发者可以更好地理解和修改这些过滤规则。

2. 项目结构

  • decrypted_overrides/:包含解密后的模型覆盖文件,每个文件对应一个特定的模型上下文。
    • com.apple.*/:以 Asset Specifier 命名的目录,包含 Info.plistAssetData/ 文件夹,后者存放解密的 JSON 文件。
  • get_key_lldb.py:用于获取加密密钥的脚本。
  • decrypt_overrides.py:用于解密覆盖文件的脚本。

3. 使用说明

  • Python 依赖cryptography 是唯一的依赖,可以通过 pip install cryptography 安装。
  • 获取加密密钥:需要使用 Xcode 的 LLDB 工具,通过运行 get_key_lldb.py 脚本获取加密密钥,并将其保存到 key.bin 文件中。
  • 解密覆盖文件:运行 decrypt_overrides.py 脚本,指定覆盖文件的路径和解密后的输出目录,解密后的文件将存储在 decrypted_overrides 目录中。

4. 覆盖文件内容

  • 解密后的 JSON 文件包含了生成模型的安全过滤规则,例如:
    • reject:拒绝的短语列表,触发这些短语会导致模型输出被阻止。
    • remove:从输出中移除的短语列表。
    • replace:替换的短语列表。
    • regexRejectregexRemoveregexReplace:使用正则表达式匹配的过滤规则。

5. 项目状态

  • 该项目在 GitHub 上获得了 38 颗星和 6 个 fork。
  • 项目主要使用 Python 语言,代码占比 100%。

6. 图片标记

  • 图片:项目作者 BlueFalconHD 的头像。

7. 其他信息

  • 项目提供了详细的 README 文件,包含了使用说明和项目结构介绍。
  • 项目还提供了错误报告和反馈机制,用户可以通过 GitHub 提交问题或反馈。

总结来说,该项目为开发者提供了一个工具集,用于解密和分析 Apple 生成模型的安全过滤规则,帮助开发者更好地理解和定制这些规则。

评论总结

  1. 对苹果安全过滤机制的质疑

    • 评论者认为苹果的安全过滤机制显得“愚蠢”且容易被绕过。例如,通过简单的字符替换(如“Boris Johnson”改为“B0ris Johnson”)就能绕过正则表达式过滤。
    • 引用:“Wow, this is pretty silly. If things are like this at Apple I’m not sure what to think.”(“哇,这真是太蠢了。如果苹果是这样的,我不知道该怎么想。”)
    • 引用:“EDIT: just to be clear, things like this are easily bypassed. ‘Boris Johnson’=>’B0ris Johnson’ will skip right over the regex and will be recognized just fine by an LLM.”(“编辑:明确一下,像这样的东西很容易绕过。‘Boris Johnson’改为‘B0ris Johnson’就能跳过正则表达式,LLM 也能正常识别。”)
  2. 对过滤规则组合的奇怪性表示困惑

    • 评论者指出,过滤规则中一些组合显得“奇怪”,例如避免提及死亡的内容与确保苹果品牌正确大写的内容并列,认为优先级不合理。
    • 引用:“Some of the combinations are a bit weird, This one has lots of stuff avoiding death....together with a set ensuring all the Apple brands have the correct capitalisation. Priorities hey!”(“有些组合有点奇怪,这个规则里有很多避免死亡的内容……同时还有确保所有苹果品牌正确大写的规则。优先级真是有趣!”)
  3. 对过滤机制的实际用途提出疑问

    • 有评论者认为这些规则可能是测试数据,而非实际的安全过滤机制。
    • 引用:“I think these are test data and not actual safety filters.”(“我认为这些是测试数据,而不是实际的安全过滤器。”)
  4. 对LLM依赖正则表达式过滤的讽刺

    • 评论者讽刺道,尽管AGI(人工通用智能)被认为即将到来,但LLM的输出仍然需要依赖正则表达式进行过滤。
    • 引用:“I find it funny that AGI is supposed to be right around the corner, while these supposedly super smart LLMs still need to get their outputs filtered by regexes.”(“我觉得很有趣的是,AGI 被认为即将到来,而这些所谓的超级智能 LLM 仍然需要用正则表达式过滤输出。”)

总结:评论者对苹果的安全过滤机制提出了质疑,认为其显得愚蠢且容易被绕过,同时对过滤规则的组合和实际用途表示困惑。此外,评论者讽刺了LLM依赖正则表达式过滤的现象,认为这与AGI的发展前景形成鲜明对比。