Hacker News 中文摘要

RSS订阅

苹果智能基础语言模型技术报告2025 -- Apple Intelligence Foundation Language Models Tech Report 2025

文章摘要

苹果在2025年推出了两款多语言、多模态的基础语言模型,分别用于设备端和服务器端。设备端模型通过架构创新如KV缓存共享和2位量化训练优化,适用于苹果芯片;服务器端模型基于并行轨道混合专家(PT-MoE)变压器,结合轨道并行、稀疏计算和全局-局部注意力,提供高质量且成本效益高的服务。两款模型均通过大规模多语言和多模态数据集训练,并经过监督微调和强化学习进一步优化,支持多种语言、图像理解和工具调用。在公开基准和人类评估中,两款模型均优于或匹配同类开源基线。此外,苹果还推出了以Swift为核心的基础模型框架,支持引导生成、约束工具调用和LoRA适配器微调。

文章总结

文章主要内容总结

标题: Apple Intelligence 基础语言模型技术报告 2025
发布时间: 2025年7月17日
来源: Apple Machine Learning Research

1. 模型介绍

Apple 推出了两款多语言、多模态的基础语言模型,用于支持 Apple 设备和服务的智能功能: - 设备端模型: 约30亿参数,专为 Apple 芯片优化,采用了 KV-cache 共享和2位量化感知训练等架构创新。 - 服务器端模型: 基于新型的并行轨道混合专家(PT-MoE)Transformer,结合轨道并行、混合专家稀疏计算和交错全局-局部注意力,在 Apple 的 Private Cloud Compute 平台上提供高质量且成本效益高的服务。

2. 训练数据与方法

两款模型均通过大规模多语言和多模态数据集进行训练,数据来源包括负责任的网络爬取、授权语料库和高质量合成数据。训练过程包括监督微调和强化学习,并在新的异步平台上进行优化。最终模型支持多种语言,并具备图像理解和工具调用能力。

3. 性能评估

在公开基准测试和人类评估中,服务器端模型和设备端模型均达到或超越了同类开源基准模型的表现。

4. 开发者工具

Apple 推出了以 Swift 为核心的基础模型框架,支持引导生成、约束工具调用和 LoRA 适配器微调,开发者只需几行代码即可集成这些功能。

5. 责任 AI 与隐私保护

Apple Intelligence 模型的最新进展基于其责任 AI 方法,包括内容过滤和本地化评估等保障措施,并通过 Private Cloud Compute 等创新技术保护用户隐私。

6. 相关阅读与更新

  • 2025年6月9日: 更新了设备端和服务器端基础语言模型的技术细节。
  • 2024年6月10日: 在2024年全球开发者大会(WWDC)上,Apple 推出了 Apple Intelligence,这是一个深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中的个人智能系统。该系统由多个高能力的生成模型组成,专门用于用户的日常任务,并能根据当前活动动态调整。

7. 相关链接

图片标记

文章中未提及图片标记。

评论总结

  1. 关于苹果模型训练数据的讨论

    • 正面观点:评论者perfmode对苹果在模型训练中使用多样化、高质量数据且不涉及用户隐私的做法表示尊重,并提到苹果遵循了robots.txt协议,允许网站出版商选择是否参与训练。
      • 引用:"We believe in training our models using diverse and high-quality data."
      • 引用:"We do not use our users’ private personal data or user interactions when training our foundation models."
    • 质疑观点:frankfrank13认为苹果可能是为了法律保护或隐私营销而强调“负责任的数据来源”,但指出这一话题的热度已经下降。
      • 引用:"AFAICT this is the first commercial model trying to be marketed as responsibly-sourced."
      • 引用:"Is this for legal cover? Or more apple-privacy marketing."
  2. 关于苹果模型实际应用的期待与质疑

    • 期待观点:JacobJack希望能在4GB GPU卡上运行苹果的3B模型,认为其能力与规模匹配,并期待未来能在HuggingFace上使用。
      • 引用:"I'd really like to be able to use this 3B model on my little 4GB GPU card!"
      • 引用:"Maybe one day on HhuggingFace."
    • 质疑观点:jonplackett对苹果发布模型但未在Siri等实际产品中应用表示困惑,质疑其是否有效,并期待开发者尝试后揭晓答案。
      • 引用:"Why give this to developers if you haven’t been able to get Siri to use it yet?"
      • 引用:"I guess we’ll find out when devs start trying to make stuff."
  3. 关于苹果硬件与模型结合的猜测

    • JKCalhoun猜测未来是否会在iPhone硬件上运行这些模型,暗示对苹果硬件与AI技术结合的期待。
      • 引用:"I wonder if we'll see these models running on the phone (aiPhone) hardware in the future."
  4. 关于苹果语音识别模型的改进需求

    • jiehong希望苹果改进iPhone和Mac上的语音识别模型,提高准确性和多语言转录能力。
      • 引用:"I just wish they’d improve the models behind dictation on both iPhone and Mac to have better accuracy and on the fly multiple language transcription."
  5. 关于苹果贡献者列表顺序的猜测

    • leot猜测苹果将众多贡献者以随机顺序列出可能是为了防止挖角。
      • 引用:"The dozens of 'contributors' being presented in random order is, one would suppose, an anti-poaching tactic?"