Hacker News 中文摘要

文章摘要

Meta推出第三代图像分割模型SAM 3，可通过文本或视觉提示精准识别、分割和追踪图像视频中的任意对象。该模型支持开放词汇文本提示和示例框选提示，能自动标记所有匹配对象，即将应用于Instagram编辑功能和Meta AI应用。

文章总结

Meta推出全新图像分割模型SAM 3

Meta AI研究院最新发布了第三代图像分割模型SAM 3（Segment Anything Model 3）。这款创新性工具允许用户通过文本或视觉提示，精确识别、分割并追踪图像和视频中的任意对象。该技术即将集成至Instagram Edits视频编辑应用和Meta AI的Vibes功能中。

核心功能亮点： 1. 多模态提示支持： - 文本提示：通过简单词语或短语即可标记匹配对象 - 示例提示：框选目标对象即可自动识别同类物体 - 视觉提示：延续SAM 2的点击式交互（支持正负样本标记）

智能纠错机制：当模型出现遗漏或错误时，用户可通过追加提示进行实时修正

性能表现： SAM 3在图像和视频的文本/视觉分割任务中均达到业界顶尖水平，同时完全保留了SAM 2的全部功能优势。官方发布的基准测试显示，该模型在文档处理、航拍图像、动植物识别、工业场景、医疗影像及体育分析等多个领域均保持领先优势。

实际应用场景： - Instagram Edits：视频创作者可快速对特定人物或物体添加特效 - 科研保护：已应用于Conservation X Labs和FathomNet等科研项目

技术演进： SAM系列采用迭代开发模式： - SAM 3：新增文本驱动分割、视频对象追踪等能力 - SAM 2：支持点击/框选/遮罩提示 - SAM 1：基础点击分割功能

技术架构：采用统一的任务框架，结合大规模多样化训练数据集和强大的感知编码器，在开放词汇的短文本提示和视觉提示场景下实现最优分割效果。

相关技术延伸：同步推出的SAM 3D技术可实现三维人物与物体的精确重建，为空间理解应用开辟新可能。

开发者可通过GitHub获取SAM 3模型代码，或在Segment Anything Playground进行体验。

评论总结

评论总结：

对SAM3的高度评价
- 认为SAM3是计算机视觉领域的重大突破，堪比GPT时刻。
- 关键引用：
  - "This feels like a seminal moment for computer vision." (yeldarb)
  - "This model is incredibly impressive... projects that are now not only possible, but trivial." (dangoodmanUT)
实际应用潜力
- 在快速原型设计（rapid prototyping）和数据蒸馏（distillation）方面具有变革性。
- 关键引用：
  - "The two areas I think this model is going to be transformative... are for rapid prototyping and distillation." (yeldarb)
  - "It would’ve saved me a huge amount of manual annotation." (daemonologist)
技术改进与功能扩展
- 相比前代（SAM1/SAM2），SAM3新增了开放词汇（open vocab）和视频支持。
- 关键引用：
  - "SAM 3 - Open vocab concept segmentation on images and video." (rocauc)
  - "SAM3 has built-in streaming support which is very exciting." (HowardStark)
对特定场景的局限性
- 对透明/半透明物体（如头发）的处理效果存疑，实时视频应用可能受限（延迟问题）。
- 关键引用：
  - "I’m curious how this works for hair and transparent/translucent things." (xfeeefeee)
  - "With a avg latency of 4 seconds, this still couldn’t be used in real-time video." (clueless)
批评与质疑
- 部分图表被指误导性，商用许可问题未明确说明。
- 关键引用：
  - "Highly misleading graphs... another bad graph example for my stats course." (hodgehog11)
  - "Does the license allow for commercial purposes?" (sciencesama)
其他亮点
- 3D网格生成功能（如分离人物和椅子）和轻量级模型补充。
- 关键引用：
  - "The 3D mesh generator is really cool... handles occlusion very well." (gs17)
  - "Our new SOTA realtime segmentation model... the perfect lightweight complement to SAM3." (yeldarb)

总结：

评论普遍认可SAM3的创新性和实用性，尤其在开放词汇和视频处理方面表现突出，但也提出实时性、透明物体处理、商用许可等潜在问题。部分用户对其变革潜力持乐观态度，认为将推动计算机视觉领域快速发展。

Meta 分段任意模型 3 -- Meta Segment Anything Model 3

文章摘要

文章总结

评论总结

评论总结：

总结：