SAM 3:Meta的视觉模型为人类节省了130年的标注时间
为什么SAM 3对计算机视觉团队很重要
这次对话汇集了Meta的SAM(Segment Anything Model)团队——Nikhila Ravi(负责人)和Pengchuan Zhang——以及Roboflow的Joseph Redmon,他主持SAM最大的生产部署之一。讨论不仅揭示了技术进步,还揭示了视觉AI如何已经在大多数人没有想到的行业中自动化工作。
关于现实世界的影响: “We’ve seen 106 million smart polygon-created examples that are SAM-powered… we estimate that’s saved humanity collectively 100, maybe 130 years of time just curating data.”(我们已经看到了1.06亿个由SAM驱动的智能多边形创建的例子…我们估计这为人类集体节省了100,也许130年的数据整理时间。)这不是理论——Roboflow在他们的平台上测量了跨医学实验室、自动驾驶车辆、工业环境和水下机器人的实际劳动替代。
关于应用的广度: “It’s not an exaggeration to say models like SAM are speeding up the rate at which we solve global hunger or find cures to cancer or make sure critical medical products make their way to people all across the planet.”(说像SAM这样的模型正在加速我们解决全球饥饿或找到癌症治愈方法或确保关键医疗产品到达全球各地人们手中的速度,这并不夸张。)Joseph描述的用例横跨癌症研究(自动化中性粒细胞计数)、航空无人机导航、卫星图像保险估算和自主水下垃圾收集机器人。
关于什么使SAM 3不同: “SAM 3 isn’t just a version bump. It’s an entirely new approach to segmentation… it combines so many different tasks where previously you would have needed a task specific model.”(SAM 3不只是版本升级。它是一种全新的分割方法…它结合了许多不同的任务,以前你需要特定任务的模型。)该模型现在在单一架构中处理概念提示(如”黄色校车”的文本描述)、视频跟踪和开放词汇检测——不再需要拼接专门的模型。
关于最佳评估: “The best eval is if it works in the real world.”(最好的评估是它在现实世界中是否有效。)Nikhila强调基准测试不如生产使用重要——SAM 3在前5天有800万次推理,他们正在获得真实信号。
关于LLM集成: 团队预览SAM 3作为LLM的”视觉代理”——使语言模型能够通过工具调用分割和理解图像。这指向能够看到、理解和对视觉信息采取行动的多模态AI代理。
来自Meta和Roboflow关于视觉AI的6个洞见
- 节省130年的人工劳动 - Roboflow估计SAM在1.06亿辅助示例中节省了100-130年的累计标注时间
- 概念提示取代点击 - SAM 3引入基于文本的提示(如”浇水壶”或”红色球衣球员”),而不是需要在每个实例上手动点击
- 实时视频跟踪 - SAM 3在H200上以每张图像30ms运行,在8个H200上可扩展到同时跟踪64个对象
- 200,000个独特概念 - 新的SACO基准涵盖20万个概念,而之前的基准只有1.2K,实现真正的词汇量级视觉
- 用10个示例微调 - 现在可以用最少的数据进行领域适应,使医学成像、制造等专业应用成为可能
- LLM代理集成 - SAM 3设计为LLM的”视觉代理”工具,实现能够看到和行动的多模态AI系统
这对AI代理开发意味着什么
SAM 3代表视觉AI从研究好奇心到生产基础设施的成熟。130年节省的劳动不是假设的——它是跨癌症实验室、无人机操作员和工厂车间测量的。对于部署AI代理的组织,这表明视觉理解正在成为商品能力:你现在可以用概念提示SAM 3并将其作为LLM的工具调用集成,而不是构建自定义视觉模型。问题从”AI能看吗?“转变为”AI应该看什么?”