SAM 3: El Modelo de Visión de Meta Que Ahorró a la Humanidad 130 Años de Tiempo de Etiquetado

Latent Space
researchagentsautomationenterpriseinterview

Por Qué SAM 3 Importa para Equipos de Visión por Computadora

Esta conversación reúne al equipo SAM (Segment Anything Model) de Meta—Nikhila Ravi (líder) y Pengchuan Zhang—con Joseph Redmon de Roboflow, quien aloja uno de los mayores despliegues de producción de SAM. La discusión revela no solo avances técnicos, sino cómo la IA de visión ya está automatizando trabajo en industrias en las que la mayoría no piensa.

Sobre el impacto en el mundo real: “We’ve seen 106 million smart polygon-created examples that are SAM-powered… we estimate that’s saved humanity collectively 100, maybe 130 years of time just curating data.” (Hemos visto 106 millones de ejemplos de polígonos inteligentes creados que son impulsados por SAM… estimamos que eso ha ahorrado a la humanidad colectivamente 100, quizás 130 años de tiempo solo curando datos.) Esto no es teórico—Roboflow ha medido el desplazamiento real de trabajo en su plataforma en laboratorios médicos, vehículos autónomos, entornos industriales y robótica submarina.

Sobre la amplitud de aplicaciones: “It’s not an exaggeration to say models like SAM are speeding up the rate at which we solve global hunger or find cures to cancer or make sure critical medical products make their way to people all across the planet.” (No es exageración decir que modelos como SAM están acelerando el ritmo al que resolvemos el hambre global o encontramos curas para el cáncer o aseguramos que productos médicos críticos lleguen a personas en todo el planeta.) Joseph describe casos de uso que abarcan investigación de cáncer (automatizando el conteo de neutrófilos), navegación de drones aéreos, estimación de seguros desde imágenes satelitales, y robots autónomos submarinos de recolección de basura.

Sobre qué hace diferente a SAM 3: “SAM 3 isn’t just a version bump. It’s an entirely new approach to segmentation… it combines so many different tasks where previously you would have needed a task specific model.” (SAM 3 no es solo un incremento de versión. Es un enfoque completamente nuevo de segmentación… combina tantas tareas diferentes donde anteriormente habrías necesitado un modelo específico para cada tarea.) El modelo ahora maneja prompts de concepto (descripciones de texto como “autobús escolar amarillo”), seguimiento de video, y detección de vocabulario abierto en una sola arquitectura—no más unir modelos especializados.

Sobre la mejor evaluación: “The best eval is if it works in the real world.” (La mejor evaluación es si funciona en el mundo real.) Nikhila enfatiza que los benchmarks importan menos que el uso en producción—y con 8 millones de inferencias en los primeros 5 días de SAM 3, están obteniendo señales reales rápido.

Sobre integración con LLMs: El equipo anticipa SAM 3 como un “agente visual” para LLMs—permitiendo que modelos de lenguaje segmenten y entiendan imágenes a través de llamadas de herramientas. Esto apunta hacia agentes de IA multimodal que pueden ver, entender y actuar sobre información visual.

6 Ideas de Meta y Roboflow sobre IA de Visión

  • 130 años de trabajo humano ahorrados - Roboflow estima que SAM ha ahorrado 100-130 años de tiempo de anotación acumulado en 106 millones de ejemplos asistidos
  • Prompts de concepto reemplazan clicks - SAM 3 introduce prompts basados en texto (como “regadera” o “jugadores de camiseta roja”) en lugar de requerir clicks manuales en cada instancia
  • Seguimiento de video en tiempo real - SAM 3 corre en 30ms por imagen en H200, escala a 64 objetos rastreados simultáneamente en 8 H200s
  • 200,000 conceptos únicos - El nuevo benchmark SACO cubre 200K conceptos vs. 1.2K en benchmarks anteriores, habilitando visión a escala de vocabulario real
  • Fine-tuning con 10 ejemplos - La adaptación de dominio ahora es posible con datos mínimos, habilitando aplicaciones especializadas en imágenes médicas, manufactura, etc.
  • Integración de agente LLM - SAM 3 está diseñado para servir como herramienta de “agente visual” para LLMs, habilitando sistemas de IA multimodal que pueden ver y actuar

Qué Significa Esto para el Desarrollo de Agentes de IA

SAM 3 representa la maduración de la IA de visión de curiosidad de investigación a infraestructura de producción. Los 130 años de trabajo ahorrado no son hipotéticos—están medidos en laboratorios de cáncer, operadores de drones y pisos de fábrica. Para organizaciones desplegando agentes de IA, esto señala que la comprensión visual se está convirtiendo en una capacidad commodity: en lugar de construir modelos de visión personalizados, ahora puedes hacer prompts a SAM 3 con conceptos e integrarlo como llamada de herramienta para LLMs. La pregunta cambia de “¿puede la IA ver?” a “¿qué debería mirar la IA?”