SAM 3: Vision model Meta, který ušetřil lidstvu 130 let labelovacího času
Proč SAM 3 záleží pro týmy počítačového vidění
Tato konverzace spojuje tým SAM (Segment Anything Model) od Meta - Nikhila Ravi (lead) a Pengchuan Zhang - s Josephem Redmonem z Roboflow, který hostuje jeden z největších produkčních deploymentů SAM. Diskuse odhaluje nejen technické pokroky, ale jak vision AI už automatizuje práci napříč průmysly, o kterých většina lidí nepřemýšlí.
O real-world dopadu: “We’ve seen 106 million smart polygon-created examples that are SAM-powered… we estimate that’s saved humanity collectively 100, maybe 130 years of time just curating data.” (Viděli jsme 106 milionů příkladů smart polygonů vytvořených SAM… odhadujeme, že to ušetřilo lidstvu kolektivně 100, možná 130 let času jen kurátorstvím dat.) Toto není teoretické - Roboflow změřil skutečný displacement práce na jejich platformě napříč medicínskými laboratořemi, autonomními vozidly, průmyslovými prostředími a podmořskou robotikou.
O šíři aplikací: “It’s not an exaggeration to say models like SAM are speeding up the rate at which we solve global hunger or find cures to cancer or make sure critical medical products make their way to people all across the planet.” (Není přehnané říct, že modely jako SAM zrychlují tempo, kterým řešíme globální hlad nebo nacházíme léky na rakovinu nebo zajišťujeme, aby kritické medicínské produkty dosáhly k lidem po celé planetě.) Joseph popisuje use cases zahrnující výzkum rakoviny (automatizace počítání neutrofilů), navigaci leteckých dronů, odhady pojištění ze satelitních snímků a autonomní podmořské roboty sbírající odpadky.
O tom, čím je SAM 3 odlišný: “SAM 3 isn’t just a version bump. It’s an entirely new approach to segmentation… it combines so many different tasks where previously you would have needed a task specific model.” (SAM 3 není jen version bump. Je to zcela nový přístup k segmentaci… kombinuje tolik různých úkolů, kde byste dříve potřebovali task-specifický model.) Model nyní zvládá konceptové prompty (textové popisy jako “žlutý školní autobus”), video tracking a open vocabulary detekci v jediné architektuře - žádné lepení specializovaných modelů dohromady.
O nejlepší evaluaci: “The best eval is if it works in the real world.” (Nejlepší eval je, jestli to funguje v reálném světě.) Nikhila zdůrazňuje, že benchmarky záleží méně než produkční použití - a s 8 miliony inferencí v prvních 5 dnech SAM 3 dostávají skutečný signál rychle.
O LLM integraci: Tým předznamenává SAM 3 jako “vizuálního agenta” pro LLM - umožňující jazykovým modelům segmentovat a chápat obrázky přes tool calls. To ukazuje k multimodálním AI agentům, kteří mohou vidět, chápat a jednat na základě vizuálních informací.
6 postřehů od Meta a Roboflow o vision AI
- 130 let lidské práce ušetřeno - Roboflow odhaduje, že SAM ušetřil 100-130 let kumulativního anotačního času napříč 106 miliony asistovaných příkladů
- Konceptové prompty nahrazují kliknutí - SAM 3 zavádí text-based prompty (jako “konvička” nebo “hráči v červeném dresu”) místo vyžadování manuálních kliknutí na každou instanci
- Real-time video tracking - SAM 3 běží v 30ms na obrázek na H200, škáluje na 64 objektů trackovaných současně napříč 8 H200
- 200 000 unikátních konceptů - Nový SACO benchmark pokrývá 200K konceptů vs. 1,2K v předchozích benchmarcích, umožňující vision ve skutečném vocabulary měřítku
- Fine-tuning s 10 příklady - Doménová adaptace je nyní možná s minimálními daty, umožňující specializované aplikace v medicínském zobrazování, výrobě atd.
- Integrace LLM agentů - SAM 3 je navržen sloužit jako “vizuální agent” nástroj pro LLM, umožňující multimodální AI systémy, které mohou vidět a jednat
Co to znamená pro vývoj AI agentů
SAM 3 reprezentuje maturaci vision AI z výzkumné kuriozity na produkční infrastrukturu. 130 let ušetřené práce není hypotetické - je to měřeno napříč laboratořemi na rakovinu, operátory dronů a továrními halami. Pro organizace deployující AI agenty to signalizuje, že vizuální porozumění se stává komoditní schopností: místo budování custom vision modelů můžete nyní promptovat SAM 3 s koncepty a integrovat ho jako tool call pro LLM. Otázka se posouvá z “může AI vidět?” na “na co by se AI měla dívat?”