SAM 3: Vision model Meta, ktorý ušetril ľudstvu 130 rokov labelovacieho času
Perspektíva
Táto konverzácia spája SAM (Segment Anything Model) tím Meta - Nikhila Ravi (lead) a Pengchuan Zhang - s Josephom Redmonom z Roboflow, ktorý hostí jedno z najväčších produkčných nasadení SAM. Diskusia odhaľuje nielen technické pokroky, ale ako vision AI už automatizuje prácu naprieč priemyslami, na ktoré väčšina ľudí nemyslí.
O reálnom dopade: “We’ve seen 106 million smart polygon-created examples that are SAM-powered… we estimate that’s saved humanity collectively 100, maybe 130 years of time just curating data.” Toto nie je teoretické - Roboflow nameral skutočný labor displacement vo svojej platforme naprieč medicínskymi labmi, autonómnymi vozidlami, priemyselnými nastaveniami a podvodnou robotikou.
O šírke aplikácií: “It’s not an exaggeration to say models like SAM are speeding up the rate at which we solve global hunger or find cures to cancer or make sure critical medical products make their way to people all across the planet.” Joseph opisuje prípady použitia zahŕňajúce výskum rakoviny (automatizácia počítania neutrofilov), leteckú navigáciu dronov, odhady poistenia zo satelitných snímok a autonómne podvodné roboty zbierajúce odpadky.
O tom, čo robí SAM 3 odlišným: “SAM 3 isn’t just a version bump. It’s an entirely new approach to segmentation… it combines so many different tasks where previously you would have needed a task specific model.” Model teraz zvláda concept prompts (textové opisy ako “žltý školský autobus”), video tracking a open vocabulary detekciu v jednej architektúre - žiadne lepenie špecializovaných modelov.
O najlepšom hodnotení: “The best eval is if it works in the real world.” Nikhila zdôrazňuje, že benchmarky záležia menej ako produkčné používanie - a s 8 miliónmi inferencií za prvých 5 dní SAM 3 dostávajú skutočný signál rýchlo.
O integrácii LLM: Tím predhliada SAM 3 ako “vizuálneho agenta” pre LLM - umožňujúceho jazykovým modelom segmentovať a rozumieť obrázkom cez tool calls. Toto smeruje k multimodálnym AI agentom, ktorí vidia, rozumejú a konajú na základe vizuálnych informácií.
Kľúčové poznatky
- 130 rokov ľudskej práce ušetrených - Roboflow odhaduje, že SAM ušetril 100-130 rokov kumulatívneho anotačného času naprieč 106 miliónmi asistovaných príkladov
- Concept prompts nahrádzajú klikania - SAM 3 zavádza text-based prompts (ako “kanvica” alebo “hráči v červených dresoch”) namiesto vyžadovania manuálnych kliknutí na každú inštanciu
- Real-time video tracking - SAM 3 beží za 30ms na obrázok na H200, škáluje na 64 objektov trackovaných súčasne naprieč 8 H200
- 200 000 unikátnych konceptov - Nový SACO benchmark pokrýva 200K konceptov vs. 1,2K v predchádzajúcich benchmarkoch, umožňujúc true vocabulary-scale vision
- Fine-tuning s 10 príkladmi - Doménová adaptácia je teraz možná s minimálnymi dátami, umožňujúc špecializované aplikácie v medicínskom zobrazovaní, výrobe atď.
- Integrácia LLM agentov - SAM 3 je navrhnutý slúžiť ako “vizuálny agent” nástroj pre LLM, umožňujúci multimodálne AI systémy, ktoré vidia a konajú
Veľký obraz
SAM 3 predstavuje dozretie vision AI z výskumnej kuriozity na produkčnú infraštruktúru. 130 rokov ušetrenej práce nie je hypotetické - je to namerané naprieč rakovinovými labmi, operátormi dronov a továreňskými halami. Pre organizácie nasadzujúce AI agentov toto signalizuje, že vizuálne porozumenie sa stáva commodity schopnosťou: namiesto budovania custom vision modelov môžete teraz promptovať SAM 3 s konceptmi a integrovať ho ako tool call pre LLM. Otázka sa posúva od “môže AI vidieť?” k “na čo by sa AI mala pozerať?”