SAM 3:人類に130年のラベリング時間を節約したMetaのビジョンモデル

Latent Space
researchagentsautomationenterpriseinterview

SAM 3がコンピュータビジョンチームにとって重要な理由

この会話は、MetaのSAM(Segment Anything Model)チーム - Nikhila Ravi(リード)とPengchuan Zhang - と、SAMの最大の本番展開の1つをホストするRoboflowのJoseph Redmonを集めています。議論は技術的な進歩だけでなく、ほとんどの人が考えない業界でビジョンAIがすでに仕事を自動化していることを明らかにしています。

実世界へのインパクトについて: “We’ve seen 106 million smart polygon-created examples that are SAM-powered… we estimate that’s saved humanity collectively 100, maybe 130 years of time just curating data.”(1億600万のSAM搭載のスマートポリゴン作成例を見てきました…それは人類全体で100年、おそらく130年のデータキュレーション時間を節約したと推定しています。)これは理論的ではありません - Roboflowは医療ラボ、自律走行車、産業環境、水中ロボティクスにわたるプラットフォームで実際の労働置換を測定しています。

アプリケーションの幅について: “It’s not an exaggeration to say models like SAM are speeding up the rate at which we solve global hunger or find cures to cancer or make sure critical medical products make their way to people all across the planet.”(SAMのようなモデルが世界の飢餓を解決したり、癌の治療法を見つけたり、重要な医療製品が世界中の人々に届くことを確実にする速度を加速していると言っても過言ではありません。)Josephは、癌研究(好中球カウントの自動化)、航空ドローンナビゲーション、衛星画像からの保険見積もり、自律水中ゴミ収集ロボットにまたがるユースケースを説明しています。

SAM 3が異なる理由について: “SAM 3 isn’t just a version bump. It’s an entirely new approach to segmentation… it combines so many different tasks where previously you would have needed a task specific model.”(SAM 3は単なるバージョンアップではありません。セグメンテーションへの全く新しいアプローチです…以前はタスク固有のモデルが必要だった多くの異なるタスクを組み合わせます。)モデルは今やコンセプトプロンプト(「黄色いスクールバス」のようなテキスト説明)、ビデオトラッキング、オープンボキャブラリー検出を単一のアーキテクチャで処理します - 専門モデルをつなぎ合わせる必要はもうありません。

最高の評価について: “The best eval is if it works in the real world.”(最高の評価は実世界で機能するかどうかです。)Nikhilaはベンチマークよりも本番使用が重要だと強調しています - そしてSAM 3の最初の5日間で800万の推論があり、彼らは本当のシグナルを速く得ています。

LLM統合について: チームはSAM 3をLLMの「ビジュアルエージェント」としてプレビューしています - 言語モデルがツールコールを通じて画像をセグメント化し理解できるようにします。これは、見て、理解し、視覚情報に基づいて行動できるマルチモーダルAIエージェントを指し示しています。

MetaとRoboflowからのビジョンAIの6つの洞察

  • 130年の人間の労働が節約 - Roboflowは1億600万の支援された例にわたって100〜130年の累積アノテーション時間が節約されたと推定
  • コンセプトプロンプトがクリックを置き換える - SAM 3は各インスタンスに手動でクリックする代わりにテキストベースのプロンプト(「じょうろ」や「赤いジャージの選手」など)を導入
  • リアルタイムビデオトラッキング - SAM 3はH200で画像あたり30msで実行、8つのH200で64オブジェクトを同時に追跡するまでスケール
  • 200,000のユニークコンセプト - 新しいSACOベンチマークは以前のベンチマークの1.2Kに対して200Kコンセプトをカバー、真の語彙スケールのビジョンを可能に
  • 10例でファインチューニング - ドメイン適応は今や最小限のデータで可能、医療画像、製造などの専門アプリケーションを実現
  • LLMエージェント統合 - SAM 3はLLMの「ビジュアルエージェント」ツールとして機能するよう設計され、見て行動できるマルチモーダルAIシステムを実現

AIエージェント開発にとっての意味

SAM 3は、ビジョンAIが研究の好奇心から本番インフラへと成熟したことを表しています。130年の節約された労働は仮説ではありません - 癌ラボ、ドローンオペレーター、工場フロアで測定されています。AIエージェントを展開する組織にとって、これは視覚理解がコモディティ能力になりつつあることを示しています:カスタムビジョンモデルを構築する代わりに、SAM 3にコンセプトでプロンプトを与え、LLMのツールコールとして統合できます。問いは「AIは見えるか?」から「AIは何を見るべきか?」にシフトします。