Sora
/ˈsɔːrə/
Also known as: OpenAI Sora, Sora 2, text-to-video
Qu’est-ce que Sora ?
Sora est le modèle de génération de vidéo à partir de texte d’OpenAI, capable de créer des vidéos réalistes à partir de descriptions textuelles. D’abord présenté en février 2024 et publiquement disponible en décembre 2024, Sora représente ce que certains appellent le “moment GPT-1” pour la vidéo—le point où la génération vidéo par IA a commencé à vraiment fonctionner.
Capacités
Génération vidéo :
- Jusqu’à 20 secondes de vidéo
- Jusqu’à une résolution de 1080p
- Ratios d’aspect grand écran, vertical ou carré
- Mouvement de caméra dynamique avec espace 3D cohérent
Fonctionnalités techniques :
- Permanence des objets (les objets persistent à travers les images)
- Simulation physique (bien qu’imparfaite)
- Extension vidéo (vers l’avant ou l’arrière dans le temps)
- Peut simuler des environnements interactifs comme Minecraft
Évolution
Sora original (février 2024)
- Version préliminaire montrant des démos impressionnantes
- Jusqu’à une minute de vidéo à qualité inférieure
- Pas d’audio
- Accès public limité
Sora Turbo (décembre 2024)
- Génération significativement plus rapide
- Publication publique pour les utilisateurs ChatGPT Pro et Plus
- Utilisateurs Plus : 50 vidéos/mois à 480p ou moins à 720p
Sora 2 (septembre 2025)
Mise à niveau majeure introduisant :
Audio : Génération sonore synchronisée native—le plus gros ajout.
Meilleure physique : “Si un basketteur rate un tir, il rebondira sur le panneau.” Les erreurs semblent maintenant être des erreurs de l’agent implicite modélisé, pas des violations de physique.
Contrôlabilité : Suit des instructions multi-plans complexes tout en maintenant la cohérence de l’état du monde.
Gamme de styles : Excel dans les styles réalistes, cinématographiques et anime.
Cameos : Les utilisateurs peuvent inclure leur propre ressemblance dans les vidéos générées via un court enregistrement de vérification. Rendu précis de l’apparence et de la voix.
”Simulateurs de monde”
OpenAI décrit les modèles de génération vidéo comme des “simulateurs de monde”—des systèmes qui apprennent des modèles implicites de physique et de comportement des objets. Cela se connecte à la recherche plus large sur les modèles de monde que Demis Hassabis et d’autres soutiennent être nécessaires pour l’AGI.
Cependant, les générateurs vidéo actuels ne comprennent pas vraiment la physique—ils l’approximent à partir de motifs dans les données d’entraînement. Les vidéos générées peuvent sembler réalistes sans être physiquement précises.
Mesures de sécurité
OpenAI a implémenté des garde-fous :
- Filigranes : Marqueurs visibles sur le contenu généré
- Métadonnées C2PA : Informations de provenance lisibles par machine
- Restrictions de téléchargement : Téléchargements photoréalistes limités de personnes, en particulier de mineurs
- Politiques de contenu : Prévention de la génération de ressemblance non consensuelle
Accès et tarification
- ChatGPT Pro (200$/mois) : Qualité la plus élevée et vidéos les plus longues
- ChatGPT Plus (20$/mois) : 50 vidéos/mois à résolutions inférieures
- Applications iOS et Android : Sorties avec Sora 2
Paysage concurrentiel
Sora est en concurrence avec :
- Runway Gen-3 : Génération vidéo professionnelle
- Pika : IA vidéo axée sur le consommateur
- Google Veo : Efforts de génération vidéo de Google
- Kling : Modèle vidéo de Kuaishou
Lectures connexes
- World Models - Le concept qu’incarne Sora
- Sam Altman - PDG d’OpenAI supervisant le développement de Sora