OpenAI dévoile Sora Turbo
En février 2024, OpenAI introduisait Sora, un modèle révolutionnaire capable de générer des vidéos impressionnantes par leur qualité visuelle. Quelques mois plus tard, le 9 décembre, l’entreprise a dévoilé Sora Turbo, une version améliorée offrant des performances accrues en termes de rapidité et de précision. Bien que cet outil ne soit pas encore disponible en France ni dans l’Union européenne, il suscite un grand intérêt à l’échelle internationale pour ses applications potentielles dans divers domaines comme la publicité, la production vidéo, ou encore le prototypage.
Sora Turbo marque une nouvelle étape dans l’évolution de la génération vidéo assistée par intelligence artificielle, renforçant ainsi la position d’OpenAI comme leader dans ce domaine.
Comprendre les modèles « Diffusion Transformers »
Contrairement à des modèles comme GPT-4o, qui sont des grands modèles de langage (Large Language Models), Sora repose sur une technologie distincte appelée modèle de diffusion latente. Cette approche permet de bruiter une image ou une vidéo pour ensuite la débruiter étape par étape à l’aide de fonctions mathématiques complexes, comme la fonction gaussienne. L’objectif est de reproduire des images ou vidéos à partir de données sources ou d’en générer de nouvelles à partir de rien.
OpenAI a hybridé les techniques de vision par ordinateur et de traitement du langage naturel pour créer un « diffusion transformer ». Cette innovation remplace les architectures traditionnelles basées sur des réseaux convolutifs par des Transformers, les mêmes structures utilisées dans les grands modèles de langage. Cela permet une interaction en langage naturel avec le modèle, facilitant ainsi la production de vidéos guidées par des instructions textuelles ou visuelles.
Les innovations technologiques de Sora
OpenAI s’est distinguée en entraînant Sora sur des vidéos haute résolution issues de bases de données publiques et de partenariats stratégiques, notamment avec Shutterstock. Contrairement à d’autres projets limités à des formats basiques de 256×256 pixels, Sora exploite des vidéos complexes et variées, enrichissant ainsi sa capacité à comprendre et reproduire les mouvements et visuels.
Les vidéos sont analysées et décomposées en patchs spatio-temporels, des unités comparables aux tokens utilisés dans les modèles de langage pour encapsuler des mots et des phrases. Ces patchs permettent à Sora de capturer les mouvements et les transitions visuelles sur de courtes durées, assurant une continuité entre les images générées.
Lorsque l’utilisateur soumet une instruction, qu’il s’agisse d’un texte, d’une image ou d’une vidéo, OpenAI enrichit ces consignes via ses LLM, comme GPT, pour offrir des résultats plus précis et conformes aux attentes. Cela assure une interaction fluide et accessible même pour des utilisateurs non techniques.
Sora Turbo : Plus rapide et plus précis
Sora Turbo se différencie par sa capacité à produire des vidéos de 20 secondes en full HD (1920×1080 pixels), surpassant Sora qui se limite à des vidéos d’une minute en résolution 720p. Cette amélioration en termes de rapidité et de qualité visuelle est rendue possible grâce à des optimisations au niveau de l’architecture du modèle et des infrastructures utilisées.
OpenAI a également introduit une interface Web conviviale permettant :
- De varier les formats et résolutions.
- D’ajuster le nombre d’itérations pour personnaliser les vidéos.
- D’éditer directement les vidéos générées ou de les réutiliser comme base pour d’autres contenus.
Ces outils rendent Sora Turbo particulièrement attractif pour les créateurs de contenu, les publicitaires et les concepteurs multimédias.
Limites et défis de Sora
Malgré ses avancées, Sora Turbo présente encore des limitations techniques :
- Les vidéos générées peuvent inclure des effets physiques irréalistes, notamment dans la gestion des mouvements complexes.
- Les actions longues ou complexes restent difficiles à modéliser avec précision.
Ces contraintes rendent l’outil peu adapté à des productions vidéo professionnelles abouties mais très pertinent pour des usages comme la création de maquettes ou de concepts.
L’accès à Sora Turbo est actuellement limité aux utilisateurs de ChatGPT Pro et Plus via le site sora.com. En raison des coûts élevés d’infrastructure, le modèle n’est pas encore disponible en France ni dans l’Union européenne. De plus, OpenAI s’efforce d’assurer une utilisation éthique de l’outil en apposant des filigranes pour limiter les risques liés aux deepfakes.
Applications potentielles
Malgré ses limites actuelles, Sora Turbo ouvre la voie à de nombreuses applications innovantes :
- Prototypages et Mockups Publicitaires : Idéal pour tester rapidement des concepts visuels avant leur mise en production.
- Créations Visuelles Rapides : Pour des besoins ponctuels ou créatifs, notamment dans les médias ou la publicité.
- Recherche et Développement : Un outil précieux pour expérimenter avec des vidéos haute résolution.
Perspectives futures
OpenAI continue d’investir dans la recherche pour perfectionner ses modèles de diffusion. Avec des concurrents comme Amazon Nova, récemment dévoilé lors de l’événement re:Invent 2024, la compétition pour dominer le marché de la génération vidéo par IA est intense. Cependant, les innovations apportées par Sora Turbo positionnent OpenAI comme un acteur clé de ce domaine en pleine expansion.
À terme, ces avancées pourraient transformer radicalement la manière dont les vidéos sont créées, en combinant intelligence artificielle et créativité humaine pour des résultats inédits.
Source : LeMagIT