Sora d'OpenAI formé sur des vidéos Netflix ?

Sora est l'un des meilleurs modèles de conversion de texte en vidéo du marché. Lorsqu'OpenAI l'a annoncé début décembre 2024, il produisait des vidéos presque photoréalistes (malgré quelques erreurs notables). Le Washington Post a découvert que des contenus de Netflix, TikTok et Twitch auraient été utilisés pour l'entraînement.
Formation uniquement avec des données publiques ?Lors de l'annonce, OpenAI a révélé que Sora avait été entraîné à partir de données publiques et sous licence , sans en préciser clairement les sources. Le Washington Post (qui a conclu un partenariat avec l'entreprise californienne) a généré des centaines de vidéos, constatant que nombre d'entre elles ressemblaient à celles diffusées dans les films, les séries télévisées, les jeux et les réseaux sociaux.
Certaines vidéos générées par Sora (environ 20 secondes sans le son) semblent provenir de séries Netflix (Wedday), de jeux populaires (Minecraft) et de TikTok. Les vidéos finales comportent également les logos et les filigranes des entreprises proposant le contenu original, confirmant qu'ils ont servi à l'entraînement du modèle.
Cependant, cela ne signifie pas nécessairement que le contenu a été copié ou obtenu auprès de son propriétaire. Il peut avoir été « capturé » sur des plateformes de partage de vidéos (comme YouTube) ou des réseaux sociaux, où il a été mis en ligne sans le consentement du titulaire des droits. Les porte-parole de Netflix et Twitch ont déclaré que leurs entreprises respectives n'avaient conclu aucun accord avec OpenAI.
Les conditions d'utilisation de YouTube interdisent le téléchargement de vidéos. L'année dernière, un groupe de créateurs a poursuivi OpenAI en justice car des transcriptions audio de vidéos avaient été utilisées pour entraîner le modèle utilisé par ChatGPT. L'entreprise californienne a reçu plusieurs plaintes concernant son utilisation de livres, d'articles et d'autres sources. OpenAI n'a pas encore reçu de plainte concernant les données utilisées pour entraîner Sora, probablement en raison de la mauvaise qualité finale.
Punto Informatico