Comment utiliser Gemini AI pour résumer des vidéos YouTube

Vous cherchez les moments forts d'une longue vidéo YouTube ? Cette fonctionnalité Gemini pourrait vous intéresser.

Photographie : JOSH EDELSON/Getty Images

Les grandes entreprises d'IA ne cessent de nous promettre que leur technologie nous fera gagner du temps et améliorera notre productivité, malgré les importantes questions liées aux violations de droits d'auteur , aux contenus illégaux et à la consommation d'énergie exponentielle qui planent en arrière-plan. Mais si vous cherchez à libérer du temps dans votre emploi du temps chargé, l'IA peut être un outil utile, auquel vous n'aviez peut-être même pas pensé, à certains égards.

L'un d'eux pourrait être le résumé de vidéos YouTube. L'IA a déjà démontré sa fiabilité (mais pas toujours ), et si vous avez juste besoin d'extraire quelques points saillants d'une série de vidéos de 15 ou 30 minutes, le temps gagné peut vite s'accumuler.

Google Gemini propose un nouveau modèle d'IA, Gemini 2.0 Flash Thinking Experimental , compatible avec les applications Google, notamment la recherche Google, Google Maps et YouTube. Ce modèle est disponible pour tous les utilisateurs de Gemini, payants ou non, et nous l'avons testé sur une sélection de clips via l'interface web de Gemini.

Comment trouver la fonctionnalité

Le nouveau modèle est disponible pour tous les utilisateurs de Gemini.

Photographie : David Nield

Si vous ouvrez Gemini sur le web , démarrez une nouvelle conversation et accédez au sélecteur de modèle en haut à gauche, vous devriez en voir un intitulé « 2.0 Flash Thinking (expérimental) » . Il s'agit de celui qui intègre les connexions aux applications Google, même si la plupart du temps, vous devez spécifier l'application que vous souhaitez utiliser (pour rechercher un lieu sur Google Maps, par exemple).

Le modèle n'est pas difficile à trouver dans les applications Gemini pour Android ou iOS non plus : si vous appuyez sur le menu déroulant en haut d'une nouvelle conversation (qui doit être étiquetée avec le modèle que vous utilisez actuellement), vous verrez l'option 2.0 Flash Thinking (expérimental) disponible pour la sélection.

Vous trouverez probablement cette fonctionnalité plus facile à utiliser sur le web, où vous pouvez faire glisser les URL YouTube d'un onglet à l'autre pour les analyser, mais vous pouvez également y accéder sur mobile. Outre l'analyse des vidéos YouTube, vous pouvez rechercher du nouveau contenu : essayez de demander à YouTube des vidéos sur les temps forts du baseball ou des explications scientifiques, par exemple.

Résumer les temps forts du match

Gemini n'a pas tout compris à propos du Super Bowl LIX.

Photographie : David Nield

Pour commencer, nous avons utilisé Gemini pour analyser un résumé des moments forts du Super Bowl LIX de l'année dernière – près de 20 minutes d'action – afin de voir ce que l'IA en pensait. Au début, nous avons simplement demandé « Que se passe-t-il dans ce match ? » et, en quelques secondes, nous avions les détails des équipes et du vainqueur (l'IA avait raison), ainsi que quelques temps forts clés.

Une question complémentaire sur le score final a reçu une réponse correcte, mais Gemini s'est trompé sur le nom du marqueur du premier touchdown : l'IA a suggéré qu'il s'agissait de Johan Dotson. Dotson a été montré marquant un touchdown dans les temps forts, alors que le score était de 0-0, mais sa thèse a été écartée – un exemple des nuances que l'IA ne perçoit pas forcément.

Gemini a réussi à identifier le moment où les Chiefs de Kansas City ont marqué leurs premiers points, et a même inclus un horodatage renvoyant directement au touchdown dans la vidéo YouTube. Le nom du buteur a également été correctement identifié. Il semble que Gemini s'appuie fortement sur les commentaires pour les vidéos sportives, ce qui n'est pas surprenant.

Résumer le contenu de la vidéo

L'IA peut identifier les détails de la vidéo, s'ils sont mentionnés dans l'audio.

Photographie : David Nield

Nous avons ensuite comparé Gemini à un reportage des coulisses du Grand Budapest Hotel, réalisé par Wes Anderson. Le clip dure quatre minutes et demie, et Gemini a réagi presque instantanément : il a identifié le nom du film évoqué et les principaux éléments narratifs du clip.

Cependant, tout repose encore une fois sur l'audio (ou la transcription) ; il ne semble y avoir aucune analyse du contenu vidéo. L'IA n'a pas pu identifier les têtes parlantes dans la vidéo, même si leurs noms étaient affichés à l'écran, ni identifier le réalisateur (même si cela était également mentionné dans la description de la vidéo).

Heureusement, Gemini a fait un travail impressionnant de synthèse audio de la vidéo. Il a correctement identifié certains des défis de réalisation évoqués et leur a fourni des horodatages, de la recherche d'un décor pour représenter le Grand Budapest à son remplissage avec des figurants.

Résumer les entretiens

Gemini peut fournir des horodatages pour la vidéo spécifiée.

Photographie : David Nield

Enfin, nous avons testé Google Gemini avec une interview : Channel 4 au Royaume-Uni s'entretenait avec Charlie Brooker et Siena Kelly à propos de la dernière saison de Black Mirror (ce qui était peut-être approprié pour un article sur l'IA). Gemini s'est montré très efficace pour identifier les points de discussion et ajouter des horodatages, même si, bien sûr, la vidéo est principalement composée de dialogues.

Là encore, il n'y a aucun contexte en dehors de l'audio ou de la transcription. L'IA de Gemini n'a pas pu déterminer où l'interview a eu lieu, ni comment les participants agissaient, ni quoi que ce soit d'autre concernant les visuels de la vidéo – ce qu'il est bon de garder à l'esprit si vous l'utilisez vous-même.

Pour les vidéos dont les réponses sont extraites de l'audio d'une vidéo YouTube et de sa transcription, Gemini est très efficace pour résumer et fournir des réponses précises (à condition que les commentateurs mentionnent les touchdowns refusés et marqués). Pour toute information visuelle, vous devrez quand même visionner la vidéo.