Cómo usar Gemini AI para resumir vídeos de YouTube

Las grandes empresas de IA prometen constantemente que su tecnología nos ahorrará tiempo y aumentará nuestra productividad, aunque con grandes interrogantes sobre el abuso de derechos de autor , el contenido ilegal y el desmesurado consumo de energía rondando incómodamente en segundo plano. Pero si buscas dedicar más tiempo a tu apretada agenda, la IA puede ser una herramienta útil, y quizás de maneras en las que ni siquiera habías pensado.
Una de ellas podría ser resumir videos de YouTube. La IA ya ha demostrado ser un resumidor bastante fiable (aunque no siempre ), y si solo necesitas extraer algunos puntos destacados de una serie de videos de 15 o 30 minutos, el tiempo ahorrado puede ser considerable.
Google Gemini cuenta con un nuevo modelo de IA, Gemini 2.0 Flash Thinking Experimental , que se integra con las apps de Google, como la Búsqueda de Google, Google Maps y YouTube. El modelo está disponible para todos los usuarios de Gemini, de pago o no, y lo probamos en una selección de vídeos usando la interfaz web de Gemini.
Cómo encontrar la funciónEl nuevo modelo está disponible para todos los usuarios de Gemini.
Fotografía: David NieldSi abres Gemini en la web , inicias un nuevo chat y vas al selector de modelos en la esquina superior izquierda, deberías ver uno llamado 2.0 Flash Thinking (experimental) . Este es el que tiene las conexiones de la aplicación de Google integradas, aunque la mayoría de las veces necesitas especificar qué aplicación quieres usar (por ejemplo, al buscar un lugar en Google Maps).
El modelo tampoco es difícil de encontrar en las aplicaciones de Gemini para Android o iOS : si tocas el menú desplegable en la parte superior de una nueva conversación (que debe estar etiquetada con el modelo que estás usando actualmente), verás la opción 2.0 Flash Thinking (experimental) disponible para seleccionar.
Probablemente te resulte más fácil usar la función en la web, donde puedes arrastrar las URL de YouTube entre las pestañas del navegador para analizarlas, pero también puedes acceder a ella en el móvil. Además de analizar vídeos de YouTube, puedes buscar contenido nuevo: prueba a pedirle a YouTube vídeos sobre momentos destacados del béisbol o explicaciones científicas, por ejemplo.
Resumir los momentos destacados del partidoGéminis no acertó en todo respecto del Super Bowl LIX.
Fotografía: David NieldPara empezar, pusimos a Gemini a trabajar en un paquete de resúmenes del Super Bowl LIX del año pasado (casi 20 minutos de acción) para ver qué interpretaría la IA. Simplemente preguntamos "¿Qué está pasando en este partido?" y en pocos segundos obtuvimos detalles de los equipos y quién ganó (la IA acertó), además de algunos momentos clave.
Una pregunta de seguimiento sobre el marcador final se respondió correctamente, pero Gemini se equivocó al nombrar al anotador del primer touchdown: la IA sugirió que era Johan Dotson. Dotson apareció anotando un touchdown en las jugadas destacadas con el marcador 0-0, pero fue descartado; un ejemplo de los matices que la IA no siempre capta.
Gemini identificó con éxito cuándo los Kansas City Chiefs consiguieron sus primeros puntos, e incluso incluyó una marca de tiempo que enlazaba directamente con el touchdown en el vídeo de YouTube. También acertó el nombre del anotador. Parece que Gemini depende en gran medida de los comentarios para los vídeos deportivos, lo cual no sorprende.
Resumir el contenido del vídeoLa IA puede identificar detalles del vídeo si se mencionan en el audio.
Fotografía: David NieldA continuación, intentamos comparar a Gemini con un vídeo entre bastidores de El Gran Hotel Budapest, dirigido por Wes Anderson. El clip dura cuatro minutos y medio, y Gemini respondió casi al instante: identificó el nombre de la película de la que se hablaba y los puntos principales de la narrativa del clip.
Sin embargo, todo depende del audio (o la transcripción), ya que no parece haber ningún análisis del contenido real del video. La IA no pudo identificar a los presentadores, a pesar de que sus nombres aparecían en pantalla, ni tampoco pudo identificar al director (aunque esto también se mencionaba en la descripción del video).
En el lado positivo, Gemini hizo un trabajo impresionante al resumir el audio del video. Identificó correctamente algunos de los desafíos cinematográficos mencionados y proporcionó marcas de tiempo para cada uno, desde la búsqueda de un set para representar el Gran Budapest hasta la incorporación de extras.
Resumir entrevistasGemini puede proporcionar marcas de tiempo para el vídeo especificado.
Fotografía: David NieldFinalmente, probamos Google Gemini con una entrevista : Channel 4 del Reino Unido habló con Charlie Brooker y Siena Kelly sobre la última temporada de Black Mirror (quizás apropiado para un artículo sobre IA). Gemini demostró ser muy capaz de identificar los temas de conversación y añadir marcas de tiempo, aunque, por supuesto, el vídeo se compone principalmente de diálogos.
Sin embargo, nuevamente, no hay contexto sobre nada más allá del audio o la transcripción. La IA de Gemini no pudo identificar dónde tuvo lugar la entrevista, ni cómo actuaban los participantes, ni nada más sobre las imágenes del video, lo cual conviene tener en cuenta si lo usas tú mismo.
Para los videos donde las respuestas que buscas están en el audio de un video de YouTube y su transcripción, Gemini funciona muy bien para resumir y proporcionar respuestas precisas (siempre que los comentaristas mencionen cuándo se anula un touchdown y cuándo se anota). Para cualquier tipo de información visual, tendrás que ver el video tú mismo.
wired