Como usar o Gemini AI para resumir vídeos do YouTube

As grandes empresas de IA prometem constantemente que sua tecnologia nos poupará tempo e aumentará nossa produtividade — embora com grandes questões sobre abuso de direitos autorais , conteúdo ilegal e consumo exorbitante de energia pairando de forma bastante inconveniente em segundo plano. Mas se você busca repor mais tempo em sua agenda lotada, a IA pode ser uma ferramenta útil, e talvez, em alguns aspectos, você nem tenha pensado nisso.
Um deles pode ser resumir vídeos do YouTube. A IA já demonstrou que pode ser um resumidor bastante confiável (embora nem sempre ), e se você precisar apenas extrair alguns pontos importantes de uma série de vídeos de 15 ou 30 minutos de duração, o tempo economizado pode aumentar rapidamente.
O Google Gemini tem um novo modelo de IA, o Gemini 2.0 Flash Thinking Experimental , que pode ser conectado a aplicativos do Google, incluindo a Pesquisa Google, o Google Maps e o YouTube. O modelo está disponível para todos os usuários do Gemini, pagantes ou não, e nós o testamos em uma seleção de clipes usando a interface web do Gemini.
Como encontrar o recursoO novo modelo está disponível para todos os usuários Gemini.
Fotografia: David NieldSe você abrir o Gemini na web , iniciar um novo bate-papo e acessar o seletor de modelos no canto superior esquerdo, verá um com o rótulo 2.0 Flash Thinking (experimental) . Este é o aplicativo com as conexões do aplicativo Google integradas, embora na maioria das vezes você precise especificar qual aplicativo deseja usar (ao procurar um lugar no Google Maps, por exemplo).
O modelo também não é difícil de encontrar nos aplicativos Gemini para Android ou iOS : se você tocar no menu suspenso na parte superior de uma nova conversa (que deve estar rotulado com o modelo que você está usando no momento), verá a opção 2.0 Flash Thinking (experimental) disponível para seleção.
Você provavelmente achará o recurso um pouco mais fácil de usar na web, onde pode arrastar URLs do YouTube entre as abas do navegador para análise, mas também pode acessá-lo em dispositivos móveis. Além de analisar vídeos do YouTube, você pode pesquisar novos conteúdos: tente pedir ao YouTube vídeos sobre destaques de beisebol ou explicações científicas, por exemplo.
Resumir os destaques da partidaA Gemini não acertou tudo sobre o Super Bowl LIX.
Fotografia: David NieldPara começar, colocamos a Gemini para trabalhar em um pacote com os melhores momentos do Super Bowl LIX do ano passado — quase 20 minutos de ação — para ver o que a IA faria com isso. Para começar, simplesmente perguntamos "O que está acontecendo neste jogo?" e em poucos segundos tínhamos detalhes dos times e quem venceu (o que a IA acertou), além de alguns destaques importantes.
Uma pergunta complementar sobre o placar final foi respondida corretamente, mas Gemini errou o nome do autor do primeiro touchdown: a IA sugeriu que era Johan Dotson. Dotson foi mostrado marcando um touchdown nos destaques com o placar em 0 a 0, mas a possibilidade foi descartada — um exemplo das nuances que a IA não necessariamente percebe.
O Gemini identificou com sucesso o momento em que o Kansas City Chiefs marcou seus primeiros pontos e até incluiu um link direto para o touchdown no clipe do YouTube. Acertou também o nome do autor do gol. Parece que o Gemini depende muito dos comentários para clipes esportivos, o que não é surpresa.
Resumir o conteúdo do vídeoA IA pode identificar detalhes do vídeo, se eles forem mencionados no áudio.
Fotografia: David NieldEm seguida, tentamos comparar o Gemini com um vídeo dos bastidores de O Grande Hotel Budapeste, dirigido por Wes Anderson. O clipe tem quatro minutos e meio, e o Gemini respondeu a algumas perguntas quase instantaneamente: identificou o nome do filme em questão e os principais pontos da narrativa do clipe.
No entanto, tudo depende novamente do áudio (ou da transcrição) — não parece haver nenhuma análise do conteúdo real do vídeo. A IA não conseguiu identificar quem eram os apresentadores no vídeo, mesmo com seus nomes exibidos na tela, e não conseguiu identificar o diretor (embora isso também tenha sido mencionado na descrição do vídeo).
O lado positivo é que a Gemini fez um trabalho impressionante ao resumir o áudio do vídeo. Identificou corretamente alguns dos desafios da produção cinematográfica mencionados ao longo do vídeo e forneceu registros de tempo para eles — desde a busca por um cenário para representar a Grande Budapeste até o preenchimento com figurantes.
Resumir EntrevistasO Gemini pode fornecer registros de data e hora para o vídeo especificado.
Fotografia: David NieldPor fim, testamos o Google Gemini com uma entrevista : o Canal 4 do Reino Unido falou com Charlie Brooker e Siena Kelly sobre a última temporada de Black Mirror (talvez apropriado para um artigo sobre IA). O Gemini se mostrou muito capaz de identificar os pontos de discussão e adicionar marcações temporais, embora, é claro, o vídeo inteiro seja basicamente um diálogo.
Novamente, porém, não há contexto sobre nada além do áudio ou da transcrição. A Gemini AI não conseguiu dizer onde a entrevista ocorreu, como os participantes estavam agindo, nem nada sobre os recursos visuais do vídeo — o que vale a pena ter em mente se você mesmo o usar.
Para vídeos em que as respostas que você deseja estão no áudio de um vídeo do YouTube e na transcrição correspondente, o Gemini funciona muito bem resumindo e fornecendo respostas precisas (desde que os comentaristas mencionem quando um touchdown é anulado, bem como quando um é marcado). Para qualquer tipo de informação visual, você ainda terá que assistir ao vídeo.
wired