Jak używać Gemini AI do podsumowywania filmów z YouTube

Szukasz najważniejszych momentów długiego filmu na YouTube? Ta funkcja Gemini może być warta wypróbowania.

Zdjęcie: JOSH EDELSON/Getty Images

Wielkie firmy AI nieustannie obiecują, że ich technologia zaoszczędzi nam czasu i zwiększy naszą produktywność — choć w tle wiszą duże pytania o nadużywanie praw autorskich , nielegalne treści i gwałtownie rosnące zużycie energii . Ale jeśli chcesz wygospodarować więcej czasu w swoim napiętym grafiku, AI może być przydatnym narzędziem, a może nawet w niektórych kwestiach, o których nawet nie pomyślałeś.

Jednym z nich może być streszczanie filmów z YouTube. AI już pokazało, że może być dość niezawodnym narzędziem do podsumowywania (choć nie zawsze ), a jeśli potrzebujesz tylko wyodrębnić kilka istotnych punktów z serii filmów trwających 15 lub 30 minut, zaoszczędzony czas może szybko się sumować.

Google Gemini ma nowy model AI, Gemini 2.0 Flash Thinking Experimental , który można podłączyć do aplikacji Google, w tym Google Search, Google Maps i YouTube. Model jest dostępny dla wszystkich użytkowników Gemini, płacących lub nie, i przetestowaliśmy go na wybranych klipach za pomocą interfejsu internetowego Gemini.

Jak znaleźć funkcję

Nowy model jest dostępny dla wszystkich użytkowników Gemini.

Zdjęcie: David Nield

Jeśli otworzysz Gemini w sieci , rozpoczniesz nowy czat i przejdziesz do selektora modeli w lewym górnym rogu, powinieneś zobaczyć jeden oznaczony jako 2.0 Flash Thinking (eksperymentalny) . Jest to ten z wbudowanymi połączeniami aplikacji Google, chociaż w większości przypadków musisz określić, której aplikacji chcesz użyć (np. podczas wyszukiwania miejsca w Mapach Google).

Znalezienie tego modelu nie stanowi problemu również w aplikacjach Gemini na Androida i iOS : jeśli dotkniesz menu rozwijanego u góry nowej konwersacji (która powinna być oznaczona modelem, którego aktualnie używasz), zobaczysz opcję 2.0 Flash Thinking (eksperymentalną) dostępną do wyboru.

Prawdopodobnie uznasz tę funkcję za nieco łatwiejszą w użyciu w sieci, gdzie możesz przeciągać adresy URL YouTube między kartami przeglądarki w celu analizy, ale możesz uzyskać do niej dostęp również na urządzeniach mobilnych. Oprócz analizowania filmów z YouTube możesz wyszukiwać nowe treści: spróbuj poprosić YouTube o filmy o najważniejszych momentach baseballu lub wyjaśnienia naukowe, na przykład.

Podsumowanie najważniejszych momentów meczu

Gemini nie do końca poradziło sobie z Super Bowl LIX.

Zdjęcie: David Nield

Na początek daliśmy Gemini do pracy nad pakietem najważniejszych momentów zeszłorocznego Super Bowl LIX — prawie 20 minut akcji — aby zobaczyć, co z tego wyniknie. Na początek po prostu zapytaliśmy „Co dzieje się w tej grze?” i w ciągu kilku sekund otrzymaliśmy szczegóły dotyczące drużyn i zwycięzców (co AI odpowiedziała poprawnie) oraz kilka kluczowych momentów.

Na pytanie kontrolne dotyczące wyniku końcowego udzielono prawidłowej odpowiedzi, ale Gemini źle podał nazwisko strzelca pierwszego przyłożenia: AI zasugerowała, że był to Johan Dotson. Dotson został pokazany w najważniejszych momentach przy wyniku 0-0, ale został wykluczony — przykład niuansów, których AI niekoniecznie wychwytuje.

Gemini z powodzeniem zidentyfikował moment, w którym Kansas City Chiefs zdobyli swoje pierwsze punkty, a nawet umieścił znacznik czasu bezpośrednio łączący się z przyłożeniem w klipie YouTube. Poprawnie rozpoznał również nazwisko strzelca. Wygląda na to, że Gemini jest w dużym stopniu zależny od komentarza do klipów sportowych, co nie jest zaskakujące.

Podsumowanie zawartości wideo

Sztuczna inteligencja potrafi wychwycić szczegóły z nagrania wideo, jeśli są one wspomniane w materiale audio.

Zdjęcie: David Nield

Następnie spróbowaliśmy zestawić Gemini z materiałem zza kulis filmu The Grand Budapest Hotel, wyreżyserowanym przez Wesa Andersona. Klip trwa cztery i pół minuty, a Gemini niemal natychmiast odpowiedziało: zidentyfikowało nazwę omawianego filmu i główne wątki narracji klipu.

Jednak wszystko opiera się na dźwięku (lub transkrypcji) — nie wydaje się, aby istniała jakakolwiek analiza faktycznej zawartości wideo. AI nie potrafiła powiedzieć, kim są gadające głowy w wideo, mimo że ich nazwiska były wyświetlane na ekranie, i nie potrafiła powiedzieć, kim jest reżyser (mimo że wspomniano o tym również w opisie wideo).

Z pozytywnej strony, Gemini wykonał imponującą robotę, podsumowując dźwięk z filmu. Poprawnie zidentyfikował niektóre wyzwania związane z filmowaniem, o których wspomniano w całym filmie, i nadał im znaczniki czasu — od poszukiwania planu zdjęciowego do przedstawienia Grand Budapest, po wypełnienie go statystami.

Podsumowanie wywiadów

Gemini może zapewnić znaczniki czasu dla określonego filmu.

Zdjęcie: David Nield

Na koniec wypróbowaliśmy Google Gemini z wywiadem : Channel 4 w Wielkiej Brytanii rozmawia z Charliem Brookerem i Sieną Kelly o najnowszej serii Black Mirror (być może odpowiednie dla artykułu o AI). Gemini udowodniło, że jest bardzo zdolne do wybierania tematów do rozmowy i dodawania znaczników czasu, chociaż oczywiście cały film to głównie rozmowa.

Ponownie jednak nie ma żadnego kontekstu poza dźwiękiem lub transkrypcją. Gemini AI nie mógł powiedzieć, gdzie odbył się wywiad, jak zachowywali się uczestnicy ani niczego innego na temat wizualizacji wideo — co warto mieć na uwadze, jeśli sam z niego korzystasz.

W przypadku filmów, w których odpowiedzi, których szukasz, znajdują się w audio filmu YouTube i jego powiązanej transkrypcji, Gemini naprawdę dobrze radzi sobie z podsumowaniem i udzielaniem dokładnych odpowiedzi (pod warunkiem, że komentatorzy wspominają, kiedy przyłożenie jest wykluczone, a kiedy jest zdobyte). W przypadku jakichkolwiek informacji wizualnych nadal będziesz musiał obejrzeć wideo samodzielnie.