Veo 3, Googles KI zum Erstellen realistischer Videos mit Audio, ist auch in Italien verfügbar

Veo 3, Googles künstliche Intelligenzmodell, mit dem Sie realistische Videos mit synchronisiertem Audio erstellen können, ist auch in Italien verfügbar.
Nutzer von Gemini Pro , einem monatlichen Abo für etwa 22 Euro, das Zugriff auf die erweiterten Funktionen der künstlichen Intelligenz von Google bietet, können nun auch in Deutschland auf eine verbesserte Version des Modells namens „ Veo 3 Fast “ zugreifen. Diese Variante kann Videos mit doppelter Geschwindigkeit im Vergleich zur Standardversion erstellen. Mit Veo 3 Fast erstellte Videos haben eine Auflösung von 720p und sind maximal acht Sekunden lang.
Pro-Abonnenten können bis zu drei Videos pro Tag erstellen. Nach Ablauf dieser täglichen Grenze kehrt die Anwendung automatisch zum Vorgängermodell Veo 2 zurück.
Was ist Veo 3Im Gegensatz zum Vorgängermodell Veo 2 und Tools wie Sora von OpenAI beschränkt sich Veo 3 nicht nur auf die Erzeugung bewegter Bilder. Es integriert Soundeffekte , Umgebungsgeräusche und sogar Dialoge und synchronisiert diese perfekt mit der Handlung des Videos. Googles KI ist daher in der Lage, Videos mit sprechenden Personen in mehreren Sprachen, darunter auch Italienisch , zu produzieren. Das Kuriose daran ist, dass Veo 3 sogar die Nuancen von Dialekten mehr oder weniger überzeugend wiedergeben kann.
Veo 3 basiert auf einer Diffusions-Transformator-Architektur und nutzt für sein Training die enormen Rechenressourcen von Google und wahrscheinlich einen erheblichen Teil des Videoarchivs von YouTube . Allerdings bleibt DeepMind – das Team hinter der fortschrittlichsten KI von Big G – bei den Details absichtlich vage.
Das Ergebnis ist ein Modell, das die Gesetze der realen Physik versteht und komplexe Erzählanweisungen berücksichtigt, wodurch überraschend realistische 8-Sekunden -Clips generiert werden.
Die Fähigkeit des Veo 3, mit nuancierten Eingabeaufforderungen umzugehen – beispielsweise mit der Angabe von Kamerawinkeln, Kunststilen oder sogar Dialogen – hebt ihn deutlich von der Konkurrenz ab.
Beispielsweise erzeugt eine Eingabeaufforderung, die einen Seemann beschreibt, der auf eine stürmische See zeigt, während er Gedichte rezitiert, ein Video mit brechenden Wellen, heulendem Wind und der Stimme des Seemanns, die perfekt mit seinen Lippenbewegungen synchronisiert ist.
Allerdings hat Veo 3 auch seine Schwächen : Komplexe Handgesten, wie etwa das Zählen mit den Fingern, können ihm Schwierigkeiten bereiten, wahrscheinlich aufgrund einer schlechten Darstellung in den Trainingsdaten.
Doch die Fähigkeit dieses Modells, physikalische Phänomene realistisch zu simulieren – etwa ein Polarlicht, das über den arktischen Himmel tanzt – lässt seine Videos wie echtes, professionelles Filmmaterial aussehen.
Was Veo 3 wirklich revolutionär macht, ist seine native Fusion von Video und Audio , eine technische Errungenschaft, die für KI-Entwickler lange Zeit eine Herausforderung darstellte.
Im Gegensatz zu Konkurrenzmodellen wie Runway oder Sora , die oft eine nachträgliche Audiosynchronisation erfordern, generiert der Veo 3 beide Modi gleichzeitig und sorgt so für perfekte Lippensynchronisation und harmonische Raumklangwiedergabe. Dies ist nicht nur ein technologischer Fortschritt, sondern ein Paradigmenwechsel. Einer, der Kreativität fördern, aber auch kontroverse und anstößige Inhalte hervorbringen kann.
Das Warten hat ein Ende. @GeminiApp liefert Veo 3 jetzt *weltweit* für alle Pro-Mitglieder aus! Das bedeutet, dass Indien, Indonesien, ganz Europa und weitere Länder ab sofort Zugriff auf die Videoerstellung erhalten. Als Mitglied erhältst du drei Videogenerationen pro Tag, und dein Guthaben wird aufgefüllt… pic.twitter.com/uPa0p0KQZu
– Josh Woodward (@joshwoodward) , 3. Juli 2025
Um Missbrauch vorzubeugen, wird jedes Bild digital mit Googles SynthID-Wasserzeichen versehen, das für das menschliche Auge unsichtbar, aber theoretisch nachvollziehbar ist. Seit einigen Wochen ist außerdem unten rechts in den generierten Videos ein kleiner Text mit dem Namen „Veo“ zu sehen.
Allerdings ist mit dieser Maßnahme nicht gewährleistet, dass auch weniger aufmerksame Nutzer – etwa solche, die in sozialen Medien schnell durch Inhalte scrollen – erkennen, dass sie ein KI-generiertes Video sehen.
Auf TikTok kursieren KI-generierte rassistische Videos , die aussehen, als wären sie mit Veo 3 erstellt worden [das „Veo“ unten rechts lässt keinen Zweifel].
In den fraglichen Videos werden Schwarze als Affen oder Kriminelle dargestellt. Googles KI wurde auch dazu verwendet, falsche oder irreführende Narrative über Migranten zu konstruieren.
Diese Inhalte erzielen Millionen von Aufrufen, obwohl sie zutiefst beleidigende und voreingenommene Bilder verbreiten.
La Repubblica