Diese KI verzerrt Live-Videos in Echtzeit

Dean Leitersdorf stellt sich über Zoom vor und tippt dann eine Aufforderung ein, die mir das Gefühl gibt, gerade psychedelische Pilze genommen zu haben: „Wilder Westen, kosmisch, Römisches Reich, golden, unter Wasser.“ Er speist die Wörter in ein künstliches Intelligenzmodell ein, das von seinem Startup Decart entwickelt wurde und Live-Videos in Echtzeit manipuliert.
„Ich habe keine Ahnung, was passieren wird“, sagt Leitersdorf lachend, kurz bevor er sich in eine bizarre, goldfarbene Unterwasserversion von Julius Caesar im Poncho verwandelt.
Leitersdorf sieht schon jetzt etwas wild aus – lange Haare fallen ihm über den Rücken, ein Stift vollführt Akrobatik in seinen Fingern. Während wir sprechen, oszilliert sein Bild auf dem Bildschirm auf surreale Weise, während das Model versucht, jedes neue Bild vorherzusagen. Leitersdorf legt die Hände vors Gesicht und erhält weiblichere Züge. Sein Stift wechselt zwischen verschiedenen Farben und Formen. Er fügt weitere Hinweise hinzu, die uns in neue psychedelische Sphären entführen.
Decarts Video-zu-Video-Modell Mirage ist sowohl eine beeindruckende technische Leistung als auch ein Zeichen dafür, wie KI die Livestreaming-Branche bald aufmischen könnte. Tools wie Sora von OpenAI können mit einer Texteingabe immer realistischere Videoaufnahmen erzeugen. Mirage ermöglicht nun die Bearbeitung von Videos in Echtzeit.
Am Donnerstag startet Decart eine Website und App, mit der Nutzer eigene Videos erstellen und YouTube-Clips bearbeiten können. Die Website bietet verschiedene Standardthemen, darunter „Anime“, „Dubai Skyline“, „Cyberpunk“ und „Schloss Versailles“. Während unseres Interviews lädt Leitersdorf einen Clip hoch, in dem jemand Fortnite spielt. Die Szene verwandelt sich von der bekannten Battle-Royale-Welt in eine Unterwasserversion.
Decarts Technologie bietet großes Potenzial für den Gaming-Bereich. Im November 2024 stellte das Unternehmen ein Spiel namens Oasis vor , das einen ähnlichen Ansatz wie Mirage nutzte, um spontan eine spielbare Minecraft -ähnliche Welt zu generieren. Nutzer konnten sich einer Textur nähern und dann wieder herauszoomen, um neue spielbare Szenen im Spiel zu erzeugen.
Die Bearbeitung von Live-Szenen in Echtzeit ist noch rechenintensiver. Decart hat Low-Level-Code geschrieben, um Hochgeschwindigkeitsberechnungen aus Nvidia-Chips herauszukitzeln und dieses Kunststück zu erreichen. Mirage generiert 20 Bilder pro Sekunde bei einer Auflösung von 768 × 432 Pixeln und einer Latenz von 100 Millisekunden pro Bild – gut genug für einen TikTok-Clip in guter Qualität.
Die Erstellung von Videos in Echtzeit ist ebenfalls eine Herausforderung, da ein Modell leicht extrem von der Realität abweichen kann. Decart entwickelte ein individuelles Schema für das Training und den Betrieb eines Modells, um eine größere Kohärenz zu erreichen. Das Unternehmen entwickelte außerdem eine Methode, mit der sein Modell Fehler schnell korrigieren kann.
Decart arbeitet nach eigenen Angaben an Full-HD- und 4K-Ausgabe und sucht nach neuen Möglichkeiten für die Videosteuerung. „Wir werden bald weitere Versionen veröffentlichen, die gezieltere Bearbeitungen ermöglichen“, so Leitersdorf.
Ich kann mir vorstellen, dass das Tool auf Plattformen wie TikTok oder Instagram populär wird – ich hatte jedenfalls Spaß daran, mit Freunden merkwürdige Szenen zu kreieren und dabei eine große Bandbreite mysteriös aussehender Cyberpunk-Charaktere zu generieren, manche mit einer unglaublichen Anzahl von Fingern. Seine Unberechenbarkeit könnte sich jedoch als umstritten erweisen. Manchmal scheint das Modell unerklärlicherweise darauf aus zu sein, die ethnische Zugehörigkeit eines Benutzers zu ändern.
Leitersdorf sagt, dass außerhalb seines eigenen Unternehmens nur die größten KI-Labore – OpenAI, Anthropic, xAI, Google und Meta – über die technischen Möglichkeiten verfügen, etwas wie Mirage zu entwickeln. Er hat jedoch nicht die Absicht, sich übernehmen zu lassen. „Wir haben fünf Jahre Zeit und versuchen, ein Kilo-Einhorn aufzubauen“, sagt er und nickt mit dem Stift. „Das sind 1.000 Milliarden Dollar oder eine Billion Nutzer.“
wired