banner

Nachricht

May 22, 2023

Roll möchte mithilfe generativer KI Dolly-Aufnahmen und mehr nachbilden

Wer Faizan Buzdar kennt, der bis vor Kurzem Vizepräsident für Produktmanagement bei Box war, bringt den Unternehmer wahrscheinlich mit Convo in Verbindung, der bei Nachrichtenredaktionen (einschließlich dieser) beliebten Plattform für digitale Arbeitsplätze. Aber Buzdar, dessen Hintergrund in der Elektrotechnik liegt, ist seit langem von Videos und visuellen Effekten fasziniert.

„Als lebenslanger Video- und Fotografie-Enthusiast habe ich jahrelang Videos selbst gemacht, aber mir ist aufgefallen, dass die Videoproduktion in den letzten Jahrzehnten weitgehend manuell blieb und kaum Innovationen hervorbrachte, insbesondere bei zeitaufwändigen Aufgaben wie der Videobearbeitung“, erzählte mir Buzdar per E-Mail . „Mittlerweile ist mir aufgefallen, dass die Kamera- und Sensortechnologie des iPhones in den letzten Jahren schrittweise Verbesserungen erfahren hat und in der Bildqualität nun fast mit der von DSLRs vergleichbar ist.“

Buzdar sagt, dass er während seiner Zeit bei Box beschlossen habe, Video – ein immer beliebter werdendes Medium – mit Innovationen in der KI und dem maschinellen Lernen zu kombinieren, um das Videoaufnahme- und Bearbeitungserlebnis zu verbessern. Buzdar beauftragte Adeel Abbas, einen Videoingenieur, der während seiner Zeit bei Twitter zur Infrastruktur für die Livestreaming-Funktionen der Website beitrug, zusammen mit Saj Khan, Fahad Yaqub und seiner Box-Managerin Michelle Oh, um die Grenzen der technologiebeschleunigten Videoproduktion zu erkunden.

Roll ist das Ergebnis. Als neue App für iOS liefert sie Bokeh, Multicam-Aufnahmen, Bewegungsgrafiken und – was mich vielleicht am meisten fasziniert – „KI-simulierte“ Slider, Dollies und Jibs.

Bildnachweis:Rollen

„Unsere Mission ist es, die Welt der hochwertigen Videoproduktion zu revolutionieren und zum neuen Standard für die Erstellung von Videoinhalten zu werden“, fuhr Buzdar fort. „Um großartige Videos zu erstellen, ist eine enorme Vorabinvestition in Ausrüstung, Ausrüstung, das Erlernen des Umgangs mit dieser Ausrüstung und Software für die Bearbeitung erforderlich – all das werden wir los.“

Roll richtet sich an den „Prosumer“-Markt (denken Sie an Influencer und Podcaster, aber auch an Unternehmen, die ihr eigenes Marketingmaterial erstellen) und besteht aus zwei Produkten: der Roll-iPhone-App und der Web-App. Die iPhone-App erfasst und zeichnet Videos auf und lädt sie dann automatisch zur Speicherung und Verarbeitung in die Cloud von Roll hoch. In der Web-App hingegen kann das Filmmaterial von einem oder einem Team von Inhaltserstellern in der Vorschau angezeigt, abgerufen, geteilt, heruntergeladen und bearbeitet werden.

Natürlich gibt es Video-Apps wie Sand am Meer. Was macht Roll also anders? Einerseits zielt die App auf Anwendungsfälle ab, die die meisten Kamera-Apps nicht haben, sagt Buzdar – wie Remote-Videointerviews, Video-Podcasts und Kundenreferenzen. Während Zoom, Microsoft Teams und Google Meet den Bedarf bis zu einem gewissen Grad decken, argumentiert Buzdar, dass sie nicht für die Produktion von „hochwertigen“ Videos konzipiert sind.

Roll verwendet außerdem eine Reihe von Echtzeiteffekten, um (angeblich) eine größere Auswahl an Postproduktionsoptionen zu bieten als die meisten Videoaufnahme-Apps. Roll zeichnet beispielsweise im HEVC-Standard auf und liefert etwa die doppelte Bitrate und eine höhere Bildqualität bei gleicher Dateigröße. Und Roll kann bis zu zwei Kameraaufnahmen – eine Weitwinkelaufnahme und eine Nahaufnahme – gleichzeitig aufzeichnen und verarbeiten, sodass Benutzer Videos mit praktisch „Mehrkamera“-Perspektiven erstellen können.

Die Rollenbearbeitungsoberfläche.Bildnachweis:Rollen

Zugegeben, Multicam ist nicht besonders einzigartig – Roll ist bei weitem nicht die erste App, die es anbietet. Aber Buzdar sagt, dass der Zauber in der Nachbearbeitung liegt. Roll nutzt generative KI, um Räume im 3D-Raum nachzubilden, sodass Inhaltsersteller eine videospielähnliche virtuelle Kamera bewegen und Bewegungen wie das Hin- und Herschwenken mit einem Dolly oder Kran simulieren können.

„Heutzutage wird generative KI allzu oft mit der Erstellung gefälschter Inhalte aus dem Nichts in Verbindung gebracht“, sagte Buzdar. „Das ist nicht unsere Philosophie. Wir generieren keine gefälschten Pixel, Personen oder Szenen. Wir nutzen generative KI ausschließlich als Produktivitätswerkzeug – wir wollen den Zugang zu qualitativ hochwertigerer Videoproduktion demokratisieren.“

Buzdar erklärte, dass Rolls KI darauf trainiert wurde, die 3D-Tiefe in einer Szene zu verstehen, indem sie Daten nutzte, um Tiefe und Formen unabhängig von der im Raum sitzenden Person zu messen. Roll begann, seine Algorithmen mit Open-Source-Datensätzen zu trainieren, die üblicherweise für Benchmarking in der Wissenschaft verwendet werden, zeichnete dann jedoch intern über 22.000 Videoanrufe auf und erstellte so eine eigene umfangreiche Datenbank.

Die Ergebnisse sind nicht halb so schlecht – zumindest in dem Demomaterial, das Buzdar mir gezeigt hat. Einige von Rolls KI-generierten Schwenks berühren das unheimliche Tal, das Ergebnis unnatürlicher Verzerrungen an Objekten im Hintergrund, während die virtuelle Kamera vorbeischwenkt. Aber in kurzen Szenen sind die KI-Effekte überzeugend genug – und eine auffällige Ergänzung zu einem ansonsten langweiligen Remote-Interview.

„Wir haben das ausführlich erforscht, und wir haben noch niemanden gesehen, der KI auf die gleiche Weise nutzt wie wir – indem er iPhone-Sensordaten mit großen KI-Modellen in der Cloud koppelt“, sagte Buzdar. „Unsere Technologie bietet grundlegende Möglichkeiten zur Simulation aller visuellen Effekte, die sich ein Benutzer wünschen würde.“

Anrufaufzeichnung mit Roll.Bildnachweis:Rollen

Alle visuellen Effekte klingen etwas langwierig. Aber Roll hat andere, realistischere algorithmische Tricks im Ärmel. Während Roll Videos aufzeichnet, sammelt es Metadaten zur späteren Verwendung im Videoproduktionsprozess, einschließlich Aufnahme- und Lichtbedingungen, der Entfernung von der Kamera zum Motiv und der Position von Gesicht und Körper des Motivs. Die Metadaten werden verwendet, um die Kameras und Sensoren des Telefons automatisch anzupassen und Feedback und Anweisungen für Komposition und Beleuchtung bereitzustellen.

Ähnlich wie einige andere „KI-fähige“ mobile Videoeditoren auf dem Markt greift auch Roll auf die Metadaten zu, um in seiner Bearbeitungscloud eine vollständig realisierte Multikamera-Rolle zu erstellen – eine manuelle Bearbeitung ist nicht erforderlich. (Benutzer können weiterhin die Kamerawinkel ändern und anpassen oder Kamerabewegungen und visuelle Effekte hinzufügen, wenn sie möchten.) In naher Zukunft wird Roll in der Lage sein, direkt in sozialen Medien, einschließlich TikTok, YouTube und Instagram, zu veröffentlichen – jeweils in der entsprechenden Auflösung und Seitenverhältnis.

„Heutzutage erfordert die Videoproduktion viele Hardware- und Softwareteile, um vollständig fertig zu werden“, sagte Buzdar. „Mit jedem einzelnen Schritt, wenn die Video- und Audiodatei von einer Software zur anderen wechselt, verliert sie den Kontext und wird einfach zu einer ‚dummen‘ Datei, die herumgereicht wird. Wir haben den gesamten ‚Stack‘ der Videoproduktion grundlegend von Grund auf neu aufgebaut. Schneiden.“ Über die Grenzen herkömmlicher Software hinaus haben wir KI eingesetzt, um ein transformatives Capture-to-Publish-Erlebnis zu bieten, das den gesamten Remote-Videoproduktionsworkflow vertikal integriert und automatisiert.“

Wie will Roll also Geld verdienen? Bisher hat das Unternehmen Geld aus traditionellen VC-Quellen beschafft – wo genau, wollte Buzdar nicht sagen. Aber im Hinblick auf die Umsatzgenerierung hofft Buzdar, dass Roll irgendwann wachsen wird, um den Bedürfnissen von Unternehmensorganisationen gerecht zu werden – insbesondere ihren internen Unternehmensmarketing- und Videoteams, die eine Art Gebühr für die Dienste von Roll zahlen werden.

„Die Videoproduktion ist reif für Störungen durch die Cloud“, sagte Buzdar. „Eigenschaften wie große Dateigrößen, komplexe Verarbeitung und die Notwendigkeit von Bearbeitungs- und Prüfzyklen durch mehrere Personen machen es zum perfekten Kandidaten für die exponentiellen Vorteile von Cloud Computing wie skalierbarem Speicher, KI, Rechenleistung sowie Echtzeitfreigabe und -zusammenarbeit.“

Da ist sicherlich die Wahrheit dran. Ob Roll der Störfaktor sein wird, wird die Zeit zeigen.

Bildnachweis: Bildnachweis: Bildnachweis:
AKTIE