Teil 1: Revolutioniert OpenAI Sora die Videoproduktion?

Seit dem offiziellen Start von OpenAI Sora in der Schweiz ist das Interesse in der Kreativ- und Kommunikationsbranche gross. Wir von Vollformat wollten es genau wissen und nehmen Sora in einer zweiteiligen Blogserie unter die Lupe. In Teil 1 klären wir: Was ist Sora eigentlich? Wie funktioniert das Tool? Und wie überzeugend sind die Resultate, wenn aus reinen Textvorgaben ein Video entstehen soll?

Sora von OpenAI, Quelle: maurice norbert – stock.adobe.com

Was ist Sora – kurz erklärt

Sora ist ein von OpenAI entwickeltes KI-Modell, das auf Grundlage einfacher Texteingaben (sogenannten Prompts) fotorealistische Videoclips generiert. Dies ganz ohne Produktionsteam, Drehplan und Kamera. Dabei simuliert Sora Kamerabewegungen, Lichtstimmungen, physikalische Dynamiken und Objektinteraktionen. Das Modell basiert auf denselben Technologien wie DALL-E 3, dem AI-Grafikgenerator von OpenAI, wurde aber mit Videomaterial statt Bildern trainiert.

OpenAI bietet Sora (Stand April 2025) in zwei kostenpflichtigen Abo-Modellen an, die sich bezüglich Preis, Videoqualität, Videolänge und Funktionen unterscheiden:

ChatGPT Plus

ChatGPT Pro

Preis:

$20 / Monat

$200 / Monat

Videoqualität:

Bis zu 720p

Bis zu 1080p

Videolänge:

Maximal 10 Sekunden

Maximal 20 Sekunden

Funktionen:

Grundlegende Videoerstellung

Schnellere Generierung, bis zu 4 gleichzeitige Videoerstellungen, Download ohne Wasserzeichen

Unser erster Test: Funktion «Text to Video»

Die Funktion «Text to Video» von Sora ermöglicht es, aus einer Texteingabe – einem sogenannten Prompt – ein Video zu generieren. Nutzer:innen beschreiben im Prompt eine Szene mit Angaben zu Objekten, Ort, Bewegung, Stil, Kamerabewegung etc. Sora interpretiert diesen Text und erstellt daraus einen kurzen Videoclip.

Um das aktuelle Potenzial von Sora praxisnah einschätzen zu können, haben wir ein einem ersten Test Videos für typische Anwendungsfelder im Kommunikationsalltag generiert. Der Fokus lag dabei auf drei gezielten Prompts: Einem komplexen Szenario mit mehreren Personen und Interaktionen, einem einfacheren Prompt mit einer einzelnen Person sowie einer Szene ohne Menschen.

Video 1 - Interaktives Szenario zur Krisenkommunikation

Wir beginnen mit dem ersten Prompt zum Thema Krisenkommunikation – eine Szene mit einem Pressesprecher. Sora erhielt von uns dazu folgende Anweisung:

				
					Depict a realistic crisis management situation, where a company's spokesperson delivers a sensitive announcement via live video. Clearly portray emotional authenticity, precise body language conveying transparency and empathy, and realistic reactions from diverse audience members watching remotely.

Mittels Sora generiertes Video

Technische und inhaltliche Analyse

Das Video versucht, eine emotionale Ansprache im Stil eines Live-Videos zu inszenieren. Der interaktive Charakter des Live-Moments fehlt jedoch vollständig. Stattdessen stehen mehrere Personen um den Pressesprecher herum. Die gezeigten Emotionen der Zuschauer:innen sind sehr unterschiedlich, was im ernsten Kontext irritierend wirkt. Die Kamerabewegung erscheint künstlich und unruhig. Die Generierung von Audio ist derzeit noch nicht möglich – gerade in diesem Beispiel wäre Ton jedoch essenziell, um die Wirkung zu steigern. Positiv hervorzuheben ist die Lichtstimmung und der Gesichtsausdruck des Pressesprechers, die der Szene eine gewisse Ernsthaftigkeit verleiht.

Video 2 - Büro-Alltag in moderner Umgebung

Im zweiten Test verwendeten wir einen kürzeren, simpleren Prompt mit nur einer dargestellten Person und einer reduzierten Handlung – deutlich einfacher strukturiert als das erste Beispiel.

				
					A wide shot of a bright, modern office where a person is typing on a laptop, sipping coffee, with sunlight streaming through large windows.

Mittels Sora generiertes Video

Technische und inhaltliche Analyse

Das Video vermittelt eine ruhige, minimalistische Büroszene in stimmungsvollem Licht. Der Clip überzeugt durch die Kamerabewegung und eine stimmige Raumgestaltung – etwa durch die Pflanze und deren Spiegelung in der Fensterfront. Beim genaueren Hinsehen fällt jedoch auf, dass in der Spiegelung Objekte erscheinen, die im realen Raum nicht vorhanden sind. Auch die Lichtquellen und Schattenwürfe sind physikalisch nicht korrekt – besonders an der Wand werden diese Unstimmigkeiten deutlich sichtbar. Darüber hinaus gibt es weitere technische Auffälligkeiten: Das Arbeitsgerät wirkt wie eine surreale Mischung aus Notebook und Desktop-PC. Zudem ist die räumliche Anordnung irritierend: Die Person scheint im Tisch zu sitzen, statt davor.

Video 3 - Landschaft mit erneuerbare Energien

Für unseren dritten Test wollten wir Sora mit einem Natur-Setting herausfordern – ohne Menschen aber mit inhaltlicher und visueller Vielfalt. Die Anweisung an Sora lautete:

				
					A cinematic landscape showcasing various forms of renewable energy: wind turbines rotating slowly on a hill during golden hour, solar panels glistening under a clear blue sky, and waves gently moving around a floating tidal generator. Smooth drone-like camera movement, natural lighting, and a calm, inspiring atmosphere.

Mittels Sora generiertes Video

Technische und inhaltliche Analyse

Das Video zeigt eine insgesamt stimmige Landschaft mit rotierenden Windrädern und überzeugt durch gelungene Kamerabewegung, stimmungsvollem Licht und Schattenverläufe. Auf den ersten Blick wirkt die Szene gelungen, doch beim genaueren Hinsehen wird deutlich, dass der Prompt nur teilweise erfüllt wurde: Weitere Energiequellen wie Solarpanels sind im Bild nicht vorhanden. Zudem fallen physikalische Unstimmigkeiten auf – etwa die teils ruckartigen Bewegungen und unlogischen Bewegungsrichtungen der Windturbinen, u.a. bei einer zufällig am linken Bildrand auftauchenden Anlage. Auch die Spiegelung des Sonnenlichts bewegt sich unnatürlich abrupt. Obwohl die Reflexionen auf dem Wasser auf eine tief stehende Sonne hindeuten, ist diese selbst im Bild nicht zu sehen.

KI-Werbung von Coca Cola

Zum Schluss schauen wir uns ein Praxisbeispiel aus der Werbebranche an. Coca-Cola hat mit seiner Weihnachtskampagne 2024 einen neuen Schritt gewagt – erstmals wurde ein Werbespot komplett mithilfe von Künstlicher Intelligenz generiert.

Coca Cola – The Holiday Magic is coming.

Technische und inhaltliche Analyse

Die Coca Cola-Werbung «The Holiday Magic is coming.» setzt auf künstliche Intelligenz zur Erstellung festlicher Szenen. Obwohl die Absicht, moderne Technologien zu nutzen, innovativ ist, wirkt die Umsetzung unpersönlich und entfremdet. Viele Zuschauer:innen empfinden die Animationen als künstlich und wenig ansprechend, was zu überwiegend negativen Reaktionen geführt hat. Einige bemängelten auch technische Unstimmigkeiten, wie unrealistische Bewegungen der Trucks und das Fehlen von Santa Claus. Ein Kommentar bringt es auf den Punkt: «Die Ironie eines ‚Real Magic‘-Slogans am Ende eines künstlichen Werbespots.» Coca-Cola verteidigte den Einsatz von KI mit dem Argument, dass dadurch Produktionszeit und -kosten reduziert werden konnten.

Fazit: Spielerei oder Zukunft?

Sora überzeugt mit eindrucksvollen Ergebnissen bei relativ einfachen Prompts und bietet eine erstaunlich realistische Umsetzung von Licht, Bewegung und Perspektive. Bei komplexeren Szenen mit mehreren Menschen, präzisen Gesten oder feinfühliger Mimik zeigt sich jedoch schnell die aktuelle Grenze des Modells. Die maximale Videolänge von 20 Sekunden (nur im teuersten Pro-Abo) limitiert und es fehlt weiterhin an Audio-Funktionen wie Sprache oder Sounddesign. Auch die Feineinstellungen sind begrenzt: Konkrete Kameraeinstellungen, Schnitte oder Bewegungen sind nicht möglich. Die Erstellung der Videos nimmt teilweise viel Zeit in Anspruch – insbesondere beim Generieren von Varianten ist Geduld gefragt.

Positiv hervorzuheben ist die konsistente Bildästhetik bei einfachen Szenen. Für konzeptionelle Arbeiten (z.B. Storyboards) ist Sora bereits jetzt ein spannendes Werkzeug. Für hochwertige Endprodukte braucht es aber nach wie vor menschliche Videoexpertise.

Ausblick auf Teil 2

Sora steht erst am Anfang – und dennoch lässt sich erahnen, welchen Einfluss diese Technologie auf die visuelle Kommunikation der Zukunft haben könnte. Für Kommunikationsfachleute eröffnet sich ein spannender Raum zwischen kreativer Effizienz und technologischer Neugier. In naher Zukunft dürften neue Funktionen hinzukommen: Längere Clips, mehr Details, Kontrolle über Bewegung und Stil. Gleichzeitig stellt sich die Frage, wie sich kreative Berufe verändern, wenn KI-Tools wie Sora zum Alltag gehören. Bei aller Begeisterung bleibt es entscheidend, Qualität, Authentizität und ethische Verantwortung nicht aus dem Blick zu verlieren.

Im zweiten Teil unserer Serie testen wir gezielt die Funktionen «Image to Video» und «Loop». Dabei schauen wir uns an, wie gut sich Standbilder in bewegte Szenen verwandeln lassen – und wo die Grenzen liegen. Bleibt dran!