Ersetzen AI-Tools bald Photoshop und co?

Anfangs 2025 wurde von Google die neuste Generation des Gemini 2.0 Modells herausgebracht. Das neue experimentelle Modell ermöglicht multimodale Funktionen – es ist in der Lage Text, Bild und Ton zu verarbeiten. Spannend hierbei ist neu die Möglichkeit, mittels Prompts Bilder zu bearbeiten. Wir haben uns das Tool genauer angeschaut und beleuchten, ob der Hype berechtigt ist.

Das neuste AI-Model von Google: Gemini 2.0 Flash

Im Rahmen dieses Tests konzentrieren wir uns ausschliesslich auf das Potenzial von Gemini 2.0 Flash im Bereich der Bildbearbeitung – die vielfältigen Möglichkeiten im Audio- und Videobereich werden wir zu einem späteren Zeitpunkt genauer unter die Lupe nehmen.

Auf den ersten Blick wirken die innovativen Funktionen des Models regelrecht revolutionär: Für das Retuschieren und Bearbeiten von Bildern sind tiefgehende Fachkenntnisse nicht mehr erforderlich. Bereits grundlegende Erfahrungen im Umgang mit grossen Sprachmodellen wie OpenAI’s ChatGPT genügen, um mit Gemini 2.0 Flash beeindruckende Ergebnisse zu erzielen.

Einzelne Objekte entfernen

Mit einer vergleichsweise simplen Aufgabe, die selbst geübte Photoshop-Profis zur Probe stellt, testen wir, wie effektiv das Tool störende Elemente aus Fotos entfernt. Als Testmotiv dient hierfür ein typischer Ferien-Schnappschuss:

Schnappschuss der Rialto-Brücke in Venedig, 2024

Wir beginnen direkt mit einer spannenden Herausforderung: Das Boot in der unteren Bildmitte soll entfernt werden. Dafür haben wir dem Model folgenden Prompt erteilt:

				
					Remove the boat in front of the bridge

Nach nur 9,7 Sekunden präsentiert sich das von der KI neu berechnete Bild, in dem alle gewünschten Anpassungen präzise umgesetzt wurden. Das Resultat demonstriert eindrucksvoll, wie effizient und zügig das Modell visuelle Veränderungen vornehmen kann:

Mittels Google Gemini 2. Flash bearbeitetes Foto

Vergleich der beiden Bilder

Auf den ersten Blick überzeugt das bearbeitete Bild. Wo zuvor ein hölzernes Motorboot vor der Rialtobrücke ankerte, erstreckt sich nun lediglich Wasser – mitsamt einer (weitgehend) stimmigen Reflexion der Brücke. Damit einhergehend sind auch der Bootsführer sowie einige Details am Steg verschwunden. Abgesehen von diesem Haupteingriff wirken Komposition und Perspektive unverändert.

Technische Analyse

Hier zeigt sich, wie Gemini 2.0 Flash mithilfe von KI-gestütztem «Inpainting» oder ähnlichen Algorithmen den freien Bildraum rekonstruiert. Die Software erkennt, welche Bereiche durch das Entfernen des Bootes und der Person zu «übermalen» sind, und füllt sie automatisch mit passenden Wasser- und Reflexionsstrukturen auf. Dabei sind die Farbabstimmung und die Konturen relativ sauber gelungen. Lediglich leichte Farbunterschiede im Wasser sowie eine leicht veränderte Wellenstruktur deuten darauf hin, dass hier eine KI-Bearbeitung stattgefunden hat. Insgesamt verdeutlicht dieses Beispiel, wie effektiv und schnell das Modell störende Objekte aus einem Foto entfernen kann – ohne dass man manuell mit Ebenen oder Retusche-Werkzeugen arbeiten muss. Grosser Minuspunkt ist jedoch die drastisch reduzierte Auflösung des Bildes. Dies wird jedoch zweifellos in zukünftigen Versionen des Modells verbessert werden, wenn man sich an aktuellen Entwicklungen im AI-Space orientiert.

Komplexe Objekte entfernen

Nachdem das Tool die erste Aufgabe überzeugend gemeistert hat, wollen wir es nun mit einer schwierigeren Herausforderung austesten: Wie gut meistert die Software das Entfernen komplexer Objekte?

Schnappschuss einer Seitengasse in Venedig, 2024

Mit folgendem Prompt haben wir Google Gemini um folgende Anpassung im Bild gebeten:

				
					Remove the laundry  from the picture

Mittels Google Gemini 2. Flash bearbeitetes Foto

Vergleich der beiden Bilder

Im bearbeiteten Bild wurden sämtliche Wäscheleinen und Kleidungsstücke entfernt, sodass der Blick auf die Gasse nun völlig frei ist. Die KI hat die entstandenen Lücken automatisch mit passenden Fassaden- und Himmelsdetails gefüllt, wodurch auf den ersten Blick kaum erkennbare Bearbeitungsspuren zurückbleiben. Dennoch erkennt man grössere Unterschiede im Output, insbesondere was die Schärfe der Texturen, allgemeine Bildqualität und Auflösung betreffen.

Technische Analyse

Dank KI-gestützter «Inpainting-Algorithmen» erkennt das Model, welche Bereiche im Bild ersetzt werden müssen, und füllt sie selbstständig mit Kontextinformationen. So entstehen nahtlose Übergänge zwischen Alt- und Neubereichen, während Farben und Texturen einigermassen originalgetreu erhalten bleiben. Abweichungen in Schattierungen und Linienführungen zeigen jedoch, dass die Software noch nicht perfekt ist und je nach Anspruch möglicherweise eine manuelle Feinabstimmung nach wie vor erforderlich bleibt. Insgesamt ist klar erkennbar, dass eine Bearbeitung des Bildes stattgefunden hat. Insbesondere der Verlust der Texturen und Schärfe fallen auf.

Einzelne Elemente bearbeiten

Wie gut kann das Model einzelne Objekte bearbeiten oder ersetzen? In unserem nächsten Test prüfen wir die Möglichkeiten zum Ersetzen von einzelnen Elementen aus. Als Ausgangslage dient folgendes Bild von einem Astronauten:

Astronautenfoto aus der Foto-Library von Vollformat

Mit folgendem Prompt haben wir Google Gemini um folgende Anpassung im Bild gebeten:

				
					Replace the astronaut's head with a chicken's head, replace the gloves with leather gloves and replace the shoes with modern sneaker shoes

Mittels Google Gemini 2. Flash bearbeitetes Foto

Vergleich der beiden Bilder

Im ersten Bild wurde der Astronautenhelm erfolgreich durch einen markanten Hühnerkopf ersetzt, zudem trägt die Figur nun auffällige Sneaker statt der ursprünglichen Stiefel. Im zweiten Bild ist der Helm noch intakt, und auch das restliche Outfit entspricht einem klassischen Astronautenanzug. Der Gesamteindruck wechselt dadurch von einem realistisch-futuristischen Motiv hin zu einer humorvollen, surrealen Szene.

Technische Analyse

Das KI-Tool hat den Übergang am Halsansatz weitgehend sauber gestaltet, wobei Beleuchtung und Farbgebung recht stimmig sind. An einigen Stellen fällt jedoch eine leichte Unschärfe auf, besonders an den Übergängen zwischen Anzug und Hühnerhals, was auf algorithmische Interpretationen schliessen lässt. Auch die Kopfform wirkt leicht überzeichnet im Vergleich zum Körper. Beim Ersetzen der Stiefel durch Sneaker stimmt der generierte Farbton gut mit dem Anzug überein, allerdings zeigen sich an den Knöcheln minimale Kontrastunterschiede. Insgesamt liefert das Modell eine überzeugende Bearbeitung, die jedoch bei genauer Betrachtung noch Raum für Feintuning lässt.

Fazit

Tools wie Gemini 2.0 Flash demokratisieren die Bildbearbeitung. Sie eröffnen auch Anwendern ohne Vorkenntnisse Möglichkeiten, die früher Expert:innen vorbehalten waren. Komplexe Montagen oder fantasievolle Kunstwerke lassen sich allein durch Beschreiben erschaffen. Das senkt die Hemmschwelle, mit Bildern kreativ zu experimentieren. Wie oft in der KI-Welt liegt die Revolution darin, dass nicht mehr völlig Neues möglich wird, sondern dass nun viel mehr Menschen solche Dinge umsetzen können – in wesentlich kürzerer Zeit und ohne Spezialwissen. Für Hobby-Fotografen oder -Designerinnen bedeutet das etwa, dass sie ihre Schnappschüsse mit ein paar Worten dramatisch verbessern oder verfremden können, ohne stundenlang Tutorials studieren zu müssen. Die Bedienung über natürliche Sprache wirkt intuitiv und macht Spass, was die Kreativität fördern kann.

In kreativen Workflows kann Gemini Flash zu einem produktiven Assistenten werden. Routineaufgaben wie das Freistellen von Objekten, Hintergrundaustausch oder das Erzeugen von Variationen gelingen schnell, was wertvolle Zeit spart. Eine Grafikerin könnte z.B. binnen Minuten einer Kundin mehrere Konzept-Entwürfe liefern, indem er verschiedene Bildideen an die KI beschreibt, statt sie mühsam von Hand zu compositen. Zudem ermöglicht die KI eine iterative Arbeitsweise: Designer können schrittweise mit der KI ein Bild verfeinern oder verschiedene Stile ausprobieren, was als Brainstorming-Tool dient. Erste Power-User berichten, dass Gemini 2.0 Flash ein flexibles Werkzeug für schnelles Prototyping und visuelle Ideenfindung ist. Für Agenturen oder Marketing-Teams könnte dies bedeuten, schneller von der Idee zum Moodboard zu kommen. Langfristig werden Profis sich darauf einstellen, KI-Generierung mit klassischer Nachbearbeitung zu verbinden – etwa ein von Gemini generiertes Bild als Grundlage zu nehmen und dann in Photoshop final zu perfektionieren. So könnte das Tool den Kreativprozess beschleunigen, ohne die menschliche Kontrolle völlig zu ersetzen.

Ausblick

Die rasanten Fortschritte in der KI-Bildbearbeitung lassen bereits erahnen, wie zukunftsweisend die Kombination mit Videogenerierungstools wie Sora sein kann. Statt nur einzelne Bilder zu verändern, lassen sich künftig komplette Video-Sequenzen per Texteingabe umgestalten – beispielsweise indem Objekte entfernt, Hintergründe ausgetauscht oder ganze Szenen in einen neuen Stil überführt werden. Diese nahtlose Integration von Bild- und Videobearbeitung eröffnet ein völlig neues Niveau kreativer Freiheit und beschleunigt den Produktionsprozess.

Dennoch bleibt festzuhalten: Für hochwertige Videoproduktionen sind weiterhin erfahrene Profis unerlässlich. Auch wenn Tools wie Gemini 2.0 Flash und Sora effiziente Prozesse ermöglichen und den kreativen Spielraum erweitern, ersetzen sie nicht den fundierten Blick und das technische Know-how eines professionellen Teams. Gerade im anspruchsvollen Umfeld der Videoproduktion ist die Kombination aus modernster KI-Technologie und handwerklicher Expertise der Schlüssel zu herausragenden Ergebnissen.

In unserem nächsten Test beschäftigen wir uns ausführlich über die Möglichkeiten von generativen Videomodellen. Als kleiner sneak peek ein kurzes Beispiel, wie man die technologischen Möglichkeiten mittels Tools wie OpenAI’s Sora auf die Spitze treiben kann.

Mittels Google Gemini 2. Flash bearbeitetes Fotos und mit OpenAI’s Sora weiterverarbeitetes Video