Dall-E 2, Midjourney, Stable Diffusion: Der Boom um Kunst durch Maschinenlern-Algorithmen hat gerade erst begonnen. Und auch wir haben es uns nicht nehmen lassen, den Modellen einige Begriffe zuzuwerfen. Das sind die Ergebnisse.
Dass mit etwas Maschinenlernen fotorealistische Bilder erstellt werden können, ist jetzt erstmal nicht so neu. Thispersondoesnotexist.com hat schon vor einigen Jahren gezeigt, wozu eine KI mit einem Training in der Lage ist. Nun sind einige weitere Jahre der Entwicklung ins Land gezogen, mit dem Ergebnis, dass nun nicht mehr nur Gesichter, sondern nahezu alles per Texteingabe von einer KI erstellt werden kann.
Wir haben einige Tools zum Erstellen von KI-Kunst ausprobiert. Wie sie funktionieren und warum sie derzeit kontrovers diskutiert werden, erfahrt ihr im Video. Einige unserer Ergebnisse seht ihr auf den nächsten Seiten.
Eine sehr coole Banane
Warum hat diese anthropomorphe Banane die Straße überquert? Um mit der Sonnenbrille cool auszusehen, natürlich. Aber bitte nicht drauf ausrutschen!
Dieses Motiv war eines der ersten, das wir probiert haben. Hier zeigen sich noch einige Probleme mit Gesichtern, vor allem Zähne (Bild 1) sehen mit Stable Diffusion häufig unschön aus. Dafür hat uns die fotorealistische Anmutung des zweiten Bildes positiv überrascht, den eigenwilligen Schattenwurf lassen wir mal außen vor.
Zwei Orcas spielen Poker
Warum sollte man ein paar Hunde Poker spielen lassen, wenn auch zwei Orcas am Tisch Platz finden können?
Stable Diffusion hat aber offenbar einige Probleme mit dem Motiv eines Orcas. Zumindest können wir auf den Bildern nicht wirklich erkennen, ob die beiden wirklich richtig herum sitzen. Schönes Detail: Wir haben der KI nur den Begriff „Poker“ zugeworfen, dass dabei Pokerchips und Karten auf dem Tisch gehören, wurde automatisch ergänzt.
#instafood
In unseren Tests hat sich gezeigt, wie gut Stable Diffusion mit Essensfotos umgehen kann. Wir haben kaum Fotos gesehen, die nicht in irgendeiner Form zum Anbeißen ausgesehen haben. Man könnte meinen, das Internet wäre voll mit adäquatem Trainingsmaterial. Allerdings darf man manchmal nicht so genau hinsehen und hinterfragen, welche Zutaten man sich gerade ansieht, die sind mitunter nämlich nicht mehr so ganz erkennbar. Vor allem der Kartoffelsalat auf dem zweiten Bild lässt bei einem näheren Blick die Frage aufkommen, ob er nicht doch die Mindesthaltbarkeit bereits überschritten hat.
Octopus vs. Banane
Drei Fotos von Oktopoden und Bananen. Eigentlich wollten wir ein Foto genieren, bei dem einer unserer glitschigen Freunde an einer Banane nagt, dazu ist es aber bei keinem der Bilder gekommen. Stattdessen haben wir beide dann in Bild zwei auf ein Candle-Light-Dinner geschickt. Also, wir glauben zumindest, dass das in dem Bild dargestellt wird. Das werden wir auch in späteren Motiven nochmal sehen: Sind einzelne Bildelemente, wie hier Tentakel und Bananen, nah beieinander, schmelzen sie häufig zu einem Objekt zusammen.
90er Jahre Sitcom-Sets
Welche Serie ist hier gerade abgebildet? Gute Frage! Mit der Anfrage eines Bildes, das wie ein 90er-Jahre-Sitcom-Set aussehen könnte, liegt Stable Diffusion aber haargenau richtig. Die eigene Wohnung sollte man aber dennoch nicht von einer KI einrichten lassen, außer man hat vor – wie in Bild drei – sehr viele Deckenlampen zu verbauen, oder – wie im zweiten Bild – den eigenen Teppich diagonal zuzuschneiden, während dieser auf einem anderen Teppich liegt.
Tomb Raider: The Animated Series
Durch den Einsatz von Diffusoren kann Stable Diffusion dazu gebracht werden, Bilder in einem Stil zu erstellen, zu dem es zunächst nicht trainiert wurde. Ein Nutzer etwa hat „Mo Di Diffusion“ auf der Basis von computeranimierten Disney-Filmen trainiert und veröffentlicht. So bekommen wir eine Vorschau, wie eine 3D-animierte Disney-Serie zu Tomb Raider aussehen könnte. Das ist übrigens ein kleiner Wink mit dem Zaunpfahl, Disney. Square Enix hat die Tomb-Raider-Lizenz ja erst letztens für günstig Geld verkauft.
Dieses Beispiel zeigt aber auch einer der Probleme des KI-Trainings: Woher kommen eigentlich die Trainingsdaten und darf man die einfach so nutzen?
Dieses Eis schmeckt wie Hund
Für Naschkatzen: In diesem Motiv haben wir versucht, Stable Diffusion ein möglichst unrealistisches Szenario erstellen zu lassen. Für das Bild in der Mitte, haben wir uns der „img2img“-Funktion bedient. In einem anderen Bildbearbeitungsprogramm haben wir die groben Umrisse einer Waffel und der Füllung vorgezeichnet, Stable Diffusion hat diese Schablone dann wortwörtlich mit Leben gefüllt. Glücklicherweise sehen alle generierten Bilder mit diesem Motiv etwas unrealistisch aus.
Wenn man sich einen Hund auf Wish bestellt
Drei Bilder von fröhlichen Hunden. Bei allen Fotos schwebt aber ein gewisses Uncanny-Valley-Gefühl mit – man hat das Gefühl, bei den drei Fotos stimme irgendetwas nicht.
Ein Eisbär gönnt sich eine Pause
Wie hält ein Eisbär eigentlich eine Tasse Kaffee? Mit seiner menschlichen Hand natürlich. Abseits vom zweiten Bild sind die Ergebnisse auf den ersten Blick überzeugend. Auf den zweiten Blick fällt aber eine leichte Unschärfe um die Nase des Bären auf.
Dinos mit Sonnenbrillen
Alleine bei dem Begriff „Fotos von Dinosauriern“ wird es schwierig, schließlich haben wir von damals nicht allzu viele Fotogrußkarten aus Pangaea überliefert bekommen. Umso schwieriger wird es für die KI, diesen kaum fotografisch erfassten Wesen dann auch noch eine Sonnenbrille aufzusetzen. Immerhin: Dem Dino links scheint die Brille zu gefallen, auch wenn sie so natürlich kaum was bringt.
Wald- und Wiesenroboter
Diese Roboter beobachten von einem Feld aus einen Sonnenuntergang. Außer der Roboter im zweiten Bild, der hat gleich zwei Sonnen, die auf seinen Planeten prallen. Solche Inkonsistenzen in Sachen Realismus findet man bei Stable Diffusion häufiger.
Stadt aus Lebkuchen
Warum nur ein Lebkuchen-Haus bauen, wenn man sich eine ganze Lebkuchen-Stadt bauen kann? Wirklich räumlich ist aber keines der Bilder geworden, außerdem scheint Stable Diffusion nicht ganz so geübt im Gebrauch von Zuckerguss zu sein.
Musikalische Pinguine
Ein häufiges Problem in den Bildern: Sind Motive visuell zu nah aneinander, können sie ziemlich einfach miteinander verschmelzen. In vielen der erstellten Fotos sind die Pinguine – wie im Beispiel rechts – mit den Gitarren fusioniert.
Street Art
Ein großes Problem von KI-Kunst ist, dass man mit einfachen Mitteln den Stil anderer Künstler imitieren kann. Das Graffiti links etwa könnte mit einem Stencil-Verfahren erstellt worden sein, wie es der Street-Art-Künstler Banksy nutzt. Nur fehlt diesem KI-generierten Werk jegliche Bedeutung. Das Bild rechts sieht in der Tat wie ein Werk aus, dass man an einer Mauer in Berlin wiederfinden könnte.
Die Stromrechnung ist da
Diesen drei Herren bereitet der Anblick der Stromrechnung einiges an Kopfzerbrechen. Unserer Meinung nach wurde bei diesen Bildern etwas zu großzügig das Stirnrunzeln aufgetragen. Außerdem sollte man sich bei dem Herren in Bild 2 die Hand nicht ganz genau ansehen.
Oma knackt den Jackpot
Diese älteren Damen haben alle in der Lotterie gewonnen und den Jackpot geknackt. Und die Fotos sehen sogar halbwegs natürlich aus. Da kann man gleich doppelt gratulieren!
Glückliche Sims
So hab ich meine Häuser in Die Sims auch immer gebaut: Mit vielen Pools ohne Leiter und mit Balkonen ohne Geländer, weil das Geld mal wieder nicht gereicht hat. Lässt man außen vor, dass die Perspektive im ersten Bild keinen Sinn ergibt, zeigen die Bilder zwei und drei tatsächlich Häuser, wie man sie wirklich in einem Sims-Spiel vorfinden könnte.
Frosch mit Sehhilfe
„Fotos von Tieren und Dingen, die Brillen tragen“ hatten wir ja schon einige Male in dieser Liste. Auch bei diesem Motiv befanden sich in den generierten Bildern viele Fotos, bei denen die falsche Anzahl an Augen, mehrere paar Brillen, oder einfach beides generiert wurde.
Dinosaur Jazz Band
Das Konzept von Dinosauriern, die Jazz-Instrumente bedienen können, war dem Modell so ungeläufig, dass Fotos in keinem Beispiel funktioniert haben. Als farbenfrohe abstrakte Ölgemälde macht die „Dinosaur Jazz Band“ aber einiges her. Für das erste Bild haben wir erneut „img2img“ genutzt und eine Skizze Stable Diffusion angeliefert, die nur noch ausgefüllt werden musste.
Faultier hat Feierabend
Diese Faultiere haben sich für ihren Feierabend zu einem kühlen Bierchen entschlossen. Jetzt aber beeilen, bevor es schal wird! Tatsächlich ist das ein Motiv, das mit am besten funktioniert hat und bei dem wir kaum Bilder hatten, die nichts geworden sind.
Portraits
Viele nutzen künstliche Intelligenz zum Erstellen von Profilfotos. Diese Portraits zeigen warum: Ist die KI auf das eigene Erscheinungsbild eingestellt, können im Handumdrehen schöne Bilder erstellt werden. Aber auch hier gilt: Mit vielen kreativeren Anfragen kommt eine KI nicht mit, da darf dann doch noch der Grafiker des Vertrauens ran.
Surfing!
Ein Motiv, bei dem Stable Diffusion große Probleme hatte. Offenbar ist das Konzept von Tieren auf Surfbrettern nicht allzu geläufig. Zumindest hat bei den meisten Tieren (wie beim Igel in Bild zwei) häufig das Surfbrett gefehlt. Außerdem scheint die unübliche Körperform des Flamingos Probleme zu bereiten: Häufig werden doppelte Hälse generiert und wir sind uns nicht sicher ob in diesem Bild der Flamingo einfach nur sein zweites Bein versteckt oder ob es tatsächlich im Bild fehlt.
Anrufbeantworter
Bei diesem Motiv haben wir sowohl vom In-, als auch vom Outpainting Gebrauch gemacht. Dabei handelt es sich um Methoden, mit denen man mit Stable Diffusion einige Bereiche entweder inner- oder außerhalb eines Bildes neu generieren lässt. Im Original war das Bild deutlich schmaler, es hat direkt neben dem Roboter links aufgehört. Zudem stand anstelle des Telefons dort erst eine andere Gerätschaft, die – wie das Telefonmodell rechts – keinen Sinn ergeben hat.
Vitruvianischer Pinguin
Endlich haben wir eine Antwort auf die Frage, wie seine Kunst ausgesehen hätte, wäre Leonardo da Vinci als Pinguin auf die Welt gekommen. Auch wenn wir in Stable Diffusion ein „like vitruvian man“ hinzugefügt haben, konnte die KI mit dieser Eingabe nur bedingt etwas anfangen.
Unter dem Meer
Wie werden wir in 1.000 Jahren leben? Sollte es in einer Glaskuppel auf dem Meeresboden sein, hätten wir hier immerhin drei Entwürfe, wie das aussehen könnte. Zeigen die ersten beiden Gemälde jeweils futuristische Städte mit Hochhäusern, besteht die Unterwasserstadt im dritten Bild ausschließlich aus einem Gebäude, das aus einer verlassenen Westernstadt kommen könnte.
Pfannkuchen
Bei einer Anfrage nach „einem Stapel Pfannkuchen“ haben wir eine Frage offen gelassen: Wie viel Sirup ist genug? Essbar sehen die Pfannkuchen aber allemal aus, nur die Gabeln in Bild zwei sehen bei näherer Betrachtung etwas unförmig aus. Dieses Motiv unterstreicht also unsere These, dass es im Trainingsmaterial ordentlich viele Essensbilder geben muss.