- Created By
- Daniel Würstl
- published
- 08.10.2022
AI Bildgeneratoren oder die Revolution der Kreativbranche
Seit ein paar Monaten ist AI aber wirklich und leibhaftig sichtbar in Form von AI Bildgeneratoren, die durch eine einfache Texteingabe Bilder erzeugen. Schon 2021 gab es dazu erste Veröffentlichungen, aber die Qualität war noch recht unbrauchbar. Kaum ein Jahr später ist es möglich, dank künstlicher Intelligenz Bilder jeder erdenklichen Art und in atemberaubender Kreativität und Qualität zu erzeugen.
Was sind AI / KI Bildgeneratoren
Um mit einer einfachen Texteingabe, dem sogenannten Prompt und künstlicher Intelligenz Bilder generieren zu können, bedarf es zwei grundlegend getrennter Systeme: auf der einen Seite das Sprachmodell, das nicht nur die einzelnen Wörter des Satzes versteht, sondern auch den Gesamtzusammenhang und die dahinterstehenden Konzepte. Auf der anderen Seite dann offensichtlich den eigentlichen Algorithmus zum Generieren von Bildern. Vorherrschend ist heute dazu das Modell der Diffusion: es wird zunächst ein zufälliges Muster generiert und an diesen Punkten dann basierend auf der Textvorgabe Punkt für Punkt dazu gemalt.Für dieses unglaubliche Kunststück braucht die AI natürlich auch eine Vorstellung davon, wie der gewünschte fliegende Superman-Hamster oder das Krokodil mit Pina Colada in der Pfote aussieht. Dafür sorgt eine Datenbank mit so ziemlich allen online verfügbaren Bilddateien. Offiziell wird die Anzahl eingespeister Bilder mit ca. 600 Millionen beziffert.
Nun darf man sich den AI Image Generator aber nicht so vorstellen, dass er aus den vorhandenen Bildern eine Collage zusammenstückelt. Das wäre zwar schon fantastisch genug, aber die AI kann viel mehr: sie versteht das ganz grundsätzliche Konzept von einem Hamster und von Superman und kann daraus praktisch beliebige Kompositionen erstellen. Also nicht nur ein Hamster mit Superman-Kopf oder Umhang, sondern z.B. auch Superman mit dem Fell eines Hamsters oder ein haarloser blauer Hamster. Oder eben Han Solo, der Chewbacca die Haare schneidet.
Welche KI / AI basierten Bildgeneratoren gibt es? Vergleich der Stärken von Dall·e und MidJourney
Es gibt zahlreiche Projekte in dieser Richtung, allerdings sind nicht alle öffentlich. Bis vor kurzen galt Dall·e als die fortschrittlichste AI zum Generieren von Bildern aus Text. MidJourney ist seit der Einführung der aktuellen --test Modes eine mehr als würde Alternative dazu.Beide Bildgeneratoren haben aber ihre ganz eigenen Stärken und Schwächen, die wir nachfolgend darstellen wollen.
Dall·e | MidJourney | |
---|---|---|
URL | https://openai.com/dall-e-2 |
midjourney.com midjourney.com/app |
User Interface |
Das User Interface von Dalle ist sehr aufgeräumt und man findet sich sehr schnell zurecht. Ein paar mehr Optionen
wären allerdings wünschenswert. Toll ist, dass es eine Editorversion gibt, in der man ein eigenes Bild
hochladen und Bereiche löschen kann, deren Inhalt dann von der KI gefüllt wird.
|
|
Geschwindigkeit |
Dall-e braucht in der Regel nicht länger als 10 Sekunden für die Generierung von vier Vorschlägen
|
|
Verständnis des Prompts |
Dalle versteht fast immer genau, was man von ihm möchte und folgt gefühlt auch etwas genauer den Prompt.
|
MidJourney nimmt sich etwas mehr Freiheit in der Interpretation. Worte sind dabei gewichtet und zählen
am Anfang mehr. Bei längeren Prompts wird etwa aber dem 20 Wort nur noch sehr zufällig Einfluss mehr auf das Bild erzielt.
|
Bildqualität - Realismus |
Dalle generiert relativ genau das, was man möchte ohne übertriebene eigene künstlerische Ader. Bei eher nüchternen Vorhaben kommt man hier schneller zum Ergebnis.
|
|
Style & Kreativität | Im Standardmodus --v3 generiert die KI sehr kreative Bilder von erstaunlich hoher künstlerischer Qualität. Die Bildkompositionen sind meist ausgewogen, dramaturgisch überzeugend und interessant. Für realistische Portraits aber oft etwas zu kreativ - man nimmt es da mit der Anzahl der Augen oder Finger nicht so genau. Hier ist der mit dem Fotoalgorithmus (--testp) allerdings eine hervorragende Alternative inbegriffen. |
|
Community |
Fazit aus dem großen Dalle/Midjourney Vergleich
Ein eindeutiger Sieger lässt sich derzeit nicht ausmachen. Die Einfachheit der Bedienung, die Übersichtlichkeit und die etwas bessere Befolgung der Prompts macht Dalle leichter zugänglich für ein paar Probeschüsse. Wer etwas tiefer in die Materie einsteigen möchte, wird aber langfristig mit MidJourney mehr Spaß haben.Dienste rund um Bildgeneratoren
Spannend ist auch, dass sich bereits ein Ökosystem um die Bildgeneratoren entwickelt, die allerhand Zusatzleistungen bieten:AI Stockimages
Die wahrscheinlich erste Plattform, auf der AI generierte Bilder gehandelt werden können nennt sich AI Stockimages. Neben dem Kauf und Verkauf von Bildern ist dort selbiges auch mit Prompts möglich.Es stellt sich an der Stelle die Frage, warum jemand einen oder mehr Dollar für einen einzigen Satz bezahlen würde. Prompt Engineering heißt das neue Zauberwort: zu verstehen und auszuarbeiten, mit welchen Schlüsselwörtern man bei einer bestimmten AI reproduzierbar ein Bild in einem bestimmten Stil und einer hohen Qualität bekommt ist langwierige Arbeit. Wahrscheinlich ist das auch eher die Arbeit der Zukunft, als selbst Bilder zu kreiren, da es im Zweifelsfalle deutlich effizienter und ich wage zu behaupten, sogar kreativer ist, als sich alle Details einer Komposition selbst auszudenken.
Die gleiche Frage ist aber auch für die Bilder legitim: warum für ein Bild noch bezahlen, wenn man es doch selbst mit einem AI Image Generator erstellen kann? Selbst mit einem guten Prompt braucht es meistens zahlreiche Anläufe, bis das Bild entsteht, dass man selbst vor Augen hat. Oft geschieht aber auch der andere Fall, dass nach einigen Fehlversuchen und Häßlichkeiten plötzlich ein Bild zutage tritt, dass die eigene Vorstellung noch bei weitem übertrifft. Solche Bilder sind durchaus als Kunst zu begreifen und sie stellen definitiv einen Wert dar, der sich verkaufen lässt. Zudem ist es meisten am Ende doch notwendig, einige Details in diesen frisch geborenen Kunstwerken noch zu reparieren (oh Gott, diese Augen) bevor diese wirklich marktreif sind. Gute Gründe also für einen guten Preis.
Zurück zu AI Stockimages: das besondere im Vergleich zu den existierenden Stockimage-Börsen ist, dass alle Bilder mit der Creative Commons Lizenz verkauft werden (dürfen/müssen): einmal gekauft ist man also gänzlich frei, damit anzustellen was auch immer man möchte - ohne diverse Beschränkungen durch komplizierte Lizenzmodelle. Dieser Ansatz harmoniert sehr schön mit dem Auftreten der AI Bildgeneratoren und führt diesen Spirit weiter.