AI Bildgeneratoren oder die Revolution der Kreativbranche

08.10.2022
Lange Zeit war es ruhig um spektakuläre News rund um die künstliche Intelligenz. Das autonome Fahren ist ein Jahrhundertprojekt, das zwar Fortschritte macht, aber wohl noch einige Zeit bis zur Serienreife braucht. Ganz ähnlich wie der Quantencomputer und der Fusionsreaktor.

Seit ein paar Monaten ist AI aber wirklich und leibhaftig sichtbar in Form von AI Bildgeneratoren, die durch eine einfache Texteingabe Bilder erzeugen. Schon 2021 gab es dazu erste Veröffentlichungen, aber die Qualität war noch recht unbrauchbar. Kaum ein Jahr später ist es möglich, dank künstlicher Intelligenz Bilder jeder erdenklichen Art und in atemberaubender Kreativität und Qualität zu erzeugen.

Was sind AI / KI Bildgeneratoren

Um mit einer einfachen Texteingabe, dem sogenannten Prompt und künstlicher Intelligenz Bilder generieren zu können, bedarf es zwei grundlegend getrennter Systeme: auf der einen Seite das Sprachmodell, das nicht nur die einzelnen Wörter des Satzes versteht, sondern auch den Gesamtzusammenhang und die dahinterstehenden Konzepte. Auf der anderen Seite dann offensichtlich den eigentlichen Algorithmus zum Generieren von Bildern. Vorherrschend ist heute dazu das Modell der Diffusion: es wird zunächst ein zufälliges Muster generiert und an diesen Punkten dann basierend auf der Textvorgabe Punkt für Punkt dazu gemalt.

Für dieses unglaubliche Kunststück braucht die AI natürlich auch eine Vorstellung davon, wie der gewünschte fliegende Superman-Hamster oder das Krokodil mit Pina Colada in der Pfote aussieht. Dafür sorgt eine Datenbank mit so ziemlich allen online verfügbaren Bilddateien. Offiziell wird die Anzahl eingespeister Bilder mit ca. 600 Millionen beziffert.

Nun darf man sich den AI Image Generator aber nicht so vorstellen, dass er aus den vorhandenen Bildern eine Collage zusammenstückelt. Das wäre zwar schon fantastisch genug, aber die AI kann viel mehr: sie versteht das ganz grundsätzliche Konzept von einem Hamster und von Superman und kann daraus praktisch beliebige Kompositionen erstellen. Also nicht nur ein Hamster mit Superman-Kopf oder Umhang, sondern z.B. auch Superman mit dem Fell eines Hamsters oder ein haarloser blauer Hamster. Oder eben Han Solo, der Chewbacca die Haare schneidet.

Welche KI / AI basierten Bildgeneratoren gibt es? Vergleich der Stärken von Dall·e und MidJourney

Es gibt zahlreiche Projekte in dieser Richtung, allerdings sind nicht alle öffentlich. Bis vor kurzen galt Dall·e als die fortschrittlichste AI zum Generieren von Bildern aus Text. MidJourney ist seit der Einführung der aktuellen --test Modes eine mehr als würde Alternative dazu.

Beide Bildgeneratoren haben aber ihre ganz eigenen Stärken und Schwächen, die wir nachfolgend darstellen wollen.

Dall·eMidJourney
URL https://openai.com/dall-e-2 midjourney.com
midjourney.com/app
User Interface
Das User Interface von Dalle ist sehr aufgeräumt und man findet sich sehr schnell zurecht. Ein paar mehr Optionen wären allerdings wünschenswert. Toll ist, dass es eine Editorversion gibt, in der man ein eigenes Bild hochladen und Bereiche löschen kann, deren Inhalt dann von der KI gefüllt wird.
MidJourneys Bildgeneration läuft auf discord, vereinfacht gesagt einer generischen Community Plattform. Zum Generieren von Bildern muss man zunächst ein Schlüsselwort eingeben: /imagine. Das ist zwar einerseits nett, weil man auch die Bilder der anderen User sieht, aber nicht wirklich praktisch, weil die eigenen Bilder dann ständig im Stream wandern. Man ist also ständig auf der Suche nach den eigenen Bildern. Abhilfe schafft da nur das bezahlte /private Abo, in dem man einen eigenen Chatroom erhält, der dafür mit $30/Monat zu Buche schlägt.
Geschwindigkeit
Dall-e braucht in der Regel nicht länger als 10 Sekunden für die Generierung von vier Vorschlägen
MidJourney braucht je nach Serverlast bis zu 60 Sekunden für die Generierung von 4 Bildern im Standardmodus. Die neueren Modi --test und --testp generieren aktuell zwei bzw. ein Bild pro Anfrage
Verständnis des Prompts
Dalle versteht fast immer genau, was man von ihm möchte und folgt gefühlt auch etwas genauer den Prompt.
MidJourney nimmt sich etwas mehr Freiheit in der Interpretation. Worte sind dabei gewichtet und zählen am Anfang mehr. Bei längeren Prompts wird etwa aber dem 20 Wort nur noch sehr zufällig Einfluss mehr auf das Bild erzielt.
Bildqualität - Realismus
Dalle generiert relativ genau das, was man möchte ohne übertriebene eigene künstlerische Ader. Bei eher nüchternen Vorhaben kommt man hier schneller zum Ergebnis.
Das Ergenis hängt stark vom verwendeten Algorithmus ab. Im Normalmodus (--v3) ist es unwahrscheinlich photorealistische Portraits zu generieren. In den neusten --test und --testp Modi übertrifft die Qualität die von Dall-e aber. Man hat also die Wahl.
Style & Kreativität
Die Bilder wirken oft ein wenig hölzern komponiert und sind grundsätzlich nur im quadratischen Format möglich. Durch outpaint ist es aber möglich, Bilder zu erweitern und damit prinzipiell einen beliebige Größe und Seitenverhältnis zu erreichen.
Es gibt zahlreiche Parameter über die z.B. das Format des Bildes (--ar) aber auch der verwendete Algorithmus (--v3, --test, --testp) für jeden Prompt eingestellt werden können.

Im Standardmodus --v3 generiert die KI sehr kreative Bilder von erstaunlich hoher künstlerischer Qualität. Die Bildkompositionen sind meist ausgewogen, dramaturgisch überzeugend und interessant. Für realistische Portraits aber oft etwas zu kreativ - man nimmt es da mit der Anzahl der Augen oder Finger nicht so genau. Hier ist der mit dem Fotoalgorithmus (--testp) allerdings eine hervorragende Alternative inbegriffen.

Community
Community? Wer? Wo?
Im Midjourney Community Feed kann man sehr schon die Arbeiten anderer User begutachten und bewerten.

Fazit aus dem großen Dalle/Midjourney Vergleich

Ein eindeutiger Sieger lässt sich derzeit nicht ausmachen. Die Einfachheit der Bedienung, die Übersichtlichkeit und die etwas bessere Befolgung der Prompts macht Dalle leichter zugänglich für ein paar Probeschüsse. Wer etwas tiefer in die Materie einsteigen möchte, wird aber langfristig mit MidJourney mehr Spaß haben.

Dienste rund um Bildgeneratoren

Spannend ist auch, dass sich bereits ein Ökosystem um die Bildgeneratoren entwickelt, die allerhand Zusatzleistungen bieten:

AI Stockimages

Die wahrscheinlich erste Plattform, auf der AI generierte Bilder gehandelt werden können nennt sich AI Stockimages. Neben dem Kauf und Verkauf von Bildern ist dort selbiges auch mit Prompts möglich.

Es stellt sich an der Stelle die Frage, warum jemand einen oder mehr Dollar für einen einzigen Satz bezahlen würde. Prompt Engineering heißt das neue Zauberwort: zu verstehen und auszuarbeiten, mit welchen Schlüsselwörtern man bei einer bestimmten AI reproduzierbar ein Bild in einem bestimmten Stil und einer hohen Qualität bekommt ist langwierige Arbeit. Wahrscheinlich ist das auch eher die Arbeit der Zukunft, als selbst Bilder zu kreiren, da es im Zweifelsfalle deutlich effizienter und ich wage zu behaupten, sogar kreativer ist, als sich alle Details einer Komposition selbst auszudenken.

Die gleiche Frage ist aber auch für die Bilder legitim: warum für ein Bild noch bezahlen, wenn man es doch selbst mit einem AI Image Generator erstellen kann? Selbst mit einem guten Prompt braucht es meistens zahlreiche Anläufe, bis das Bild entsteht, dass man selbst vor Augen hat. Oft geschieht aber auch der andere Fall, dass nach einigen Fehlversuchen und Häßlichkeiten plötzlich ein Bild zutage tritt, dass die eigene Vorstellung noch bei weitem übertrifft. Solche Bilder sind durchaus als Kunst zu begreifen und sie stellen definitiv einen Wert dar, der sich verkaufen lässt. Zudem ist es meisten am Ende doch notwendig, einige Details in diesen frisch geborenen Kunstwerken noch zu reparieren (oh Gott, diese Augen) bevor diese wirklich marktreif sind. Gute Gründe also für einen guten Preis.

Zurück zu AI Stockimages: das besondere im Vergleich zu den existierenden Stockimage-Börsen ist, dass alle Bilder mit der Creative Commons Lizenz verkauft werden (dürfen/müssen): einmal gekauft ist man also gänzlich frei, damit anzustellen was auch immer man möchte - ohne diverse Beschränkungen durch komplizierte Lizenzmodelle. Dieser Ansatz harmoniert sehr schön mit dem Auftreten der AI Bildgeneratoren und führt diesen Spirit weiter.

PromptBase

PromptBase war wahrscheinlich die erste Plattform, die sich auf den Handel mit Prompts spezialisiert hat. Ein schnell wachsendes Angebot und Preise für einen Prompt zwischen $1 und $5 machen Sinn.

BigJPG

Ein kleines Manko AI generierter Bilder ist aktuell noch, dass die Bilddimensionen relativ überschaubar sind. Abhilfe schafft hier BigJPG: das Tool arbeitet ebenfalls mit AI und rechnet die Bilder also nicht nur einfach größer, sondern verwendet clevere Algorithmen, um Unschärfe Kanten und Artefakte beim Vergrößern zu vermeiden.


Logge die ein, um mitzudiskutieren


Jetzt registrieren   |   Passwort vergessen?


Verwandte Artikel

Das sind die Vorteile von Typo3
Alles zum iPhone 14 Release - was wir bisher wissen
Apps privat entwickeln lassen
Apple Apps - per Festanstellung zu regelmäßigen Projekten
Apps für das ganze Leben und ein bisschen mehr
Private / nicht-öffentliche Anfragen
Werben im App Entwickler Verzeichnis
App-Erfolg: 4 Tipps von der Nutzerakquise bis zur Langzeitbindung