Kleiner KI-Test

Was passiert, wenn man unterschiedliche KI-Systeme mit dem gleichen Prompt füttert? Entstehen die gleichen Bilder oder zumindest ähnliche? Und welche KI schneidet bei unseren Prompts am besten ab?

Gibt man drei Zeichnern den gleichen Auftrag, zeichnen diese sicherlich nicht dreimal das gleiche Bild. Jeder Zeichner hat seine eigene Vorstellungskraft. Jeder Zeichner hat seinen eigenen Stil. Jeder Zeichner hat seine eigene Interpretation. Mit KI ist es genauso: Jede KI ist mit anderen Daten trainiert. Jede KI kennt nur die Inhalte, mit denen sie trainiert wurde und generiert somit individuelle Bilder.

In der Vergangenheit haben wir mehrfach festgestellt, dass manche unserer Prompts bei der einen KI zu einem guten oder passablen Ergebnis führten, bei der anderen KI hatten wir mit ähnlichem Konzept aber keinen oder nur mäßigen Erfolg. Da wir aber unterschiedliche Prompts eingegeben hatten, fragten wir uns, welche Bildergebnisse wir erhalten, wenn wir exakt den gleichen Prompt in die KI von Adobe und Open AI eingeben würden. Würden wir unterm Strich jeweils ein passendes oder unpassendes Ergebnis erhalten? Wie sehr unterscheiden sich die Bilder der unterschiedlichen KIs? Und was passiert, wenn drei unterschiedliche Personen den gleichen Prompt jeweils bei Adobe Firefly und ChatGPT von Open AI eingeben – erstellt uns die KI jeweils sechs gleiche oder ähnliche Bilder oder sind diese extrem unterschiedlich? An dieser Stelle ein kleiner Spoiler: Das Ergebnis hat uns überrascht.

Der Test

Wir wollten wissen, was passiert, wenn über drei unterschiedliche Accounts die gleichen Prompts eingegeben werden. Dafür nutzten wir die KI-Bildgeneratoren von Adobe Firefly und ChatGPT von OpenAI. Bei Adobe Firefly nutzten wir das kostenpflichtige Tool über die Campuslizenz der FAU, bei ChatGPT nutzten wir ausschließlich die kostenlose Variante. Für jede KI hatten wir zwei gleiche Prompts vorbereitet, die nacheinander eingegeben werden sollten. Insgesamt erhielten wir also zwei mal sechs Bilder.

Die Prompts entstanden auf der Suche nach einem Bild, um unseren Artikel anlässlich des System Administrator Appreciation Days (SysAdminDay) auf Instagram zu posten. In dem Artikel geht es darum, was passieren würde, wenn die Abteilung Zentrale Systeme des RRZE nicht mehr existieren würde.

Prompt 1:

Ich benötige ein Foto für Instagram zum sysAdmin Day: Helle, ruhige Büroszene. Mitarbeiter:innen entspannt am Rechner, Kaffee, alles läuft, lächelnde Gesichter.

Ergebnisse von ChatGPT

Bild A

Bild B

Bild C

Die Bilder von ChatGPT sind alle drei sehr ähnlich – sowohl bei der Farbgebung als auch beim Aussehen der Personen. Die Bilder enthalten nur kleine Logikfehler, wie eine sehr schmale Maus (Bild C), die früher oder später sicherlich zu körperlichen Beschwerden beim Mitarbeiter führen würde, oder zwei Kaffeebecher für eine Person auf dem Tisch (Bild C).

Ergebnisse von Firefly

Bild A

Bild B

Bild C

Bei Firefly sehen wir drei sehr unterschiedliche Szenen, die alle Logikfehler enthalten. Während auf Bild A die Kabel in der Schublade verschwinden, hat Bild B gar keine Kabel – wie der Rechner wohl funktionieren mag? Bei Bild B schwebt der Monitor außerdem über dem Schreibtisch. Die Gesichter im Hintergrund bei den Bildern A und C wirken wenig realistisch.

Prompt 2 – direkt hinterhergeschickt:

Dezent: Ein „RRZE“-Logo auf einem Monitor oder Tasse. Hier funktionieret die Technik und auf einem zweiten Bild ist dann ein Technik Ausfall/ Störung, chaotisch: Monitore zeigen „Error 500“ oder „No Internet“, Leute fuchteln mit Kabeln, panische Blicke.
Vielleicht ein rauchender Drucker oder blinkender Router. Das Ganze in einem Comic Stil.

Ergebnisse von ChatGPT

Bild A

Bild B

Bild C

 

Die Bilder von ChatGPT enthalten erneut nur wenige Logikfehler, wie zum Beispiel schwebende Bildschirme, einen Router, der auf einem Monitor platziert wurde oder Kabel, die aus einem Drucker kommen. Gut umgesetzt wurde der Comicwunsch in allen drei Bildern, genauso wie die Fehlermeldungen, auch wenn sie mal auf der Rückseite des Monitors stehen.

Ergebnisse von Firefly

Bild A

Bild B

Bild C

Bei Firefly hingegen, kann man die Zeichnungen verzweifelt suchen und findet sie doch nicht. Die Bildaussage wird in keinem der drei Bilder klar. Alle drei Bilder sind unbrauchbar.

Fazit

Trotz exakt gleicher Prompts kommen Firefly und ChatGPT zu höchst unterschiedlichen Ergebnissen. Während die Bilder von ChatGPT nur kleine Fehler aufweisen, mangelt es bei Firefly teilweise bereits an einer brauchbaren Grundlage. Zwar kann mit angepasstem Prompt eine Verbesserung erreicht werden, jedoch ist das Ergebnis von ChatGPT einfach erreichbar, ohne langes Basteln.

Angepasster Prompt für Firefly:

Comicbild Büroszene, die Technik funktioniert nicht, alles chaotisch: Monitore zeigen „Error 500“ oder „No Internet“, Leute fuchteln mit Kabeln, panische Blicke. rauchender Drucker oder blinkender Router.

Ergebnis angepasster Prompt für Firefly

Damit wird unser Eindruck aus diversen Versuchen, passende Bilder zu generieren, bestätigt. Unser Testsieger „Comic“ ist daher ChatGPT. Vor allem auch die mangelnde Fähigkeit, Schrift zu erzeugen, überzeugt bei Firefly nicht. Wenn es dagegen um „Fotos“ geht, kann Firefly ähnlich gute Ergebnisse erzielen wie ChatGPT.

Mit einem so deutlichen Unterschied hatten wir nicht gerechnet. Natürlich können Anweisungen unterschiedlich aufgefasst werden – das würden Menschen auch – aber, dass eine KI nahezu vollständig richtig liegt, während die andere weit davon entfernt liegt, erstaunt uns. Wir würden daher durchaus Bilder, wie aus Prompt 1, wieder mit Firefly erstellen, auch wenn auch diese Logikfehler enthielten. Trotzdem ist es für ein kostenpflichtiges Tool ein eher bescheidenes Ergebnis. Für Comics greifen wir in jedem Fall lieber auf ChatGPT zurück.

In der Schnelligkeit der Bilderstellung geben sich beide Tools nicht viel. Innerhalb kurzer Zeit erhielten wir von beiden KI-Modellen die Ergebnisse. Jedoch hätte Firefly sich vielleicht doch lieber mehr Zeit nehmen sollen, um ein brauchbares Ergebnis zu erzielen.

Dennoch gilt: Alle Bilder, die wir generieren lassen, prüfen wir gründlich auf Logikfehler. Denn wer will schon als Rechenzentrum ein Bild veröffentlichen, auf dem die Kabel in der Büroschublade verschwinden?

Natürlich handelt es sich hier bei unserem Versuch um keine ausführliche Testung. Insofern lassen sich daraus keine allgemeingültigen Vergleiche ziehen. Unsere Bildwünsche waren sehr spezifisch. Vermutlich hat Firefly bei anderen, nicht getesteten, Bildarten seine Stärken.
Wir empfehlen daher jedem, selbst entweder einen Vergleich durchzuführen oder aber unterschiedliche KIs auszuprobieren, denn unter Umständen kann mit einer anderen KI ein schnelleres und zufriedenstellendes Ergebnis (für den jeweiligen Zweck) erzielt werden. Das kann nebenbei auch sehr lustig sein und Spaß machen.