Update zu Bild-KI: ChatGPT, Midjourney 7, Reve

Dieses Transkript wurde maschinell erstellt. Wenn dir ein Fehler auffällt, schreib uns gerne zu diesem unter redaktion@digitalkompakt.de.

Joel Kaczmarek: Hallo Leute, geht's euch auch so, dass ihr manchmal so ein bisschen nicht mehr hinterherkommt oder seien wir ehrlich, vielleicht sogar abgehangen seid, wenn es um die ganzen Entwicklungen im Bereich KI geht? Das ist ja bei allem, was textuell ist, so das eine, aber ich finde manchmal das noch viel schwierigere ist das Thema Bild-KI. Und da habe ich eine tolle Person am Start, nämlich den lieben Georg Neumann, mit dem ich immer ganz, ganz fleißig darüber rede, was sich da so tut. Georg kenne ich nämlich aus meiner Business Community Makers und Shakers und der hat mit dem KI-Marketing-Bootcamp, sag ich mal, die Instanz eigentlich geschaffen, wo er sich mit dem Thema Bild-KI auseinandersetzt, weil seine Firma schult im Wesentlichen Marketing-Teams und macht noch viele Dinge mehr, aber sein großes Asset, was ich immer erlebe oder leben darf, ist das Thema Bild-KI. Und deswegen immer, wenn ich mal wissen will, was tut denn sich da so, dann quatsche ich mit Georg. und mehr noch, er hat mir sogar eine eigene Lösung gebaut, die die ihr da draußen auch benutzen könnt, also heute mal ein bisschen Werbung auch mit reingebaut, aber weil ich das für wirklich wertvoll halte, die heißt nämlich Flake. Und mit Flake könnt ihr hingehen, könnt Fotos von euch nehmen, die Maschine trainiert sich auf euch und dann könnt ihr auf Knopfdruck Bilder von euch erzeugen. Aber dazu später mehr. Jetzt erstmal unser Update in Sachen Bild-KI. Wir werden fleißig natürlich über ChatGPT in das neue Modell reden. Wir reden über mit Journey 7 und mit Reef, gibt es ja auch noch einen spannenden neuen Player. Und wer weiß, was uns noch so weit im Weg läuft. Also lieber Georg, schön, dass du da bist. Hallo.

Georg Neumann: Hi Joel, schön, dass ich da sein darf.

Joel Kaczmarek: Ja, wie ich schon gesagt habe, KI ist so eine schnelle Welt, möchte man ja mittlerweile fast sagen. Und dann Bild nochmal komplexer, weil ich würde sagen, für viele Menschen ein Ticken abstrakter. Also wir erinnern uns vielleicht noch an die frühen Zeiten, wo wir irgendwie Prompten sehr gut hinkriegen mussten und so weiter und so fort. Aber es hat sich viel getan und deswegen Mit dir mal so, ja, immer schön zu reden. Und vielleicht starten wir mal mit dem, was den Menschen, glaube ich, so am nächsten ist. Nämlich dieses neue Bildmodell, was ChatGPT ja auch gerade rausgegeben hat. Magst du mal so dein Big Picture dazu sagen, was du davon so hältst?

Georg Neumann: Ich finde es Bombe. Also die haben jetzt wirklich einen großen Wurf damit getan. Die haben an vielen Stellschrauben gedreht, die wirklich, wirklich viel Potenzial haben. Und wer auf LinkedIn aktiv sein sollte, der hat es ja wahrscheinlich gesehen. Da wurde gleich extrem fleißig rumprobiert mit Stilübertragungen, mit der Verwandlung eigener Fotos und generell halt mit der Bildgenerierung damit. Aber Big Picture ist, es kann endlich gut Fotos generieren. Das war ja immer der Albtraum beim Vorgänger DALL i3, der vorher in JGPT integriert war. Das neue Bild-KI-Modell dahinter kann jetzt zum Beispiel auch Fotos sehr, sehr gut generieren. Und das auch mit einer sehr, sehr guten Promptreue sozusagen. Also es hält sich sehr gut an die Kommandos, inklusive sogar der Generierung von Text in die Sachen rein, inklusive Generierung von komplexen Textfolgen, wie jetzt in Comics oder in Infografiken sogar. Das ist ja auch ein absolutes Novum.

Joel Kaczmarek: Ja, ich habe mit Hamid, mit dem ich ja viel über KI rede, auch eine Session dazu gemacht. Da hat er genau das hervorgehoben. Und ich frage mich, was ist denn so deine Beobachtung? Wie gut funktioniert das wirklich, von Bild zu Bild eine Figur zum Beispiel oder ein Setting beizubehalten?

Georg Neumann: Hängt immer vom eigenen Anspruch ab. Also gerade bei Fotos von echten Menschen ist immer noch eine ziemliche Abweichung drin. Das ist immer näherungswert. Das ist ganz nett. Auch für die Konzeption zum Beispiel kann man das super gut einsetzen. Aber wo es natürlich glänzt, ist, wenn man eine Stilübertragung anstrebt. Das heißt, wenn man jetzt nicht ein reales Foto von sich damit generieren will, sondern in einem anderen Stil. Und das war ja dann auch der Grund, warum plötzlich LinkedIn randvoll mit irgendwelchen Actionfiguren waren. Was bis jetzt immer noch anhält. Ich sehe immer noch neue.

Joel Kaczmarek: Ja, das stimmt. Und dadurch enttarnt es sich auch schon wieder so. Also da fühlt es sich für mich so an, okay, krass, klassischer KI-Case. Aber es ist ja vielleicht auch ein interessantes Happening, dass es so in den Habitus übergeht der Leute. Und für mich ist ja so der heilige Gral, das, was du mit dem Flake gebaut hast. Können wir ja auch gleich mal am Rand nochmal streifen. Geht es mit ChatGPT denn mittlerweile gut, dass ich drei, vier, fünf, sechs, sieben Fotos von mir hochlade und er anschließend mich in einem Setting sozusagen meiner Wahl setzt, wenn ich was prompte und sage, hier Ich habe gerade einen Podcast gehabt mit jemandem, der irgendwie keine Ahnung, ein Fahrunternehmen hat. Ich möchte gerne in einem Taxi sitzen und irgendwie diesen oder jenen Gesichtsausdruck haben. Funktioniert sowas mit ChatGPT jetzt mittlerweile gut?

Georg Neumann: Wenn man es vielleicht ein bisschen konzeptionell übertreibt und zum Beispiel so YouTube-Thumbnails oder sowas, da könnte es gut funktionieren, wenn man dann auch vielleicht noch extreme Emotionen reinbringt, die das Gesicht eh ein bisschen verzerrt. Für irgendwelche Business-Fotos oder für so ein typisches LinkedIn-Porträt oder LinkedIn-Selfie würde ich es tatsächlich nicht nehmen, weil es immer nur ein Nährungswert ist und die Person tatsächlich verfremdet. Also du würdest schlichtweg nicht nach dir aussehen, wenn du das versuchst. Deine Mutter würde dich nicht erkennen damit quasi. Also es hängt quasi einfach nur vom Use-Case ab. Für manche geht es, für manche noch nicht.

Joel Kaczmarek: Und ist doch vielleicht eine gute Gelegenheit, auch mal ganz kurz über deinen Flake zu reden. Also ich mache hier so unverschämt Werbung, weil ich das einfach ein echt cooles Tool finde. Also um es mal den geneigten Hörerinnen und Hörern zu beschreiben, ihr könnt euch das so vorstellen, es schreibt sich F-L-A-I-C. Es braucht sozusagen eine Trainingsphase, das heißt, du setzt dich hin, trainierst mit mehreren Fotos von mir und das muss jetzt nicht Fotograf sein, sondern es ist so, die Frau oder der Mann von einem macht mal so fünf Bilder aus unterschiedlichen Perspektiven und unterschiedlichen Hintergründen, man zeigt ein paar Gesichtsausdrücke, also es ist alles Smartphone-Macht. Wovon wir hier reden. Du trainierst das Modell und anschließend ist es wirklich so, ich habe ein Textfeld, wo ich ein Prompt eingeben kann. Durch einen Button-Druck wird der Prompt verbessert, sodass er wirklich die wichtigsten gängigen KI-Prompt-Aspekte, sage ich mal, abbildet. Und anschließend kann ich mir noch die Ratio aussuchen, also welche Bildverhältnisse eine individuelle angeben. Und dann brauche ich eigentlich nur noch sagen, will ich 8, 16, 32 oder ich glaube 1, 4, 8, 16, 32 sind glaube ich so die Sprünge ungefähr, ne? Also wie viele Bilder ich von mir haben möchte. Womit machst du das eigentlich? Wie gelingt das, dass ich auf den Knopf drücke, hab einmal dich was trainieren lassen und hab dann 16 Fotos von mir, wie ich im Taxi sitze und irgendwie auf den Laptop kloppe?

Georg Neumann: Also ich bin halt einfach hergegangen, weil ich komme selbst aus der Fotografie. Deswegen ist mein Anspruch an generierte Bilder von mir selbst zum Beispiel sehr, sehr hoch. Und deswegen habe ich mich hingesetzt, habe einen Workflow entwickelt, wie ich das Maximum aus KI-generierten Porträts rausholen kann. Und das fanden dann auch andere so toll, wenn ich das in meinen Workshops demonstriert habe, wie ich halt Bilder von mir generiere, weil wenn ihr mir auf LinkedIn folgt, da gibt es quasi keine echten Bilder von mir. Und das war dann so guter Anklang, dass ich mir gedacht habe, hey, da muss ich doch eine App dazu entwickeln, weil es gibt tatsächlich Player auf dem Markt genug. Also es gibt genug solche Services, wo man irgendwelche Bilder von sich hochlädt, dann wird automatisch ein Modell trainiert und dann kriegt man Bilder ausgegeben. Das Problem ist, die meisten davon sind einfach schlichtweg schlecht. Das heißt, der Nährungswert ist nicht, also die Ähnlichkeit zur realen Person ist einfach nicht gegeben. Die Hintergründe sind unsauber, die Hände sind kaputt und alle solche Kleinigkeiten. Deswegen habe ich mir gedacht, das kann ich doch besser und habe dann eben so ein bisschen nebenbei Flake entwickelt. und mein Anspruch war halt auch, ich will das Ganze datenschutzkonform machen. Das heißt, ich will nicht dass da Porträts in irgendeine Cloud zu einem automatisierten Service geladen werden, wo ich gar nicht weiß, wie die Daten verarbeitet werden, sondern bei uns ist das quasi wirklich noch ein händischer Prozess. Das heißt, ich selektiere auch für den Kunden die Trainingsdaten, bearbeite die gegebenenfalls noch, gebe das Ganze dann ins Training, evaluiere auch das beste Modell, weil wir trainieren dann auch mehrere tatsächlich. Und erst dann geht es wirklich in die App für den Kunden. Und da steckt dann mein Workflow dahinter, wie das Maximum an Bildqualität rauskommt. Und das Coole ist, jeder Kunde bekommt auch ein individuell auf sich abgestimmt, ein kleines Sprachmodell quasi mit integriert, wo die dann auch den Prompt verbessern. Und das mache ich auch individuell pro Kunde.

Joel Kaczmarek: Ja, okay, krass. Also ich finde, das ist einfach so. das, was ich mir immer wünsche, dass ich quasi in der Lage bin, mit KI Bilder von mir zu erzeugen in unterschiedlichen Settings. Deswegen cool, dass es das bei dir gibt und schade, dass es das noch nicht einfacher auch mal am Markt geht. Aber gut für dich. Von daher, gleich ein Modell draus gebaut, finde ich super. Und was liegt denn da drunter, sag mal? Was ist denn eigentlich die Software, mit der du arbeitest?

Georg Neumann: Also ich arbeite mit ComfyUI, wenn ich irgendwelche Bild-KI-Workflows entwickle. Das ist einfach ein Node-basiertes Bildgenerierungstool, extrem krasse Lernkurve, sehr, sehr steil nach oben, wenig zugänglich, aber eine sehr, sehr coole Open-Source-Community, die dahinter steckt. Und die Technik, die dahinter steckt, ist schlichtweg, wir trainieren ein Flux-Lorer für die einzelnen Personen. Das machen wir dann mit so Tools wie Koya, SS und so weiter. Aber das wird jetzt viel zu technisch. Da steckt also ein bisschen Know-how dahinter und auch Aufwand. Und wenn ich dann zum Beispiel ein Modell von dir trainiere, dann glüht hier einfach meine Workstation sechs, sieben, acht Stunden lang und heizt meinen Raum auf. Das wird jetzt im Sommer noch spannend, wie ich das löse. Die darf dann wahrscheinlich in den Keller wandern und ich muss irgendwelche Kabel durch die Wände legen oder so. Okay.

Joel Kaczmarek: Also ich kann aber auch schon mal aus dem Nähkästchen geplaudert erzählen, meine Frau benutzt das auch und dann hast du zu ihr gesagt, das ist ein schönes Foto, das ist aber nicht von mir, oder? Dann meint sie, doch, also dein Modell trickst dich sogar schon aus.

Georg Neumann: Da war ich echt mega überrascht, das war so ein cooles Foto, das sie da gepostet hat, da musste ich echt selbst nachfragen, ob das von Flake ist oder von ihr.

Joel Kaczmarek: Gut, wir machen weiter. Also wir haben ChatGPT, wir haben jetzt schon mal einen Case, wenn ich sage, mich interessieren Bilder von mir selbst. Mit Journey, was tut denn sich da so?

Georg Neumann: Genau, mit Journey ist jetzt in der aktuellen Version 7 raus, noch ein bisschen in der Beta. Das ist noch nicht ganz offiziell da, aber man kann es jetzt schon nutzen. Ist tatsächlich ein großer Schritt nach 4K. aber nur in Teilen. Also ich bin noch nicht so 100% happy, weil einfach ein paar Probleme noch da sind. Gerade zum Beispiel Hände sind immer noch ein Problem. Das finde ich ein bisschen sehr schade, weil es die anderen mittlerweile eigentlich alle halbwegs im Griff haben und dass man nicht mehr so viel Ausschuss bei den Händen hat. Das hat mit Journey 7 noch nicht ganz im Griff. Ich hoffe, da können sie noch ein bisschen nachbessern. Aber ansonsten ist das gerade für stilistische oder sehr ausdrucksstarke Bilder Bombe. Also da kann man wirklich cool was rausholen. Also alle, die vorher schon Midjourney genutzt haben, werden die neue Version jetzt lieben, weil die auch bei der Hauttextur, bei den Details in Porträts, da ist einfach nochmal eine Schippe oben draufgeschlagen. Das macht einfach Spaß.

Joel Kaczmarek: Bin ja ehrlich gesagt auch durch dich, aber jetzt auch durch die ChatGPT-Ergänzung von einer Weile ausgestiegen bei Midjourney. Ist es immer noch wie früher, dass man es auf Discord macht und mit so voll den klumpigen Prompts, wo ich mir echt mal einen abgebrochen habe?

Georg Neumann: Ne, das hat sich auch geändert. Also die haben jetzt schon letztes Jahr, ich glaube Sommer letztes Jahr, haben sie langsam angefangen ihre Oberfläche auszurollen. Die haben jetzt eine schöne Web-App, die ist tatsächlich auch sehr aufgeräumt und macht Spaß. Damit kann man viel machen, haben auch schöne Editoren eingebaut und solche Themen. Das passt jetzt eigentlich alles. Also diese janky Usung, also wie man es früher benutzen musste, das ist zum Glück vorbei. Das hat mich damals auch immer abgehalten, dass ich da Discord anschmeißen musste. Aber das geht jetzt echt gut. Und das Prompting ist jetzt auch deutlich besser geworden, weil jetzt einfach große Sprachmodelle wie T5 Text Encoder, das ist jetzt wieder schon zu technisch, dahinter stecken, die einfach die Prompt sehr, sehr gut interpretieren können. Und was da auch tatsächlich eine geile Entwicklung ist, weil Thema Prompt Engineering, also man muss jetzt nicht mehr wissenschaftlich an das Thema rangehen. Mit Journey hat es auch einen sogenannten Draft-Modus, wo man dann wirklich an Bildern mit Sprache oder mit Text iterieren kann. Das heißt, ich muss nicht mehr initial den perfekten Prompt schreiben, sondern ich starte mit einem Grundprompt, und iteriert dann einfach am Bild mit Sprache oder mit Text.

Joel Kaczmarek: Okay, weil das wäre auch so eine Frage, die ich habe an dich. Es ist ja manchmal so, du machst vielleicht so drei, vier Versuche mit sowas, hast dann eins, da findest du das Element geil, ein anderes das und würdest dann gerne darauf iterieren. Und das war bisher immer so ein bisschen sperrig. Also ist es besser geworden bei Midjourney 7?

Georg Neumann: Jein. Also es wird ja immer noch ein neues Bild generiert. Es ist nicht so, als würde er sich dann Teile aus den Bildern zusammenschnipseln können sozusagen. Das nicht. Es wird immer noch auf einer neuen Beschreibung ein neues Bild generiert. Das ist aber ein Thema, da wollen alle hin, dass man wirklich vernünftig an Bildern bearbeiten kann mit einem dialogbasierten Bearbeitungsprozess sozusagen. Dass auch wirklich das Ganze ganz leicht zugänglich wird, ohne dass man da irgendwie groß mit rumpinseln muss oder so, sondern dass es wirklich mit natürlicher Sprache funktioniert. Da wollen alle Anbieter irgendwann hin. Da arbeiten ja auch gerade alle dran.

Joel Kaczmarek: Was würdest du denn sagen, was ist denn bei Midjourney 7 so das Szenario, wofür du das benutzt? Also was sind so Anwendungsfälle, wofür das ideal ist?

Georg Neumann: Ich habe zum Beispiel letztens einfach mal einen fiktiven Avatar für ein Projekt generieren wollen und habe dann erstmal die Porträts mit Midjourney generiert. Einfach, weil die Hauttexturen und so weiter waren super gut. Ich hatte halt eine 40 Jahre alte Frau generieren wollen und das ist eben so eine Herausforderung. Darstellung von Alter korrekt und so weiter, dass es auch wirklich realistisch und authentisch wirkt, ist nicht ganz so einfach. Und da ist zum Beispiel eine Stärke von Midjourney, weil es einfach das sehr, sehr gut hinbekommt, richtig realistische Porträts mittlerweile hinzukriegen und das auch mit einer relativ hohen Auflösung. Und ich bin dann sogar noch einen Schritt weiter gegangen und habe dann dieses eine Porträt aus mit Journey genommen und habe es dann in ChatGPT hergenommen, um Trainingsdaten zu synthetisieren. Das heißt, ich habe weitere Ansichten dieser Person in ChatGPT generiert, weil da kombiniert man quasi die Stärken von den verschiedenen Tools. Und ChatGPT, die neue Bildgenerierung, kann halt sehr gut Bilder, Input-Bilder interpretieren und auch neu ausrichten. Das heißt, ich habe dann verschiedene Seitenansichten von dieser einen Person aus mit Journey generiert, auch mal ein Bild ab der Hüfte oder auch ein Ganzkörperporträt, bis ich eben genug Trainingsdaten hatte, um einen fiktiven Charakter zu trainieren. Und den kann man jetzt tatsächlich auch bei mir in Flake nutzen, der kommt jetzt in die Demo rein. Das heißt, die gute Anna habe ich sie getauft, die darf man dann bei uns zukünftig in der Demo testen.

Joel Kaczmarek: Sehr gut, sehr gut. Und sag mal, was du eben beschrieben hast, so dieses typische Szenario, was glaube ich ganz viele auch im Business haben. Ich habe ein Foto und mich stört nur ein Element dran. Also ich habe es zum Beispiel gerade gehabt, ich habe mir mit deinem Tool was gebaut, wo ich auf so einer Bühne bin und dann war noch ein Mensch daneben, der so total visibel war und so das Bild irgendwie gestört hat. Also es ist egal, womit ich es versucht habe. Photoshop den Bereich markiert, gesagt hier bitte entfernen die Person oder Chat-GPT hochgeladen, der hat dann mich komplett verändert, ich sah ganz anders aus. Gibt es mittlerweile oder was würdest du sagen, sind Tools, mit denen man in so eine Richtung gehen kann?

Georg Neumann: Also was generell gerade meine Empfehlung ist, ist Freepik als Anbieter. Ist eine Firma aus Madrid, war früher eigentlich nur bekannt so ein bisschen als shady Stockdatenbank. Man hat sich immer so ein bisschen angefühlt, man wusste nie so recht, hat man wirklich die Nutzungsrechte an den Bildern, die man dort bekommt. Aber die haben jetzt in den letzten Jahren massiv Gas gegeben und haben jetzt auch letztes Jahr angefangen, sehr viel im KI-Bereich aufzuholen. Und seitdem fahren die ein Momentum, das ist der Wahnsinn. Das heißt, die bringen jede Woche neue Features rein. Und das ist mittlerweile so eine coole Plattformlösung auch für Bild-KI-Tools. Also nicht nur Bildgenerierung, Videogenerierung, sondern auch eben Bildbearbeitung. Und die können das. Das heißt, du gibst einfach dein Bild rein, malst den Bereich aus, den du retuschieren möchtest, klickst auf Retuschieren und bist eigentlich schon fast fertig. Also dann kriegst du immer drei, vier, fünf Vorschläge, wie im Photoshop auch, bloß halt auf einer deutlich besseren Qualitätsstufe als das, was Photoshop im Moment kann.

Joel Kaczmarek: Na gut, also ich lerne hier noch neue Tools kennen. und ein weiteres, was ich vorher noch nicht kannte, bevor du und ich uns vorbereitet haben für das Gespräch heute, ist Reef. Was hat es denn damit auf sich?

Georg Neumann: Das weiß man ehrlich gesagt sogar gar nicht so wirklich. Also das ist ziemlich undurchsichtig, was hinter Reef steckt. Es ist ein neuer Bildgenerator auf dem Markt, den man auch kostenlos nutzen kann und ausprobieren kann. Ist sehr, sehr stark bei abstrakten Perspektiven, also bei so typischen Ansichten, die man sonst nicht so im realen Umfeld hat. Irgendwelche Froschperspektiven oder andere wahnsinnige Perspektiven, das funktioniert damit schon sehr, sehr gut. Also die Promptreue sozusagen ist auch sehr, sehr gut dort. Auch von der Bildqualität ist es nice. Ich vermute, dahinter steckt irgendein Anbieter, der gerade was testen will und entsprechend das Ganze auch kostenlos zur Verfügung stellt, um Nutzerverhalten auszuwerten und so weiter. Aber solange die das kostenlos anbieten, könnt ihr das natürlich gerne nutzen. Ich wäre bloß ein bisschen vorsichtig beim Upload von Bildern dort entsprechend, weil man eben nicht weiß, was dahinter steckt.

Joel Kaczmarek: Und ich sage mal, was macht das Ding momentan so, dass du es erwähnenswert findest in so einem Update? Also was ist die Besonderheit dran?

Georg Neumann: Einfach, weil es mal wieder was komplett Neues auf dem Markt ist. Beziehungsweise eigentlich weiß man nicht, ob es etwas komplett Neues ist oder auf irgendwas anderem basiert. Aber es ist trotzdem einfach eine spannende Entwicklung, dass jetzt auch so Player aus dem Nichts auftauchen. Vielleicht ist es am Ende ja auch bloß ein Experiment von irgendwelchen Großen. Man weiß es schlichtweg nicht. Deswegen, das Mysteriöse macht es erwähnenswert irgendwie.

Joel Kaczmarek: Ja. Ja, spannend. Und was ist so mit dem Thema Bewegtbild? Hast du eben schon mal so gestriffen. Also Zora war ja so das letzte Update, was ich mitbekommen habe, wo es auch mal richtig sich was getan hat, wo ja auch ganz viele Menschen super begeistert waren bei ChatGPT, also OpenAI. Was siehst du so im Bereich Bewegtbild?

Georg Neumann: Oh, da passiert gerade extremst viel. Das ist extrem volatil, dieser Bereich. Also da beschlagen sich quasi wöchentlich die News-Meldungen. Und Sora ist gar nicht mal so gut mehr im Vergleich. Das war mal, wo sie es letztes Jahr im März hatten sie es ja glaube ich angeteasert, da war es noch wirklich state of the art, aber da war es halt wirklich bloß ein Teaser und nicht nutzbar für uns Normalsterbliche. Da war es noch richtig toll, aber als es dann released war, kam plötzlich Google um die Ecke mit Google VO2 als Video-KI-Modell. Und hat einfach mal Sorry locker in die Ecke gestellt. Und seitdem hat sich so viel wieder getan. Also Runway ist mit der neuen Generation 4 draußen. Kling holt auf. Luma Labs holt auf. Pika Labs holt auf. Also das ist wirklich gerade so. wirklich immer wieder ein Kopf-an-Kopf-Rennen zwischen verschiedenen Anbietern. Jede Woche was Neues. Extrem spannend. Aber was mir gerade persönlich am meisten Spaß macht, ist eben Google VO2. Einfach weil es sehr wenig Ausschuss produziert im Vergleich zu den anderen. Das heißt, die Ergebnisse sind relativ gut immer. Natürlich auch immer Use Case abhängig. Man muss im Videobereich halt bereit sein, mehrere Iterationen pro Clip zu machen, weil es wird natürlich Müll produziert. Bei so vielen Frames ist einfach die Wahrscheinlichkeit deutlich höher als bei einer Bildgenerierung, dass einfach irgendwas Komisches passiert. Damit muss man leider umgehen können dann.

Joel Kaczmarek: Das war so meine Update-Seite. Haben wir noch was vergessen? Siehst du noch irgendwelche wichtigen Trends? Womit rechnest du auch so die nächsten sechs Monate?

Georg Neumann: Da wage ich mich nicht mal eine Prognose behaupten, weil im Moment überschlägt sich wieder alles. Es kann auch mal sein, dass wir wieder eine kleine Phase der Stagnation erleben. Oder es geht gleich einfach Schlag auf Schlag weiter. Da will ich jetzt gar nichts prognostizieren, ehrlich gesagt. Da kann ich nichts richtig machen. Es wird einfach immer weiter leichter zugänglich werden, das ganze Thema, wie man jetzt eben an ChatGPT sieht. Ich gehe auch davon aus, dass OpenAI da viel weiter arbeiten wird an der Bildgenerierung, weil sie jetzt gemerkt haben, wow, das bringt uns wirklich Userzahlen, weil die haben ja auf Twitter beziehungsweise auf xLauthals gemeckert, dass zu viele User quasi jetzt Bilder generieren und sie haben tagelang nicht mehr geschlafen, so nach dem Motto, weil sie nur die Infrastruktur am Laufen halten. Also da wird noch einiges passieren und vor allem wird spannend jetzt die nächsten Wochen, wenn OpenAI die API öffnet, also quasi den technischen Zugang zu dieser neuen Bildgenerierung, weil dann wird es ganz, ganz viele neue Apps und Services geben oder verbesserte Services entsprechend, die auch dann auf die ChatGPT-Bildgenerierung zugreifen können von außen.

Joel Kaczmarek: Ja, guck mal, ist doch doch noch hier ein Zukunftsblick. Also vielleicht wird das mindestens mal wieder unser nächstes Update. Cool, Jörg. Dann ganz herzlichen Dank dir. Ich drücke dir die Daumen mit Flake und deinem Business und wir hören uns hier bestimmt wieder.

Georg Neumann: Dankeschön. Ciao.

Update zu Bild-KI: ChatGPT, Midjourney 7, Reve

Mehr zum Thema

KI-Suche 🔍 : 4 Thesen, wie du besser durch KI gefunden wirst

KI-Assistenten: Wie du mit AI und Cloud skalierst 🚀

Singularity: Wie wird die Welt, wenn wir mit der KI verschmelzen?

digital kompakt

Für Werber

Für Werber