Wie mischt Europa in Sachen General AI mit?

9. Februar 2022, mit Jasper MasemannRasmus Rothe

Dieses Transkript wurde maschinell erstellt. Wenn dir ein Fehler auffällt, schreib uns gerne zu diesem unter redaktion@digitalkompakt.de.

Intro: Digital Kompakt. Heute aus dem Bereich Künstliche Intelligenz mit deinen Moderatoren Rasmus Rothe und Jasper Masemann. Los geht's.

Jasper Masemann: Hallo, willkommen zu einer weiteren Folge von AI Unplugged von Digital Kompakt. Mein Name ist Jasper Masemann. Ich bin Partner beim Venture Capital Fonds HV Capital in Berlin und ich fokussiere mich auf Software und KI Investments.

Rasmus Rothe: Hallo zusammen, ich bin Rasmus, Gründer von Merantix, dem Venture-Studio für Künstliche Intelligenz und Initiator vom AI-Campus. Ich bin außerdem noch im Vorstand vom KI-Bundesverband.

Jasper Masemann: Heute haben wir mal ein etwas anderes Thema. Ihr wisst ja, wir fokussieren uns gerne auf Narrow-AI-Themen, viel in der Praxis, all das, was funktioniert. Aber wir wollen natürlich auch ein bisschen über den Tellerrand schauen und in die Zukunft. Und heute geht es um Innovation und Revolution. Einige nennen es General AI, gibt sicherlich auch andere Bezeichnungen, aber uns interessiert vor allen Dingen, die europäische Perspektive und wie man dort mitgestalten kann. Und dafür haben wir einen besonders tollen Gast gewinnen können.

Rasmus Rothe: Ja, ich freue mich sehr auf die Folge heute. Wir haben nämlich Jonas Andrulis von Alep Alpha da. Jonas hat am KIT, am Karlsruher Institute for Technology studiert, wie man so schön sagt. Wirtschaftsingenieurwesen, war da neun Jahre im Consulting tätig und hat da eine Firma Palaludens gegründet, die im Bereich Computer Vision aktiv war und sich vor allem mit Labeling, also Annotation von Daten beschäftigt hat und dann relativ schnell nach, ich glaube, circa zwei Jahren von Apple gekauft wurde. Dann war Jonas ein paar Jahre bei Apple und hat jetzt 2019 wieder gegründet, nämlich Aleph Alpha. Und wir freuen uns sehr auf die Folge heute mit dir, Jonas. Und let's get right into it.

Jonas Andrulis: Klasse, schön hier zu sein.

Jasper Masemann: Cool, pass auf, dann lass uns doch so starten. Erklär uns doch mal, was ihr macht bei Aleph Alpha, vielleicht so die einfache Version für mich als Investor, nicht die für Rasmus und vielleicht auch, wo der Name Aleph Alpha überhaupt herkommt.

Jonas Andrulis: Also der Name, erstmal dazu, ist ein Nerd-Name. In der Mathematik gibt es Aleph 0, das ist die kleinste Menge der unendlichen abzählbaren Zahlen, also so 0, 1, 2, 3, 4, 5, 6, 7 und Aleph Alpha ist die alphatze Menge der unendlichen abzählbaren Zahlen. Was auch schön passt, ist, dass Alpha natürlich im Bereich KI durchaus einen Namen gewonnen hat, also AlphaGo, AlphaStar. Also auch da haben Modelle mit Alpha im Namen gezeigt, dass KI dazu in der Lage ist, uns fundamental zu überraschen mit innovativen Problemlösungen. Was wir machen ist, wir kümmern uns um Jan Lekons Kuchen. 2016 Nips, 2016 kennt ihr sicherlich das berühmte Slide mit dem Kuchen, wo Jan Lekon damals sehr visionär gesagt hat, supervised learning is just the icing on the cake. Also die Technologie, die die aktuelle KI-Revolution, in der wir ja mittendrin sind, getrieben hat, ist Supervised Learning. Haben wir mit der letzten Company viel gemacht, Rasmus, hast du schon richtig gesagt. Und das funktioniert so, dass der Mensch labelt. Also der Mensch gibt ein Signal vor, was die KI dann lernt abzubilden. Das ist super praktisch und für viele Use Cases sehr geeignet. Letztendlich wird dann die KI aber nur ein funktionaler Approximator für Input geht zu Output. Und ob das dann ein tiefes neuronales Netz ist oder irgendeine andere Methode dahinter, eine Support Vector Maschine oder Random Forest, spielt dann eigentlich keine Rolle mehr. Was diese Systeme und diese Ansätze allerdings natürlich nicht können, ist menschliches Kontextverständnis, menschliche Intelligenz erreichen. Die werden immer ihre Wahrnehmung der Welt fundamental reduzieren auf mein Label. Also im Automotive-Bereich zum Beispiel wird das System nie etwas anderes lernen können, als ist ein bestimmter Pixel ein Fußgänger, ja oder nein. Und alles andere, egal wie viele Daten ich zeige, egal wie groß ich das Modell mache, die Komplexität unserer Welt, die wir als Menschen ja beherrschen, wird das System nicht lernen. Und deswegen sind diese Fußgänger-Erkenner fundamental verwirrt, wenn ich Werbung, ein Werbeplakat habe, was einen Menschen abbildet. Wenn ich eine Reflexion eines Fußgängers in einer Fensterscheibe habe. Wenn ich Menschen im Karneval habe, die ganz anders aussehen. Und da hat sich gezeigt Jetzt in den letzten Monaten, dass ich durch Self-Supervised Learning, also dadurch, dass ich KI-Systeme trainiere, die eben nicht mehr Annotationen und Labels brauchen, sondern die einfach sich eine riesige Menge von Daten, von Beobachtungen anschauen, Und als Ziel nur haben, die Struktur und die Muster und die Intelligenz in diesen Daten, in der gesamten Welt, die sie anschauen, zu erkennen. Dann haben mehrere Firmen jetzt schon gezeigt, dass man mit diesen Systemen dann KI-Modelle bauen kann, die flexibel auf Situationen reagieren können, die alle möglichen Arten von Aufgaben und Herausforderungen und Situationen verstehen und bewältigen können, auch wenn sie die noch nie vorher gesehen haben. Und damit sowas wie menschlichen, gesunden Menschenverstand und Kontextverständnis eben mitbringen.

Rasmus Rothe: Ja, super spannend, Jonas. Von diesen Self-Supervised-Modellen, welches siehst du denn so als die großen Use Cases an? Weil ich meine, für viele Anwendungen funktionieren jetzt ja auch die Supervised-Modelle schon ganz gut. Also wo siehst du das größte Potenzial und damit verbunden auch, wie verändert das vielleicht auch die Nutzer dann, von diesen KI-Modellen diese zu nutzen? Vor allem für den Programmierer, der sozusagen vorher jetzt vielleicht ein spezifisches Modell angewandt hat und jetzt so ein Self-Supervised-Modell nutzt.

Jonas Andrulis: Das ist eine super Frage. Also auf der einen Seite kannst du natürlich alles, was du mit anderen Modellen vorher schon machen konntest, machen, nur halt ein bisschen besser. Du kannst jeden NLP-Task natürlich auch mit einem Modell wie GPT-3 und Verwandte lösen, also Textklassifikation, Suche, Entitäten-Extraktionen. Wirklich interessant wird es aber da, wo du Dinge machen kannst, die eben bisher nicht gingen oder fast nicht gingen. Das ist zum Beispiel eine Zusammenfassung von komplexen Texten. Wir haben ein hybrides Interface gebaut, wo du unstrukturierte Informationen in eine symbolische Repräsentation überführen kannst. Also Stichwort Objektrepräsentation, Knowledge Graphen. wo du komplexe inhaltliche Fragen zu Texten beantworten kannst und eben nicht Extractive. Extractive gibt es ja, es gibt so BERT-Extractive-Systeme, die funktionieren ja so, dass du halt einfach einen Token oder einen Start- und End-Token aus einem Evidence-Text schätzt. Dass du also sagst, irgendwo in dem Quelltext ist die Antwort drin, wo ist Start und Stopp. Mit den neuen Modellen kannst du die Antwort völlig frei formulieren. Sie kann implizit nur im Text drin sein. Sie kann über mehrere Absätze verteilt vorkommen. Also das ist eine ganz neue Qualität von Text. Fähigkeiten im Bereich von Text und jetzt seit kurzem auch im Bereich von Bildern, die ungefähr an das rankommt, was man vom Praktikanten erwarten könnte. Also das, was ein pfiffiger Praktikant machen könnte, können diese Modelle. Und das können Dinge sein wie, lest diese 10.000 Dokumente und schreibt die wichtigsten Thesen für die ökologische Revolution im 21. Jahrhundert raus. Also es gab keine Modelle der Vergangenheit, die sowas in der Lage gewesen wären zu lösen.

Jasper Masemann: Bevor jetzt alle Praktikanten da draußen anfangen, dir Hass-E-Mails zu schreiben, wie siehst du denn, also nochmal zurück zu Aleph Alpha, was ist eure Aufgabe? Wollt ihr das Toolkit bereitstellen, dass die Leute kreativ in den Use Cases unterwegs sind? oder sagt ihr, nein, wir müssen schon ein bisschen guidance zu den Use Cases gehen, sonst sind die Leute in ihrer Kreativität total verloren? Wie siehst du da eure Position, eure Rolle?

Jonas Andrulis: First and foremost, also bauen wir diese Modelle. Wir machen den Research, wir entwickeln diese Basistechnologie selbst und wir entwickeln die auch so weit, dass es eben mehr ist als nur ein Paper oder ein schön illustrierter Blogbeitrag. Also bringen die auch in Produktion. Wir haben einen Python-Client, wir haben eine API, wir haben eine Playground, der also in diese Größenordnung skalieren kann und robust funktioniert. Und dann sind wir aktuell so dabei, mit ausgewählten Partnern erste transformative Use Cases umzusetzen. Da geht es mir jetzt dann darum, etwas zu zeigen, was bisher nicht möglich war. Also kreative, innovative Möglichkeiten umzusetzen. Wer so ein bisschen die Presse zum Thema GPT-3 verfolgt hat, der weiß, dass da unglaublich tolle und kreative Dinge entstanden sind. Und wir haben zum einen nicht die Manpower in der Breite, zum anderen haben wir auch gar nicht die Domänexpertise, das Branchenwissen, was aus ganz vielen Bereichen hier kreative Ideen beitragen kann. Das heißt, unsere Aufgabe eher als Basistechnologie, Lieferant und Plattform. Und dann wollen wir andere enablen. Wir wollen also mit Partnern arbeiten, die dann die Ideen haben, die dann die End-to-End-Kompetenz haben. Das wird auch, sehen wir jetzt schon, eine ganz neue Form der UX geben. Also diese Mensch-Maschine-Interaktion, die UX, die Art und Weise, wie man mit diesen Systemen arbeiten kann, einer Technologie. Bei uns aus dem Team nennt das tatsächlich auch Programmieren. Er sagt, ein Prompting, eine Interaktion mit so einem Weltmodell, ist eine Art von Programmieren der freien Informationen.

Rasmus Rothe: Ja, das ist super spannend, weil das ändert ja auch wirklich die Art und Weise, wie man mit dem KI-Modell interagiert. Also wenn ich jetzt als Anwender von eurem Modell agieren möchte, muss ich im Zweifel gar keine eigenen Modelle mehr trainieren, oder? Kann doch direkt auf euer Modell im Prinzip zugreifen. Vielleicht kannst du das mal in einem Beispiel beschreiben. wie man mit euch zusammenarbeiten würde.

Jonas Andrulis: Genau, das ist auf jeden Fall eine Möglichkeit, dass du also sagst, ich habe zum Beispiel, was wir in einem Fall umgesetzt haben, eine Verschlagwortung, dass wir also Serial Shot von dem Modell eine Verschlagwortung von Texten erzeugt haben. Wenn ich jetzt sage, ich habe zum Beispiel, ich komme aus irgendeinem Ort, Ich komme aus der Versicherungsbranche zum Beispiel und ich sage, ich habe eine tolle Idee, wie ich die Arbeit in gewissen Schritten in der Versicherungsbranche leichter machen kann. Und dazu brauche ich eben zu E-Mails oder E-Mail-Chains Verschlagwortung und die Möglichkeit dazu, Zusammenfassungen zu schreiben. oder die Möglichkeit, da Sentiment rauszulesen und so, dann kann ich das entsprechend nutzen. Also ich kann mir Beispiele anschauen, die wir mit Partnern entwickelt haben und kann die relativ einfach mit einer Basiskenntnis von Python integrieren. Ich brauche kein Machine Learning Know-how und ich kann aber natürlich trotzdem eigene Machine Learning Modelle kombinieren. Ich kann, was wir in einigen Fällen auch schon gesehen haben, dass man das kombinieren kann, dass man also die von einem so großen Modell, wie wir es haben, erzeugten Informationen dann wieder intelligent weiterverarbeiten kann.

Jasper Masemann: Wenn du jetzt mal nach vorne schaust, ich habe ja angefangen mit der Innovation, aber auch Revolution. Du sprichst ja öfters mal über General AI. Ist das dann für dich der erste Schritt auf dem Weg dieser General AI? Vielleicht fangen wir damit an, was verstehst du darunter überhaupt und wie seid ihr Teil von dem Ganzen? Du bist besser zur Einordnung.

Jonas Andrulis: Es ist so ein wilder Begriff und ich will mich ungern mit Gary Marcus streiten. Also das Thema ist manchmal unterspezifiziert. AGI, General AI, wird oft verstanden als etwas, die Menschen ebenbürtig. Und man kann sich darüber streiten, was jetzt dazu gehört. Gehört Robotik dazu? Wo hängt also das eigene Agency notwendig, die diese Systeme haben müssen? Ich glaube, das hilft uns gar nicht so viel weiter, diese Diskussion. Und was mir eigentlich besser gefällt, ist der Begriff der transformativen KI, wie auch von Open Philanthropy geprägt, wo sie sagen, das ist eine Technologie, die mindestens 50 Prozent dessen, was wir jetzt Arbeit nennen, transformieren kann und eine Technologie, die in der Folge ähnlich ist wie die, industrielle Revolution. Und ich glaube, das ist greifbarer, da haben wir auch ganz handfeste Indizien, dass wir uns da sehr schnell darauf zubewegen. Und diese Themen wie, was ist Bewusstsein, was ist Intelligenz, die sind mir zumindest eine Stufe zu esoterisch, um darüber wirklich zu streiten.

Rasmus Rothe: Ja, super spannend. Und ich meine, für eben so große Modelle, die man da ja trainieren muss, braucht man eben auch sehr große Hardware, oder? Also das ist ja auch nicht mehr so, dass man das auf seinem Laptop, geschweige denn auf seiner einen Grafikkarte so ohne weiteres trainieren kann. Das sind ganz andere Dimensionen und die Dimensionen werden da auch immer größer. Ich glaube, es wäre spannend, wenn du dem Zuhörer einmal ein bisschen erläuterst, was eigentlich so die Requirements sind und auch wo das Ganze sich gerade hin entwickelt. Und dass es eben mittlerweile schon auch echt komplex ist, diese großen Modelle zu trainieren.

Jonas Andrulis: Ja, das ist ein wesentlicher Aspekt, der uns jetzt natürlich die letzten Monate und Jahre beschäftigt hat. Ich kann mich erinnern, vor fünf Jahren, zehn Jahren war es so, da konnte jeder Doktorand sich zwei Grafikkarten kaufen und konnte dann State-of-the-Art-Modelle trainieren. Das hat sich eben geändert. Die Trainingskosten, also allein die Rechenleistung, die man braucht, um ein GPT-3-Modell zu trainieren, das kostet so zwischen 5 und 20 Millionen Euro. Das heißt, das sind die Kosten, die ich nur habe, wenn ich alles, ich habe alles, ich habe meinen Datensatz, ich habe mein Team aufgebaut, ich habe meine Algorithmen gebaut, alle Experimente sind durch. Ich drücke jetzt nur auf den Knopf und trainiere das einmal. Und wenn irgendwas dabei schief geht, was ist Spoiler, was es regelmäßig mal tut, muss ich von neu starten. Das heißt, das ist enorm ressourcenaufwendig. Und es erfordert ein spezielles Wissen, um das Engineering dieser Trainingspipeline so zu designen, dass ich riesige GPU-Cluster effizient nutzen kann. Es gibt einen wesentlichen Unterschied. Natürlich gibt es schon Training, was auf GPU-Clustern läuft. Allerdings sind KI-Modelle, die wir bisher verwendet haben, nur so groß, dass sie auf eine GPU passen. Und das heißt, dieses Verwenden von GPU-Clustern wurde halt eben so gemacht, dass ich gesagt habe, ich mache halt lauter Kopien von meinem Modell, verteile das auf die GPUs und trainiere parallel. Unser Modell ist so groß, dass es nicht mehr nur auf eine GPU nicht passt. Es passt auch nicht auf einen Node mit acht GPUs. Das heißt, wir müssen das über mehrere Nodes und mehrere GPUs verteilen. Aktuell arbeiten wir mit 512 A100 quasi im Hochgeschwindigkeitsverbund. Und da der Optimierer beim Training eben über die ganze Breite des Netzwerks den Gradienten finden möchte, habe ich eine extrem hohe Geschwindigkeitsanforderung zwischen den GPUs. Also normales Ethernet reicht da nicht aus. Aktuell haben wir 4x200G zwischen den Nodes als Geschwindigkeit, Latenz ist auch wichtig, eben um ein Modell effizient verteilt über viele hunderte GPUs gleichzeitig zu trainieren. Und beim Training ist dann die Challenge, dass man diese Layer und Neuronen dieses Netzwerks so auf die GPUs verteilt, dass die Kommunikation optimiert werden kann. Ich kann nicht einfach beliebig, kann nicht einfach sagen, ja ist egal, dieser Layer halt auf diese GPU, dieser Layer auf diese GPU. Ich muss das so designen, dass die Kommunikation zwischen den Nodes reduziert wird, Und dass ich so ein 3D-Pipelining, heißt das, dass ich also die Kommunikations-Reduce- und Forward-Passes so übereinander schiebe, dass die eben nicht sich gegenseitig blockieren. Also das ist recht knifflig und ist eben auch eine große Herausforderung, die zur Dedemokratisierung dieser Technologie weiter beitragen wird, weil es eben nicht mehr nur genügt, das Ganze analytisch, mathematisch zu verstehen, Ich brauche also eine Kombination von Infrastrukturengineers, von Machine Learning Engineers, von Research Scientists, von Research Engineers, die also alle zusammenkommen müssen und jeder muss einen hoch spezialisierten Skill haben. Keiner kann mehr ganz alleine mit seinem eigenen Skill in der Größenordnung operieren.

Rasmus Rothe: Ja, und es sind ja auch große Mengen an Geld, die man dafür braucht, oder so ein Cluster aufzubauen, was eben auch nicht jeder hat. Und ich glaube, du hattest auch vor kurzem ja in einem Interview gesagt, dass wir einen weiteren digitalen Sputnik-Moment vermeiden sollten und deswegen in Deutschland und Europa die KI-Revolution proaktiv und souverän mitprägen müssen. Was müssen wir da machen in Europa und welche Rolle spielt da vielleicht auch die Politik, dass wir da nicht noch einen Sputnik-Moment haben?

Jonas Andrulis: Ja, das ist uns sehr wichtig. Ich glaube, wir müssen Handlungsfähigkeit erhalten. Und das ist genau der Punkt, den du vorhin angesprochen hast. Microsoft hat ja nicht umsonst eine Milliarde für die exklusiven Rechte an GPT-3 gezahlt. und deployt das. Wenn wir kein Unternehmen haben, was die Ressourcen, die Kenntnisse und ein Team hat, was diese Technologie mitgehen kann, also was zumindest mal in der Champions League kicken kann, dann bleibt uns keine andere Wahl, als Nutzer zu sein. Und dann können wir diese Technologie nicht gestalten. Wir können also unsere Werte, unsere Vorstellungen nicht in diese Technologie mit einbauen Und wir können auch die so entstandene Wertschöpfung nicht verwenden. Und ich glaube, die Kontrolle, das Verständnis, die Transparenz, aber auch die Wertschöpfung dieser Technologie ist essentiell notwendig, um die Folgen, die diese Entwicklung hat, also die kulturellen Folgen, die politischen Folgen, die sozialen Folgen, die Folgen für unser Bildungssystem, um die mitzugestalten. Dazu brauchen wir die Kompetenz und dazu brauchen wir die Wertschöpfung. Und das ist natürlich eine Aufgabe für uns alle, nicht nur für die Politik, aber natürlich auch für die Politik. Also unsere Idee ist ja zu sagen, wir arbeiten eng mit der Politik zusammen und bieten an, dass diese Technologie, also europäisch souverän hergestellt und betriebene Technologie, als Basis für die Digitalisierung dienen kann. Das ist sowieso ein Problem, das wir angehen müssen. Und wenn wir sagen, wir werden das Problem angehen, Unterstützen wir damit europäisch souverän gebaute KI-Forschung? Dann glaube ich, können wir zwei Fliegen mit einer Klappe schlagen. Und das wäre mir persönlich lieber als Fördermittel und Forschungsprojekte.

Jasper Masemann: Wie gebt ihr das dann an bei Aleph Alpha? Also es gibt ja den Trend von Open Source, gibt es ja sowieso sehr, sehr viel auch im KI-Bereich. Also wie schafft ihr es, dass jeder in Europa da Zugriff drauf hat, aber gleichzeitig natürlich ihr als Firma auch eure Ziele weiter verwirklichen könnt? Ich stelle mir das sehr, sehr schwierig vor, weil man muss ja auch amerikanische Forschung, vielleicht sogar chinesische Forschung mit einbauen. Wie macht ihr das für euch?

Jonas Andrulis: Wir haben tatsächlich den Kerncode unseres Modells Open Source. Das macht OpenAI nicht mehr und aus gutem Grund glaube ich nicht mehr. Das ist ein Balanceakt, weil natürlich muss ich auch die Equity-Story erzählen können. Ich brauche mehr Geld und ich muss natürlich klar machen für die nächste Finanzierungsrunde, dass wir eben auch ökonomisch ein transformatives Wertschöpfungspotenzial haben. Das ist nicht nur coole Forschung. Gleichzeitig aber bin ich überzeugt, dass Wissenschaft und auch dieser gesellschaftliche Diskurs, der braucht Transparenz und der braucht Reproduzierbarkeit. Wir haben eben momentan den Kerncode Open Source. Ich werde mir Mühe geben, so viel wie möglich transparent und offen zu machen. Das sind akademische Publikationen, das ist Source Code und das sind natürlich andere Aspekte noch.

Jasper Masemann: Und im nächsten Schritt, also ich habe das gesehen in unserem Portfolio, wir haben auch einige NLP-Firmen, die reine Kommoditisierung ist ja auch gleichzeitig ein Vorteil für dich, wenn du mehr Leuten ermöglichst, dein Modell zu nutzen für ihre Geschäftsmodelle. Es ist ja auch in Ordnung, wenn du daran mitverdienst, jetzt mal aus meiner Perspektive als Investor. Seht ihr das auch so, dass ihr sagt, wir unterstützen diese Kommoditisierung des Ganzen über uns, aber die Leute sollen natürlich uns nutzen als europäische Alternative. Dafür nehmen wir dann Geld. Ist das eine Idee dahinter?

Jonas Andrulis: Das ist absolut das Ziel. Also ich will andere enablen, kreative, tolle Produkte zu bauen, investieren. Wir haben natürlich das andere Thema. Es gab jetzt eine Schweizer Firma, die ein 6 Milliarden Parameter französisches Modell veröffentlicht hat. Und die haben einfach den Quellcode von GPTJ genommen. Die haben einfach gesagt, wir nehmen den Trainingscode, wir bauen einen eigenen Datensatz und dann machen wir unser eigenes Modell. Wudau hat den Peil, also auch den Datensatz verwendet. Und das ist natürlich das Thema. Unsere Forschung ist teuer. Wenn ich die Ergebnisse Open Source stelle, dann wird irgendjemand mal kommen und wird sagen, ach so, jetzt mache ich übrigens mein eigenes Modell oder ich bin übrigens 10% günstiger als alle Pfeiffer mit allem. Irgendwo dazwischen ist die Wahrheit. Ich glaube nicht, dass wir hier ein Zero-Sum-Game haben und ich glaube auch nicht daran, dass man die Zugbrücken hochziehen sollte und alles für sich behalten sollte. Aber wir müssen natürlich funktionieren als Firma. Wir müssen auch die nächsten Experimente noch bezahlen können.

Jasper Masemann: Vielleicht als kleine Frage noch, der Erasmus ist auch schon in den Startlöchern, aber Wudao, du hast es gerade erwähnt, das sind ja die Chinesen. Was siehst du von denen überhaupt? Man redet ja sehr, sehr viel über USA und GPT-3. Was passiert in China auf dem Gebiet?

Jonas Andrulis: Ja, die sind auf jeden Fall ernst zu nehmen, ernster zu nehmen, als sie vor zehn Jahren waren. Ich kann mich erinnern, vor zehn Jahren waren die Paper, die aus China kamen, oft noch nicht so beeindruckend. Mittlerweile hat sich das geändert. Die haben ganz gut aufgeholt. Die haben auch gigantische Mittel. mit 150 Milliarden der New Artificial Intelligence Development Plan und haben natürlich eine Menge Schwungmasse dort mittlerweile erreicht. Ich habe das Gefühl, dass man noch nicht auf dem Level der USA ist. Also auch Voodoo ist klar zehnmal größer als GPT-3, aber außer der Flex mit der Größe habe ich noch nicht so viel gesehen von dem Modell. Denn es gehört mehr dazu, ein Modell gut zu machen, als es einfach nur groß zu machen. Aber China hat erkannt, dass wir hier Basistechnologie haben. Eben das, was wir vorhin hatten mit der industriellen Revolution, das ist auch ein Kriterium übrigens von Open Philanthropy, dass sie sagen, transformative KI ist so einflussreich, dass sie das globale Machtgleichgewicht verändern kann. Und das hat man in China erkannt und deswegen gehen die all in, was KI angeht und es ist sehr ernst zu nehmen.

Rasmus Rothe: Wenn wir sozusagen schon bei dieser geografischen Diskussion sind, ist ja eben auch ein Punkt, dass wir viele verschiedene Sprachen haben. Und von daher, gerade wenn man aus Europa ein Modell trainiert, natürlich eben auch andere Sprachen wie im Französisch, hattest du gerade schon erwähnt, aber auch Deutsch oder Spanisch relevante Sprachen sind. Das ist sicher ein Angle, wo man sich auch nochmal differenzieren kann. Ein zweiter, der zumindest in Europa ja auch viel diskutiert wird, ist das ganze Thema von Biases und auch in den Trainingsdaten. Gibt es da nochmal eine spezifische Perspektive von euch und sozusagen auch die Probleme, die man damit hat, wenn man auf großen Mengen an Supervise trainiert? Wie geht ihr damit um? Und was ist deine Perspektive auf das Thema Biases?

Jonas Andrulis: Auf jeden Fall stimmt es, dass wir gesehen haben, Dadurch, dass wir einen europäischen Trainingsdatensatz haben, wir haben das Modell auf den fünf großen europäischen Sprachen trainiert und dadurch, dass wir das gemacht haben, haben wir gesehen, dass es eben nicht nur ein Sprachverständnis mitbringt, sondern eben auch Werte und kulturelle Informationen. Diese Modelle sind natürlich unheimlich mächtig und haben mehr Wissen als eben nur Sprachvokabeln. Das haben wir zum Beispiel gezeigt, indem wir das Modell über Fußball gefragt haben, über Sport. Und dann haben wir gesehen, es kennt sich viel besser im europäischen Fußball aus. Es kennt viel mehr Clubs und weiß darüber etwas. Und wenn du GPT-3 fragst, dann bekommst du als Antwort die New York Giants.

Rasmus Rothe: Welches Team supportet es?

Jasper Masemann: Das wollte ich auch gerade fragen.

Jonas Andrulis: Es kommt darauf an, in welcher Sprache du es fragst. Wenn du es in Deutsch fragst, dann die meisten Antworten sind Dortmund oder Bayern.

Jasper Masemann: Traurig.

Jonas Andrulis: Ja, da können wir gerne ein Feintuning-Projekt machen, um dem Modell einen anständigen Fußballgeschmack beizubringen.

Jasper Masemann: Der Rasmus und ich kommen ja aus Bremen, also ich weiß nicht, ob wir den Zweitliga-Verein noch hochkriegen können.

Jonas Andrulis: Auf jeden Fall ein Aspekt, dass wir halt sagen, Trainingsdatensatz bringt mehr mit als Sprachverständnis. Und dann ist das andere Thema Bias, unerwünschte Informationen. Und ich glaube, dass da sind wir an einem Punkt angelangt, wo es nicht funktionieren kann, zu definieren, was ein Bias ist und was nicht. Denn in manchen Situationen ist es sehr offensichtlich, wo wir sagen, okay, das ist ganz eindeutig eine Aussage, die nicht gut ist. Aber die Welt ist so komplex und es gibt so viele Interdependenzen. Also zum Beispiel 90 Prozent der Insassen von Gefängnissen sind Männer. Ist das jetzt ein Bias, ein sexistischer? Ist das eine empirische Beobachtung, die sich nachweisen lässt? Ich glaube, hier ist es wichtig zu sagen, zum einen diese Modelle sind und wollen keine deontologische Instanz sein. Sie sind weder Wahrheitsmaschinen, noch sind sie uns ethische Ratgeber. Sie sind uns genauso ethische Ratgeber wie eine Google-Suche. Unglaublich nützlich. Aber wenn ich in Google eingeben würde, alle Männer sind, und der erste Treffer wäre, alle Männer sind faul, dann würde ich ja nicht sagen, ach, Google ist der Meinung, ja, das ist Nee, das ist einfach, diese Modelle sind eine Möglichkeit, die komplexe Information, das komplexe Wissen, was eben in der Breite der Welt da ist, für uns nutzbar zu machen. Und so müssen wir es auch verwenden. Vielleicht wieder in Richtung Praktikant. Der Praktikant wird Fehler machen. Der Praktikant weiß noch nicht alles. Der Praktikant ist unglaublich nützlich. Und vor allem, wenn ich unbegrenzte und fast kostenfreie Praktikanten habe, kann ich damit unheimlich viel machen. Ich kann damit Arbeits- und Wertschöpfungsprozesse transformieren. Aber ich muss als Mensch immer noch ein Auge drauf haben und muss mir als Mensch die Frage stellen, wie nutze ich dieses unglaublich mächtige Werkzeug in meinem Sinne?

Rasmus Rothe: Ja, dann lass uns mal ein bisschen in die Zukunft schauen. Was sind denn so aktuelle Sachen, an denen ihr arbeitet? Was sind die neuesten Modelle, die ihr trainiert? Kannst du uns da vielleicht schon mal so einen kleinen Sneak Preview geben? Wir hatten ja schon vorhin einmal gesprochen und ich habe gehört, da gibt es jetzt so ein paar multimodale Modelle, die ihr trainiert. Vielleicht erzählst du dazu ein bisschen was, soweit du kannst.

Jonas Andrulis: Ja, sehr gerne. Da bin ich gerade sehr stolz drauf, denn mit dem, was wir bisher gemacht haben, war ja immer so die berechtigte Frage, könnt ihr eigentlich auch noch was anderes als das nachmachen, was OpenAI vorgemacht hat? Und klar, jetzt haben wir ein bisschen was geändert in einem Modell und einem anderen Trainingsdatensatz, aber letztendlich, klar sind wir erstmal hinterhergelaufen. Was wir jetzt entwickelt haben, ist ein Modell, was eben in der Fähigkeit vergleichbar ist zu GPT-3, nur dass du im Prompt, also in der Art und Weise, wie du dir Modellinformationen gibst, beliebig Text- und Bilddaten vermischen kannst. gesehen, dass dieses Modell völlig neue visuelle Konzepte lernen kann mit Fewshot Learning, dass es technische Diagramme, Architekturen lesen kann, dazu Fragen beantworten kann, es kann Schatzkarten navigieren und es kann eben Dinge verstehen, Bildkontext und Bildinhalte verstehen, die mit klassischen Objekterkennern oder klassischen Modellen eben unlösbar gewesen waren. Also wir haben ein paar lustige Bilder ausprobiert. Ein Fisch mit Zahnlücke, ein Bär, der im Taxi sitzt und so. Also alles erkannt und beherrscht. Und eben auch da die ganze Flexibilität von GPT-3, also dass ich sowas sagen kann wie, ich nehme drei Bilder und erzähle dazu eine Geschichte. Das ist ja das gerade, was GPT-3 ausmacht, dass es flexibel ist und dass es generalisiert zu allen möglichen Anforderungen und Situationen. Das haben wir eben jetzt mit einem multimodalen Modell gezeigt. Und das ist gerade im Testbetrieb mit ein paar ausgewählten ersten Testkunden. Und das werden wir jetzt in Kürze auch in Produktion nehmen können und auskalieren.

Rasmus Rothe: Ja, bin ich super gespannt zu sehen, wenn ihr das sozusagen komplett publisht und man das vielleicht auch ausprobieren kann. Das klingt ja ziemlich impressive und wie du sagst, einige sehr spannende Anwendungen, die man darauf bauen kann. Was denkst du kommt danach? Ich meine, wir haben jetzt ja schon viel auch gehört. Ich meine, die Modelle werden immer größer, es kommen immer mehr Daten rein, die Modelle werden multimodaler, skalieren sozusagen irgendwie along all dimensions. Was ist noch etwas, was du kommen siehst, wenn du jetzt sozusagen zwei Jahre, drei Jahre in die Zukunft schauen würdest? Was denkst du, ist so die dominante Achse entlang derer, sich dieser ganze Bereich weiterentwickeln wird.

Jonas Andrulis: Also was man sieht, ist eben, und das ist glaube ich auch so ein bisschen das Game, was Microsoft spielt, warum Microsoft da so investiert, dass unsere White-Collar-Work, also unsere Knowledge-Worker, unsere informationsverarbeitenden Arbeitsschritte und Wertschöpfungsschritte, dass die transformiert werden. Dass wir also das, was wir aktuell als Arbeit sehen, die Art und Weise, wie wir mit Software interagieren, mit Textfeldern, mit Dropdown-Boxen, mit Tastaturen, mit Klicker-Klacker und so, dass das zurückgehen wird und dass wir dadurch eine ganz neue Dimension der Arbeit Effizienz und Möglichkeiten aufmachen. Und das, was mich allerdings besorgt daran, ist zum einen natürlich der drohende Kontrollverlust und die Monopolisierung dieser Basistechnologie. Aber was ähnliches werden wir auch bei den Anwendern sehen. Wir sehen es jetzt schon, wir haben ein paar DAX-Konzerne und mittelgroße Unternehmen, die unglaublich innovativ sind, die am Ball sind und die das verstanden haben, was da gerade passiert. Und die versuchen, ihr eigenes Business und ihre eigenen Prozesse zu transformieren und um Schritt zu halten. Aber das ist eine enorme Herausforderung. Das ist schwer zu machen, das intern Team aufzubauen, dass diese Technologie überhaupt versteht, dass die Kapazitäten dafür hat. Und da die Veränderung so schnell geht, sehe ich durchaus die Gefahr, dass da Teile der Technologie, Teil der Unternehmen eben abgehängt werden.

Jasper Masemann: Das sehen wir auch. Ich glaube, das Thema ist so ein bisschen auch die Vermischung, wie man das über die Zeit macht und die Leute mitnimmt. Aber das finden wir sehr, sehr gut, dass du dich da engagierst. Ich glaube, du bist einer der wenigen, die da offen drüber sprechen. Also viele denken ja eher da ans Geld, um vielleicht aber ans Geld zurückzukommen. Wir sind ja ein bisschen praktisch in diesem Podcast auch. Du hast ja sehr, sehr beeindruckende Runde gemacht. von sehr, sehr namhaften Investoren. Hast du vielleicht so für die Hörer, die auch in dem Bereich aktiv sind, was Fundraising angeht, aber auch für die Zukunft, gerade im KI-Bereich, so ein paar Tipps und Tricks, wie man damit umgehen sollte? Weil ja natürlich, genau wie du sagst, es gibt halt GPT-3, eine Milliarde Microsoft. Das ist ja ein schöner Case und auch, was da zukünftig passieren kann. Aber Investoren, also jedenfalls wir, wir sind ja immer sehr praktisch orientiert. Womit kann man eigentlich jetzt Geld verdienen? Wie machst du das? Was würdest du den Leuten empfehlen?

Jonas Andrulis: Ich glaube, mir hat zwei Dinge geholfen. Zum einen einfach Glück gehabt mit dem Timing. Ich glaube, die Zeit war jetzt reif für dieses Thema. Vor fünf Jahren hätte man auf dem Thema nicht so raisen können, glaube ich. Und dann natürlich meine persönliche Vergangenheit, die mir ein bisschen Kredibilität geliehen hat. Nichtsdestotrotz aber, glaube ich, verändert sich auch die Venture-Szene in Deutschland. Wir haben ja sehr ähnliche Investoren wie ESA Aerospace, das ist ja auch ein schöner Moonshot. Ich glaube, diese Dinge werden möglich. Wir haben in Deutschland verstanden, dass es eben nicht mehr nur lohnenswert ist, E-Commerce zu machen, sage ich jetzt mal, oder Produktlösungen, die übrigens ja auch wichtig sind. Also wer eine tolle Idee hat für E-Commerce, soll sie bitte machen. Das ist total wertvoll, dass wir auch da Innovation haben. Aber ich glaube, wir können auch Basistechnologie, wir können auch grundlegende Dinge angehen. Die Stimmung ist entsprechend offen dafür. Und da kann ich nur jeden ermutigen zu sagen, ich hatte ein paar Gespräche auch, wo Leute gesagt haben, sie würden gerne was machen im Bereich Semiconductor, ob sie in die USA gehen sollen. Und vielleicht ist es noch einen Schritt einfacher, eine große Runde zu raisen in den USA. Aber es ist jetzt aktuell in Deutschland möglicher denn je.

Jasper Masemann: Und um vielleicht ein bisschen FOMO zu erzeugen, also Fear of Missing Out bei anderen Investoren, du sprichst auch bestimmt mit US-Investor. Die haben ja schon Interesse, auch in deutsche Firmen zu investieren.

Jonas Andrulis: Es war uns bisher sehr wichtig und ich finde es auch eine tolle Leistung oder ein tolles Ergebnis, dass es uns gelungen ist, die ersten zwei Runden auch in der Größenordnung deutsch zu racen. Das finde ich klasse, weil die Souveränität eben liegt uns am Herzen. Ich glaube, wenn wir jetzt in der nächsten Runde auch einen US-Investor dabei hätten, dann wäre für irgendwie 10% im Cap-Table eines US-Investors, wäre die europäische Souveränität trotzdem noch nicht gefährdet.

Jasper Masemann: Das stimmt. Na gut, dann gucken wir mal, werde ich jetzt dann nach dem Podcast alles anrufen. Vielen, vielen Dank für deine Zeit. Das war super, super insightful, wenn man es so schön auf Englisch sagt. Also ich habe wieder sehr, sehr viel gelernt. Auch danke, dass du so offen warst zu uns.

Jonas Andrulis: Hat mir viel Spaß gemacht. Danke.

Rasmus Rothe: Ja, vielen Dank, Jonas. Und viel Erfolg. Und ich bin gespannt auf die News, die wir in den nächsten Wochen sehen werden.

Jonas Andrulis: Alles klar. Ich danke euch. Ciao.

Rasmus Rothe: Bis dann. Ciao.

Outro: Danke fürs Zuhören beim Digital Kompakt Podcast. Du merkst, hier ziehst du massig Wissen für dich und dein Unternehmen heraus. Wenn du mit uns noch erfolgreicher werden möchtest, abonniere uns auf den gängigen Podcast Plattformen. Und hey, je größer wir werden, desto mehr Menschen können wir helfen. Also erzähl doch auch deinen Kolleginnen und Kollegen von uns. Bis zum nächsten Mal.