Künstliche Intelligenz und Sprache

Jasper Masemann: Hallo und herzlich willkommen zu einem neuen AI Unplugged Podcast von Digital Kompakt. Ich bin Jasper Masemann, ich bin Partner bei HV Capital und kümmere mich vor allen Dingen um B2B SaaS Investments und AI Investments.

Rasmus Rothe: Ich bin Rasmus Rothe, Mitgründer von Merantix, einem Venture-Studio für künstliche Intelligenz. Wir bauen KI-Firmen auf.

Jasper Masemann: Jawohl, und heute wollen wir ganz gerne mit euch über AI oder KI und Sprache sprechen, weil in dem Bereich hat sich einiges getan im letzten Jahr, also 2020, wir sind jetzt 2021. Und ich glaube, wir fangen einfach mal dadurch an, dass wir uns ein bisschen technisches Verständnis bringen. Da ist Rasmus genau der Richtige, weil ich glaube, die Kernfrage ist Rasmus, Bilder gibt es ja schon länger, Bildbearbeitung, Bilderkenntnis, Analyse und irgendwie ist Sprache nicht so richtig aus dem Quark gekommen. Was ist denn da passiert in letzter Zeit, dass da jetzt wirklich endlich mal ein Fortschritt entsteht?

Rasmus Rothe: Ja, ich glaube, Bilder waren einfach um einiges einfacher, weil ein Bild ist irgendwie rechteckig, hat Pixel, die haben einen Farbwert und sind dadurch direkt numerisch. Das heißt, man kann die Pixel-Farbwerte direkt in irgendwie den Computer oder ein neuronales Netzwerk eben tun und damit arbeiten. Da ist nicht viel Übersetzung notwendig. Im Gegenzug dazu ist es eben so bei Text, da sieht es ja ganz anders aus. Wir haben irgendwie Buchstaben, wir haben Wörter und jetzt muss man daraus irgendwie Zahlen generieren.

Jasper Masemann: Warum muss ich daraus Zahlen generieren?

Rasmus Rothe: Weil im Endeffekt ich damit ja rechnen will. Also um ein intelligentes System zu bauen, ein neuronales Netzwerk oder auch andere Algorithmen, die rechnen mit Zahlen durch Multiplikation, Addition. Und da kann man erstmal nicht direkt mit Buchstaben arbeiten. Das heißt, man muss erstmal jetzt irgendwie diese Buchstaben in Zahlen bekommen. Und das war sicher so der erste Schritt. Schritt, der es aber auch ein bisschen schwieriger gemacht hat, da hat man dann das sogenannte Word-to-Vec entwickelt, wo man ein Wort in einen Vektor verpackt. Das heißt, man hat ein einzelnes Wort, zum Beispiel Teeküche und kann dann dieses Wort in einem Vektor repräsentieren. Also ein Vektor im Prinzip sind mehrere Zahlen und die beschreiben dann dieses Wort und man kann es dann auch wieder zurücktransferieren in das Wort. Und das war so der erste Schritt, um überhaupt mal mit Wörtern auch arbeiten zu können.

Jasper Masemann: Also wer jetzt in die Mathematik nicht aufgepasst hat, kann mal bei Wikipedia nachgucken. Also ich schwimme schon gedanklich. Sehr cool. Und das war ja der erste Schritt, wie du sagst. Und wo war da eigentlich die Limitierung bei diesem Word2Vec? Warum das da eine Zeit lang nicht weiterging?

Rasmus Rothe: Ja, da war es erstmal wichtig, die Wörter in diese Vektoren zu verpacken, sodass diese Vektoren auch Sinn machen. Also dass zum Beispiel zwei Punkte in einem Vektorraum, die nah beieinander liegen auch Wörter repräsentieren, die nah beieinander liegen. Also wenn du dann halt zwei Zahlen hast, die sehr ähnlich sind, aber das eine heißt irgendwie Teeküche und das andere heißt irgendwie Schiff oder so, sind das ja zwei Sachen, die haben überhaupt nichts miteinander zu tun. Das heißt, die sollten auch numerisch relativ weit auseinander liegen. Und da hat man erstmal relativ viel daran gearbeitet, überhaupt diese Wörter in sinnvolle Zahlen sozusagen zu transformieren.

Jasper Masemann: Das klingt ein bisschen wie chinesische Sprache. Wenn man falsch betont, dann ist die Mutter eine Kuh oder irgendwas anderes. Okay, und was ist jetzt gerade passiert, dass es halt wirklich weitergeht?

Rasmus Rothe: Ja, in den letzten Jahren hat man angefangen, erstmal viel größere neuronale Netzwerke auf diesen Daten dann zu trainieren. Also Sprache ist ja sehr komplex. Das heißt, man kann das eben jetzt nicht mit einem kleinen neuronalen Netzwerk trainieren. was irgendwie Buchstaben, Handschrift erkennt, trainieren, sondern Sprache ist ja so viel, so komplex, hat so viele Nuancen, dass man da wirklich sehr, sehr große neuronale Netzwerke gebaut hat. Das ist sicher das erste. Das zweite ist, dass man angefangen hat, eigentlich den Text zu verwenden, den es eh im Internet gibt, nämlich super viel Text einfach zu nutzen, um diese neuronalen Netzwerke zu trainieren und nicht, wie man es sonst macht, Daten zu annotieren, Daten aufzubereiten. Also man hat nicht angefangen, wenn man jetzt zum Beispiel nur Customer Reviews klassifizieren will, in irgendwie positiv oder negativ, dann muss man erstmal diese ganzen Customer Reviews irgendwie annotieren, also sagen, das ist ein guter, das ist ein schlechter, das muss man alles manuell aufbereiten und Und das ist halt super viel Arbeit für Text. Und man hat dann gesagt, okay, wir arbeiten hier eigentlich gar nichts auf, sondern wir nehmen einfach den ganzen Text, der im Internet da ist und trainieren darauf ein neuronales Netzwerk und trainieren es eben so auf eine smarte Art und Weise, dass wir da nichts annotieren müssen. Also um ein Beispiel zu geben, ist es dann so, dass man zum Beispiel sagt, Ich versuche anhand des aktuellen Satzes vorherzusagen, welches der nächste Satz sein könnte. Und ich gebe dem neuronalen Netzwerk manchmal den wirklich nächsten Satz, den wir im Internet danach gefunden haben. Und manchmal gebe ich halt irgendeinen zufälligen Satz. Und das neuronale Netzwerk muss dann unterscheiden, Ist der nächste Satz ein echter nächster Satz oder ist das irgendein zufälliger? Und so kann ich halt auf normalen Daten trainieren, ohne die irgendwie, sage ich mal, händisch aufzubereiten und so halt viele Millionen Wörter und Buchstaben in das neuronale Netzwerk reinbringen und das trainieren.

Jasper Masemann: Das hätte man jetzt ja schon vor Ewigkeiten machen können. Und liegt das jetzt daran, dass einfach bessere CPUs, bessere Computer-Hardware existiert? oder hat man noch andere Fortschritte gemacht?

Rasmus Rothe: Ja, also sicher hat es auch viel mit der Hardware zu tun und mit der Möglichkeit, diese großen Datenmengen zu verarbeiten. Aber man hat eben auch an der Art und Weise, wie diese neuronalen Netzwerke gebaut sind, an der Architektur, einiges in den letzten Jahren verändert. Eine große Neuerung waren sicher die Transformer als Modelltyp.

Jasper Masemann: Also nicht Transformers, sondern Transformer. Dann bin ich mal gespannt. Was machen die denn?

Rasmus Rothe: Genau, Transformer sind super spannend. Bevor man Transformer hat, hat man viel mit Recurrent Neural Networks gearbeitet, die sich immer nur ein Wort zur Zeit angeguckt haben. Also man muss sich das so vorstellen, wir wollen jetzt einen englischen Satz ins Deutsch übersetzen. Dann hat er sich ein Wort nach dem anderen angeguckt und danach versucht, ein Wort nach dem anderen in der anderen Sprache, jetzt in unserem Fall in Deutsch, zu produzieren. Und er hat immer nur das Wort davor gesehen. Und das ist natürlich schwierig, weil

Jasper Masemann: Also kein besonders gutes Gedächtnis, ein bisschen Kurzzeitgedächtnis.

Rasmus Rothe: Nee, das ist halt ein Gedächtnis, als wenn man jetzt übersetzen müsste und sich immer nur an das letzte Wort erinnern kann. Dann ist es sehr, sehr schwierig, gut zu übersetzen. Und die Transformer sind eben in der Lage, sozusagen sich alle Wörter gleichzeitig anzugucken und auch noch vielleicht auch 20 Wörter noch zurückzugucken. Also sich auch noch drei Sätze vorher anzuschauen, weil da vielleicht zum Beispiel etwas beim Namen genannt wurde und danach nur noch referenziert wird indirekt und man nicht mehr der eigentliche Name auftaucht. Und da muss man halt drei Sätze zurückgucken. Und diese Transformer sind über so einen sogenannten Attention-Mechanismus in der Lage, da halt sozusagen sich auf einzelne Wörter über die letzten Sätze zu fokussieren und gucken sich im Prinzip alle Wörter gleichzeitig an und können dadurch halt viel mehr diesen wirklichen Kontext verstehen und den dann sozusagen nutzen, um eine bessere Übersetzung zu machen oder besser Text zu verstehen.

Jasper Masemann: Aber ich muss dann trotzdem noch Labeln annotieren, oder? Oder macht er das alles automatisch, dass er das versteht, den Zusammenhang?

Rasmus Rothe: Der macht das zum großen Teil automatisch. Also viele von diesen Modellen werden automatisiert trainiert. Zum Beispiel ein anderer, neben diesem, was ich vorhin gesagt hatte, dass man den nächsten Satz versucht vorherzusagen, werden manchmal auch einfach einzelne Wörter zufällig ausgetauscht und das neuronale Netzwerk muss das dann erkennen, welche Wörter sozusagen richtig sind und welche falsch sind, da gerade nicht reinpassen, weil sie irgendwo mitten im Satz sind. Und so kann das Netz eben dann auch, ohne dass man händisch irgendwas annotiert, was lernen. Aber natürlich ist es so, wenn man ein sehr spezifisches Problem trainieren möchte, zum Beispiel eben jetzt in diesem Fall Customer Reviews erkennen möchte, sind die irgendwie positiv oder negativ zu einem ganz spezifischen Produkt, dann muss man dem schon ein paar Trainingsdaten geben, dass er überhaupt lernt, was ist das Problem, was den Kunden interessiert.

Jasper Masemann: Also das war das, was du, glaube ich, mal erwähnt hattest, Task-Specific-Training. Also ich sage, genau das möchte ich haben und bitte nichts anderes.

Rasmus Rothe: Genau, das eine ist eben, dass man sehr spezifisch für einen Task das Netzwerk trainiert. Und das andere ist, und das hat auch sicher GPT-3, was ja sehr stark in der Presse war, das Language-Modell von OpenAI nochmal weitergetrieben, nämlich so ein sogenanntes generisches Interface zu bauen zu dem Language-Model, dass man dem nämlich drei Sachen einfach mitteilt. Also das Modell ist fertig trainiert. Und dann gibt man dem drei Sachen mit. Erstens, was ist die Aufgabe, die ich erfüllen möchte? Zum Beispiel Übersetzung oder ich möchte vielleicht Question Answering machen. Also ich habe eine Frage und möchte darauf eine Antwort bekommen. Und dann, wenn man jetzt zum Beispiel Question Answering als Task angibt, dann gibt man als zweites ein paar Beispiele an. Also man gibt zum Beispiel fünf Fragen an und fünf Antworten dazu, wo man sozusagen fünf Beispiele mal angibt. Dann hat das Netzwerk so ein bisschen so einen Kontext, worum geht es hier. Und das Dritte ist dann, dass man dann die eigentliche Frage dann noch stellt. Und dann spuckt das Netzwerk eben die Antwort aus. Und so kann ich mit diesem Interface eigentlich mit dem gleichen Netzwerk eben Fragen beantworten. Ich kann aber auch übersetzen. Ich kann Text generieren. Ich kann eben auch sagen, fass mir diesen Text zusammen. Dann sage ich halt, fass mir diesen Text zusammen. Gebe ich vielleicht zwei, drei Beispiele, wie eine Zusammenfassung aussehen könnte, sowohl mit dem Text davor und danach. Und dann kann ich halt die Zusammenfassung für einen neuen Text so machen. Und das ist super powerful, weil ich ein Modell habe für alles eigentlich.

Jasper Masemann: Klingt wie so ein Orakel, ne? Stell mir eine Frage und ich gebe dir auf jeden Fall eine Antwort und die ist nicht immer 42. Sehr gut.

Rasmus Rothe: Ja, nee, das ist halt echt spannend und ich glaube, das sind eben so diese Themen, wieso diese Language-Modelle jetzt auf einmal so gut funktionieren. und das sieht man ja auch, wenn man jetzt irgendwie Google Translate nutzt, wie gut das mittlerweile funktioniert. Ich meine, vor zehn Jahren konnte man das komplett vergessen, so ein Google Translate zu nutzen, da war die Qualität so schlecht. und mittlerweile, also übersetzen wir damit sogar auch bei Memorandix sehr viele Dokumente, wenn wir wenn wir irgendwas übersetzen müssen.

Jasper Masemann: Das heißt de facto, da gibt es auch einen Transformer, der transformiert diesen Zwischenschritt, muss auch sogar gar nicht wissen, welche Sprache das ist, also dieses Task-Specific, sondern es kann auch generell sein und erkennt das automatisch.

Rasmus Rothe: Genau. Ich meine jetzt bei den Sprachmodellen, da kann man dann schon natürlich noch ein bisschen feintunen und anpassen. Also Google und so erkennt ja auch sofort die Sprache und dann haben die schon ziemlich sicher pro Sprache noch ein eigenes Modell, was sie halt nochmal gefeintuned haben, angepasst haben auf Alle Feinheiten mit der spezifischen Sprache.

Jasper Masemann: Und vielleicht da abschließend, wie groß ist das jetzt, was da trainiert wird? Ich habe auch gelesen, Google hat auch nochmal ein eigenes gemacht versus OpenAI.

Rasmus Rothe: Sehr, sehr groß. Also über 100 Milliarden Parameter mittlerweile. Also über 100 Milliarden Variablen, die sozusagen gelernt werden. Das ist schon richtig groß und die Modelle werden immer größer. Also wir werden sicher dieses Jahr die Grenze von 1000 Milliarden Parametern knacken. Und das ist natürlich eine ziemlich krasse Infrastruktur, die man dafür braucht.

Jasper Masemann: Ja, da freuen sich einige, die sowas verkaufen und hosten. Okay.

Rasmus Rothe: Die Cloud Provider, denen geht es da auf jeden Fall gut, wenn Language Modelle trainiert werden. Jasper, jetzt haben wir viel über die Technik geredet. Was siehst du denn aus, wie sie sich da als Anwendung, also hast du da generell das Gefühl, dass du da auch in den letzten zwei, drei Jahren mehr gesehen hast als noch davor? Also kommt da viel auf der Gründerseite?

Jasper Masemann: Ja, total viel. Also wir hatten natürlich ursprünglich mal, wenn du jetzt rein Richtung NLP denkst, ist es ja eher im Understanding-Bereich gewesen. Ich erkenne, was der Text, was der Intent eines Textes ist. Das ist so ein klassisches Chatbot-Thema und dann gibt es halt eine Antwort da drauf. War halt natürlich viel über über einfach logische Ketten gelöst. Das noch stärker zu automatisieren, freier zu machen, ist halt super. und gerade eben mit solchen Modellen wird es halt einfach noch viel, viel stärker, weil ich kann dann de facto zum Kunden gehen und sagen, du gib mir alles, was historisch bei dir im Kundensupport passiert ist, sag mir vielleicht, was gut und was schlecht war oder vielleicht erkenne ich das sogar selber. Und dann ist es halt fertig, wohingegen du vorher halt sehr, sehr viel mehr händisch trainieren musstest. Und das kannst du natürlich jetzt im Kundensupport nehmen. Das kannst du aber auch im Vertrieb nehmen. Also es gibt ja auch so Sales Chatbots oder Supported Systems, die dann einfach sagen, hey, da kommt gerade eine Frage rein, das wäre jetzt eine gute Antwort, wenn du deine Conversion erhöhen willst. Und durch diese Automatisierung, das ist nicht nur gut für die Firma, das ist natürlich auch gut für die Kunden, weil wer hat denn schon häufiger mal erlebt, dass er einfach die Antwort nicht gefunden hat? und in die Telefonwartschleife will man ja auch nicht reingehen. Also da passiert gerade wahnsinnig viel. Was man auch dann so ein bisschen sieht, sind eben die Consumer Cases, die so ein bisschen logisch da dran sind. Du hattest das schon erwähnt. Also kennen wir vielleicht alle von Gmail. Du schreibst eine E-Mail vor, die wird dir fertig geschrieben. Da gibt es jetzt halt viele Leute, die sagen auf GPT-3 Basis oder anderer Basis helfe ich dir dabei. Ich mache dich kreativ. Ich mache deine E-Mails besser, auch Richtung Conversion. Aber auch ich meine Grammarly ist glaube ich bekannt. und ähnliche Formen. Ich helfe dir einfach, deinen Stil zu verbessern. Also du tippst quasi ein bisschen was vor und dann musst du dir nicht so viele Gedanken machen. Ich glaube, das werden wir weiter sehen. Aber die Frage ist eben so ein bisschen, wird das ein eigenständiges Modell sein oder ist das eher ein Feature von etwas? Ich glaube, da muss man noch mal ein bisschen reingehen. Ich habe auch schon mal so kleine Sachen gesehen, so Richtung Speech Writing und wirklich Creative Book Writing. Ich glaube, da bin ich noch so ein bisschen skeptisch. Das liegt vielleicht an meiner Historie. Ich hatte ja mal eine Firma, wir haben ganz viele Texte geschrieben. Also wirklich audience-specific Texte zu schreiben, die gut klingen, die schön klingen und so, das sehe ich noch ein bisschen kritischer, aber bin ich glaube ich einfach biased.

Rasmus Rothe: Ja, das ist denke ich auch eine Frage, die ich mir da stelle. Viele von diesen Features eben genau wie du auch gesagt hast bei Gmail, das ist sehr nett, wenn der meinen Satz zu Ende schreibt, aber die Frage ist sozusagen, ist da die Wertschöpfung halt wirklich am höchsten oder ist das so ein nettes Feature, was dann im Zweifel halt eh Google direkt oder Microsoft direkt mit ihren Produkten anbietet. ob man da dann wirklich eine eigenständige Firma bauen kann. Ich weiß nicht, wie du dazu stehst, zu so dieses Feature versus Real Product.

Jasper Masemann: Ich glaube, das ist total schwierig, weil am Ende des Tages ist ja immer, also wie viel von diesen Plugins möchte ich integrieren? Wie viel darf ich auch integrieren? Oder was lässt da Microsoft noch zu? Will es da nämlich wirklich selber beherrschen? Weil die können ja auch, die analysieren ja auch die Texte und machen damit noch ein paar andere Dinge. Oder vielleicht Google ein bisschen Werbung. Also die wollen das, glaube ich, auch einfach ownen von Seiten der Daten. Und ich glaube, der nächste Punkt ist auch, wie viel davon ist halt wirklich auch Mehrwert für mich als Kunden, weil viele Sachen will ich ja auch zukünftig erreichen mit dem, was ich jetzt gerade tue. Und auch so ein Language Model geht ja eher auf historische Datenverbindungen. Und die wissen ja vielleicht gar nicht, was ich da im Kopf habe. Jetzt kann ich das natürlich alles eintippen, aber vielleicht schreibe ich es dann auch einfach fertig. Und dieser Schritt dahin, dass das einfach sehr seamless ist wie vorher Ohne eben einfach viel zu konfigurieren. Ich glaube, das dauert noch ein bisschen, wenn wir da überhaupt hinkommen.

Rasmus Rothe: Wie siehst du das ganze Thema so Document Processing? Also wenn ich mir vorstelle, wie viele Leute jeden Tag damit verbringen, eben Dokumente, Formulare auszulesen. Auch ich als Consumer muss immer noch sozusagen Formulare ausfüllen. Da wird ja verdammt viel Papier kreiert, sowohl jetzt mit Endkonten, aber natürlich auch zwischen Businesses, in der ganzen Bankenwelt, in den ganzen Versicherungen. Und klar, so Handwriting und so, das haben wir jetzt schon vor ein paar Jahren mal ganz gut verstanden. Also deine Unterschrift, Jasper, die erkenne ich, glaube ich, ganz gut. Und die erkennt auch mein Algorithmus gut. Aber glaubst du, da gibt es jetzt auch nochmal so eine nächste Generation an so Document Processing Companies, die eben nochmal mehr auch kompliziertere Formulare, Dokumente, Rechnungen verstehen und da halt einfach noch viel mehr automatisieren? Oder denkst du, da ist vieles auch schon da?

Jasper Masemann: Nee, es ist, glaube ich, einfach noch viel zu wenig da, weil die meisten Erfahrungen, die man halt macht, sind sehr fehlerbehaftet. Also ich gehe jetzt mal in den Legal Tech Bereich rein. Ich meine, ich habe da halt jemanden, der hat studiert, der macht das, hat viele Erfahrungen, der haftet auch dafür, dass er sich die Verträge angeschaut hat, verglichen hat, Fehler gefunden hat und so weiter. Und jetzt kommt da so eine AI und sagt, ich mache das genauso wie du. Oder ein anderer Bereich wäre jetzt vielleicht zum Beispiel Accounting, Buchhaltung, wo ja eben auch große Schäden entstehen können oder im Auditing-Bereich. Und dann entdecke ich halt einen Fehler, den die AI gemacht hat, den ich nie gemacht hätte. Und dann verliere ich natürlich sofort das Vertrauen. oder auch wenn du im Bereich natürlich Healthcare bist. So, jetzt haben wir also das Document Processing gesagt. Es gab tolle Firmen mit tollen Versuchen, die aber eben einfach Fehlerquoten hatten, die nicht verstanden wurden oder auch zu hoch waren. Und jetzt siehst du halt immer mehr Firmen, die das wirklich beweisen können, wo Kunden auch das überprüfen und sagen, ja, ist perfekt, ist richtig gut, vertraue ich jetzt blind. Und klar, muss natürlich immer reported werden, muss auch ein Produkt drumherum gebaut werden. Aber einfach dieses Qualitätsniveau scheint jetzt da zu sein, dass wir da an einem Scheidepunkt sind. Das ist das eine. Dann hörst du natürlich auch viel Document Processing so Richtung Quant Funds, also Trading, einfach Financial Analysis, also nicht nur das. Das langweilig ist zu lesen, ist auch einfach wahnsinnig viel zu lesen. Und wenn ich dann natürlich ein Edge habe und ein bisschen früher was erkannt habe, verstanden habe, eben gerade diese Zusammenhänge, die nicht nur zahlenbasiert sind, sondern auch inhaltsbasiert sind. Was hat der CEO da eigentlich gesagt? Da gab es, glaube ich, bei der Rise of AI vom Fabian Westerheide auch einen schönen Vortrag zu. Dann habe ich natürlich einen Vorteil. Und wenn das funktioniert, dann wird da auch Geld rein investiert. Also da sind wir jetzt glaube ich genau am Scheidepunkt und ich bin mir übrigens ziemlich sicher, Richtung Military Intelligence Services, dass die das auch schon noch länger machen, weil da wird natürlich einfach viel gelesen an E-Mails und auch Telefonaten, die transkribiert sind.

Rasmus Rothe: Ja, ich denke, das ist ein ganz wichtiger Punkt, dass natürlich alles, was so Automation von bestehenden Workflows, wo zurzeit jemand manuell vielleicht die Rechnung liest und dann bezahlt, da ist es a so, dass man sich oft keine Fehler laufen kann, weil immer wenn Dokumente im Spiel sind, sind es irgendwie Verträge oder es geht um Geld. Sonst müsste man es nicht schriftlich machen. Das heißt, man kann sich relativ wenig Fehler erlauben, muss da gut genug sein. und andererseits ist es natürlich auch oft ein Kostenthema einfach, wo man sagt, okay, man vergleicht jetzt den Algorithmus und die Kosten und die Fehlerquote mit dem Mensch, der das aktuell macht. und ich glaube, das ist okay, aber wie du gesagt hast, was wahrscheinlich nochmal um einiges spannender sind, sind eben Use Cases, wo du, weil du eben diese Technologien hast, jetzt auf einmal viel mehr Dokumente anschauen kannst, viel mehr Financial Reports, die kein Analyst je in seinem ganzen Leben lesen könnte und vor allem innerhalb von wenigen Millisekunden, weil sonst braucht er irgendwie drei Wochen, um die zu lesen. und dann ist halt vielleicht schon im Finance-Bereich sozusagen diese Investment Opportunity vorbei, weil man eben erst drei Wochen später dann alles gelesen haben konnte und das ist ja dann eben eher so Revenue Generating, vielleicht auch im Im Legal-Bereich, wenn man viel schneller sich an neue Compliance-Richtlinien anpassen kann, wo man zurzeit das eben manuell gemacht hat und auch Sachen übersieht und da jetzt wirklich viel schneller ist und nicht nur einfach einen einfachen Prozess automatisiert.

Jasper Masemann: Und ich glaube, das Spannende ist, ich glaube, das NLU-Thema finde ich fast, also am allerspannendsten, also wirklich das Verständnis des Ganzen, weil ich meine auch Börse, du guckst ja in die Zukunft, das heißt, du hast Meinungen von Menschen und diese Meinungen zu aggregieren, Also nicht nur von einer Meinung abhängig zu sein. Wir haben ja das Thema Fake News gehabt, ganz, ganz viel. Also wie gewichte ich das eigentlich? Ich glaube, das wird wahnsinnig spannend und eher zum Vorteil. Aber das kannst du natürlich auch dann wieder zu deinem Vorteil nutzen, wenn du das Internet dann spamst mit falschem Content. Da können wir vielleicht auch nochmal zu sprechen. Aber ich glaube vorher, was halt interessant ist, es gibt ja auch ein paar Use Cases außerhalb von so reiner Sprache. Also Coding haben wir gesehen, Code Review vielleicht, Code Schreiben, da waren ja die Stimmen noch eher so ein bisschen gemischt, so nach dem Motto, naja, ist halt eher simpel und das Modell, also auch so ein GPT-3 wiederholt halt eher was. Aber ich glaube gerade ihr bei Merantix seid ja eher in der Biologie aktiv mit was, was auch wirklich was Versprechendes hat.

Rasmus Rothe: Ja, also ich glaube, das sind auch noch eben so Use Cases, die nochmal viel spannender sind oder eben auch die welche, die man sich bisher vielleicht noch nicht so angeschaut hat. Also alles, wo man auch Text hat, aber vielleicht nicht Text in der, sag ich mal, natürlichen Form, so wie wir beide jetzt hier kommunizieren. Also zum Beispiel in der Biologie. hat man ja DNA-Sequenzen, was im Endeffekt auch lange Buchstabensequenzen sind. Und da kann man jetzt eben, da gibt es einige sehr, sehr spannende Papercard, die auch im letzten Jahr rausgekommen sind, die halt sagen so, warte mal, halt, stopp, in der Biologie haben wir auch Text, nämlich DNA-Sequenzen, was auch Buchstaben sind und nutzen jetzt einfach diese Language-Modelle, diese Sprachmodelle. Und gucken mal, ob die halt auch diese DNA-Sequenzen zum Beispiel klassifizieren können, ob dann zum Beispiel ein Protein eine bestimmte Eigenschaft hat oder wie hitzebeständig das ist. Und dann hat man eben auch wieder ein paar Samples. Man hat ein paar Proteine, die man aus dem Labor kennt, wo man genau weiß, wie die sich verhalten. Und anhand derer Daten kann man dann eben trainieren und kann dann auch zum Beispiel vielleicht ähnliche Proteine finden, die irgendwie von den Buchstaben jetzt auf den ersten Blick ganz anders aussehen. Aber das Language-Modell versteht halt, die Buchstaben sehen anders aus, aber die Bedeutung ist trotzdem ähnlich. Also genauso wie man in der Sprache ja die gleiche Sache auf zwei komplett unterschiedliche Art und Weise mit unterschiedlichen Wörtern sagen kann, gibt es eben auch so Beispiele in der Biologie. Und das ist super spannend, wo halt jetzt irgendwie so zwei Bereiche, nämlich Sprache und Biologie zusammenkommen, die eigentlich gar nicht so viel miteinander zu tun haben.

Jasper Masemann: Ich glaube, dafür sollten wir auch einen eigenen Podcast machen. Das klingt so spannend. Das wird noch kommen. Und ich habe so ein paar Sachen gelesen zum Thema Biases, also auch gerade bei GPT-3, also da gab es halt so Themen, ich will das jetzt hier nicht vorlesen, weil ich es vor Augen habe, aber ihr könnt ja mal im Internet recherchieren, was es da gibt. Wie geht man damit um? Wie macht ihr das bei Merantix?

Rasmus Rothe: Ja, das ist natürlich ein riesiges Thema, weil man ist jetzt in der Lage, so ein Modell auf allen Daten zu trainieren, die im Internet sind. Aber das heißt, das Modell lernt halt auch von dem, was im Internet ist. Und da sind, sag ich mal, 95 Prozent gute Sachen, aber das sind auch eben 5 Prozent Sachen, die

Jasper Masemann: Du bist so ein positiv denkender Mensch, das freut mich.

Rasmus Rothe: Ja, wahrscheinlich sind es nicht 95%, wahrscheinlich sind es eher 20%. Aber das Problem ist, weil die Datenmengen, von denen wir lernen, so riesig sind, da kann man eigentlich kaum noch manuell hingehen und vorher halt aussortieren, was okay ist und was nicht okay ist. Und man kann natürlich bestimmte Themen, wenn man bestimmte Also rassistische Wörter, Ausdrücke, wenn irgendwie in einem Paragraf das Wort Nazi vorkommt, vielleicht irgendwie diesen Paragraf nicht zum Training nutzen. Aber auf der anderen Seite kann das halt zum Beispiel auch wieder Text sein, der historisch richtig ist. Das heißt, da kommt es dann immer gleich auf den Kontext an und manchmal auch sozusagen schlechte Wörter können in einem guten Kontext verwendet werden. Das heißt, man kommt dann doch nicht drum herum, das manuell durchzusehen und das ist halt super schwierig.

Jasper Masemann: Ja, das war ja, glaube ich, auch beim Computer Vision Bereich immer ein Thema, auf welchen Datensamplers trainierst, weiße Menschen, super.

Rasmus Rothe: Und das heißt, ich glaube, man muss da hinkommen, dass man die Modelle vorher ein bisschen filtert, auf welchen Daten man trainiert und man kann natürlich auch danach die Modelle filtern. Also wenn man dann ein Modell trainiert hat, dann sich sozusagen jedes Wort, was dann noch gesagt wird, von dem Modell nochmal durch einen zweiten Algorithmus geben, das halt einschätzt, ob das jetzt irgendwie ein sensitives oder kritisches Thema ist und dann im Zweifel halt einfach dem Modell sagen, so dazu darfst du jetzt nichts sagen. oder Thema Customer Service, Hier sollte dann doch vielleicht jemand, lieber ein Mensch, die Frage beantworten, weil die Maschine scheint hier irgendwie in einem Territorium zu sein, wo sehr sensitive Wörter verwendet werden und das ist vielleicht nicht so gut, wie man das macht. Also daran wird auch gearbeitet und das ist sicher ein großes Thema. Ein anderes großes Thema sind eben auch die Infrastrukturkosten, oder? Das ist ja auch was.

Jasper Masemann: Was heißt, also das läuft logischerweise alles in der Cloud. Ich mache das ja nicht auf meinem eigenen Rechner zu Hause. Ich glaube, wir haben irgendwann mal gesehen, also angeblich einmal zu trainieren, das GPT-3-Model kostet fast 5 Millionen Dollar, kann man wahrscheinlich mal, wahrscheinlich muss man ein paar Mal trainieren. Und irgendwie soll ja wohl auch der Faktor, mit dem diese Modelle größer werden, auch gar nicht mehr so richtig hinterherkommen, was eigentlich der Speicher von den Grafikchips, auf den man trainiert, kommt. Das heißt, eigentlich sind wir in so einer Art, also die Kosten werden wahrscheinlich explodieren. Der Wert muss also auch irgendwie mitkommen.

Rasmus Rothe: Ja, es gibt glaube ich zwei Trends. Also der eine Trend ist halt eben, diese Modelle werden immer größer und die werden auch größer, schneller größer, als sozusagen die Rechenleistung stärker wird. Und damit steigen halt auch die Kosten exponentiell. Und ich glaube, wir werden wahrscheinlich in den nächsten fünf Jahren das erste Modell haben, was über 100 Millionen Dollar kostet. Und das ist natürlich, wenn man sich das jetzt mal auch aus so ein bisschen geopolitischer Sicht sich anschaut, natürlich schon eine Challenge, weil Ich sage mal, nicht so viele Konzerne sich das leisten können, 100 Millionen Dollar mal eben an den Cloud-Provider zu überweisen, um ein einziges neuronales Netzwerk zu trainieren. Das heißt, da werden sicher jetzt in den nächsten Jahren viele von diesen Modellen eben auch von den großen amerikanischen Tech-Konzernen trainiert werden. Und das ist ja an sich auch okay, aber wichtig ist dann eben auch, dass die allen zur Verfügung gestellt werden. Und das ist halt schwierig zu garantieren.

Jasper Masemann: Und das ist ja de facto gerade passiert. Also Microsoft hat eine Milliarde bei OpenAI investiert, hat eine exklusive Lizenz bekommen. Das sind natürlich jetzt ein bisschen Details und jeder sieht das natürlich anders, wie gefährlich das ist. Aber de facto sind die da jetzt miteinander verbandelt. Ist das jetzt ein Problem? oder glaubst du, ich habe auch gesehen, es gibt ja viel Open-Source-Bestrebungen, so ähnliches wie GPT-3 zu bauen. Ist das überhaupt möglich oder muss man leider wirklich dieses Geld dahinter haben, um das überhaupt zu können?

Rasmus Rothe: Ja, also man kann schon in den Trainingskosten ein bisschen optimieren und das sicher auch ein bisschen günstiger machen und gleichzeitig werden ja die Modelle auch besser. Das heißt, das wofür man heute jetzt 5 Millionen Dollar braucht, um GPT-3 zu trainieren, wahrscheinlich wird man in ein, zwei Jahren ein Modell haben, das genauso gut ist und vielleicht ein bisschen kleiner, also gleich gute Performance hat und dann vielleicht nur noch eine Million Dollar kostet. Aber dann wird es halt schon wieder das nächste Modell geben, was halt ein bisschen besser ist und dann 100 Millionen Dollar kostet. Also ich glaube, solange man sich damit zufrieden gibt, dass man eben ein, zwei, drei Jahre sozusagen hinter dem neuesten Modell ist, dann optimieren die Leute auch wieder viel, dass sie die Sachen günstiger zum Laufen bekommen.

Jasper Masemann: Das bringt uns ja auch ein bisschen schon Richtung Trends, was wir erwarten. Also Wir haben ja schon, glaube ich, Google hat, Google Brain hat schon die Trillionen geknackt oder jedenfalls sagen sie das. Ich weiß gar nicht, ob das irgendwie ein anderes Modell ist. Vielleicht kannst du da was zu sagen. Aber geht es jetzt eigentlich nur noch darum, größer ist gleich besser oder wird es auch wieder schlauer?

Rasmus Rothe: Ich glaube, es wird beide Trends geben. Die Leute werden immer neugierig sein, was passiert, wenn ich das Modell jetzt doppelt oder viermal so groß mache. Und solange die Performance dann besser ist, werden die Leute es auch ausprobieren. Und gerade bei den Konzernen, wo viel Financial Resources sind. Aber gleichzeitig wird man auch gucken, dass man die Modelle effizienter kriegt. Weil wenn man sie ja auch zum Beispiel auf dem Handy zum Laufen kriegen will, dann dürfen die gar nicht so groß sein. Also dann kann man ja nicht eine Trillion Parameter draufladen, sondern das soll halt idealerweise ein viel kleineres Modell sein. Also da wird auch in die Richtung geforscht.

Jasper Masemann: Weiß man schon was, was das GPT-4-Model wird? oder gibt es das gar nicht? Also macht OpenAI sowas gar nicht mehr?

Rasmus Rothe: Doch, die arbeiten da an weiteren Language-Modellen und da werden wir auch in den nächsten Monaten sicher noch mehr sehen. Ein spannendes Modell, was sie jetzt vor kurzem freigegeben haben, ist das DALL-E-Modell, welches Bilder generiert. Also man kann eben sagen, das Modell Man sagt dem, was für ein Bild man sehen will. Also das eine, was zum Beispiel sehr plakativ auch auf der Website ist, ist ein Stuhl, der so aussehen soll wie ein Avocado.

Jasper Masemann: Ein Stuhl, der wie ein Avocado sieht.

Rasmus Rothe: Und dann generiert das Modell eben verschiedene Arten von Stühlen, die alle so ein bisschen aussehen wie ein Avocado. Und das ist komplett aus dem Nichts generiert.

Jasper Masemann: Also der sucht die nicht im Internet. Aus Pixeln baue ich mir den jetzt zusammen.

Rasmus Rothe: Der baut die aus Pixeln aus dem Nichts zusammen. Und es sieht fotorealistisch aus. Also man sieht jetzt nicht, das könnte auch irgendeinen Designer gezeichnet haben.

Jasper Masemann: Okay, das heißt also eigentlich muss ich jetzt zukünftig mir da gar keine Gedanken mehr machen und die Designer, die schwitzen jetzt, die zuhören. Weil das gebe ich da jetzt einfach ein. Und das funktioniert oder ist das noch sehr spezifische Use Cases? Also es geht nur mit Stühlen und Avocados?

Rasmus Rothe: Das ist natürlich immer bei so Papern, dass man immer die Bilder zeigt, die irgendwie sehr gut aussehen. Und es gibt sicher auch viele Anfragen, die man da stellen kann an das Modell, wo dann am Ende ziemlicher Quatsch rauskommt. Also da ist schon noch viel Arbeit zu tun.

Jasper Masemann: Das ist öffentlich. Das heißt, ich könnte da jetzt mal ein bisschen Spaß haben nach unserem Podcast.

Rasmus Rothe: Ich weiß nicht, ob du Zugang zu dem Modell bekommst, aber du kannst dir zumindest mal angucken, was das Modell so generiert hat.

Jasper Masemann: Ja, sehr gut. Okay, aber das bringt uns ja eigentlich auch auf die Frage, warum macht man das eigentlich? Jetzt mal vielleicht Richtung Trends. Wir wissen ja, es gibt immer noch Grenzen und die möchte man auf jeden Fall lösen. und vielleicht Größe und Intelligenz. Ist in diesem Biologie-Thema oder in anderen Themen, die ihr euch vielleicht sogar angeschaut habt, also wir haben jetzt von unserer Seite her sehen wir eher was im Quantencomputer-Bereich, dass die Leute sich halt damit dann beschäftigen und sagen, das verbinden wir irgendwie, also um überhaupt Anwendungsfälle natürlich für Quantencomputer zu finden. Aber seht ihr da noch was in Biologie und anderen Bereichen, wo einfach da auch nochmal ein Durchbruch kommen wird?

Rasmus Rothe: Also ich glaube, ein großes Thema, du hattest es vorhin ganz kurz erwähnt, ist das ganze Thema Code. Wenn wir überlegen, wie viel unserer Welt mittlerweile auf Code funktioniert. Also im Prinzip ja, also Software dominates the world. Und Software und Code ist im Endeffekt ja auch nur Text. Glaube ich, werden wir da sehr, sehr viel sehen. Sei es automatisiert Bugs zu finden in Code. Code zu reviewen, aber eben auch Code zu schreiben. Weil ich meine, es ist ja auch so, wenn man programmiert, ich sage mal 5%, 10% sind oft Eingebungen, wo man halt genau überlegen muss, wie strukturiert man das. Und dann ist vieles auch eben sogenannte Boilerplate, wo man einfach, sage ich mal, so Standardsachen runterschreiben muss. Und ich glaube, gerade da könnten diese Modelle eben auch unterstützen, auch den Programmierern, von denen es ja immer mehr gibt, mittelfristig eben einen Teil der Arbeit abzunehmen und zu schauen, dass sie weniger Fehler machen. Also ich glaube, da wird es auch viele Trends geben.

Jasper Masemann: Ich finde ja auch chemische Reaktionen spannend, weil da ja auch viel Logik noch hinter ist. Aber klar, muss man natürlich erstmal runterbrechen auf das entsprechende atomare, weiß ich nicht, Quantenlevel.

Rasmus Rothe: Ja, da wird es sicher auch Anwendungen geben. Also ich glaube, da wird noch viel kommen links und rechts, wo man dann im Nachhinein denkt, oh, das ist halt ja, stimmt, das kann man auch sehen wie Sprache, aber man denkt halt nicht im ersten Moment an Sprache, weil wenn man im ersten Moment an Sprache denkt, denkt man irgendwie an Textverständnis, Textzusammenfassung, Übersetzung, Dokumente verstehen. Aber Sprache ist halt auch an so vielen anderen Orten und das ist super spannend.

Jasper Masemann: Cool, dann denke ich mal, wenn wir da auch noch einige Vertiefungen machen mit dem einen oder anderen Podcast und Gast, hat mir wieder sehr viel Spaß gemacht. Vielleicht zusammenfassend, also was ich jetzt mitgenommen habe, die Transformatoren haben einfach es geschafft, also natürlich für Maschinen analysierbare, bearbeitbare Ebenen zu schaffen, die man aber nicht nur im Text anwenden kann, also aus Text einfach anwenden. Zahlen mache, sondern eben auch für die Biologie. Wir haben jetzt beide ein bisschen rumgesponnen, was da noch sein könnte. Da gibt es auch Anwendungen und die funktionieren auch stabil, die werden auch immer stabiler. Herausforderung ist aber auch ganz klar, also es kostet Geld. Es gibt auch sicherlich hier den einen oder anderen Gatekeeper, der dann auch damit Geld verdienen möchte, also nicht nur Infrastruktur, sondern ich muss einfach Zugang zu diesen Modellen bekommen. Und wir freuen uns darauf, dass das vielleicht alles mehr Richtung Open Source geht in der Zukunft und dass das auf jeden Fall verfügbar wird für alle und nicht nur für einige wenige.

Rasmus Rothe: Das hast du super zusammengefasst, Jasper. Und es hat echt wieder Spaß gemacht. Und ich denke, wir werden auf jeden Fall in einige von diesen Themen tiefer einsteigen und dann auch entsprechend Gäste dazu einladen, die vielleicht in dem Bereich eine Firma gebaut haben oder geforscht haben. Vielen Dank fürs Zuhören. Bis bald. Bis bald.

Künstliche Intelligenz und Sprache

Mehr zum Thema

KI-Suche 🔍 : 4 Thesen, wie du besser durch KI gefunden wirst

Wie du mit KI-Assistenten dein Unternehmen skalierst 🚀

Singularity: Wie wird die Welt, wenn wir mit der KI verschmelzen?

digital kompakt

Für Werber

Für Werber