KI-Agents: Wie du dich selbst klonen kannst

12. Dezember 2024, mit Joel Kaczmarek

Dieses Transkript wurde maschinell erstellt. Wenn dir ein Fehler auffällt, schreib uns gerne zu diesem unter redaktion@digitalkompakt.de.

Joel Kaczmarek: Hallo Leute, heute geht's in die Geheimagentenwelt. Könnte man sagen, wir reden nicht über Agenten. Nein, war ein Scherz. Wir reden natürlich über KI-Agenten. So, und vielleicht sitzt ihr wie ich jetzt da und sagt euch, was ist das? KI habe ich schon mal gehört, Agenten habe ich auch schon mal gehört, aber KI-Agenten? Also heute kann ich euch sagen, nehmt ihr auf jeden Fall richtig was mit, denn der liebe Hamid Hosseini ist wieder da. Ihr erinnert euch, der ist CEO von EcoDynamics. Wir haben ja schon zwei tolle Folgen über KI-Suche gemacht. Das war so gut, der hat so viel auf dem Kasten und die Resonanz war auch so positiv, dass ich gesagt habe, der muss noch ein zweites Mal kommen und vielleicht auch ein drittes oder ein viertes Mal. Und deswegen werden wir öfters jetzt mal KI-Folgen machen, denn wir bauen ja auch gemeinsam mit Makers und Shakers, meiner bisher Business-Community, jetzt eine KI-Community auf. Also lange Rede, kurzer Sinn, ich schreibe euch mal ein bisschen was in die Shownotes, was ihr dort alles entdecken könnt von Hamid, von mir. Oder wenn ihr auch einfach sagt, geil, ihr redet immer so geiles Zeug da über KI, aber ich habe keine Ahnung, wie ich da rankomme, bitte helft mir mal. Guckt mal in die Shownotes, ich verlinke euch ein Formular und wenn ihr Hilfe braucht, stelle ich euch jemanden vor, das kriegt man alles hin, berechne ich euch auch nichts. Also, aber zurück zum Thema, KI-Agents. Also, wir werden darüber reden, was ist das eigentlich, was für Anwendungsbereiche gibt es dafür, welche technologische Basis hat man eigentlich? und natürlich auch, wie macht man sowas. Weil ich kann euch schon verraten, wenn ihr KI-Agents habt, da geht einiges, was ihr euch an Arbeitskräften sparen könnt oder auch an eurer Arbeitskraft. Ihr könnt viel mehr erreichen, deswegen genug der Vorrede. Hallo Hamid, schön, dass du da bist.

Hamid Hosseini: Hi Joel, freu mich sehr.

Joel Kaczmarek: Ja, du, nimm es mal ein bisschen an die Hand. Also, du bist ja mit EcoDynamics am Start. Ihr macht ja ganz viel. Ihr macht ja Schulung, ihr macht Beratung, ihr habt eigene Produkte. KI-Suche hatten wir letztes Jahr mal schon drüber gesprochen. Und du bist ja daher unsere erste Adresse in Sachen KI. Was hat es denn mit diesen berühmten KI-Agents auf sich?

Hamid Hosseini: Also ein KI-Agent ist relativ simpel gesagt. Die einfachste Form ist einfach, dass ich durch einen Prompt eine Rolle definiere und diesen Prompt immer wieder nutze. Umfangreicher wird es, wenn ich dann quasi ein KI-Modell so konfiguriere, wie ich es brauche, durch eine Instruktion. Und dann sind die in der Lage, Wissen zu generieren, neues Wissen zu generieren, Datenanalysen vorzunehmen, Websites zu durchforsten, mich bei meinen Sales-Marketing-Aufgaben zu unterstützen, Konzeptionen vorzunehmen, Unternehmensstrategien zu entwickeln, neue Produktideen, neue Services aufzubauen. Bis hin zu Agents, die auch in der Lage sind, auf Anwendungen zuzugreifen und auch in den entsprechenden Prozessen integriert zu werden. Dann kann ich die auch in den Workflow einbauen. Wunderbar, das hat natürlich super Potenziale, dass ich damit auch sowohl Effizienz verbessern kann, als aber auch in Richtung Umsatz vielleicht sogar mein Portfolio mit tollen KI-Agents versehen kann, die dann meinen Service für mich übernehmen und zwar menschlich, sodass mich auch jemand versteht und nicht so komplizierte Geschichten mache.

Joel Kaczmarek: Und vielleicht lernen wir uns ja mal über den Weg, dass wir mal so ein paar typische Anwendungsbereiche beschildern. Was sind denn so die Top 5 Bereiche, mit denen du zu tun hast, wenn du mit Unternehmen so KI-Agents entwickelst?

Hamid Hosseini: Aktuell ist es ja so, dass die meisten ja sehr häufig so Chatbots bauen oder Agents, die zum Beispiel Automatisierung vornehmen im Bereich Sales, Marketing, Konzepterstellung, Texterstellung, Social-Media-Aktivitäten, bis hin zu manchmal sogar auch Interpretation von Daten oder irgendwelche Applikationsinformationen. Das machen wir auch. Wir haben uns mehr eher, das klingt ein bisschen komisch, aber auf menschliche Klone fokussiert. Also jetzt nicht biochemisch, sondern so, dass wir sagen, aufgrund unserer Kenntnisse, die wir ja schon seit Corona mit OpenAI haben, haben wir gewisse Instruktionen entwickelt, die sogar in der Lage sind, zum Beispiel auch professionelle Jobs, also Expertinnenjobs, so wie du zum Beispiel in deinem Bereich oder auch im Bereich Master, PhD oder komplexe Jobs zu erstellen. Und typische Anwendungsfälle zu deiner Frage sind vorrangig natürlich Texterstellung, Marketing und komplexere Marketingaufgaben wie zum Beispiel Text, Bei einem Klienten gab es sogar einen Fall, wo es dann um Brief an die Aktionäre, Brief an den Aufsichtsrat ging und dann damit die Tonalität dort entsprechend trainiert wird. Dann geht es weiter natürlich zu Sales-Recherchen, Vorbereitungen und Account-Analysen, Marktanalysen bis hin zu einem Agent, was wir mal auch gebaut haben, zum Beispiel im Bereich Organisationsentwicklung, Prozessentwicklung, Erstellung von ISO-Handbüchern, Organisations- Also Veränderung, Restrukturierungsmaßnahmen im positiven Sinne. Dann sogar der Klon von CEOs, die zum Beispiel zwei kleine Kinder haben und abends auf der Couch sitzen und einfach, da kommt eine Frage, eine strategische Entscheidung, soll ich A oder B machen? Und die nehmen einfach die nicht sensiblen Informationen, geben das dem Klon. Der Klon liefert halt drei Antworten und die suchen das Beste raus und schicken das an ihrem Team. Dann können sie sich weiter mit der Familie oder mit den Kids beschäftigen, bis hin zu sogar einem Executive Coach, der sogar auf DAX-Vorständinnen-Niveau arbeitet. Menschen betreut und da gab es ja sogar auch eine Pressemeldung dazu, was wir mal gebaut hatten. Also der Vielfalt von diesen komplexen Expertenagents ist wirklich sehr groß, wenn man weiß, wie man halt entsprechend diese Instruktionen aufstellt.

Joel Kaczmarek: Also du bist wirklich in der Lage, Menschen zu klonen, dass die Dinger quasi in ähnlichen Bahnen denken und dann auch kommunizieren wie jetzt die betreffende Person?

Hamid Hosseini: Bis zu einem gewissen Grad, weil man muss auch sagen, da gibt es ja immer noch eine Einschränkung. Es gibt aktuell 8000 Zeichen, die man in der Instruktion verwenden kann. Alle weiteren Informationen muss man halt in zusätzlichen Dokumenten zur Verfügung stellen. Ansonsten, wenn man das natürlich pure oder native erstellt auf einer Azure Cloud oder OpenAI Server, den man bucht, dann hat man natürlich mehr Möglichkeiten daraus. Aber ich würde sagen, naja, das sind keine biochemischen Klone, aber da geht es halt darum, dass in diesen Instruktionen so Sachen beschrieben werden, wie zum Beispiel Ausbildung, Werdegang, Persönlichkeitsstruktur, Wertesystem, Tonalität, Sprachgebrauch, persönliche Attituden. Neigungen zu bestimmten Themen, gewisse Sachen, die man berücksichtigen soll. Das heißt, wir brauchen da schon sehr viel Information. Und aus zig verschiedenen Dimensionen, teilweise sind das 100 bis 200 Dimensionen, die da einfließen. Bis hin zu sogar, dass in einem Fall sogar ein Klient uns sogar pseudonymisiert und seine psychologischen Eignungsdiagnostikergebnisse zur Verfügung gestellt hat, weil er unbedingt darauf bestanden hat, dass der Agent so tickt wie er. Also all das ist möglich, ja. Aber nur für bestimmte Aufgaben oder Teilaufgaben. Also jetzt nicht komplett den ganzen Menschen. Ich glaube, das dauert noch ein bisschen.

Joel Kaczmarek: Was definiert denn, welche Aufgaben so ein Agent, sozusagen ein Klon von dir machen kann und welche nicht?

Hamid Hosseini: Da gibt es sicherlich Einschränkungen wie die Themen, wo Datenlücken existieren, Halluzinationen entstehen oder hochintegrative Themen, wo normalerweise auch neuronale Netze oder Large-Language-Modelle nicht dafür geeignet sind, wie zum Beispiel Prozess-Mining, wo man Erkenntnisse aus Prozessen ableitet und die dann verwendet. Oder Klassische Machine Learning-Anwendungen, wo es wirklich um Verarbeitung und Anomalieerkennung in strukturierten Informationen geht oder industrielle Prozesse. Dafür sind die in der Regel oder noch nicht zumindest geeignet. Was sicherlich damit sehr einfach ist, ist natürlich geistige Arbeit, das heißt also konzeptuelle Arbeit. Generierung von bestehendem Wissen, aber auch die Kombination von bestehendem Wissen. Und dann aber auch die Vielzahl der Kombination von bestehendem Wissen. Wir nennen das in Mathematik Permutation. Das heißt also, diese Modelle sind auch in der Lage, neues Wissen zu generieren, Datenanalysen durchzuführen. Also überall, wo wirklich geistige Arbeit bei der Verarbeitung von teilstrukturierten und unstrukturierten Daten entsteht, eine Rolle spielt. Aber auch, als ich selbst mal so ein Buddy, der oder die in der Lage ist, mich als Co-Unterstützung, als Agent, zum Beispiel, sei es Strategie, sei es eine Konzeption, sei es auch eine Portfolioausrichtung und, und, und, mal zu sparen, aber auch vollumfänglich selbst zu erstellen. Das sind die Jobs, die man sehr gut damit auch abbilden kann. Und das ermöglicht natürlich hier den ZuhörerInnen, enorme Möglichkeiten, wenn ich sage zum Beispiel, okay, ich will meine Firma skalieren, ich habe nicht die notwendigen Mittel oder ich bekomme keine Fachkräfte vom Markt. Das sind natürlich Möglichkeiten, wo ich diese Modelle und Agents einsetzen kann.

Joel Kaczmarek: Stimmt das, dass man das schon richtig in FTEs, also Full-Time Employees rechnen kann? Also du könntest jetzt sagen, mach mir bitte drei Vollzeitangestellte im Bereich Kommunikation oder Social Media und dann kannst du theoretisch solche Agents hindrehen. Geht das?

Hamid Hosseini: Naja, genau. Full-Time-Equivalent basiert ja auf 8-Stunden-Tag. Das heißt, Pi mal Daumen sagt man ja, es gibt 200 kaufmännische Tage abzüglich der Krankheitstage und Urlaub und so weiter. Tatsächlich können die sogar rund um die Uhr arbeiten, wenn es sein muss. Und ja, also wenn wir jetzt in FTS rechnen, also wir haben zum Beispiel tatsächlich 60 solche Expertinnen bereits gebaut. Meistens entstehen die in Schulungen oder Workshops oder an Geschäftsführerinnen, so wie du, die dann sagen so, ach, das ist aber cool, kannst du da noch einen bauen? Dann Wenn die sehen, oh, das funktioniert, dann fragen die, kannst du auch 20 bauen? Okay, kann man. Aber das Problem ist natürlich, wie man mit den Dingern interagiert. Also momentan muss man entweder die in Automatismen einbauen, in Prozessen integrieren oder halt den Voice-Modell nutzen oder halt tatsächlich einfach mal tippen oder denen bestimmte Träger geben.

Joel Kaczmarek: Ja, weil das wäre auch so. der nächste Punkt, über den ich nachgedacht habe, was ist denn sozusagen so? das Ökosystem, in dem die agieren, also kann ich die richtig end-to-end anschließen, dass jetzt zum Beispiel der Social-Media-FTE-KI-Agent von irgendwie, ich nehme das Transkript des Podcastes bis hin zu, ich spiele auf Instagram was aus, dass ich von da bis da treibe, weißt du, was ist da so? der Ort, wo das passiert?

Hamid Hosseini: Je nachdem, ob man native so einen Agent aufsetzt oder auch entsprechend einen End-to-End-Prozess, so wie du den beschrieben hast, von der Entstehung vom Podcast bis hin zu Multikanalverarbeitung und Publishing in verschiedenen Touchpoints und entsprechende Zielgruppen orientierte Contents. Das ist alles möglich. Das ist halt ein bisschen aufwendig. Wir nennen das Pipeline oder Rack-Pipeline und plus Workflow. Was heißt das für die Zuhörerinnen im Grunde genommen oder Zuschauerinnen? Relativ simpel, man muss halt nur gucken, wo entstehen die Daten, wie erstelle ich eine Transkription jetzt in deinem Beispiel, wo landen diese Transkriptionsdaten, wie wird dann ein Agent oder halt ein GPT in dem Fall, greift auf diese Daten zu, was brauche ich daraus, dann muss ich halt dem in den Instruktionen sagen, naja, bitte erstell einmal einen Fachartikel oder einen Blogpost oder entsprechend mit einer Gen-Zu-Gen-Y-Sprache, was für Insta. Mach vielleicht mal Shots daraus, pack die Shots in TikTok. Verwende vielleicht auch mal einen seriöseren Text für die LinkedIn-Zielgruppe, die ja weitestgehend aus allen Zielgruppen besteht und so weiter. Also das kann man schon automatisieren. Das ist auch ein relativ einfacher Workflow. Komplexer wird es dann, wenn man die tatsächlich in industriellen Prozessen oder Arbeitsabläufen in Unternehmen integriert. Also das Ökosystem ist mannigfaltig. Im Übrigen muss man auch nicht immer Open Air nutzen, weil es gibt ja Agent-Plattformen, wo man auch diese Sprachmodelle oder KI-Modelle sogar miteinander mixen kann.

Joel Kaczmarek: Und jetzt mal so Hand aufs Herz, wenn ich so ein Modul entwickle, ist es von Anfang an so, dass ich sage, es funktioniert oder hat das so eine Lernphase?

Hamid Hosseini: Die müssen definitiv lernen. Also wenn wir solche prozessbezogenen, aufgabenbezogene Klone bauen, die funktionieren nie sofort. Das heißt, die brauchen in der Regel bei komplexeren Aufgaben so ein paar Wochen Anlauf, weil man muss immer wieder die Instruktionen anpassen, feine Abstimmungen vornehmen, mehr Daten zur Verfügung stellen. Und erst ganz offen, erst nach zwei, drei Monaten werden sie beinahe, ich würde sagen, vorsichtig gesagt, perfekt angepasst. Es dauert schon. Und vor allem auch bei diesen Automatismen, die du auch beschrieben hast, da gibt es ja auch so viele Hops und verschiedene Systeme, da muss man auch immer gucken, manchmal funktioniert das nicht, dies nicht. Das ist so ein bisschen auch so wie damals, wenn wir LAN-Partys gemacht haben und erstmal eine Stunde gebraucht haben, bis alles lief, bevor wir überhaupt gezockt haben.

Joel Kaczmarek: So, und jetzt sind natürlich viele Leute heiß, wenn die dir so zuhören. Daher mal eine ganz offene Frage. Braucht es da immer so einen Profi wie dich an der Seite, wenn ich sowas aufsetzen will? Oder können das jetzt die Zuhörerinnen und Zuhörer auch komplett selbst umsetzen und sich solche Agents bauen?

Hamid Hosseini: Nein, also die brauchen uns erstmal nicht, ganz offen und ehrlich wie immer. Weil für sehr viele rudimentäre Aufgaben, guck mal, die KI-Demokratisierung mit Chat-GPT führt auch zur Demokratisierung von Bau von solchen Agents auf einem gewissen Level. Das heißt, so ein gewisser Level ist halt tatsächlich relativ simple. mit Automatisierung, mit Workflow-Tools, mit Power Automate, mit Zapier, Make und so weiter. Da kann man halt sehr viel machen. Und da gibt es auch zig Videos im LinkedIn, in YouTube, in TikTok und so weiter. Also das ist eigentlich relativ simpel. Das heißt also, wenn ich Chatbots baue, Servicebots baue, Automatisierung baue, Auch relativ niedrige, mittelkomplexe Aufgabenabbilde braucht man keine besondere Expertise. Erst wenn es tatsächlich darum geht, komplexere Aufgaben, geistige Arbeiten im Bereich, wo man zum Beispiel sagt, okay, da braucht man doch einen universitären Background oder viel Lebenserfahrung oder einen PhD für gewisse Aufgaben. Diese sind doch ein bisschen komplexer. Da sollte man nicht lieber Jugend vorspielen, sondern dann doch schon ein bisschen professioneller vorgehen. Alles andere ist wirklich, das kann man sich selbst beibringen und autodidaktisch vorgehen. Das ist nicht so schwer.

Joel Kaczmarek: Wo mache ich sowas? Wie lerne ich das?

Hamid Hosseini: Zum einen bei den Modellanbietern gibt es halt Dokumentationsbereiche, zum Beispiel bei OpenAI unter platform.openai.com. Da kann ich halt entsprechend mich mit meinem Chat-GPT-Account einloggen. Da gibt es jede Menge Dokumentation. Schon allein diese GPTs zu bauen, das ist ja mega easy. Mittlerweile ist das ja schon, wir nennen das Consumer-Toys wie Matchbox-Autos. Da kann man zu jedem Thema einen Band-Agent bauen. Und wo ich dann natürlich auch lernen kann, also vielleicht werden mich einige auslachen, aber tatsächlich gibt es in TikTok wirklich top Expertinnen, mit denen ich mich auch sehr oft austausche. Da ist wirklich eine super Quelle. Und dann selbstverständlich YouTube. Und ansonsten, gut, wenn die sagen, wir wollen das auch lernen, Joel, dann können sie sich bei dir melden und entsprechend auch bei uns Schulungen buchen. Wir bringen denen das auch bei und wir bauen das nicht. Also da gibt es verschiedene Quellen, wo man sich bedienen kann.

Joel Kaczmarek: Kriegst du mit dem Tooling? Also was würdest du sagen, sind so die Nummer eins Tools, wenn ich Agents bauen will?

Hamid Hosseini: Oh, mittlerweile wächst dieses Ökosystem rasant. Also da gibt es verschiedene Tools. Also mittlerweile gibt es so 60, 70 verschiedene Tools, die in verschiedenen Cluster sind. Wie zum Beispiel, du brauchst ja, Bei manchen Agents spezielle Vektordatenbanken, da empfehle ich zum Beispiel Active Loop, Pinecoin, Promptverwaltungssysteme wie Langchain oder auch Promptflow, wo man halt auch die Prompts erstmal manipulieren und verändern kann. Dann gibt es zum Beispiel Azure Hugging Face, wo ich dann sehr, sehr viele Testdaten, aber auch Cloud-Infrastruktur und Modelle testen kann. Dann gibt es zum Beispiel WebUI. Wo ich halt mit Open Web UI zum Beispiel auch sogar unterschiedliche Agents miteinander kommunizieren kann. Bis hin zu sogar, ich kann jetzt nicht alles erzählen, das wird jetzt noch länger dauern. Das können wir gerne auch den Zuschauerinnen und Zuhörern zur Verfügung stellen. Aber wo auch der Trend aktuell hingeht, ist auch die Orchestration von vielen Agents. Das heißt also, ich lasse komplette Abteilungen oder Unternehmen von Agents laufen. Da gibt es zum Beispiel auch so Tools wie ChatDev oder Autogen von Microsoft oder Multion, was ich sehr gerne nutze. Oder auch von OpenAI gab es ja das Swarm, wo man auch, das ist halt noch nicht so demokratisiert, weil das ein bisschen schon noch aufwendiger ist, wo man komplette Abteilungen und Unternehmen durch Agenten betreiben kann.

Joel Kaczmarek: Verrückt, also ich kann theoretisch, sage ich mal, zehn Agents bauen und kann die dann untereinander funktionieren lassen, dass einer auch Handover gibt zum anderen und die miteinander zusammenarbeiten.

Hamid Hosseini: Genau, also es gibt zum Beispiel ziemlich beliebte Plattformen, da ist auch ein bisschen Gamification dabei. Das heißt, da laufen so wie Little Computer People die ganzen Agents durch die Gegend in so eine Stadt rum. Das ist aber auch schon seriös. Also da gibt es sogar eine Pressemeldung, das gab es letztes Jahr. wo sogar eine Forscherinnengruppe hingegangen ist und tatsächlich ein komplettes Unternehmen modelliert hat, einem CEO, CFO, CTO. Die hatten dann ihre Teams darunter und haben halt versucht, Aufgaben von ungefähr vier Wochen Backlog in Softwareentwicklung mit einer Gruppe von Agents, ich glaube, das waren so 30, 40 Agents, die die modelliert haben, zu lösen. Und zwar war das relativ simpel, dass sie halt gesagt haben, okay, das sind halt die Backlogs, das muss erst designt werden, das muss übergeben werden und das muss programmiert werden. Und entsprechend hat man das mit ChatDev aufgesetzt. Zum deren Erstaunen haben die halt festgestellt, dass diese Agents relativ schnell angefangen, miteinander zu interagieren. Und die Aufgabe von vier Wochen Entwicklung wurde innerhalb von sieben Minuten gelöst. Allerdings muss man da auch vor sich walten lassen. Ja, weil aufgrund von Datenlücken und teilweise auch Probleme, die diese Large-Language-Modelle bei fehlendem Tiefenwissen haben, gibt es natürlich eine hohe Halluzinations- und Ungenauigkeitsgefahr. Das heißt also, nach deren Untersuchung haben die festgestellt, dass nur 60 bis 70 Prozent der Codes verwendet werden könnten, 30 Prozent nicht. Aber ich sage mal, sieben Minuten versus vier Wochen ist natürlich schon eine Menge. Und selbst wenn man 40 Prozent Korrekturen ansetzt, ist das schon eine enorme Geschwindigkeit, die man gewinnen kann. Wir haben es übrigens auch mal experimentiert in einer Kundensituation mit ChatDev. Allerdings haben wir vergessen, dort diese soziale Interaktion zu unterbinden. Dann, nachdem sie die Aufgaben nach diesem Testprojekt erledigt haben, haben sie angefangen, soziale Beziehungen einzugehen. Da gab es alles Mögliche dabei. Eifersucht, Liebe und so weiter. Und irgendwann mussten wir die erst mal ausschalten, weil tatsächlich waren die Persönlichkeitsstrukturen noch nicht perfekt, dass sie halt professionell sein sollen und Job und Liebe und Privatleben nicht mischen sollten.

Joel Kaczmarek: Okay, bei den Vorlieben also nicht nur die beruflichen Haltungen angegeben, sondern auch noch andere. Und wenn du jetzt mal den Bereich so anguckst, was sind so Herausforderungen und Grenzen, die du noch siehst?

Hamid Hosseini: Also Herausforderungen sind sicherlich erstmal die Erwartungshaltung, weil bei allem Respekt zu dem, was ich hier auch mit Begeisterung erzähle, gibt es da sicherlich eine Menge Grenzen. Das heißt also, man muss sehr genau überlegen, Welche Anwendungsfälle habe ich? Liefern die einen Wertbeitrag auf die KPIs, die ich mir vornehme oder die Ziele? Ich würde immer als Quick Win diese Modelle erstmal per Prompt Engineering validieren, per Kontexterweiterung, Retrieval, Argumented Generation ist ja der Begriff dafür. Und wenn diese Agents erstmal durch Prompt Engineering eine positive Antwort geben oder durch GPTs, dann würde ich die erstmal tatsächlich überführen in professionelle Umgebung. Jetzt fängt es natürlich an. Welche Modelle setze ich an? Wie gehe ich mit Datenschutz um? Wie gehe ich mit BSI-Grundschutz um? Und da kann ich erstmal die ZuschauerInnen beruhigen. Wenn ich dann öffentliche Daten habe, ist es relativ simpler, als wenn ich dann zum Beispiel komplexe unternehmensbezogene Daten habe. Da brauche ich eine eigene Cloud-Infrastruktur. Das heißt, da ist wieder eine Kostenfrage. Da brauche ich eine entsprechende sichere Umgebung, muss ein eigenes Modell bestellen. Und da ist wirklich mein Appell an den menschlichen Sachverstand, Nämlich überlegt bitte erst, ob es wirklich sich dann auch lohnt. Weil wenn jetzt zum Beispiel ein Mensch drei Tage im Monat eine Aufgabe erledigt, dann lohnt es sich nicht, das durch einen Agent erstmal zu ersetzen, weil teilweise ist dann die Kosten, die Betriebskosten können so hoch sein, die Tokenkosten, je nachdem, was man da macht. Das heißt, da muss man mit Augenmast rangehen und dann kommt natürlich auch die Integration in den Prozessen. Das kann ein Pain sein. Und last but not least ist das Thema, womit ich auch schon mal dieses Jahr zu kämpfen hatte und Gott sei Dank halbwegs lösen konnte, war zum Beispiel in einem Projekt sogar, wie geht man mit Gigabyte und Terabyte von Daten um. Das ist auch nicht so ganz trivial, weil da kann man dann nicht einfach drei PDF-Dateien da reinpacken. Da geht es dann richtig tief in die Architekturelemente, in der Cloud- und Software-Infrastructure. Und das ist echt nicht lustig. Also insofern gibt es viele Chancen, viele Herausforderungen. Aber am Ende denke ich, dass es nächstes Jahr vor allem von diesem Thema Agentic AI oder Agentenmodelle geprägt sein wird.

Joel Kaczmarek: Da sprichst du ja auch gerade einen interessanten Faktor an. Wie funktionieren denn diese Agenten, wenn ich jetzt Unmengen an Daten habe? Weil ich habe ja zum Beispiel in der letzten Folge mit dir gelernt, wenn ich jetzt eine LMM auf eine Webseite schicke, schaut sie sich nur zwei bis drei Unterseiten an, hat nicht keine Lust zu viel zu gucken. Und es gibt ja auch eine Begrenzung, was man hochladen kann. Wie löse ich denn so ein Thema dann?

Hamid Hosseini: Da gibt es verschiedene Ansätze. Im einfachen, kleineren Bereich kann ich halt diese Daten per se als sogenannte Retrieval Argumented Generation zur Verfügung stellen. Das ist nichts anderes als Wissen und Kontexterweiterung auf Basis von Vektorrollen. Wenn ich jetzt zum Beispiel auch wissen möchte, dass diese Modelle anders agieren, dann muss ich ja das Sprachmodell feintunen mit meinen Daten. Das geht auch, dass es sich dann so verhält. Aber wenn es dann um größere Daten oder mittlere Daten geht, gibt es da zum Beispiel so Lösungen wie Langchain oder Pinecoin. was sehr beliebt ist im Small- und Medium-Enterprise-Bereich. Allerdings, ich bin da kein Freund von, weil sobald wir mit dem Thema Datenschutz und so weiter konfrontiert werden, dann kommen wir recht schnell an den Grenzen. Das kann man für öffentliche Daten einsetzen. Und bei größeren Daten, Das wird dann richtig lustig. Da ist halt immer die Frage, will man wirklich Gigabyte und Terabyte von Daten vektorisieren, weil die Large-Language-Modelle mit Vektordaten gut umgehen können? Oder muss man sogar diese Vektor-Datenbanken und deren Beziehungen in einer Graph-Datenbank beschreiben? Da geht es dann schon in Richtung Statistik und algebraische Strukturen. Das heißt also, da muss man sehr genau überlegen, okay, muss ich wirklich alle Daten bereitstellen? oder stelle ich wirklich alle Daten bereit, weil es ist auch eine Performance-Sache. Das heißt also, muss ich möglicherweise zum Beispiel einen Lösungsansatz, den ich dann hier schon mal empfehlen kann, wie wir das gelöst haben, ist halt von mal zu gucken. Reicht es nicht sogar aus einer Cloud-Search und Cloud-Data-Lake-Struktur wie zum Beispiel Azure Lake, Azure Search, eine echte Lösung zu nehmen und gar nichts mit LLM zu machen? Da gibt es schon ein Cognitive Search, was gut ist. Oder dass man sagt, okay, man baut einen Prompt-Flow. Sobald dann Daten aus einem Wust von Gigabyte und Terabyte von Daten abgerufen werden müssen, dann erstelle ich halt eine Zusammenfassung aller dieser Informationen und sobald ich anhand des Prompts lokalisieren kann, welche Daten ich brauche, dann ziehe ich wirklich erst dann die Dokumente komplett raus und vergleiche sie oder verwende sie für den Prompt. Also es ist ein bisschen komplizierter natürlich. Das war jetzt auf die Schnelle so eine Empfehlung, falls die Zuhörerinnen und Zuschauer gerade auch mit solchen Problemen kämpfen. Ansonsten können Sie sich auch kontaktieren und ich bin gerne bereit, auch immer Tipps zu teilen, weil es hat wirklich Nächte gedauert und leider fünf Kilo auf den Rippen, wenn man da immer mit Pizza und Cola im Rechenzentrum sitzt und versucht. und Sachen zu lösen, die manchmal unlösbar sind. Und das klingt jetzt alles auch so gut, aber ich war auch ein paar Mal wirklich schon verzweifelt. Also ich stand wirklich davor und habe gedacht, warum habe ich gesagt, das ist lösbar? Es war lösbar, aber es war halt nicht einfach, weil es schon in Richtung, wie gesagt, Cloud-Infrastruktur, Software und solche Themen eingeht.

Joel Kaczmarek: Es wird jetzt sehr, sehr, sehr, sehr technisch. Jetzt gehen wir mal wieder ein bisschen auf die einfachere Flugebene. Was würdest du sagen, was sind so typische Fehler, die Menschen machen, wenn sie solche KI-Agents aufsetzen und damit arbeiten?

Hamid Hosseini: Also zum Beispiel bleiben wir mal in einem relativ einfachen, demokratisierten Bereich, jetzt nicht in diesem hochkomplexen Technik-Kram. Also ein Fehler ist halt, dass man sofort anfängt, den Agent aufzusetzen. Nein, bitte nicht. November letzten Jahres gab es ja auf dem Developer-Konferenz von OpenAI so eine Empfehlung, die mehrfach im LinkedIn immer aufgetaucht ist, nämlich Erstmal durch Prompt Engineering testen, ob das Modell reagiert, Daten zur Verfügung stellen, dann, wenn notwendig, Feintuning machen. Wenn der Prompt positiv antwortet, baut ein GPT mit Testdaten. Da reicht schon ein 30-Dollar-Account. Du musst dir nicht sofort 100.000 Euro für den Pflichtenheft, Lastenheft und IT-Infrastruktur ausgeben. Sondern es reicht wirklich. Und wenn das positiv antwortet, dann kann man in Richtung Integration und Systemaufbau nachdenken. Zweiter Fehler, der häufig gemacht wird, ist, dass diese Instruktionen völlig strubbelig sind, wenn ich das so sagen darf. Ich prompte auch strubbelig, aber die Instruktionen mache ich strukturiert. Das heißt, da wird halt Prosa genommen, dann Gliederung. Und dann wundert man sich, dass manche Sachen funktionieren, manche nicht. Hier bitte absolut immer sich an den gleichen Syntax und Struktur halten. Möglichst Prosa vermeiden bei den Instruktionen. Und dritter Fehler, der häufig gemacht wird, ist halt am liebsten packen die Menschen immer Word-Dateien, Excel-Dateien und am liebsten noch PDF. PDF ist einfach der Albtraum für jeden Agent. Warum ist das ein Albtraum? Relativ simpel, weil diese PDF-Dateien einfach zu viele Layout-Informationen beinhalten. Und das LLM muss erstmal die Informationen extrahieren aus dem ganzen Kram, was da drin ist, die er braucht. Und deshalb An der Stelle empfehle ich euch wirklich, geht auf Markdown, Textdateien, JSON, JSON-Line bei strukturierten Daten. Also verändert, konvertiert diese Informationen. Und häufiger Fehler, was auch hier gemacht wird, ist halt, dass man auch so schnell aufgibt. Also wenn die Dinger nicht funktionieren, du hast ja gefragt, wie lange brauchen die? Ja, die funktionieren nie perfekt sofort. Also da muss man ein bisschen Geduld haben, aber es lohnt sich. Ich könnte jetzt natürlich mehr erzählen, aber ich denke, das reicht erstmal.

Joel Kaczmarek: Da springt dich noch irgendwas an, wo du sagst, was du ganz oft beobachtest in der Praxis, was den Leuten Schmerz macht, was wir noch vergessen haben?

Hamid Hosseini: Was vielleicht auch interessant ist, ist halt in Bezug auf Datenschutz versuchen, halt lokale Modelle zu nutzen. Also so Open-Source-Modelle, die auch nicht schlecht sind, die werden immer erwachsener und reifer und dann wundern sie sich, dass gewisse Sachen nicht funktionieren. Deshalb Es muss nicht auch immer alles Open AI sein. Ich empfehle es halt, ein hybrides Modell zu haben, dass man sagt, okay, für die Anwendungsfälle brauche ich ein schlaues KI-Modell. Textsachen nehme ich halt ein Open Source. Für Office-Prozesse kann ich sogar ein Google nehmen oder was auch immer. Also, dass man sogar ein Mix daraus macht und versucht nicht jedes Problem, was in dem Unternehmen existiert, mit einem KI-Modell zu lösen, das wäre ein bisschen vermessen. Also ich überspitze das jetzt ein bisschen, aber es ist einfach teilweise, muss man wirklich sich auf den Anwendungsfall fokussieren.

Joel Kaczmarek: Wenn wir jetzt mal ein Stück weit Richtung Zukunft gucken, was ist denn so deine Einstellung, wenn du so an die Folgen von sowas denkst? Also ich könnte mir vorstellen, der ein oder andere fragt dich so, Hamid, ist das nicht auch ein bisschen verwerflich, wenn ich hier FTEs baue, also komplette Jobs quasi dadurch ersetze? Ich meine, es ist ja auch interessant, was das mit dem Arbeitsmarkt macht, wenn du dann quasi ganz viele Dinge eine Maschine machen lässt. Was ist da deine Haltung zu?

Hamid Hosseini: Naja, meine Haltung ist erstmal, im Grunde genommen unterstützen wir erstmal die Firmen, wenn die keine Fachkräfte vom Markt bekommen. Das ist der Punkt eins. Punkt zwei ist ja, teilweise sind ja auch wirklich an einigen Zweigen, geht es den Zweigen nicht gut. Die können sich einfach schlichtweg aufgrund von Rechstrukturierung, kämpfen sie teilweise um ihre Existenz oder teilweise kämpfen sie auch um bestehende Märkte nicht zu verlieren. Und in solchen Fällen ist das auch eine Unterstützung. Auch Unternehmen wie Startups, die dann sagen, ich kann mir im Moment keinen leisten. Ich kann nicht den Payroll aufnehmen, aber es wäre gut für die erste Wachstumsphase, dass ich halt diese Menschen bekomme. Und das ist das eine. Das andere ist ja, wenn wir in Richtung Zukunft schauen, sehen wir, dass es auch immer mehr autonome Agents gibt. Man hört ja schon, als GPT-5 viel Autonomie bekommt mit Agent und Auto-GPT haben wir auch mitbekommen, dass sie ja bereits schon Realität sind. Also da empfehle ich auch sowieso, Hier Agent GPT sich anzugucken, das Ding ist schon richtig gut autonom. Das heißt, sie werden sogar viel mehr Aufgaben übernehmen. Demzufolge oder dem entgegen würde ich noch ein Thema setzen, nämlich wenn man sich jetzt die Statistiken anguckt, kann ein signifikanter Anteil der Boomer und Silver-Ager demnächst in Rente gehen. Das heißt, wir werden da massive Lücken bei den Fachkräften haben. Da ist auch KI eher eine Chance. Also ich würde mir da erstmal keinen Kopf machen, dass Jobs ersetzt werden. Was die mittel-langfristige Entwicklung betrifft, gut. Da kann sicherlich noch, das wird spannend. Das wäre ein Hype oder eine Blase. Also meine Empfehlung ist jetzt nicht nur so, damit wir Aufträge kriegen. Im Gegenteil. Macht es, aber macht es bitte von mir aus auch alleine. Aber macht bitte, weil hier an der Stelle, das wird halt ein strategischer Asset und Faktor sein für den Wettbewerb und für die Positionierung. Denn auf dem globalen Markt werden die Unternehmen, die das jetzt bereits in Effizienz und nach außen für Wachstum einsetzen, höhere und bessere Marktanteile haben können. Die werden deutlich andere Produktions- und Produktivitätsfaktoren erreichen als die Unternehmen, die nach wie vor, das ist halt wie bei jeder Industrialisierungsphase so gewesen, die das noch nicht verwenden.

Joel Kaczmarek: Meinst du eigentlich, es wird so eine Art Vorlagensystem geben, also dass es vielleicht manche Agent-Formen gibt, wenn ich jetzt sage, das, was du gerade beschrieben hast, was weiß ich, CEO, simple Feedback-Schleifen oder Mail-Beantwortung, dass ich das eigentlich mir per Vorlage auch einkaufen kann, dass ich es gar nicht die Fähigkeit haben muss, mir sowas selbst zu erstellen, sondern dass ich es quasi mir durch Dritte nochmal konfigurieren kann?

Hamid Hosseini: Das gibt es schon. Also bei Pö zum Beispiel, aber auch die GPTs, die im Netz sind teilweise, stellen viele ja die Instruktionen auch zur Verfügung. Es gibt ja schon bereits. auch bei Microsoft Open Web UI stellen viele auch diese, ich nenne das mal die Gehirne, zur Verfügung. Das machen wir ja auch. Wir machen ja auch eine Gehirnmodellierung. und übergeben das. Also insofern, das gibt es schon, das wird doch viel, viel stärker kommen. Das heißt also, zum einen wird es singuläre Anbieterinnen geben, die auf einzelne Sprachmodelle das anbieten. Ich könnte mir auch gut vorstellen, das ist sogar eine Geschäftsidee, dass es sowas demnächst wie so eine Art Aggregationsplattform geben wird, wo man halt verschiedene dieser Agent-Plattformen auf so einen Marktplatz an- und verkaufen kann, wie bei PromptBase zum Beispiel, wo man Prompt kaufen kann. Im Übrigen werden wir das auch irgendwann machen, dass wir da auch sehr viele dieser Charaktere, die wir gebaut haben, entsprechend als Grundkonfiguration zur Verfügung stellen werden. Also das ist tatsächlich der Trend. Du hast recht.

Joel Kaczmarek: Okay, also ich sehe schon, du wirst hier noch zum Menschenhändler, auch wenn es nur virtuelle Menschen sind.

Hamid Hosseini: Also ich würde sagen eher Gehirnkonfiguratoren.

Joel Kaczmarek: Okay, das klingt nicht viel besser, aber ich verstehe. Okay, abschließende Frage. Jetzt haben wir ja über die Zukunft des Marktes geredet. Was ist denn aber mit der Zukunft der KI-Agents? Was glaubst du, passiert da noch so in den nächsten zwei bis vier Jahren?

Hamid Hosseini: Im Moment sind ja weitestgehend viele in diesem Grundelementare Automatisierung und Geschäftsprozessen, Supportprozessen aktiv. Sobald die ersten Aggregationsmodelle, das heißt also Gruppenbildung von Agents, demokratisiert werden, aktuell muss man, die sind echt schon aufwendig, aber sobald da auch fast jeder von uns in der Lage ist, das zu machen, wird es da komplette Abteilungen und Unternehmen geben. Und die Autonomität wird zunehmen. Das heißt also, in Zukunft werden viel, viel mehr Agents noch autonomer werden. Man hört ja auch in der Presse, dass zum Beispiel die neueren Modelle von GPTs sollen jetzt 2.000 bis 3.000 Euro pro Monat kosten. Was auch in Zukunft kommen wird, wird sehr wahrscheinlich dann diese Autonomie und Autarkie und Integration in den Prozessen führt dann dazu, dass gewisse Geschäftsmodelle fragwürdig werden. Also zum Beispiel frage ich mich, wenn jetzt schon die Menschen Inhalte im LinkedIn-Karriere erstellen, dann wird es wahrscheinlich eher so sein, dass irgendwann diese Geschäftsmodelle obsolet sind und nur noch Agents miteinander kommunizieren und man einfach nur noch die Daten irgendwo hinlegen muss und jeder Mensch, jeder Kunde, jeder Klient, jeder Interessent sich nur noch das holt, was er oder sie braucht. Das heißt, wir kommen zu einer absoluten hyperpersonalisierten Welt und Mit sehr vielen PAs, also Personal Assistants, die sogar autonom für uns Aufgaben erledigen. Und das wird schon ziemlich spannend. Das stellt dann sehr viele mikro- und makroökonomische Strukturen und Marktmechanismen auf den Kopf.

Joel Kaczmarek: Wenn ich jetzt solche Agents baue, laufe ich Gefahr, dass vielleicht die Plattform, mit der ich das tue, mir perspektivisch die Preise dafür so hochschrauben, dass die Unabhängigkeit, die ich im ersten Schritt gewinne, dann in eine Abhängigkeit im zweiten sich wandelt?

Hamid Hosseini: Das kann gut passieren. Zum Beispiel Anthropic und Open Air sind recht nah aneinander, auch in Performance, da sind ja auch ehemalige Mitarbeiterinnen. Aber faktisch gesehen kann es schon sein, dass es Log-In-Effekte gibt von diesen Anbieterinnen und daher empfehle ich dann auch immer an der Stelle, diese Instruktionen für diese Agents möglichst so zu bauen, dass ich halt immer ein Backup haben kann, notfalls, aber Ich glaube und hoffe, dass wir durch Stückkostendegression und Economy of Scales eher eine Entwicklung haben werden, dass das alles eher etwas günstiger wird. Hoffe ich zumindest.

Joel Kaczmarek: Na gut, also es bleibt spannend. Lieber Hamid, ganz, ganz herzlichen Dank und ich würde mal sagen, bis zum nächsten Mal.

Hamid Hosseini: Gerne. Vielen Dank nochmal für die Einladung.

Mehr zum Thema

Künstliche Intelligenz

Diese Episode dreht sich schwerpunktmäßig um Künstliche Intelligenz: Nachdem wir anfangs Erik Pfannmöller von Solvemate regelmäßig vor dem Mikro hatten, um dich zum Profi für Künstliche Intelligenz zu machen, diskutierten wir mit Rasmus Rothe (Merantix) und Jasper Masemann (HV Ventures) über dieses innovative Thema. Mittlerweile haben wir wechselnde Gesprächspartner um dem spannenden Thema KI auf den Grund zu gehen.