Emotionen erkennen: Echtzeitsprachanalyse durch künstliche Intelligenz

2. Oktober 2020, mit Erik Pfannmöller

Dieses Transkript wurde maschinell erstellt. Wenn dir ein Fehler auffällt, schreib uns gerne zu diesem unter redaktion@digitalkompakt.de.

Erik Pfannmöller: Hallo und herzlich willkommen zu einem neuen AI Unplugged Podcast von Digital Kompakt. Mein Name ist Erik Pfannmöller, ehemaliger Kanu-Weltmeister, dreifacher Familienvater und Gründer von SolveMate, einer führenden Plattform zur Automatisierung von Kundenservice. Im Kern unserer Plattform sind Chatbots, jedoch unterstützt unsere Software Support-Teams ganzheitlich ihre Service-Prozesse zu verbessern. Wie immer bei AI Unplugged erklären wir Alltagsthemen rund um das Thema KI einfach und für jedermann verständlich, besprechen gesellschaftliche Umwälzungen durch KI und neueste KI-Trends. Heute geht es bei AI Unplugged um das Thema Echtzeit-Sprachanalyse. Wir alle sitzen ja heutzutage in Videocalls mit Zoom oder Google Hangouts. Und der Aufhänger für diese Folge war der Launch von Google D-Noiser. Eine Art Software, die in Echtzeit den Ton verändert, Türklingeln, Sirenen oder Hundebellen unterdrückt, um so natürlich am Endeffekt eine bessere Audioqualität zu erreichen. Und das Ganze in Echtzeit, KI, ist also schon um uns herum in Videotelefonaten und wird uns auch weiter prägen. Heute sprechen wir also über das Thema Echtzeitsprachanalyse durch KI. Dazu habe ich einen Experten bei mir und ich bin froh, Michael Brehm heute bei mir zu haben. Die Liste seiner Erfahrungen ist lang. Ehemaliger StudiVZ-Geschäftsführer, Gründer von Rebate Networks und Founding Partner von einem VC-Investor namens Redstone Digital. Aktuell ist Michael Gründer und CEO von i2x, einer KI-Firma, die für Telefonie, Echtzeitanalyse und Echtzeitcoaching anbietet. Herzlich willkommen, Michael. Ich freue mich, dass du heute hier bist.

Michael Brehm: Ja, Erik, vielen Dank für die Einladung. Freut mich auch sehr.

Erik Pfannmöller: Erzähl doch mal, was macht I2X eigentlich und wie bist du zu dem Thema gekommen?

Michael Brehm: Vielleicht fange ich an, wie ich dazu gekommen bin. Bei Rebate hatten wir global Daily-Deal-Seiten, lokale E-Commerce-Seiten und in Summe in 30 Ländern fast 10.000 Mitarbeiter. Von diesen 10.000 Mitarbeiter waren 2.500 Telesales-Agenten oder Customer-Support-Agenten und die haben meine Kollegen und mich immer häufig in den Wahnsinn getrieben, weil sie nicht immer das gemacht haben, was wir wollten, um es vielleicht vorsichtig auszudrücken. Und das lag aber nicht unbedingt an denen, sondern die haben einfach zu wenig Unterstützung bekommen. Und dann habe ich mir überlegt, wie kann man das besser machen? Da war eben eine der Ideen, könnte man nicht Technologien, könnte man nicht KI nützen, um den Agenten zu helfen und sie zu unterstützen. Abgesehen davon, dass ich es auch sehr spannend fand, etwas mit Sprache zu machen. Sprache ist wahnsinnig kompliziert, ist eine der Kernbestandteile, die den Menschen und das Menschsein ausmacht. Und insofern war das für mich sowohl eine technologische Herausforderung, als auch eine tolle, wenn man so will, philosophische Aufgabe und letztendlich auch, glaube ich, ein großer Markt. Insofern haben wir dann gesagt, lass uns eine Firma gründen, die sich mit in Telefonate einhängt, immer nur natürlich mit der Zustimmung aller Beteiligter, die dann in die Cloud schickt, dort transkribiert. Wir haben dort unsere eigene KI zum Thema Sprachtranskription, also wie Sprache in Text und sonstige Bestandteile transformiere, gebaut. Diese wird dann analysiert und dann schicken wir in Echtzeit Feedback. zurück, sodass dann die Agenten auf ihren Bildschirmen Dinge sehen, was sollen sie machen, was sollen sie nicht machen. Das heißt, man kann sich das vorstellen wie ein Coach oder ein Trainer, der einfach die ganze Zeit neben einem sitzt und einem Tipps gibt, nur dass es eben eine Maschine ist und damit für viele Leute angenehmer.

Erik Pfannmöller: Das ist ja total spannend. Man hört direkt nicht nur den Pragmatismus von dir raus, wie du darüber sprichst, sondern ich finde auch die Geschichte schön, dass sich die besten Geschäftszielen eigentlich aus der Realwelt-Erfahrung ergeben. Ihr habt das sozusagen selbst entwickelt und meine Notizen sagen mir, dass ihr auch ein Patent darauf habt. Ist das richtig?

Michael Brehm: In dem Bereich gibt es natürlich Viele Patente, aber unser Anspruch war immer, eine extrem technologiegetriebene Firma zu sein. Das ist ja etwas, wofür Deutschland bekannt ist. Und das war immer mein Traum, so etwas auch sehr stark im Softwarebereich zu machen. Wir haben mittlerweile sieben Patente. Wir haben nochmal ein gutes Dutzend in der Anmeldung. Und zum Beispiel ein Patent, weil du gerade Google die Neuse ansprachst, haben wir ein System uns ausgedacht, wie man in Echtzeit Sprache praktisch verändern kann bzw. optimieren kann. Man kann also sagen, wenn jemand eigentlich mürrisch klingt, kann ich den freundlich klingen lassen oder wenn jemand am Telefon schimpft, kann ich die Schimpfwörter rausnehmen. Kommt so aus unserer Forschungs- und Entwicklungsabteilung. Ob und wie das überhaupt eingesetzt wird oder ob es jemals eingesetzt wird, steht noch in den Sternen. Das überlegen wir gerade. Aber zumindest sind das einfach Themen, mit denen wir uns auch beschäftigen. Wir versuchen immer so ein bisschen an der Grenze dessen zu arbeiten, was technisch machbar ist. Und dann muss man gucken, was davon lässt sich ins Produkt übersetzen.

Erik Pfannmöller: Das finde ich unglaublich spannend. Das heißt, wir hören einerseits, wir haben wirklich einen Experten sozusagen für Echtzeitsprachanalyse heute im Podcast. Und gleichzeitig, bevor wir vielleicht über Echtzeitsprachanalyse im Detail und wie eigentlich der Technologiestand der Welt ist, würde ich einmal kurz über dieses D-Neuser-Thema reingehen. Das heißt, ein Agent sagt das am Telefon und ihr könnt, egal ob ihr das nutzt in echt oder nicht, seine Sprache so verändern, dass sie auf der anderen Seite anders ankommt. Das ist ja so ein bisschen wie Echtzeit, ich will nicht sagen faken, aber sozusagen eine Echtzeitoptimierung der menschlichen Sprache. Das kriegt ja die Gegenseite, sprich wenn ich als Kunde anrufe, gar nicht mit. Ich merke nur, dass es besser ist.

Michael Brehm: Also wir machen das noch nicht und ob wir das jemals machen, ist auch die Frage. Aber es war etwas, wo wir eine technische Herausforderung gesehen haben und eines der Themen, an denen wir momentan arbeiten. Und wenn man sich überlegt, ich meine, jedes Bild, was man heute gemacht, wird optimiert, sei es bewusst oder unbewusst über die Software, die auf jedem Telefon oder jeder Digitalkamera drauf ist. bis zu natürlich den ganzen Filtern und die Optimierung, die man einstellt. Und da haben wir uns gefragt, warum funktioniert das eigentlich mit Sprache nicht? Angenommen, manchmal hat man ein bisschen rauere Stimme, warum geht die dann eins zu eins? Kann man die nicht auch vielleicht etwas weicher machen? Und insofern ist das möglich. Also gerade so Sprachklang ist grundsätzlich schon besser möglich. Das Thema komplette Wörter, beispielsweise auch vielleicht zum Thema Compliance sehr spannend. Kann ich, wenn Leute Dinge sagen, die sie definitiv nicht sagen sollten, kann ich die rausschneiden? Aber das ist wirklich momentan eine eher noch rein theoretische Diskussion. Aber ich finde es, zumindest intellektuell, sehr spannend. Und auf der anderen Seite führt das dazu, dass man sich auch viel mit Technologien beschäftigt, die dann wieder sehr relevant sind. Beispielsweise, ich muss natürlich die Latenzen, sprich die Zeiten, Von ich schicke etwas in die Cloud, etwas kommt wieder zurück. Wie kann ich die reduzieren? Nur dann funktioniert das. Wie komprimiere ich bestimmte Files? Wie auch die Frage, wie kann ich nachher Sachen anonymisieren? Wie kann ich Sachen erkennen, die auch für eine ganz normale Analyse relevant sind? Sind da natürlich wichtig und damit beschäftigen wir uns sehr intensiv. Aber ich glaube, da wird sich grundsätzlich noch wahnsinnig viel tun und man muss dann eben immer entscheiden, welche Technologie ist wo und in welchem Zusammenhang sinnvoll. Auch wie stark will man sie überhaupt noch einbinden. Die Analogie, ich glaube, zu den Bildern ist ganz gut. So ein bisschen optimieren und ein bisschen irgendwie, sagen wir mal, die Falten rausmachen oder den Sonnenbrand wegmachen ist gut. Aber wenn man zu sehr das optimiert, dann wirkt es auf einmal künstlich. Und fast schon eher wie ein gemaltes Bild und nicht wie ein echtes Bild. Und ich glaube, so ist das bei der Sprache auch. Und genauso auch, wenn man sagt, ein Dinoiser, wenn ich auf einmal überhaupt keine Hintergrundgeräusche mehr habe, ist das ja vielleicht auch gar nicht gut. Oder ein Punkt, den wir auch machen, ist, Füllwörter zu sagen, ist, wenn man es übertreibt, ist es natürlich nicht gut. Wenn ich jetzt pro Minute dreimal vielleicht und könnte und R und M sage, dann finden das die Leute nicht so gut. Wenn man es allerdings komplett rausschneidet und überhaupt keine Füllwörter vorkommen, dann wirkt es auch wieder etwas komisch und dann wirkt es fast schon mechanisch. Insofern kommt es da sehr immer auf das richtige Maß an.

Erik Pfannmöller: Ich finde das toll, wenn gute Podcast-Gäste für mich immer dieses mentale Bild bauen. zu dem Thema Bild. Man hat einen Filter, der sieht unrealistisch aus oder man hat das echte Bild. Jeder kennt Instagram-Filter. Einerseits kann man die manuell einstellen, gleichzeitig wird aber auch übers Internet werden Bilder komprimiert. Man kriegt ja nicht die Originaldatei. Und sozusagen gibt es auch Profis, die sozusagen auch Photoshoppen und sozusagen Bilder verändern. Und man sieht ja auch nicht das Realfoto, wie es früher gemacht wurde. Weder in der Werbung noch im Internet. Das sind ja alles bearbeitete Bilder. Und jetzt geht es ja um Das fand ich spannend. Also erstmal habe ich dieses Bild im Kopf. jetzt, dass eigentlich ja Voice Parallelität auch zu sozusagen Bildern ist und dass es auch kommen wird.

Michael Brehm: Ich glaube übrigens auch, was vielleicht auch interessant ist, wenn man sozusagen, welche Art von Jobs daraus entstehen, was dort passiert im Sinne von auf einmal kannst du, wenn man bei der Analogie bleibt, ist die Frage bei Sprache, welche Art zum Beispiel von Hintergrundgeräuschen will ich denn haben oder will man überhaupt irgendwas haben? Wie möchte ich, dass Leute reden? Welche Stimmen hat man? Und auf einmal hast du eine Sprach- oder eine Tonmarke. Du hast nachher Sprachdesigner, du hast Tondesigner, die aber eine völlig neue Rolle bekommen, denn auf einmal ist es ja technisch möglich, dass ich es kontrolliere. Genauso wie bei Bildern oder bei Schrift.

Erik Pfannmöller: Das ist ganz interessant. Wir sprechen auch über Umwälzungen sozusagen von Jobs und wir haben schon viel gesprochen über Jobs, die vorher repetitive Arbeiten machen, die dann zu kreativen Köpfen werden, zu KI-Trainern werden, zu KI-Designern werden, werden auch ganz neue Jobs entstehen. Das ist spannend. Wir hatten vorhin vielleicht noch einen kurzen Exkurs zum Thema Echtzeit und Latenzen. Was heißt denn eigentlich Echtzeit? Das heißt, wie schnell muss ich sein, damit die Sprache ankommt, von eurem Server verarbeitet wird und dann sozusagen auf der Gegenseite weitergespielt wird, ohne dass dieses Gefühl einer verlängerten Verbindung aufkommt. Das heißt, wie schnell seid ihr? Und was heißt eigentlich Echtzeit? Das muss ja unglaublich schnell sein.

Michael Brehm: Also Echtzeit heißt für uns in einem Bruchteil einer Sekunde. Alles, was über eine halbe Sekunde geht, ist nicht mehr Echtzeit. In Realita heißt das, wir versuchen immer zwischen 100, 200, 300 Millisekunden, sollte es sein. Und dann fühlt es sich Echtzeit an. Selbst so ein paar Sekunden ist zu langsam. Da bist du mental, auch im Gespräch ist man schon wieder weiter. Und über Minuten braucht man gar nicht reden. Ob du dann innerhalb von einer Minute das Ergebnis kriegst oder innerhalb von 10 Stunden, ist fast schon dann egal.

Erik Pfannmöller: Und jetzt nochmal, um dieses geistige Bild aufzubauen, wir haben den Vertriebler oder die Person am Telefon, wir haben die andere Person am Telefon und in Echtzeit ist sozusagen die Analyse. Aber was ihr bei I2X nicht macht, ist den Ton zu verändern oder das kommt vielleicht in der Zukunft, sondern ihr gebt dem Serviceagenten oder dem Salesvertriebler Hinweise, wie er spricht. Das heißt, ihr macht eine Analyse und gebt dann auf dem Bildschirm sowas wie die Sprechgeschwindigkeit, ist er zu positiv, zu negativ, ihr gebt ihm Hinweise, wie er besser werden kann, richtig? Ja.

Michael Brehm: Genau, also nicht nur wie er spricht, sondern ganz wichtig auch, was er sagen soll. Also wir würden dann zum Beispiel analysieren, das eine ist genau so Themen wie Freundlichkeit, ist er freundlich genug, sollte er freundlicher sein, sollte er vielleicht langsamer oder schneller reden, lauter, leiser, solche Dinge? und dann vor allem ganz wichtig, welche Themen wurden angesprochen, gerade wenn man selber als auch als Kunde bei einer Hotline anruft. Dann hat man das Gefühl, vielleicht kommen die Agenten nicht zum Punkt, die gehen nicht richtig auf mein Anliegen ein oder die kommen dann nicht so richtig weiter, die schweifen ab. Das sind Dinge, wo wir helfen würden und wo wir Unterstützung geben und sagen, pass mal auf, jetzt vielleicht hier ist, um diese Serviceanfrage zu bedienen, nochmal das wichtig. Oder auch sowas, ich rufe an, ich mache eine Bestellung, dann will ich auch nicht, dass irgendwas vergessen wird. Die Adressaufnahme wird vergessen oder Kontonummer oder sowas, sodass ich dann eine deutliche Verzögerung habe, bis das Produkt geliefert wird oder im Servicedienst. Dienstleistung kommt, da achten wir eben drauf und können das alles automatisch machen. Das hat für den Agenten den Vorteil, er kann sich sehr stark aufs Gespräch konzentrieren und kann sehr strukturiert vorgehen, bekommt dann Tipps und das hat für den Kunden den Vorteil, dass er damit einfach eine bessere Service-Dienstleistung und auch eine schnellere bekommt. Das heißt jetzt nicht, dass auf einmal jedes Gespräch total perfekt ist, aber grundsätzlich wird es sich verbessern. Deshalb übrigens auch würde ich immer, wenn die Frage kommt, kann man das Gespräch aufnehmen, würde ich auf jeden Fall immer sagen, ja unbedingt. Denn zum einen Mal habe ich die Wahrscheinlichkeit, dass ich damit eine bessere Qualität bekomme, ist höher. Und zum zweiten, wenn es nicht gut lief, kann das auch die Firma nachvollziehen und dann kann man eventuell nochmal Feedback bekommen oder der Agent bekommt entsprechend Feedback und kann sich in Zukunft verbessern.

Erik Pfannmöller: Das sind wie Superkräfte für den anderen Menschen am Telefon. Das finde ich gut. Ich stelle mir das so ein bisschen vor wie vor zehn Jahren gab es noch keine guten Navigationssysteme und heutzutage habe ich die Superkraft aller Nutzer und der KI von Google für die Routenoptimierung auf meinem Telefon und kann mich damit mehr aufs Autofahren konzentrieren oder auf das Gespräch mit meinem Beifahrer, weil ich habe die Superpowers ja schon im Navigationssystem drin und brauche mich nicht mehr über die Route kümmern. Ich hatte in einer der früheren Folgen mit Brosche damals gesagt, die Zeit ist soweit, also ich glaube, dass ich nicht mehr klüger als das Navigationssystem bin und wahrscheinlich ist das, also Wenn ich jetzt so das einschätze, ist in ein paar Jahren auch so, dass jeder Mensch am Telefon, wenn er professionell telefoniert, sagt, ich bin nicht besser als die KI, weil die ist schneller und besser und hat den Überblick über alle Telefonate, die geführt werden und hilft mir einfach, sie augmentet mich. Eine Sache, die mich interessiert, ist so der

Michael Brehm: Wenn man sich gerade menschliche Sprache anschaut und selbst scheinbar einfache Dinge, dann sind die doch häufig noch mal deutlich komplizierter, als man es glaubt, wenn man sie runterbricht. Und deshalb glaube ich auch, dass jetzt von heute auf morgen oder relativ kurzer Zeit plötzlich alle Telefonate, alle Gespräche automatisiert werden. Das wird so einfach nicht funktionieren. Und man merkt auch, da steckt so ein bisschen der Teufel im Detail, genauso wie bei autonomem Fahren. Wir sind im Jahr 2020, vor zehn Jahren wurde uns ganz, stark versichert, im Jahre 2020 gibt es komplettes autonomes Fahren überall auf der Welt. Also das ist jetzt in Ansätzen da in einigen Bereichen, aber von kompletten, überall autonomen Fahren sind wir noch immer relativ weit entfernt. Ich glaube, es kommt sehr stark darauf an, dass man den Menschen, gerade bei sowas Komplexen und Komplizierten wie Gesprächen und Interaktionen, dass man ihn unterstützt, ihm Hinweise gibt und damit besser und schneller macht. Aber wir sind noch weit davon entfernt, alles komplett zu automatisieren. Und es gibt, selbst bei manchmal einfachen Produkten, wenn ich da fünf oder zehn, 15 Fragen habe. Und selbst bei jeder Frage hätte ich vielleicht nur eine fünfprozentige Fehlerquote in der perfekten Erkennung und Einspielung in die Systeme. Nur wenn ich das halt bei zehn Fragen mache, dann summiert sich das auf, dann habe ich natürlich in Summe eine Riesenanzahl an potenziellen Kunden, die wahnsinnig unzufrieden sind. Und insofern ist, glaube ich, sehr stark an diese Kombination aus Mensch plus Maschine wichtig. Ein anderes ganz spannender Anwendungsfall ist die Frage, in der Medizin erkennen Computer Krankheiten, beispielsweise Hautkrebserkennung. Da gibt es die besten Programme, haben irgendwie so eine 85-prozentige Erkennungsquote, die besten Ärzte auch ähnlich, so um die 85 Prozent. Wenn man beide zusammennimmt und einen guten Arzt die Software gibt, haben sie aber eine Erkennungsquote, die liegt deutlich irgendwo zwischen 95 und 98 Prozent. Das heißt eine signifikante Verbesserung. Und ich glaube, das ist eigentlich auch wirklich die Zukunft in ganz vielen Bereichen. Denn diese menschliche Fähigkeit zu interpretieren, zu kombinieren, zu sagen, wann ist für was der richtige Zeitpunkt, da sind wir noch ganz weit weg davon, das zu erkennen. Also dieses General Artificial Intelligence, von dem er so schön spricht, was ja nachher dann praktisch den Menschen ausmachen würde. Da sind wir weit entfernt, wo wir extrem gut schon sind, in sehr klar abgegrenzten, engen Bereichen zu sagen, dafür ein Programm zu bauen. Beispielsweise, ich habe eine Adresse, wie komme ich von A nach B? und auf dem Weg wird das optimiert, wenn eben eine Staumeldung oder sowas reinkommt. Perfekt. Aber wenn jetzt auf einmal Google Maps Kochrezepte ausspucken sollte oder jetzt irgendwie sich einen Tipp zur Kindererziehung geben sollte, dann wäre das wahrscheinlich einfach nicht machbar.

Erik Pfannmöller: Ich höre dieses Thema Augmentation, ich habe ja viele solche Gespräche öfter. Und ich erinnere mich an eine Folge mit Rasmus Rothe von Merantix, die auch Krebserkennung auf MRT-Bildern machen. Und er hat genau das Gleiche gesagt, was du gesagt hast, nämlich beide alleine sind gut, aber kombiniert sind sie besser. Und sozusagen, ich denke auch an das Thema selbstfahrende Autos aktuell und ich stimme dir da 100% zu. Das ist so ein bisschen die Ernüchterung, dass auf der Autobahn gerade gibt es vielleicht schon selbstfahrende Autos, aber ich kann keins kaufen. Das, was ich heute kaufen kann, ist der Stauassistent und der geht bei gutem Wetter und guter Fahrbahnmarkierung bis 60 und alle 60 Sekunden muss ich in meinem Auto einmal das Lenkrad berühren, dass er weiß, dass ich noch da bin, dass ich noch lebe. Also ich kann auf gar keinen Fall das Lenkrad loslassen, sondern es ist für mich eine Unterstützung und es hilft mir sozusagen besser zu sein. Genauso wie ein Assistenzsystem, das vielleicht jeder kennt. Ich bin jetzt Audi-Fahrer, keine Werbung für Audi, aber Audi Presence erkennt sozusagen, wenn vor mir ein Auto stark bremst und erkennt es vor mir und gibt einen lauten Piepton. dass ich sozusagen zum Bremsen animiert werde. Das Thema Augmentation sehe ich. Glaubst du, es wird gerade in dem Thema Sprache, wie könnte überhaupt volle Automatisierung aussehen und wann könnte sowas vielleicht kommen?

Michael Brehm: Wo wir heute sind, ist eben Thema Augmentation und das wird, was auch interessant ist, ist nachher eine Akzeptanz. Der eine oder andere sieht das ja vielleicht auch kritisch. Was wir sehen, wir haben bei, was sehr spannend ist, Agentenseite. Das heißt, diejenigen, die das jeden Tag jede Minute nützen. Nach ungefähr vier, acht Wochen eine fast hundertprozentige Akzeptanzquote, wo es sogar so ist, dass die Leute dann sagen, die werden richtig sauer, wenn jemand kommt und das ausschalten will, weil die sagen, hey, warum nimmst du mir praktisch meinen Coach weg? Da habe ich jemanden, der gibt mir Tipps, der sagt mir, wie ich besser werden will. Und fast jeder möchte sich ja verbessern. Und das ist ja auch so viel angenehmer, wenn der Computer mir was sagt, als wenn mein Chef da irgendwie zum vierten Mal mir was sagt. Denn der wird dann vielleicht beim vierten, fünften Mal etwas ungehalten. Die Software sagt mir auch das gleiche Sache hundertmal. Das heißt, die merken, sie verbessern sich. Wenn sie besser werden, verdienen sie natürlich auch mehr. Die merken, die Kunden sind zufriedener. Die Telefonate gehen schneller. Lauter positive Sachen. Sprich, auf einmal hat man auch, wenn man es einmal nützt, eine Akzeptanz, vor der die Leute das früher gar nicht gedacht hätten. Jetzt die Frage, wie weit kann man das treiben? Ich meine, das ist eine Funktion aus Daten, die man hat, aus Rechenkapazität und vor allem auch gerade beim Thema KI, der Frage der Labels. Und was kann man wie machen? Und da, das klingt erstmal einfach, denkt man so, naja gut, dann label ich halt, das ist freundlich und das ist nicht freundlich.

Erik Pfannmöller: Für die Zuhörer, Michael, ohne dich zu stoppen, die zwar natürlich sich hoffentlich die ersten Folgen des Podcasts angehört haben, aber die nicht wissen, was Data Labeling ist.

Michael Brehm: Also was heißt, man muss sich überlegen, Nachher, man gibt praktisch bestimmte Marker für bestimmte Datenpunkte, in unserem Falle sind das Telefonate oder sind Sprachfiles und sagt, das ist jetzt Sprachfeil A, da war jemand freundlich und das war erfolgreich oder das war Sprachfeil B, da war der Agent nicht freundlich oder ist auf den Kunden eingegangen, solche Sachen. Jetzt ist die Frage, wie kriege ich die? Wie viele davon habe ich? Und vor allem, wie definiere ich die ein-eindeutig? Und das, was wir festgestellt haben, wenn man jetzt sowas nimmt wie, geht der Agent gut auf den Kunden ein? Da frage ich zehn Leute und kriege 15 Antworten. Das heißt, gerade beim Thema Sprache, Sprache, auch Interaktion, Kommunikation ist es häufig wahnsinnig subjektiv und auch wahnsinnig schwer, da eine eineindeutige Lösung zu finden. Das ist jetzt gerade Thema Navigationssystem. ist das relativ klar. Die Zieladresse ist die Zieladresse und die ist 100% eineindeutig. Und

Erik Pfannmöller: Aber was ist das richtige Level an Empathie? Und man sagt ja, der Ton spielt die Musik und 80 Prozent der Sprache sind die Tonalität und nur 20 Prozent die Worte. Ich glaube, die Worte kann man sehr klar mittlerweile transkribieren und labeln und weiß, was die Person sagt. Korrigiere mich, du bist der Experte. Aber die Empathie, das heißt der Zusammenhang von verschiedenen Sätzen oder auch 20 Sekunden Sprache und die Tonalität dahinter, das ist einerseits sehr schwer zu kombinieren, weil man einen sehr langen Datenablauf, Stream hat und die Signale geringer sind da drinne und gleichzeitig aber auch das Labeling nicht binär ist. Es ist nicht, ja, nein, es ist nicht, ich habe Tennisball gesagt und das war Tennisball, sondern es ist ja eine graduelle, eine Graustufung.

Michael Brehm: Ja, genau. Zum einen meine ich auch, Sprache ist jetzt gerade, wenn es um Ironie geht oder Konjunktive oder sowas, nicht immer so ganz trivial. Also allein schon die Wörter und dann, genau, Empathie, Freundlichkeit, sowas, das ist dann schon deutlich komplizierter. und deshalb das wirklich komplett automatisiert so abzubilden, dass man ein super Ergebnis hat, äh, Ist einfach jetzt nicht ganz trivial. Wird das irgendwann kommen? Bestimmt wird das kommen. Genauso wie selbstfahrendes Fahren. Also wahrscheinlich in 20, 30 Jahren wird das da sein. Aber ich glaube nicht, dass es halt morgen da ist. Zumindest nicht jetzt in der Breite. Und dass das so ein bisschen die Herausforderung ist. Ich bin ja der Meinung, auch wenn ich Firmen sage, automatisiert gerne so viel ihr könnt und so viel ihr wollt. Das ist eigentlich gut, weil da bleibt so viel übrig. Und das Ergebnis, was jetzt viele Firmen sehen Am Anfang heißt es, ja wunderbar, wir können 50 oder 80 Prozent automatisieren. Dann machen sie Riesenprojekte, ein, zwei Jahre, stellen fest, oh, diese 50 von den 50 Prozent, tatsächlich kann ich vielleicht nur 10 Prozent der Telefonate wirklich so automatisieren, dass es funktioniert. Und davon ist wiederum nur von der Hälfte der Telefonate die Kunden wirklich zufrieden. Und die anderen, das heißt, ich habe irgendwie 5% meines Volumens, was ich wirklich zur vollen Kundenzufriedenheit automatisiert habe.

Erik Pfannmöller: Das finde ich ganz spannend, um da kurz einzuhaken. Ich kümmere mich ja sehr viel sozusagen auch um Vertrieb und um große Callcenter und wo Menschen mit Menschen interagieren. Und es gibt sozusagen den Teil, es gibt diese Value Irritant Metrics. Das war, glaube ich, die Folge oder die Folge, die zwei vor uns live gegangen ist. Es gibt die Dinge, die wollen die Menschen automatisieren. Ich sage immer, wir machen Chatbots oder sind eine Service-Automationsplattform. Es gibt Dinge wie eine Adressänderung, das willst du Sonntagmorgen um 9 von deinem Telefon in 30 Sekunden erledigen oder dein Kreditkannlimit erhöhen oder deine Sendungsüberprüfung. Das sind Dinge, die sind to be eliminated, to be automated. Und dann gibt es aber auch die Punkte, wo ich sage, es gibt Geschäftsvorfälle. Wenn unser Chatbot rausfindet, es geht um eine Beschwerde, um ein Beschwerdemanagement, dann sollten man und dann sagen wir unseren Kunden, konfiguriert doch bitte einen menschlichen Handover, ohne so seamlessly, das heißt anrufen oder chatten, weil in einem Beschwerdefall zum Beispiel man den Kontakt möchte, weil man die Chance hat, den Kunden positiv zu überzeugen. Und ich bin vollkommen bei dir. Es gibt den Teil, der ist zu automatisieren, aber es gibt auch einen Teil, wo wir sagen, du willst nicht 100% automatisieren. Man will einige Geschäftsvorfälle, vielleicht weil da eine aktive Upsell-Opportunity ist oder weil man einfach Kunden abfangen will und auch emotional empathisch abhaben will, da sollte man übergeben. Und ich glaube ganz fest daran, dass der menschlicher Kontakt nicht weggehen wird und dann kommt ihr ins Spiel. Das heißt eigentlich zwei KI-Anwendungen, die sozusagen Mensch-zu-Mensch-Interaktion verbessern.

Michael Brehm: Total und da geht es auch darum, ich bin da ein riesen Fan von, es kommt wirklich auf diese Kombination drauf und nicht hat man nur einen Mensch oder hat man nur die Maschine, sondern was, welchen Teil, genau, zur Kundenerlebnis, welchen kann ich komplett automatisieren, was augmentieren? und dann ist es auch wieder, das hat auch im Hintergrund, in welche Systeme muss ich wie rein integrieren, was passiert damit, wie designe ich das, es ist dann doch sehr unterschiedlich, aber Ja, das ist ein sehr, sehr spannender Bereich.

Erik Pfannmöller: Wenn ich jetzt einmal so operativ an unsere Zuhörer denke und die sich vorstellen, boah, das ist aber schwierig, ich habe auch vielleicht mein Vertriebsteam. Wie einfach ist sowas zum Starten zu bringen? Das heißt, muss man eine große Serverinstallation on-premise machen und ein Riesenprojekt starten? oder wie läuft das bei euch?

Michael Brehm: Also wenn es ein VoIP-System gibt, was idealerweise sogar noch über Computer läuft, ist das, haben wir so eine Express-Integration, mit der man de facto innerhalb von Minuten starten kann. Dann hängt es natürlich schon noch darauf an, welchen Anwendungsfall hat man. Also wenn ich jetzt, sagen wir mal, sehr komplexe, langwierige Sachen, wenn ich beispielsweise Schiffsmotore oder Kraftwerke verkaufe, dann ist wahrscheinlich so eine Software wie unsere nicht so sinnvoll. Aber alles, was im Bereich

Erik Pfannmöller: Da geht es um Repetitivität, oder?

Michael Brehm: Genau, es sollte schon eine gewisse Wiederholung oder Gleichartigkeit geben. Also vor allem dort, wo man entweder im Endkundenbereich ist oder im kleinen und mittelständischen Firmen, wo man aber trotzdem auch dann sehr viele Firmen als Kunden hat. Also wenn ich KMUs als Kunden habe, dann ist so eine Software wie unsere sehr, sehr sinnvoll. Also alles, was zum Beispiel im Bereich Versicherungen, Banking, Telekommunikation, Versorger, auch Reise, dort hilft es sehr. Es hängt immer ein bisschen vom Setup ab. Das muss man sich einstellen. wie das technische Setup natürlich ist. Aber es gibt Möglichkeiten, in einer großen Anzahl von Fällen, zumindest mal für die erste Stufe der Integration, so spezielle Express-Integrationen entwickelt, das sehr, sehr einfach zu machen.

Erik Pfannmöller: Das finde ich spannend. Und auch für unsere Zuhörer. Ich glaube, wir haben im Übrigen ein kleines Jubiläum. Das ist, glaube ich, Folge 20 von diesem Podcast, die wir heute aufnehmen. Ich sehe immer wieder die gleichen Themen, wenn ich mit Experten spreche, nämlich das eine, was du gerade gesagt hast, super easy zu starten, sprich Plug and Play, man braucht nicht viel programmieren. Und dann gibt es immer wieder diese zentralen Themen der Repetitivität, das heißt, wenn Dinge wiederholt auftreten, kann ich in der KI trainieren, etwas zu tun. Dann geht es wiederum um die Thema mit Data Labeling, hast du vorhin schon gesagt. Das ist immer eine Herausforderung, aber es geht immer darum, der Maschine zuerst, wie ich einem Kind hundertmal sage, dass es nicht schmatzen darf oder wie es Messer und Gabel nimmt, sozusagen. Ich muss der Maschine was beibringen und dann habe ich sozusagen diesen Teil der Automation und den Teil der Augmentation. Und wenn man immer wieder diese Dann finde ich, wird das mir immer klarer und ich finde es immer wieder schön, das immer wieder zu hören, dass eigentlich KI nichts weiter als ein Prozess ist, nämlich eine Software, die das tut, die trainiert wird. Dann gibt es Firmen wie I2X, die einfach ein ganz tolles Deep Convolutional Recurral Network trainieren und einfach, das ist eure geistige Leistung plus die Software-Integration und dass man damit, ich sage immer, KI ist gar kein Hexenwerk mehr, sondern es ist ein ganz normales Software-Projekt, das einfach eine intelligente Software ist. Würdest du dazu stimmen?

Michael Brehm: Absolut, absolut. Und ich glaube, dass vor allem durch den technischen Fortschritt, den wir haben, wenn du jetzt sagst, naja, man braucht, glaube ich, in vielen Bereichen ein paar hundert Mal, erzählt man einem Kind etwas oder hundert Mal, da sprechen wir bei KI eher von 10.000, 100.000 oder Millionen von Fällen. Und dadurch, dass wir sowohl im Bereich Datenspeicher, Bandbreite als auch Rechenkapazität so weit fortgeschritten sind, sind wir jetzt an einem Punkt, wo wir letztlich auch viele der theoretischen Modelle, die ja teilweise 20, 30, 40 Jahre alt sind, Früher hatte das vielleicht andere Namen, aber jetzt rein akademische Modelle, die haben sich in den letzten Jahren da nicht plötzlich so weiterentwickelt, sondern der große Fortschritt wurde auf der technischen Infrastrukturseite gemacht. Und ich glaube, es ist unglaublich wichtig, sich damit zu beschäftigen. Auch Firmen, die dort rein investieren, die sich damit auseinandersetzen müssen, sind deutlich wettbewerbsfähiger, die haben schnellere, bessere Prozesse, die haben glücklichere Kunden. Da gibt es ja auch zahlreiche Studien, das ist eigentlich sehr, sehr interessant. Und dann kommt es in der Tat fast schon wie so ein Baukastensystem drauf an, bestimmte Dinge zu machen. Und wir sind da auch, wir sind sehr, sehr strukturiert vorgegangen. Unser Ziel war es, wie schaffen wir praktisch so einen Engel, der neben einem sitzt und die Leute am Telefon, die im Support oder Customer Service sind, Das fing an bei Integration über Kompression von den Datenpaketen, wie schaffe ich es, die möglichst klein zu machen. Wir haben unseren eigenen Sprach-zu-Text-Engine gebaut, das heißt unser eigenes Übersetzungstools, die aus Sprache nachher Text macht, beziehungsweise auch die anderen Bestandteile wie Geschwindigkeit, Tonalität, Lautstärke analysiert. Also sind da sehr tief in die einzelnen Technologie-Levels reingegangen, weil wir gesagt haben, es ist wichtig, sowohl um ein gutes Produkt zu bauen, als auch natürlich zum Thema Datenschutz, wo ist was gespeichert, können wir hundertprozentig garantieren beispielsweise, dass die Daten nur in Deutschland sind. Haben wir das selber gebaut, können damit die Geschwindigkeit hinkriegen und auch die sehr guten Ergebnisse, die wir jetzt haben, dass man sagt, Leute am Telefon sind freundlich, die machen das, die sagen das, was sie sagen sollen, die gehen auf den Kunden ein.

Erik Pfannmöller: Ich finde das total interessant, sich vorzustellen, dass in der alten Welt man einfach über ein normales Telefon telefoniert. In der neuen Welt kann es ja auch sein, dass der Agent mal unfreundlich ist oder der Mensch an der anderen Seite und dass da ein großes rotes Ausrufezeichen aufleuchtet und sagt, hier, das ist nicht gut und jeder Mensch will ja freundlich und professionell und zuvorkommt und schnell helfen. Egal, in welchem Telefonat es immer ist, wenn man professionell telefoniert. Total.

Michael Brehm: Und es ist auch so, wenn man gerade zum Beispiel, ich meine, man hat ja auch so verschiedene Schwankungen. Manchmal kriegt man das selber gar nicht mit. Ja, natürlich werde ich irgendwann vielleicht etwas müder oder ich vergesse einfach mal Dinge. Und jemand, der mir dabei hilft, und zwar auch so, das muss jetzt auch gar nicht immer mein Chef mitbekommen. Die Software, die läuft ja mit. Der Trainer, der sieht ja das Ergebnis nach. Der sieht, hey, Wahnsinn, der macht auf einmal einen Bombenjob. Der Agent, der war ja noch nie so gut. Und das macht dann natürlich Freude und man hilft auch und das macht viel Spaß. dann zur Arbeit. Man hilft den Leuten, ihr volles Potenzial auszuschöpfen. Idealerweise, und selbst wenn man mit großen Firmen spricht, die viele Mitarbeiter haben, die sagen, naja gut, theoretisch wäre es am besten, jedem Agenten würden wir einen Trainer geben. Aber das ist finanziell natürlich nicht darstellbar und auch kritisch. So viele Trainer kann ich gar nicht finden am Arbeitsmarkt. Aber auf einmal habe ich eine Software, die praktisch das abbildet und damit jedem hilft, so weit wie möglich eigentlich seine Fähigkeiten auszubauen und einen so guten Job zu machen, wie er nur irgendwie könnte. Was auch interessant ist dort, über 40 Prozent der Mitarbeiter im Vertrieb oder im Support, die kündigen oder die unzufrieden sind, sagen, sie sind unzufrieden, weil sie das Gefühl haben, sie bekommen zu wenig Unterstützung von der Firma. Und das ist eine Funktion, wie viel kann ich eigentlich investieren? Das heißt, das ist eines der größten Probleme, wo Leute sagen, ich würde eigentlich gerne einen guten Job machen, ich würde gerne was lernen, aber ich kriege halt nicht die notwendige Unterstützung. Und das einmal im Monat, einen halben Tag in einen Workshop reinsetzen, wo ich einen Teil dessen gesagt bekomme, das weiß ich schon längst und den anderen Teil habe ich dann wieder vergessen, das ist es halt auch nicht.

Erik Pfannmöller: Finde ich sehr interessant. Du hast sehr viel über sozusagen Helfen gesagt und sehr viel über sozusagen Wertschaffung. Und ich sage immer, unser Kernmantra bei SolveMate ist, we help save people's time. Also wir sparen Leuten die Zeit, dass sie nicht in der Warteschleife hängen für diese einfachen, auch zu automatisierbaren Sachen. Und bei euch ist es halt, ihr macht Faktoren. Praktisch nicht nur die Menschen am Telefon glücklicher, die sozusagen ihren Job machen, weil sie trainiert werden, wertgeschätzt werden, dieses One-to-One-Coaching durch Software, sondern ihr helft auch den Endkunden, ein besseres Erlebnis zu haben. Das finde ich, wenn man über KI sozusagen nachdenkt und es gibt ja viele KI, Doomsday, dafür würde ich sagen, ist alles ganz schlecht und negativ, aber eigentlich führt es dazu, dass wir durch Technologie und das fängt an beim Internet und bei Software, bei Browsern, bei Smartphones sozusagen bessere Kommunikation und auch mehr Menschlichkeit haben und auch mehr Zufriedenheit.

Michael Brehm: Absolut. Also klar, die gibt es. Ich meine, wenn man teilweise auch die Presse liest. Ich habe mir mal den Spaß gemacht, mal so Artikel zum Thema Technologie und technologischer Fortschritt über die letzten 200 Jahre anzuschauen. Und es gab selbst vor 200, 300 Jahren, als dann die automatischen oder dampfbetriebenen Webstühle aufkamen, gab es große Artikel, die gesagt haben, es ist das Ende der Welt und Roboter machen die Menschen überflüssig. Wie gesagt, vor 200 Jahren. Und diese Artikel in der einen oder anderen Form gibt es alle paar Jahre jeweils mit der neuesten Technologie. Und wie wir alle, glaube ich, wissen, ist es gut. Wir haben jetzt natürlich eine extreme Sondersituation am Arbeitsmarkt wegen Corona. Aber grundsätzlich war es jetzt die letzten Jahrzehnte nicht so, dass alle Arbeit verschwunden ist, sondern genau das Gegenteil. Wir waren eigentlich bis vor ein paar Monaten weltweit auf dem Rekordlevel der Beschäftigung und kommen da hoffentlich auch in den nächsten Jahren wieder hin. Und ich glaube, man schafft einfach einen deutlichen Produktivitäts- Fortschritt und die Arbeit an sich verändert sich dann. Ich meine heute das, was früher praktisch Leute in der Fabrik gemacht haben, wirklich schwerste Dinge zu tragen, sich den Rücken bereits mit 35 komplett zerstört zu haben, das gibt es ja nicht mehr. Da gibt es heutzutage Roboter. Trotzdem ist in der gesamten Produktionskette, sind auch im Automobilbereich, wenn ich das bis in den Maschinenbau, ins Design, ins Marketing, auch in die Softwareprogrammierung ziehe, habe ich heute mehr Leute im Automobilbau beschäftigt als vor 20, 30, 40 Jahren. Also jetzt nicht nur im direkten Automobilbau, sondern in der gesamten Wertschöpfungskette, was passiert alles beim Automobil. Beim Automobil, da sprechen plötzlich selbst sowas wie meine Entertainment-Systeme, die Musik-Streaming-Dienste, die ich im Auto anhöre, die Videos, die Leute auf ihrem Handy gucken und so weiter. Das führt ja da alles mit rein. Und insofern glaube ich, dass sich halt die Art der Arbeit wird sich deutlich verändern. Aber ich glaube nicht mehr, dass wir weniger Arbeit haben werden. Da gibt es übrigens auch ganz viele tolle Studien von unterschiedlichsten Parteien, die eigentlich sagen, für jeden Job, der durch KI überflüssig wird, entstehen zwischen 1,5 und 2 neue Jobs. Das heißt, grundsätzlich ist KI extrem positiv für den Arbeitsmarkt zu sehen. Was es aber natürlich bedeutet unterm Strich, ist, dass die Leute offen sein müssen, was Neues zu lernen und sowas wie, ich habe jetzt einmal meinen Job gelernt und das mache ich die nächsten 40, 50 Jahre und ich brauche keine Fortbildung, keine Veränderung. Die Zeit ist leider Gottes vorbei.

Erik Pfannmöller: Weißt du, was mir gerade aufgefallen ist, Michael? Ich habe gerade auf die Zeit geschaut und die Zeit ist so schnell verflogen und wir machen ja kurze, informative und prägnante Podcasts. Ich glaube, wir könnten noch zwei Stunden über das Thema sprechen. Aber ich fand das ein sehr gutes Schlusswort, sozusagen, das auch den Rahmen schließt eigentlich von unserem Gespräch. Und an der Stelle würde ich mich bei dir, Michael Brehm, serieller Unternehmer, professioneller VC-Investor und KI-Experte interessieren. in Echtzeit Sprachanalyse und Coaching in deiner Funktion als CEO von i2x. Einfach bedanken für das wirklich interessante und, Englisch sagt man so, insightful, einsichtsreiche Gespräch. Und freue mich, wenn der Podcast gefällt, dann bitte an der Stelle einfach ein paar Sterne hinterlassen. Wir freuen uns immer über gute Bewertungen. Danke, Michael, für das Gespräch.

Michael Brehm: Erik, vielen Dank. Ciao, ciao.