Die Entwicklung von KI-Sprachassistenz: die Disruption von Moderatoren und Sprechern?
Die Entwicklung von KI-Sprachassistenz
Die KI-Welt entwickelt sich rasant. Als Liebhaber von Radio, Audio und allem was dazu gehört werde ich immer häufiger gefragt: Haben traditionelle Moderatoren und Sprecher noch eine Zukunft? Die Antwort ist ein klares JEIN.
Bis vor ein paar Monaten habe ich mich noch festgelegt: echte Empathie und kognitive Fähigkeiten sind die absoluten Stärken des Menschen. Eine KI kann nicht wirklich empathisch sein, das ist nach wie vor Fakt. Aber die Wahrheit ist auch: sie kann es immer besser simulieren. Die jüngsten Fortschritte in der KI-Sprachassistenz sind beeindruckend und für viele auch beängstigend. Zwei bemerkenswerte Akteure in diesem Bereich sind hume.ai aus den USA und das französische Start-up Kyutai, das mit seiner revolutionären Echtzeit-KI-Sprachassistenz Moshi OpenAI’s GPT-4o Voice Mode herausfordert.
Was macht Moshi so besonders?
Echtzeit-Reaktion: Moshi kann gleichzeitig hören und sprechen. Mit einer beeindruckenden Latenz von nur 160 Millisekunden reagiert Moshi schneller als jede bisherige Sprachassistenz.
Emotionale Vielfalt: Mit 70 verschiedenen Emotionen und Sprechstilen, von sanftem Flüstern bis zu markanten Akzenten, bietet Moshi eine einzigartige Ausdrucksvielfalt. Dies ermöglicht eine viel nuanciertere und menschlichere Kommunikation.
Zugang für alle: Moshi ist bereits als Demo verfügbar und wird bald als Open Source veröffentlicht. Dies könnte die Verbreitung und Weiterentwicklung der Technologie beschleunigen.
Ein Team von acht Forschern hat Kyutai Moshi in nur vier Monaten entwickelt. Dieser Durchbruch stärkt die französische KI-Landschaft rund um Mistral und stellt einen ernstzunehmenden Rivalen für OpenAI dar.
Zugegeben: Stand heute funktioniert das Demo noch sehr, sehr besch***. Aber ein paar Monate oder (Halb-)Jahre vorausgedacht und mit den nötigen Trainingsdaten wird das Ergebnis schon bald immens sein...
Moshi vs. GPT-4o: Ein Vergleich
Im Unterschied zu GPT-4o ist Moshi ein kleineres Modell, das lokal installiert und offline genutzt werden kann. Dies macht Moshi ideal für die Integration in smarte Haushaltsgeräte und andere Anwendungen, die eine schnelle und zuverlässige Sprachassistenz erfordern.
KI-Sprachassistenten wie GPT4o, hume.ai oder moshi werfen eine wichtige Frage auf: Werden menschliche Moderatoren und Sprecher bald überflüssig? Auf keinen Fall, aber die Disruption in vielen Branchen hat bereits begonnen. Menschen bringen zwar eine einzigartige Authentizität und Kreativität mit, die Maschinen noch nicht vollständig nachahmen können. Aber es ist ein betriebswirtschaftliches Gesetz, dass sinkender Preis und steigende Qualität eine höhere Nachfrage nach sich ziehen.
KI-Sprachassistenten übernehmen in erster Instanz Routineaufgaben und schaffen so mehr Raum für kreative und menschliche Interaktion. Mit steigender Qualität wird die Nutzung zunehmen und immer mehr Medienzeit von klassischen Anbietern rauben. Hier kannst Du übrigens einen Test machen, inwiefern Dein Job von KI gefährdet ist: Sprecher und Moderatoren sind es laut Job Futuromat aktuell zu 33%, Geschäftsführer zu 50% 😂
Eines ist sicher: Mit Innovationen wie Moshi stehen wir an der Schwelle zu einer neuen Ära der Kommunikation. Es ist eine spannende Zeit, um die Möglichkeiten der KI zu erkunden und zu sehen, wie sie unsere Welt verändern kann. Weiterbildung ist der wichtigste Faktor aktuell, auf dieser Seite findest Du massgeschneiderte Workshops