KI Stimmen Generator ElevenLabs: Die Zukunft für Podcasts?

Transkript der Episode 29 von Frag Wolfram, dem Online Business Podcast mit Wolfram Kläger vom 28.08.2023

ElevenLabs.io spricht Text in 28 Sprachen und imitiert Stimmen mit KI, fast perfekt. Was geht damit im Podcast? Wie gross ist das gesamte Potenzial?

Letzte und vorletzte Woche habe ich hier im Podcast meine Mikrofonsammlung durchgespielt und einige Argumente geliefert, warum die Auswahl des "richtigen" Mikrofons von ziemlich geringer Bedeutung ist.

Jedenfalls viel geringer, als in der Werbung und von Influencern vermittelt wird, z.B. auf YouTube.

Andere Faktoren sind viel wichtiger als das Mikrofon, wie

der umgebende Raum und
die Nachbearbeitung

Aber vor allem alles, was sich vor dem Mikro abspielt:

deine Rhetorik
dein Storytelling
deine Sprachgewandtheit
deine Ausdrucksfähigkeit

Nur: was soll das, wenn es für all das auch KI gibt?

ElevenLabs.io macht es vor.

Für 22 Dollar im Monat kannst du deine Texte von fast beliebigen Sprecher:innen sprechen lassen. Du kannst künstliche Stimmen generieren. Oder bekannte Stimmen imitieren. Zum Beispiel deine eigene Stimme.

Wie funktioniert das?
Was geht damit, heute, demnächst?

Praktisches Beispiel: ich und mein Podcast.

Bei der Gelegenheit kläre ich gleich noch:

Macht es Sinn, einen Podcast wie diesen künftig mit KI zu produzieren?
Welche sonstigen Anwendungen drängen sich auf?
Und wo führt das hin, wenn es so weiter geht, mit der KI?

Darauf will ich in dieser Episode eingehen.

Natürlich schon mit Beispielen meiner eigenen gecloneten Stimme und einiger künstlicher Varianten, die ich beim ElevenLabs Automaten dafür engagiert habe.

ElevenLabs 2022 bis heute

Erst 2022 gegründet von Piotr Dabkowski und Mati Staniszewski, zwei aus Polen stammenden Freunden, die sich über schlecht synchronisierte Spielfilme geärgert haben. So geht jedenfalls die Legende. Das Startup mit Standort in USA hatte bis vor wenigen Monaten noch 15 Mitarbeiter.

Im Juni 2023 wurde es mit 100 Millionen Dollar bewertet.

ElevenLabs entwickelt Software zur Sprachsynthese und zur Wandlung von Text in Sprache, die als Software As A Service (SaaS) über Internet zugänglich ist. Auch über ein API (Application Programming Interface).

Die Beta-Version war seit Januar 2023 verfügbar.

Im Juni 2023 hat ElevenLabs in der zweiten Finanzierungsrunde 19 Millionen US-Dollar eingeworben, im Umfeld von Andreessen Horowitz und einiger anderer VC-Prominenz (Venture Capital, Wagniskapitalgeber)

Seitdem hat sich der Traffic auf der Website von Elevenlabs ungefähr verzwanzigfacht, mit Tendenz weiter nach oben.

Weltweit bekannt ist ElevenLabs heute schon als Pionier für künstlich generierte Sprache mit hoher Emotionalität. Bei der Imitation legen sie grössten Wert auf Sprachtempo und Intonation. Was bei der Imitation natürlicher Stimmen besonders authentisch rüberkommen soll. Und was rein digital erzeugten Stimmen eine natürliche Aura verpassen soll.

Die Mission von ElevenLabs, Zitat:

Our mission is to make on-demand multilingual audio support a reality across education, streaming, audiobooks, gaming, movies, and even real-time conversation.
Our research powers the platform’s current features but it also contributes to realizing our ultimate goal of instantly converting spoken audio between languages. The AI dubbing tool – aimed for release later this year – will let users automatically re-voice any audio or video in a different language, all while preserving the original speaker’s voice.
Elevelabs.io Website (About ElevenLabs)

Auf Deutsch:

Unsere Mission ist es, on-demand mehrsprachige Audio-Unterstützung in den Bereichen Bildung, Streaming, Hörbücher, Gaming, Filme und sogar Echtzeit-Gespräche zur Realität zu machen.
… ultimatives Ziel …: gesprochenes Audio sofort zwischen den Sprachen zu konvertieren … wird den Benutzern ermöglichen, jegliches Audio oder Video automatisch in einer anderen Sprache neu zu vertonen, wobei die Stimme des ursprünglichen Sprechers erhalten bleibt.

Auf der Website von ElevenLabs kann man sich einen kostenlosen User Account anlegen und sofort damit beginnen, Texte hochzuladen und sprechen zu lassen. Von einem Sprecher oder einer Sprecherin, die man zuvor ausgewählt hat.

In der Voice Library (Stimmbibliothek) gibt es zur Zeit schon einige Hundert Stimmen zur Auswahl. Zum Teil künstlich generierte, zum Teil aber auch von professionellen Sprecher:innen gescannte, natürliche Stimmen. Auch schon user-generierte Modelle von Sprechern und Sprecherinnen.

Solche Stimmen kann man 1:1 übernehmen. Oder mit einem Dutzend Parametern weiter verfeinern, anpassen, abändern, wie man es z.B. von Musikern mit ihren Synthesizern kennt, für Keyboard-Sounds und dergleichen.

Der kostenlose Account ist auf die Auswahl vorgefertigter Stimm-Modelle beschränkt.

Zahlende User:innen haben zusätzlich die Option, eigene Stimm-Modelle anzulegen.

Fürs Instant Voice Cloning genügen ein paar Minuten Audiomaterial, das man z.B. als .mp3 Datei hochlädt.
Das Professional Voice Cloning geht eine Stufe weiter. Optimal fürs Training dieses Premium-Sprachmodells sind ungefähr 3 Stunden Audiomaterial.

Instant Voice Cloning funktioniert tatsächlich sofort.

Professional Voice Cloning leider erst mit einer Verzögerung von zwei bis vier Wochen.

So lange braucht ElevenLabs offenbar zur Zeit noch, um das hochgeladene Material ins neuronale Netz zu pressen.

Dazu gleich noch mehr, hier im Praxistest. Ein interessantes Detail im Leistungsangebot von ElevenLabs ist nämlich noch der sogenannte AI Speech Classifier.

Mit dieser Software kann ElevenLabs angeblich erkennen, ob eine gegebene Stimme von ElevenLabs generiert wurde. Also ein KI-Detektor, wie es bereits einige gibt, um KI-basierte Texte von sogenannten natürlichen Texten zu unterscheiden. Oder sagen wir besser: um KI von menschlichen Autor:innen zu unterscheiden.

Anwendungen für KI-Sprecher:innen

Die Technologie von ElevenLabs wird bereits für einige Podcasts, Hörbücher, Radio- und Comedy-Shows verwendet. So hat natürlich der Marketing-Papst Seth Godin schon mal einen Podcast mit ElevenLabs produziert.

Seit März 2023 gibt es AI-Radio, das erste Radioprogramm, das von einem virtuellen DJ präsentiert wird:

ChatGPT schreibt das Skript
ElevenLabs spricht das Skript ins virtuelle Mikrofon

Ansonsten sind schon diverse Spiele- und andere Verlage dabei, z.B. Newsletter und Hörbücher mit ElevenLabs-Software vorzulesen. Teilweise haben Hörer:innen die Wahl, welcher Stimme sie am liebsten zuhören.

Vielleicht eine der wichtigsten Anwendungen, wenn es nach der Legende der beiden Gründer geht: die Synchronisation von Videos, derzeit in 28 unterschiedliche Sprachen.

Und wahrscheinlich sind auch die meisten Deepfakes von prominenten Stimmen, die bisher bekannt wurden, mit Hilfe von ElevenLabs produziert. Einfach weil diese Firma Stand heute an der Spitze der technischen Entwicklung steht.

Doch.

Es gibt sie schon.

Die ausdrücklichen Richtlinien des Herstellers für die korrekte Verwendung der ElevenLabs-Technologie.

Und natürlich ist strikt verboten, mit ElevenLabs-Software Stimmen für missbräuchliche Zwecke zu verwenden, also: Betrug, Diskriminierung, Hate-Speech und dergleichen.

Es sei denn, es handelt sich um Parodie oder Satire.

Ich bin ehrlich gesagt unsicher, was ich mir wünschen soll.

Ob KI das unterscheiden kann.

Oder besser nicht.

Jedenfalls hat ElevenLabs zur Zeit rund eine Million registrierte Benutzer. Und ich sehe bisher keinen Grund und vor allem keine Konkurrenz, die den weiteren Aufstieg begrenzt, bis auf Weiteres.

Anwendung in Podcasts: echt jetzt?

Text-to-Image ist ja schon der Gassenhauer, wenn ich an all die Stable Diffusion- und Midjourney-Fans denke, da draussen.

Text-to-Video funktioniert derzeit auch schon für ein paar Sekunden bis Minuten. Aber da ist noch viel Luft für noch viel mehr.

Wie sieht es mit Text-to-Speech aus, speziell Text-to-Podcast?

Soll ich meinen Podcast künftig lieber schreiben und sprechen lassen?

Oder mich weiterhin vor dem Mikrofon abmühen, ganz natürlich, und anschliessend noch eine Weile mit dem Audio-Editor nachpolieren, was schiefgegangen ist?

Kann ich mein Ableton Live deinstallieren und die ganze Effektkette vergessen, mit Kompressor, Equalizer, De-Esser, Speech-Enhancer und weiss ich was?

Offen gesagt: Ja.

Hat durchaus seinen Reiz.

Wenn du einmal dein perfektes Setting gefunden hast, um deine Stimme aufzuzeichnen und ganz nach Geschmack nachzubearbeiten, kannst du jetzt dieses Setting ins neuronale Netz von ElevenLabs übertragen.
Ab dann brauchst du nur noch den Text eintippen und hochladen. Die Vocal Performance übernimmt der künstlich intelligente Automat für dich.
Schon das Instant Voice Cloning generiert brauchbare Ergebnisse. Noch nicht das, was ich für mich als authentisch bezeichnen würde, aber: für schnell mal zwischendurch durchaus tauglich.
Und wer weiss? Auch übertragbar auf die Tonspur von Faceless Videos auf YouTube, Tiktok, Instagram Reels usw. Hab ich noch nicht. Aber kann ja noch …
Auf mein Professional Voice Cloning müssen wir leider noch zwei bis vier Wochen warten. ElevenLabs hat mir nach der Registrierung verraten, dass es derzeit so lange dauert, nach dem Upload von rund 3 Stunden Audio, also 10 bis 12 meiner Podcast-Episoden, bis ich den virtuellen Wolfram im "Professional Mode" testen kann.
Es wird dann – selbstverständlich – hier eine eigene Episode geben, von ElevenWolframs, 11 künstlich professionellen Wolframs, vielleicht im Chor und gesungen 🙂
Ich kann mir auch vorstellen, dass es mal eine Episode geben wird, mit einem künstlichen Interviewpartner oder einer Gesprächspartnerin. Vielleicht, weil kein ausreichendes Recording-Equipment zur Hand ist, für die Gegenseite. Oder weil bei der Originalaufzeichnung so viel schiefgeht, dass wir es lieber noch mal schnell wiederholen.
Dagegen kann ich mir kaum vorstellen, dass ich im Podcast sinnvoll fremde Stimmen integriere, die ich von ElevenLabs generieren lassen. Jedenfalls nicht über kurze Witze und künstliche Zitate hinaus.
Warum auch sollte z.B. Matze Hielscher oder Brad Pitt erlauben, dass ich mit ihren Stimmen meinen Podcast künstlich aufpimpe?
Würde ich das für meine Stimme genehmigen? Wohl kaum.

Ein gewisses Potenzial sehe ich in der Synchronisation in andere Sprachen.

Würde ich diesen Podcast in englisch produzieren, hätte ich auf einen Schlag das 10 bis 20 fach grössere Publikum.

Jedenfalls: potenziell 🙂

Sagen wir, ich buche das volle Programm von ElevenLabs und haue meinen Podcast jede Woche in 28 Sprachen raus. Und in ein paar Wochen sind es garantiert, 40, 50, 100 Sprachen, die ElevenLabs mir dafür anbieten kann. Obendrein.

Nur: Was mache ich mit all den Fragen und dem Feedback von Zuhörer:innen, in allen Sprachen dieser Welt?

Wahrscheinlich leidet die User Experience, wenn ich sie im Podcast in ihrer nativen Sprache beglücke und dann nur auf deutsch oder englisch auf ihre Wünsche und Rückfragen eingehen kann.

Unfassbar gross: alle Sprachen in Echtzeit

Die eigentliche Revolution der Sprachintelligenz, wie sie ElevenLabs derzeit anführt, noch mit grossem Abstand zu OpenAI mit Whisper und Google und … es ist ja nicht so, dass nur ElevenLabs daran arbeitet …

Die eigentliche Revolution passiert, wenn diese Technologie so weit ist, dass man sie auf jedes bessere Handy packen kann.

Beispiel: Ich und ein Chinese telefonieren.

Ich spreche schwäbisch und höre hochdeutsch.

Er spricht chinesisch und hört chinesisch.

Stell dir das vor.

In Echtzeit.

Beruflich. In der Freizeit. Auf Reisen oder per Internet.

An Taschenrechner und MS-Excel haben wir uns seit Jahrzehnten gewöhnt. Mit Google Translate und DeepL übersetzen wir längst Texte hin und her, wie es uns passt.

Jetzt stehen wir an der Schwelle, dass gesprochene Sprache in alle möglichen Dialekte übersetzt wird, vollautomatisch.

Heute noch mit einer deutlichen, zeitlichen Verzögerung. Um ehrlich zu sein: recht lahm. Dafür heute schon ziemlich perfekt.

Ich halte es nur noch für eine Frage der Zeit, bei dem hohen Tempo der Tech-Giganten wie Google, Microsoft, Apple und der KI-Startups wie ElevenLabs, OpenAI usw.

Leider, leider handeln wir uns damit gleichzeitig eine Riesenwelle von Deepfakes ein. Wahrscheinlich in einem unvorstellbaren Ausmass.

Gefakete Texte bis hin zu Dissertationen sind wir gewöhnt.

Gefakete Videos sehen immer noch komisch aus. Meistens.

Aber gefakete Audios, auf dem Level von ElevenLabs: Wer traut dann noch wem, wenn das Telefon klingelt oder in den Medien ein spektakuläres Zitat kursiert?

Hoffen wir mal, dass die Revolution bei der Verifikation und Echtheitsprüfung auch kurz bevor steht.

Oder jedenfalls jetzt mal endlich in die Gänge kommt.

Fazit für heute: Nach der Revolution ist vor der nächsten

Wenn mich Eines fasziniert, auf dieser Welt, dann ist es Sprache und Musik.

Geschrieben. Gesprochen. Gesungen. Gebrüllt. Geflüstert.

Ich hätte nie gedacht

dass Computer einmal Sprache können. Jenseits von MS-Word.
dass die guten, alten neuronalen Netze noch einmal so in Form kommen, dass wir auf Nvidia-Grafikkarten grosse Sprachmodelle setzen, die dann eine Revolution nach der anderen auslösen.

In allen möglichen Formaten, ob Text, Bild, Grafik, jetzt auch Sprache, demnächst Video und todsicher auch: Musik.

Wir leben in einer super-spannenden Zeit.

Und gleichzeitig: beängstigend spannend.

Kein Mensch kann heute wissen, wie das ausgeht.

Sicher ist jedenfalls: es gibt wieder mal keine Alternative. Keinen Ausweg. Kein Zurück. Wir müssen da durch und das Beste daraus machen.

Es wird also mal wieder aufregend kompliziert.

In diesem Sinne!

Bis nächsten Montag

Du hast jetzt eine Woche Zeit, mir dein Feedback zu geben, zu diesem Podcast, dieser Episode oder sonstwas.

Es ist mir völlig egal, ob du es schriftlich machst.

Oder akustisch.

Oder visuell.

Mit deiner natürlichen oder einer anderen Intelligenz.

Ich freu mich drauf!

Die E-Mail-Adresse ist wie immer:

fragwolfram@wolframklaeger.com

Für dicke Audio- und Video-Files empfehle ich einen Dienst wie filemail.com zu nutzen. Sonst sprengt der Anhang womöglich meine hochsichere Mailbox bei Proton.

Bis dahin: Alle Grüsse, Ciao Ciao, Dein Wolfram und: Peace!