Sprach-KIs haben in den vergangenen Monaten extreme Fortschritte erzielt, so dass sogar Synchronsprecher und Schauspieler um ihre Jobs fürchten. Was bedeutet diese Entwicklung für die Audio-Branche? Mehr Kreativität? Oder wächst uns da was über den Kopf? Ein Gespräch mit Philipp Feit (links) und Eduardo García (Foto: Tim Ohnesorge) von der Audio Agentur German Wahnsinn in Hamburg (Fotos: German Wahnsinn, Tim Ohnesorge).
Sprach-KI-Systeme sind schon seit Jahren bekannt, Stichwort Siri oder Alexa. Welche Fortschritte haben sie seitdem gemacht?
Eduardo García: Im Bereich der Sprachsynthese haben sich in den letzten Jahren erhebliche Fortschritte ergeben. In den Anfangsjahren setzten Sprach-KI-Systeme hauptsächlich auf die Methode der „Unit Selection Synthesis". Dabei werden vorab aufgenommene Spracheinheiten – wie Phoneme, Silben oder ganze Wörter – aus einer großen Datenbank ausgewählt und zusammengefügt, um Sätze zu bilden. Dies führte zu einer akzeptablen, aber oft noch recht künstlichen Klangqualität. Insbesondere die Nachbildung einer natürlichen Sprachmelodie stellte dabei aber ein großes Problem dar.
Und heute?
Philipp Feit: Die Technologie hat sich inzwischen erheblich weiterentwickelt. Sprach-KI-Systeme setzen heute zunehmend auf fortschrittliche neuronale Netzwerkmodelle, die eine tiefere Verarbeitung von Sprache ermöglichen und in der Lage sind, natürlichere Stimmen zu erzeugen. Dazu „lernen” diese Modelle anhand großer Datensätze, die aufgenommene Sprache sowie deren Transkription enthalten, Sprache und Stimme nachzubilden. Sie basieren auf „echter" Synthese, wobei neuronale Netzwerke die Sprache generieren, anstatt vorgefertigte Einheiten auszuwählen. Dies führt zu einer besseren Nachbildung natürlicher Sprachmelodien. Damit wird die Stimme als weniger künstlich empfunden und es wird möglich, Text beispielsweise in verschiedenen Sprachen mit derselben Stimme zu synthetisieren. Ein weiterer Vorteil ist, dass aktuelle Systeme, nachdem sie einmal mit einer großen Datenmenge trainiert worden sind, mit relativ wenig Daten neue Stimmen „hinzulernen” können.
Wenn wir mit virtuellen Assistenten sprechen, klingt deren Stimme häufig dennoch recht künstlich. Technisch wäre demnach doch viel mehr drin…
García: Ein bedeutender Faktor für das künstliche Klingen dieser KI-Stimmen ist die fehlende Prosodie, also die Melodie, Betonung und der Rhythmus der Sprache. Menschen kommunizieren mit einer bestimmten Prosodie, die oft Kontextinformationen oder emotionale Hinweise liefert. So können wir durch unterschiedliche Betonung einem Satz ganz verschiedene Bedeutungen geben. Auch wenn technisch große Fortschritte erzielt wurden, tun sich KI-Systeme häufig noch schwer, die richtige Prosodie für einen gegebenen Kontext zu erzeugen. Das führt häufig zu einer monotonen oder unangemessenen Betonung. Außerdem besteht für virtuelle Assistenten die Notwendigkeit, Antworten möglichst schnell bereitzustellen. In vielen Fällen wird daher zulasten von Qualität und Natürlichkeit auf eine schnellere Methode der Spracherzeugung zurückgegriffen. Auch Hardwarebeschränkungen können eine Rolle spielen. Da neue Sprachsynthese-Modelle oft sehr rechenintensiv sind, können gerade ältere Geräte diese meist nicht in Echtzeit ausführen.
Feit: Trotz dieser Herausforderungen ist zu erwarten, dass die Sprachsynthese auch im Bereich virtueller Assistenten in den kommenden Jahren immer besser wird. Zumal ein Großteil der Forschung sich momentan um das Auffinden von immer effizienteren Trainingsmethoden dreht.
Wo liegen Eurer Meinung nach die größten Potenziale beim Einsatz von KI im Audio-Bereich?
Feit: Die Einführung von KI-Technologie in den Audio-Bereich hat das Potenzial, die Effizienz und die kreativen Möglichkeiten deutlich zu erweitern. Einerseits ermöglicht die Automatisierung von bestimmten technischen Prozessen, wie dem Herausfiltern von Hintergrundgeräuschen oder die Feinabstimmung von Audiospuren, sich mehr auf die subtilen kreativen Aspekte ihrer Arbeit zu konzentrieren. Diese Effizienzsteigerung reduziert den manuellen Aufwand und gibt mehr Raum für Innovation. Andererseits bietet die fortschreitende Sprachsynthese die Möglichkeit, aus einer Vielzahl von künstlichen Stimmen auszuwählen, die entweder als solche verwendet oder nach Bedarf modifiziert werden können. Dies eröffnet enorme Möglichkeiten, insbesondere im Hinblick auf Projekte, die eine ganz bestimmte Klangqualität oder Stimmcharakteristik benötigen. Die Fähigkeit, diese Stimmen präzise anzupassen oder sogar von Grund auf maßgeschneidert zum Projekt neu zu kreieren, ist ein großer Vorteil.
García: So verschmilzt durch die KI-Technologie auch die Grenze zwischen Technologie und Kunst. Damit können wir neue kreative Horizonte erforschen und den Audiobereich kontinuierlich weiterentwickeln. Grundsätzlich denken wir aber, dass es zwar für all das Tools geben wird, was sich nach Fließbandarbeit anfühlt. Der Mensch und das Handwerk werden jedoch in allen Bereichen essenziell bleiben, in denen es gilt, eine bestimmte Ästhetik zu bedienen.
Plattformen wie Spotify werden inzwischen von KI-generierter Musik nahezu geflutet. Mit welchen Entwicklungen rechnet ihr in diesem Bereich?
Feit: KI wird sicherlich eine bedeutende Rolle in der Musikindustrie der Zukunft spielen. Mit der Flut von KI-generierter Musik wird aber auch die Beliebigkeit der Stücke zunehmen. Aber es geht ja oft nicht nur um die Musik, sondern auch um den KünstlerInnen. Auch wenn es in Zukunft vollständig KI-generierte Artists geben wird, sind wir uns sicher, dass die Faktoren Mensch und Qualität weiterhin eine Rolle spielen – und die werden in absehbarer Zeit noch nicht von einer Maschine erreicht bzw. ersetzt. Schließlich geht es ja nicht nur darum, Töne aneinanderzureihen und Melodien zu erzeugen, sondern eben auch um das Einfangen menschlicher Emotionen und Erfahrungen.
García: Eher ist davon auszugehen, dass MusikerInnen KI zunehmend als kreatives Werkzeug nutzen, um Ideen schneller auszuarbeiten oder Inspiration für neue Stücke zu finden. Ein wichtiger Aspekt ist zudem die rechtliche Dimension: Mit dem Aufkommen von KI-generierter Musik werden neue Fragen im Bereich des Urheberrechts auftreten. Wer hält zum Beispiel die Rechte an einem von einer KI erstellten Musikstück? Und wie wird mit Situationen umgegangen, in denen eine von KI geschaffene Melodie einem menschlich komponierten Stück ähnelt?
In Hollywood haben die Schauspieler gestreikt, auch weil sie Angst vor KI haben. Wird KI bald die Synchronsprecher ersetzen?
García: Um nicht vom internationalen Markt überrollt zu werden, ist es für die Branche extrem wichtig, selbst zu reagieren und eigene Systeme und Lösungen zu entwickeln. Denn klar, es gibt bereits einige Projekte, die sich mit der KI-basierten Synchronisation befassen. Dieser Ansatz bietet aus Sicht der Industrie viele Vorteile: Wenn ein Schauspieler mit seiner eigenen Stimme in andere Sprachen übersetzt und synchronisiert wird, kann sich daraus ein zeitlicher und wirtschaftlicher Vorteil ergeben. Auch für RezipientInnen ist das Erlebnis, SchauspielerInnen selbst mit ihrer „echten” Stimme in der jeweiligen Muttersprache zu hören, ein anderes. Dem gegenüber stehen zum Glück aber auch Gewerkschaften und Verbände, die sich für die Rechte der SchauspielerInnen, DrehbuchautorInnen und auch SynchronsprecherInnen einsetzen. Grundsätzlich ist es aber so, dass es bestimmte Aspekte menschlicher Kommunikation und Emotion gibt, die schwer zu automatisieren sind. Beim traditionellen Synchronisieren werden nicht nur Worte übersetzt, sondern auch emotionale Nuancen, Kulturkontext und oft subtile, sprachspezifische Humorformen, die an das das jeweilige Publikum angepasst werden sollten. Menschliche SprecherInnen bringen eigene Interpretationen und Emotionen in die Darstellung ein, die eine KI möglicherweise nicht replizieren kann.
Feit: Technologische Fortschritte könnten jedoch dazu führen, dass KI-Systeme in Zukunft immer besser darin werden, menschliche Emotionen und Nuancen in der Sprache zu erkennen und wiederzugeben. Es könnte also Bereiche geben, in denen KI-gestützte Synchronisation vorteilhaft ist, während in anderen Bereichen der menschliche „Touch” weiterhin unerlässlich bleibt.
Könnte der Einsatz von KI im Audiobereich dazu führen, dass mehr Unternehmen über eine akustische Markenidentität nachdenken?
García: Ja, der Einsatz von KI im Audiobereich hat das Potenzial, das Interesse von Unternehmen an einer akustischen Markenidentität zu steigern. Zum einen erleichtert und beschleunigt KI die Produktion von Audioinhalten. Das erlaubt es Unternehmen, konsistent über diverse Plattformen hinweg zu agieren. Zusätzlich ermöglichen fortschrittliche Algorithmen eine Echtzeit-Personalisierung von Audioinhalten. Dadurch kann ein maßgeschneidertes Klangerlebnis für einzelne BenutzerInnen oder Zielgruppen geschaffen werden. Dabei bietet KI auch wertvolle Analysetools, um die Effektivität des Audio-Brandings zu optimieren. Zum anderen kann die kosteneffiziente KI-Produktion von Audioinhalten auch kleinere Unternehmen ermutigen, hier zu investieren und Audio Branding in ihre Markenstrategie aufzunehmen.
Feit: Allerdings kann mit der Entwicklung auch eine große Gleichmacherei einhergehen. So wie im Film fast jede quietschende Tür gleich klingt. In einer Welt, die sich klanglich immer mehr angleicht, sollten ein überzeugender Corporate Sound und eine akustische Markenidentität mit Wiedererkennungswert deswegen umso individueller sein – außergewöhnlich, einzigartig, vielleicht sogar künstlerisch. Wir haben die Chance, wieder zu überraschen und Sachen anders zu machen, unverwechselbar. Wenn wir diesen Sound gefunden haben, kann KI uns wiederum in der Produktion helfen, ihn zu multiplizieren, für alle verschiedene Medienformate aufzubereiten, weiterzuentwickeln und an verschiedenen Touchpoints zu inszenieren. Für Unternehmen mit einer starken klanglichen Identität wird KI auch besonders interessant, wenn es um die Internationalisierung von Inhalten geht.
Das Interview führte Helmut van Rinsum
Philipp Feit ist der Chief Creative Officer bei der Audio Agentur German Wahnsinn. Er ist Experte für immersiven Sound, auditive Markenführung und dynamisches Storytelling. Philipp berät Marken und Agenturen bei allen Fragen rund um Audio-Kreationen und realisiert ihre Kampagnen im agentureigenen Tonstudiokomplex auf dem Hamburger Kiez. Zudem ist er regelmäßig an der Entwicklung neuer Audio-Technologien beteiligt.
Euardo García ist bei German Wahnsinn Tonmeister, Musikproduzent und geschäftsführender Gesellschafter. Seine kreativen Leistungen im Bereich der Musik-, Hörbuch- und Werbeproduktion wurden mehrfach ausgezeichnet. Mit der Bestsellerautorin Cornelia Funke gründete er 2015 das Hörbuchlabel Atmende Bücher.
Weitere Interviews:
Thomas Mosch: KI produziert noch kreativen Durchschnitt
Cornelia Krebs: Kann eine KI Emotionen erkennen?
Cesar Romero Pose: AI-Film – Netlifx für KI-Filme
Sprach-KIs haben in den vergangenen Monaten extreme Fortschritte erzielt, so dass sogar Synchronsprecher und Schauspieler um ihre Jobs fürchten. Was bedeutet diese Entwicklung für die Audio-Branche? Mehr Kreativität? Oder wächst uns da was über den Kopf? Ein Gespräch mit Philipp Feit (links) und Eduardo García (Foto: Tim Ohnesorge) von der Audio Agentur German Wahnsinn in Hamburg (Fotos: German Wahnsinn, Tim Ohnesorge).
Sprach-KI-Systeme sind schon seit Jahren bekannt, Stichwort Siri oder Alexa. Welche Fortschritte haben sie seitdem gemacht?
Eduardo García: Im Bereich der Sprachsynthese haben sich in den letzten Jahren erhebliche Fortschritte ergeben. In den Anfangsjahren setzten Sprach-KI-Systeme hauptsächlich auf die Methode der „Unit Selection Synthesis". Dabei werden vorab aufgenommene Spracheinheiten – wie Phoneme, Silben oder ganze Wörter – aus einer großen Datenbank ausgewählt und zusammengefügt, um Sätze zu bilden. Dies führte zu einer akzeptablen, aber oft noch recht künstlichen Klangqualität. Insbesondere die Nachbildung einer natürlichen Sprachmelodie stellte dabei aber ein großes Problem dar.
Und heute?
Philipp Feit: Die Technologie hat sich inzwischen erheblich weiterentwickelt. Sprach-KI-Systeme setzen heute zunehmend auf fortschrittliche neuronale Netzwerkmodelle, die eine tiefere Verarbeitung von Sprache ermöglichen und in der Lage sind, natürlichere Stimmen zu erzeugen. Dazu „lernen” diese Modelle anhand großer Datensätze, die aufgenommene Sprache sowie deren Transkription enthalten, Sprache und Stimme nachzubilden. Sie basieren auf „echter" Synthese, wobei neuronale Netzwerke die Sprache generieren, anstatt vorgefertigte Einheiten auszuwählen. Dies führt zu einer besseren Nachbildung natürlicher Sprachmelodien. Damit wird die Stimme als weniger künstlich empfunden und es wird möglich, Text beispielsweise in verschiedenen Sprachen mit derselben Stimme zu synthetisieren. Ein weiterer Vorteil ist, dass aktuelle Systeme, nachdem sie einmal mit einer großen Datenmenge trainiert worden sind, mit relativ wenig Daten neue Stimmen „hinzulernen” können.
Wenn wir mit virtuellen Assistenten sprechen, klingt deren Stimme häufig dennoch recht künstlich. Technisch wäre demnach doch viel mehr drin…
García: Ein bedeutender Faktor für das künstliche Klingen dieser KI-Stimmen ist die fehlende Prosodie, also die Melodie, Betonung und der Rhythmus der Sprache. Menschen kommunizieren mit einer bestimmten Prosodie, die oft Kontextinformationen oder emotionale Hinweise liefert. So können wir durch unterschiedliche Betonung einem Satz ganz verschiedene Bedeutungen geben. Auch wenn technisch große Fortschritte erzielt wurden, tun sich KI-Systeme häufig noch schwer, die richtige Prosodie für einen gegebenen Kontext zu erzeugen. Das führt häufig zu einer monotonen oder unangemessenen Betonung. Außerdem besteht für virtuelle Assistenten die Notwendigkeit, Antworten möglichst schnell bereitzustellen. In vielen Fällen wird daher zulasten von Qualität und Natürlichkeit auf eine schnellere Methode der Spracherzeugung zurückgegriffen. Auch Hardwarebeschränkungen können eine Rolle spielen. Da neue Sprachsynthese-Modelle oft sehr rechenintensiv sind, können gerade ältere Geräte diese meist nicht in Echtzeit ausführen.
Feit: Trotz dieser Herausforderungen ist zu erwarten, dass die Sprachsynthese auch im Bereich virtueller Assistenten in den kommenden Jahren immer besser wird. Zumal ein Großteil der Forschung sich momentan um das Auffinden von immer effizienteren Trainingsmethoden dreht.
Wo liegen Eurer Meinung nach die größten Potenziale beim Einsatz von KI im Audio-Bereich?
Feit: Die Einführung von KI-Technologie in den Audio-Bereich hat das Potenzial, die Effizienz und die kreativen Möglichkeiten deutlich zu erweitern. Einerseits ermöglicht die Automatisierung von bestimmten technischen Prozessen, wie dem Herausfiltern von Hintergrundgeräuschen oder die Feinabstimmung von Audiospuren, sich mehr auf die subtilen kreativen Aspekte ihrer Arbeit zu konzentrieren. Diese Effizienzsteigerung reduziert den manuellen Aufwand und gibt mehr Raum für Innovation. Andererseits bietet die fortschreitende Sprachsynthese die Möglichkeit, aus einer Vielzahl von künstlichen Stimmen auszuwählen, die entweder als solche verwendet oder nach Bedarf modifiziert werden können. Dies eröffnet enorme Möglichkeiten, insbesondere im Hinblick auf Projekte, die eine ganz bestimmte Klangqualität oder Stimmcharakteristik benötigen. Die Fähigkeit, diese Stimmen präzise anzupassen oder sogar von Grund auf maßgeschneidert zum Projekt neu zu kreieren, ist ein großer Vorteil.
García: So verschmilzt durch die KI-Technologie auch die Grenze zwischen Technologie und Kunst. Damit können wir neue kreative Horizonte erforschen und den Audiobereich kontinuierlich weiterentwickeln. Grundsätzlich denken wir aber, dass es zwar für all das Tools geben wird, was sich nach Fließbandarbeit anfühlt. Der Mensch und das Handwerk werden jedoch in allen Bereichen essenziell bleiben, in denen es gilt, eine bestimmte Ästhetik zu bedienen.
Plattformen wie Spotify werden inzwischen von KI-generierter Musik nahezu geflutet. Mit welchen Entwicklungen rechnet ihr in diesem Bereich?
Feit: KI wird sicherlich eine bedeutende Rolle in der Musikindustrie der Zukunft spielen. Mit der Flut von KI-generierter Musik wird aber auch die Beliebigkeit der Stücke zunehmen. Aber es geht ja oft nicht nur um die Musik, sondern auch um den KünstlerInnen. Auch wenn es in Zukunft vollständig KI-generierte Artists geben wird, sind wir uns sicher, dass die Faktoren Mensch und Qualität weiterhin eine Rolle spielen – und die werden in absehbarer Zeit noch nicht von einer Maschine erreicht bzw. ersetzt. Schließlich geht es ja nicht nur darum, Töne aneinanderzureihen und Melodien zu erzeugen, sondern eben auch um das Einfangen menschlicher Emotionen und Erfahrungen.
García: Eher ist davon auszugehen, dass MusikerInnen KI zunehmend als kreatives Werkzeug nutzen, um Ideen schneller auszuarbeiten oder Inspiration für neue Stücke zu finden. Ein wichtiger Aspekt ist zudem die rechtliche Dimension: Mit dem Aufkommen von KI-generierter Musik werden neue Fragen im Bereich des Urheberrechts auftreten. Wer hält zum Beispiel die Rechte an einem von einer KI erstellten Musikstück? Und wie wird mit Situationen umgegangen, in denen eine von KI geschaffene Melodie einem menschlich komponierten Stück ähnelt?
In Hollywood haben die Schauspieler gestreikt, auch weil sie Angst vor KI haben. Wird KI bald die Synchronsprecher ersetzen?
García: Um nicht vom internationalen Markt überrollt zu werden, ist es für die Branche extrem wichtig, selbst zu reagieren und eigene Systeme und Lösungen zu entwickeln. Denn klar, es gibt bereits einige Projekte, die sich mit der KI-basierten Synchronisation befassen. Dieser Ansatz bietet aus Sicht der Industrie viele Vorteile: Wenn ein Schauspieler mit seiner eigenen Stimme in andere Sprachen übersetzt und synchronisiert wird, kann sich daraus ein zeitlicher und wirtschaftlicher Vorteil ergeben. Auch für RezipientInnen ist das Erlebnis, SchauspielerInnen selbst mit ihrer „echten” Stimme in der jeweiligen Muttersprache zu hören, ein anderes. Dem gegenüber stehen zum Glück aber auch Gewerkschaften und Verbände, die sich für die Rechte der SchauspielerInnen, DrehbuchautorInnen und auch SynchronsprecherInnen einsetzen. Grundsätzlich ist es aber so, dass es bestimmte Aspekte menschlicher Kommunikation und Emotion gibt, die schwer zu automatisieren sind. Beim traditionellen Synchronisieren werden nicht nur Worte übersetzt, sondern auch emotionale Nuancen, Kulturkontext und oft subtile, sprachspezifische Humorformen, die an das das jeweilige Publikum angepasst werden sollten. Menschliche SprecherInnen bringen eigene Interpretationen und Emotionen in die Darstellung ein, die eine KI möglicherweise nicht replizieren kann.
Feit: Technologische Fortschritte könnten jedoch dazu führen, dass KI-Systeme in Zukunft immer besser darin werden, menschliche Emotionen und Nuancen in der Sprache zu erkennen und wiederzugeben. Es könnte also Bereiche geben, in denen KI-gestützte Synchronisation vorteilhaft ist, während in anderen Bereichen der menschliche „Touch” weiterhin unerlässlich bleibt.
Könnte der Einsatz von KI im Audiobereich dazu führen, dass mehr Unternehmen über eine akustische Markenidentität nachdenken?
García: Ja, der Einsatz von KI im Audiobereich hat das Potenzial, das Interesse von Unternehmen an einer akustischen Markenidentität zu steigern. Zum einen erleichtert und beschleunigt KI die Produktion von Audioinhalten. Das erlaubt es Unternehmen, konsistent über diverse Plattformen hinweg zu agieren. Zusätzlich ermöglichen fortschrittliche Algorithmen eine Echtzeit-Personalisierung von Audioinhalten. Dadurch kann ein maßgeschneidertes Klangerlebnis für einzelne BenutzerInnen oder Zielgruppen geschaffen werden. Dabei bietet KI auch wertvolle Analysetools, um die Effektivität des Audio-Brandings zu optimieren. Zum anderen kann die kosteneffiziente KI-Produktion von Audioinhalten auch kleinere Unternehmen ermutigen, hier zu investieren und Audio Branding in ihre Markenstrategie aufzunehmen.
Feit: Allerdings kann mit der Entwicklung auch eine große Gleichmacherei einhergehen. So wie im Film fast jede quietschende Tür gleich klingt. In einer Welt, die sich klanglich immer mehr angleicht, sollten ein überzeugender Corporate Sound und eine akustische Markenidentität mit Wiedererkennungswert deswegen umso individueller sein – außergewöhnlich, einzigartig, vielleicht sogar künstlerisch. Wir haben die Chance, wieder zu überraschen und Sachen anders zu machen, unverwechselbar. Wenn wir diesen Sound gefunden haben, kann KI uns wiederum in der Produktion helfen, ihn zu multiplizieren, für alle verschiedene Medienformate aufzubereiten, weiterzuentwickeln und an verschiedenen Touchpoints zu inszenieren. Für Unternehmen mit einer starken klanglichen Identität wird KI auch besonders interessant, wenn es um die Internationalisierung von Inhalten geht.
Das Interview führte Helmut van Rinsum
Philipp Feit ist der Chief Creative Officer bei der Audio Agentur German Wahnsinn. Er ist Experte für immersiven Sound, auditive Markenführung und dynamisches Storytelling. Philipp berät Marken und Agenturen bei allen Fragen rund um Audio-Kreationen und realisiert ihre Kampagnen im agentureigenen Tonstudiokomplex auf dem Hamburger Kiez. Zudem ist er regelmäßig an der Entwicklung neuer Audio-Technologien beteiligt.
Euardo García ist bei German Wahnsinn Tonmeister, Musikproduzent und geschäftsführender Gesellschafter. Seine kreativen Leistungen im Bereich der Musik-, Hörbuch- und Werbeproduktion wurden mehrfach ausgezeichnet. Mit der Bestsellerautorin Cornelia Funke gründete er 2015 das Hörbuchlabel Atmende Bücher.
Weitere Interviews:
Thomas Mosch: KI produziert noch kreativen Durchschnitt
Cornelia Krebs: Kann eine KI Emotionen erkennen?
Cesar Romero Pose: AI-Film – Netlifx für KI-Filme
Sprach-KIs haben in den vergangenen Monaten extreme Fortschritte erzielt, so dass sogar Synchronsprecher und Schauspieler um ihre Jobs fürchten. Was bedeutet diese Entwicklung für die Audio-Branche? Mehr Kreativität? Oder wächst uns da was über den Kopf? Ein Gespräch mit Philipp Feit (links) und Eduardo García (Foto: Tim Ohnesorge) von der Audio Agentur German Wahnsinn in Hamburg (Fotos: German Wahnsinn, Tim Ohnesorge).
Sprach-KI-Systeme sind schon seit Jahren bekannt, Stichwort Siri oder Alexa. Welche Fortschritte haben sie seitdem gemacht?
Eduardo García: Im Bereich der Sprachsynthese haben sich in den letzten Jahren erhebliche Fortschritte ergeben. In den Anfangsjahren setzten Sprach-KI-Systeme hauptsächlich auf die Methode der „Unit Selection Synthesis". Dabei werden vorab aufgenommene Spracheinheiten – wie Phoneme, Silben oder ganze Wörter – aus einer großen Datenbank ausgewählt und zusammengefügt, um Sätze zu bilden. Dies führte zu einer akzeptablen, aber oft noch recht künstlichen Klangqualität. Insbesondere die Nachbildung einer natürlichen Sprachmelodie stellte dabei aber ein großes Problem dar.
Und heute?
Philipp Feit: Die Technologie hat sich inzwischen erheblich weiterentwickelt. Sprach-KI-Systeme setzen heute zunehmend auf fortschrittliche neuronale Netzwerkmodelle, die eine tiefere Verarbeitung von Sprache ermöglichen und in der Lage sind, natürlichere Stimmen zu erzeugen. Dazu „lernen” diese Modelle anhand großer Datensätze, die aufgenommene Sprache sowie deren Transkription enthalten, Sprache und Stimme nachzubilden. Sie basieren auf „echter" Synthese, wobei neuronale Netzwerke die Sprache generieren, anstatt vorgefertigte Einheiten auszuwählen. Dies führt zu einer besseren Nachbildung natürlicher Sprachmelodien. Damit wird die Stimme als weniger künstlich empfunden und es wird möglich, Text beispielsweise in verschiedenen Sprachen mit derselben Stimme zu synthetisieren. Ein weiterer Vorteil ist, dass aktuelle Systeme, nachdem sie einmal mit einer großen Datenmenge trainiert worden sind, mit relativ wenig Daten neue Stimmen „hinzulernen” können.
Wenn wir mit virtuellen Assistenten sprechen, klingt deren Stimme häufig dennoch recht künstlich. Technisch wäre demnach doch viel mehr drin…
García: Ein bedeutender Faktor für das künstliche Klingen dieser KI-Stimmen ist die fehlende Prosodie, also die Melodie, Betonung und der Rhythmus der Sprache. Menschen kommunizieren mit einer bestimmten Prosodie, die oft Kontextinformationen oder emotionale Hinweise liefert. So können wir durch unterschiedliche Betonung einem Satz ganz verschiedene Bedeutungen geben. Auch wenn technisch große Fortschritte erzielt wurden, tun sich KI-Systeme häufig noch schwer, die richtige Prosodie für einen gegebenen Kontext zu erzeugen. Das führt häufig zu einer monotonen oder unangemessenen Betonung. Außerdem besteht für virtuelle Assistenten die Notwendigkeit, Antworten möglichst schnell bereitzustellen. In vielen Fällen wird daher zulasten von Qualität und Natürlichkeit auf eine schnellere Methode der Spracherzeugung zurückgegriffen. Auch Hardwarebeschränkungen können eine Rolle spielen. Da neue Sprachsynthese-Modelle oft sehr rechenintensiv sind, können gerade ältere Geräte diese meist nicht in Echtzeit ausführen.
Feit: Trotz dieser Herausforderungen ist zu erwarten, dass die Sprachsynthese auch im Bereich virtueller Assistenten in den kommenden Jahren immer besser wird. Zumal ein Großteil der Forschung sich momentan um das Auffinden von immer effizienteren Trainingsmethoden dreht.
Wo liegen Eurer Meinung nach die größten Potenziale beim Einsatz von KI im Audio-Bereich?
Feit: Die Einführung von KI-Technologie in den Audio-Bereich hat das Potenzial, die Effizienz und die kreativen Möglichkeiten deutlich zu erweitern. Einerseits ermöglicht die Automatisierung von bestimmten technischen Prozessen, wie dem Herausfiltern von Hintergrundgeräuschen oder die Feinabstimmung von Audiospuren, sich mehr auf die subtilen kreativen Aspekte ihrer Arbeit zu konzentrieren. Diese Effizienzsteigerung reduziert den manuellen Aufwand und gibt mehr Raum für Innovation. Andererseits bietet die fortschreitende Sprachsynthese die Möglichkeit, aus einer Vielzahl von künstlichen Stimmen auszuwählen, die entweder als solche verwendet oder nach Bedarf modifiziert werden können. Dies eröffnet enorme Möglichkeiten, insbesondere im Hinblick auf Projekte, die eine ganz bestimmte Klangqualität oder Stimmcharakteristik benötigen. Die Fähigkeit, diese Stimmen präzise anzupassen oder sogar von Grund auf maßgeschneidert zum Projekt neu zu kreieren, ist ein großer Vorteil.
García: So verschmilzt durch die KI-Technologie auch die Grenze zwischen Technologie und Kunst. Damit können wir neue kreative Horizonte erforschen und den Audiobereich kontinuierlich weiterentwickeln. Grundsätzlich denken wir aber, dass es zwar für all das Tools geben wird, was sich nach Fließbandarbeit anfühlt. Der Mensch und das Handwerk werden jedoch in allen Bereichen essenziell bleiben, in denen es gilt, eine bestimmte Ästhetik zu bedienen.
Plattformen wie Spotify werden inzwischen von KI-generierter Musik nahezu geflutet. Mit welchen Entwicklungen rechnet ihr in diesem Bereich?
Feit: KI wird sicherlich eine bedeutende Rolle in der Musikindustrie der Zukunft spielen. Mit der Flut von KI-generierter Musik wird aber auch die Beliebigkeit der Stücke zunehmen. Aber es geht ja oft nicht nur um die Musik, sondern auch um den KünstlerInnen. Auch wenn es in Zukunft vollständig KI-generierte Artists geben wird, sind wir uns sicher, dass die Faktoren Mensch und Qualität weiterhin eine Rolle spielen – und die werden in absehbarer Zeit noch nicht von einer Maschine erreicht bzw. ersetzt. Schließlich geht es ja nicht nur darum, Töne aneinanderzureihen und Melodien zu erzeugen, sondern eben auch um das Einfangen menschlicher Emotionen und Erfahrungen.
García: Eher ist davon auszugehen, dass MusikerInnen KI zunehmend als kreatives Werkzeug nutzen, um Ideen schneller auszuarbeiten oder Inspiration für neue Stücke zu finden. Ein wichtiger Aspekt ist zudem die rechtliche Dimension: Mit dem Aufkommen von KI-generierter Musik werden neue Fragen im Bereich des Urheberrechts auftreten. Wer hält zum Beispiel die Rechte an einem von einer KI erstellten Musikstück? Und wie wird mit Situationen umgegangen, in denen eine von KI geschaffene Melodie einem menschlich komponierten Stück ähnelt?
In Hollywood haben die Schauspieler gestreikt, auch weil sie Angst vor KI haben. Wird KI bald die Synchronsprecher ersetzen?
García: Um nicht vom internationalen Markt überrollt zu werden, ist es für die Branche extrem wichtig, selbst zu reagieren und eigene Systeme und Lösungen zu entwickeln. Denn klar, es gibt bereits einige Projekte, die sich mit der KI-basierten Synchronisation befassen. Dieser Ansatz bietet aus Sicht der Industrie viele Vorteile: Wenn ein Schauspieler mit seiner eigenen Stimme in andere Sprachen übersetzt und synchronisiert wird, kann sich daraus ein zeitlicher und wirtschaftlicher Vorteil ergeben. Auch für RezipientInnen ist das Erlebnis, SchauspielerInnen selbst mit ihrer „echten” Stimme in der jeweiligen Muttersprache zu hören, ein anderes. Dem gegenüber stehen zum Glück aber auch Gewerkschaften und Verbände, die sich für die Rechte der SchauspielerInnen, DrehbuchautorInnen und auch SynchronsprecherInnen einsetzen. Grundsätzlich ist es aber so, dass es bestimmte Aspekte menschlicher Kommunikation und Emotion gibt, die schwer zu automatisieren sind. Beim traditionellen Synchronisieren werden nicht nur Worte übersetzt, sondern auch emotionale Nuancen, Kulturkontext und oft subtile, sprachspezifische Humorformen, die an das das jeweilige Publikum angepasst werden sollten. Menschliche SprecherInnen bringen eigene Interpretationen und Emotionen in die Darstellung ein, die eine KI möglicherweise nicht replizieren kann.
Feit: Technologische Fortschritte könnten jedoch dazu führen, dass KI-Systeme in Zukunft immer besser darin werden, menschliche Emotionen und Nuancen in der Sprache zu erkennen und wiederzugeben. Es könnte also Bereiche geben, in denen KI-gestützte Synchronisation vorteilhaft ist, während in anderen Bereichen der menschliche „Touch” weiterhin unerlässlich bleibt.
Könnte der Einsatz von KI im Audiobereich dazu führen, dass mehr Unternehmen über eine akustische Markenidentität nachdenken?
García: Ja, der Einsatz von KI im Audiobereich hat das Potenzial, das Interesse von Unternehmen an einer akustischen Markenidentität zu steigern. Zum einen erleichtert und beschleunigt KI die Produktion von Audioinhalten. Das erlaubt es Unternehmen, konsistent über diverse Plattformen hinweg zu agieren. Zusätzlich ermöglichen fortschrittliche Algorithmen eine Echtzeit-Personalisierung von Audioinhalten. Dadurch kann ein maßgeschneidertes Klangerlebnis für einzelne BenutzerInnen oder Zielgruppen geschaffen werden. Dabei bietet KI auch wertvolle Analysetools, um die Effektivität des Audio-Brandings zu optimieren. Zum anderen kann die kosteneffiziente KI-Produktion von Audioinhalten auch kleinere Unternehmen ermutigen, hier zu investieren und Audio Branding in ihre Markenstrategie aufzunehmen.
Feit: Allerdings kann mit der Entwicklung auch eine große Gleichmacherei einhergehen. So wie im Film fast jede quietschende Tür gleich klingt. In einer Welt, die sich klanglich immer mehr angleicht, sollten ein überzeugender Corporate Sound und eine akustische Markenidentität mit Wiedererkennungswert deswegen umso individueller sein – außergewöhnlich, einzigartig, vielleicht sogar künstlerisch. Wir haben die Chance, wieder zu überraschen und Sachen anders zu machen, unverwechselbar. Wenn wir diesen Sound gefunden haben, kann KI uns wiederum in der Produktion helfen, ihn zu multiplizieren, für alle verschiedene Medienformate aufzubereiten, weiterzuentwickeln und an verschiedenen Touchpoints zu inszenieren. Für Unternehmen mit einer starken klanglichen Identität wird KI auch besonders interessant, wenn es um die Internationalisierung von Inhalten geht.
Das Interview führte Helmut van Rinsum
Philipp Feit ist der Chief Creative Officer bei der Audio Agentur German Wahnsinn. Er ist Experte für immersiven Sound, auditive Markenführung und dynamisches Storytelling. Philipp berät Marken und Agenturen bei allen Fragen rund um Audio-Kreationen und realisiert ihre Kampagnen im agentureigenen Tonstudiokomplex auf dem Hamburger Kiez. Zudem ist er regelmäßig an der Entwicklung neuer Audio-Technologien beteiligt.
Euardo García ist bei German Wahnsinn Tonmeister, Musikproduzent und geschäftsführender Gesellschafter. Seine kreativen Leistungen im Bereich der Musik-, Hörbuch- und Werbeproduktion wurden mehrfach ausgezeichnet. Mit der Bestsellerautorin Cornelia Funke gründete er 2015 das Hörbuchlabel Atmende Bücher.
Weitere Interviews:
Thomas Mosch: KI produziert noch kreativen Durchschnitt
Cornelia Krebs: Kann eine KI Emotionen erkennen?
Cesar Romero Pose: AI-Film – Netlifx für KI-Filme
Trending
Newsletter
Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.
Schließe Dich den 1.500+ Abonnenten an, kostenlos.
Trending
Newsletter
Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.
Schließe Dich den 1.500+ Abonnenten an, kostenlos.
Trending
Newsletter
Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.
Schließe Dich den 1.500+ Abonnenten an, kostenlos.