„Standardstimmen sind keine Herausforderung mehr“

Interview

5 Minuten

05.01.2022

Portrait von Bernd Korz

Das deutsche Softwareunternehmen alugha ist darauf spezialisiert, Onlinevideos in mehrsprachige Formate umzuwandeln. Mit der Technologie können so ziemlich alle Sprachen der Welt in einem einzigen Video vereint werden. Ein Gespräch mit Unternehmensgründer Bernd Korz über die Rolle von Künstlicher Intelligenz, Pläne mit Neural Voices und die Gefahr des Voice Cloning.

Herr Korz, Sie haben inzwischen Tausende Kunden im B2B-Bereich, darunter auch große Unternehmen wie John Deere. Welche Tools von alugha werden von ihnen in erster Linie eingesetzt?

Bernd Korz: Wir haben Kunden weltweit. Einige nutzen alugha sehr intensiv, andere für einzelne Projekte. Trimble macht zum Beispiel alle Schulungsvideos für ihre Produkte mit alugha. Cohu aus den USA nutzen unsere Tools, um alle Mitarbeiter global zu erreichen. Besonders der dubbr – unser Kernstück der Multilingualisierung – wird stark genutzt. Dort wird mit unseren unterschiedlichen KI-Systemen transkribiert, übersetzt und bei Bedarf auch Text To Speech (TTS) erledigt.

Wie sieht der Arbeitsablauf für die Kunden aus?

Korz: Man lädt sein Video auf die alugha Plattform, dann reichert man es mit relevanten Metadaten an, wie beispielsweise Koordinaten, Kategorien, Tags, Thumbnails, Titel, Beschreibung oder Originalsprache des Videos. Anschließend legt man die Sprecher und Stimmen fest und lässt die KI drüber laufen. Damit hat man schon ein komplettes Transkript, inklusive Satzzeichen und Segmentierung für jede einzelne Stimme. Danach bestimmt man seine neue Sprache und sofort werden sowohl die Metadaten als auch das gesamte Transkript in ebendiese übersetzt. Auch hier bietet unsere KI bereits sehr viel, jedoch empfehlen wir unseren Nutzern, die Collaboration Funktion zu nutzen und Muttersprachler: in das Projekt einzuladen und das Ergebnis zu verfeinern. Man kann noch einen Schritt weitergehen und entweder unsere KI mit verschiedenen Stimmen das Video wieder einsprechen lassen oder Collaborator zu nutzen, um Menschen sehr schnell das Video mit einer Voice Over aufzunehmen.

Sie bieten Übersetzungen in über 30 Sprachen an, darunter auch verschiedene arabische Dialekte. Wie kompliziert war es, eine entsprechende Datenbank aufzubauen?

Korz: Hier hatten wir das Henne-Ei-Problem. Wir waren sehr klein und hatten keine eigenen Daten. Dazu kam, dass man uns als Videoplattform wenig wahrgenommen hatte und wir sehr aufwändig eigenen Content produziert hatten. Wir fingen an, Videocontent von Drittanbietern einzukaufen, um unser Wachstum etwas zu beschleunigen. Wir begannen mit Tools von Adobe und anderen, die Videos zu transkribieren, neu aufzunehmen und dann über die alugha Plattform mehrsprachig zu verteilen. Relativ schnell wurde uns klar, dass der aktuelle Weg sehr aufwändig ist und wir da eine Lösung benötigen. Wir fingen an, die erste Version des dubbr zu bauen, um die Transkripte und Aufnahmen in einer Cloud aufnehmen zu können.

Nach einer Weile kam da so einiges an Videos und Sprachen zusammen. Unsere Untertitel, die wir automatisch aus den Transkripten gewannen, waren richtig gut, besser als von jeder anderen Plattform und das gefiel uns! Wir optimierten den dubbr immer weiter. Die Aufnahmen wurden segmentbasierend ohne Hintergrund aufgenommen – direkt im Browser, sauber und klar mit perfekten Texten. Nachdem wir an die 1000 Videos in fünf, zehn, zwanzig und teilweise mehr Sprachen gemacht hatten, überlegten wir uns, wie wir diese Daten nutzen könnten.

War das der Zeitpunkt, zu dem Sie überlegten, Künstlicher Intelligenz einzusetzen?

Korz: Ja, wir suchten nach Lösungen. Warum also keine KI aufbauen? Die Qualität der KI hängt in vielen Belangen von den Daten ab und die waren ja schon da. Parallel zur Wachstumsstrategie der Plattform selbst beschlossen wir also, den Bereich KI zu erweitern. Zunächst war uns Speech To Text wichtig. Da wir abgeschlossene Segmente haben und diese sauber in diverse andere Sprachen übersetzt wurden, konnten wir den nächsten Schritt wagen: die automatische Übersetzung. Im August dieses Jahres waren wir so weit und haben mit Text-to-Speech den Kreislauf in der ersten kompletten Version geschlossen. Mittlerweile sind wir dabei, mit all den Aufnahmen unsere TTS-KI zu trainieren und in sehr naher Zukunft Neural Voices für viele Sprachen anzubieten.

Sprachen ändern sich. Wie wird die KI trainiert?

Korz: Sprachen unterliegen einem – ich würde fast sagen – wöchentlichen Wandel. Natürlich reden wir hier von Feinheiten, aber durch die Globalisierung und das Internet haben wir, besonders in Deutschland, einen teilweise unerträglichen Anglizismus erfahren. Aber Sprache muss natürlich leben und wir adaptieren von überall oder erfinden Worte. Derzeit sind wir dabei, die KI mit den Video-Metadaten zu verknüpfen, um so weitere Eingrenzungen vornehmen zu können. In festgelegten Abständen wird die KI immer wieder trainiert und wir überprüfen die Ergebnisse.

An Speech to Text hat man sich inzwischen fast gewöhnt. Text to Speech ist derzeit noch so etwas wie ein Rohdiamant im Bereich der KI-Anwendungen. Wie weit sind die Entwicklungen?

Korz: Wir haben Stand heute etwa 10.000 Videos mit Audiospuren in unterschiedlichsten Sprachen angereichert und machen das auch täglich aufs Neue. Standardstimmen sind dank vieler Pionierarbeit anderer Anbieter keine große Herausforderung mehr. Spannend wird es, wenn die Stimmen echt menschlich klingen sollen. Wir haben in einem Video oft mehrere Stimmen, die sehr unterschiedlich klingen. Von Anfang an haben wir bereits versucht, mit relevanten Metadaten die Stimmen zu klassifizieren, zum Beispiel maskulin, feminin, kindlich oder älter. Während ich dieses Interview gebe, rennen unsere KI-Server im Kämmerlein und trainieren die Stimmen. In Kürze werden wir damit beginnen, die neuralen Stimmen mit den Standardstimmen im dubbr auszutauschen. Sprache für Sprache, Stimme für Stimme.

Alleine der Bereich KI für TTS hat viele Monate Zeit in Anspruch genommen. Viel Hirnschmalz, viel Programmierung, Server, Hardware – auch das lagern wir nicht auf irgendwelche US-Server oder zu Google aus. Wenn man überlegt, wie viel Vorarbeit wir geleistet haben, um die Daten zu erstellen... Sehr viele tausende von Arbeitsstunden sind in dieses Projekt geflossen und das Made in Germany!

Ein sehr aktuelles Thema ist auch Live-Dubbing, also gewissermaßen die automatisierte Simultanübersetzung. Wann wird es entsprechende Angebote am Markt geben?

Korz: Mein Sohn Niklas hat damals seine Bachelor-Arbeit zum Thema "Live-Streaming auf alugha" geschrieben. Er hat neben der Arbeit auch gleich einen Prototypen geliefert, den wir intern genutzt haben. Damals war es aber nur eine Studie und es war eine Kombi aus multilingualem Livestreaming sowie dem multilingualen alugha Player. Mittlerweile können wir auf einen spannenden Datensatz zurückgreifen, was Speech To Text und die Übersetzung angeht. TTS schließt den Kreis. Der nächste Schritt ist jetzt Livetranskription, dann Übersetzung und dann Livedubbing. In den nächsten Monaten werden wir hier einiges zeigen können.

Auf Dolmetscher kommen damit schwierige Zeiten zu….

Korz: Wir sehen uns nicht als Ersatz, wir sehen uns als die perfekte Ergänzung. Man schreibt heute nicht weniger, nur weil es keine Schreibmaschinen mehr gibt. Wer jedoch nicht mit der Zeit geht, wird zwangsweise irgendwann auf der Strecke bleiben. Wir haben einige Übersetzungsbüros und Dubbingstudios, die gezielt den alugha dubbr nutzen, um kostengünstiger und wesentlich schneller den Kunden zu beliefern.

Längst lassen sich auch Stimmen klonen, womit allerdings auch einige Gefahren verbunden sind. Theoretisch könnte man über Voice Cloning mit der Stimme eines Politikers bei einem anderen Politiker anrufen und so bewusst eine Krise auslösen. Mit welchen Mechanismen lassen sich solche Szenarien verhindern?

Korz: Die kurze Antwort ist: Gar nicht. Es wird ein irrer Aufwand betrieben, um Videos kopiergeschützt zu halten und was bringt es? Musik Kopierschutz, DRM... Für mich persönlich ist das ein "Wohlfühlmechanismus", um ein wenig ruhiger schlafen zu können.

Generell ist es so, dass wir die Stimmen, die man bekommt, mit unserer KI selbst trainieren. Wir werden jedoch anbieten, dass man seine eigene Stimme mit denen im dubbr aufgenommenen Segmenten trainieren und die dann als TTS für seine Videos nutzen kann. Es ist nicht geplant, dass man diese Stimmen dann aus dem dubbr system extrahieren und woanders nutzen kann. Neben diesen Einschränkungen gibt es noch einige interne Sachen, die wir planen, um das Ganze rechtlich sicherer zu machen.

Ihr Start-up genießt auch im Ausland einen guten Ruf. Wie kommt es, dass ein Unternehmen aus Mannheim sich mit einer Geschäftsidee durchsetzt, die nicht aus dem Silicon Valley kommt?

Korz: Das war sehr, sehr viel Arbeit. Wir sind sehr viel unterwegs, nutzen jede Chance, alugha vor Ort zu zeigen, sprechen mit Kunden, geben hervorragenden persönlichen Support, nutzen unser Netzwerk und Kontakte aktiv. Wir entwickeln alugha sehr agil und kundenorientiert und sind selbst sehr exzessive Nutzer. Letzteres mag im ersten Moment etwas sonderbar klingen. Aber in der Tat haben wir dadurch jeden Tag selbst lernen können, wie wir unsere eigene Zeit besser einsetzen können in dem der dubbr vieles für uns übernimmt.

Welche weiteren Pläne haben Sie mit alugha?

Korz: An einigem arbeiten wir ja bereits sehr aktiv, beispielsweise dem Thema Live-Streaming oder Voice Cloning. Anderes ist auf der Agenda wie Emotion Cloning, Voice Extraction und Audiorestauration. Das sind natürlich alles naheliegende und offensichtliche Projekte und Weiterentwicklungen, die sicherlich jedes Unternehmen in der Branche und mit unserem Wissen ebenso in den Topf werfen würde. Daneben sind noch einige Nettigkeiten, die wir in der Planung haben und die vielen Menschen viel Arbeit, Zeit und Ressourcen sparen werden.

Das Interview führte Helmut van Rinsum

Bernd Korz, Jahrgang 1969, absolvierte zunächst eine Ausbildung zum Spezialbetonbauer und Techniker. Er managte er zahlreiche Musiker:innen aus Deutschland und New York und produzierte nebenbei Erklärvideos auf YouTube. Zusammen mit seinem Sohn Niklas entwickelte er ein Feature, um die Sprache bei den Videos wie bei einer DVD umschalten zu können. 2014 wurde alugha offiziell als GmbH gegründet und hat heute weltweit über 7000 B2B Kunden.

Weitere Interviews:
Jennifer Dorman: Warum Machine Learning verzerrte Rollenbilder begünstigt
Theo Steininger: „Erstmal Überblick über die Daten verschaffen“
Henrik Roth: Eine neue Zeitrechnung des Marketing

„Standardstimmen sind keine Herausforderung mehr“

Interview

5 Minuten

05.01.2022

Portrait von Bernd Korz

Das deutsche Softwareunternehmen alugha ist darauf spezialisiert, Onlinevideos in mehrsprachige Formate umzuwandeln. Mit der Technologie können so ziemlich alle Sprachen der Welt in einem einzigen Video vereint werden. Ein Gespräch mit Unternehmensgründer Bernd Korz über die Rolle von Künstlicher Intelligenz, Pläne mit Neural Voices und die Gefahr des Voice Cloning.

Herr Korz, Sie haben inzwischen Tausende Kunden im B2B-Bereich, darunter auch große Unternehmen wie John Deere. Welche Tools von alugha werden von ihnen in erster Linie eingesetzt?

Bernd Korz: Wir haben Kunden weltweit. Einige nutzen alugha sehr intensiv, andere für einzelne Projekte. Trimble macht zum Beispiel alle Schulungsvideos für ihre Produkte mit alugha. Cohu aus den USA nutzen unsere Tools, um alle Mitarbeiter global zu erreichen. Besonders der dubbr – unser Kernstück der Multilingualisierung – wird stark genutzt. Dort wird mit unseren unterschiedlichen KI-Systemen transkribiert, übersetzt und bei Bedarf auch Text To Speech (TTS) erledigt.

Wie sieht der Arbeitsablauf für die Kunden aus?

Korz: Man lädt sein Video auf die alugha Plattform, dann reichert man es mit relevanten Metadaten an, wie beispielsweise Koordinaten, Kategorien, Tags, Thumbnails, Titel, Beschreibung oder Originalsprache des Videos. Anschließend legt man die Sprecher und Stimmen fest und lässt die KI drüber laufen. Damit hat man schon ein komplettes Transkript, inklusive Satzzeichen und Segmentierung für jede einzelne Stimme. Danach bestimmt man seine neue Sprache und sofort werden sowohl die Metadaten als auch das gesamte Transkript in ebendiese übersetzt. Auch hier bietet unsere KI bereits sehr viel, jedoch empfehlen wir unseren Nutzern, die Collaboration Funktion zu nutzen und Muttersprachler: in das Projekt einzuladen und das Ergebnis zu verfeinern. Man kann noch einen Schritt weitergehen und entweder unsere KI mit verschiedenen Stimmen das Video wieder einsprechen lassen oder Collaborator zu nutzen, um Menschen sehr schnell das Video mit einer Voice Over aufzunehmen.

Sie bieten Übersetzungen in über 30 Sprachen an, darunter auch verschiedene arabische Dialekte. Wie kompliziert war es, eine entsprechende Datenbank aufzubauen?

Korz: Hier hatten wir das Henne-Ei-Problem. Wir waren sehr klein und hatten keine eigenen Daten. Dazu kam, dass man uns als Videoplattform wenig wahrgenommen hatte und wir sehr aufwändig eigenen Content produziert hatten. Wir fingen an, Videocontent von Drittanbietern einzukaufen, um unser Wachstum etwas zu beschleunigen. Wir begannen mit Tools von Adobe und anderen, die Videos zu transkribieren, neu aufzunehmen und dann über die alugha Plattform mehrsprachig zu verteilen. Relativ schnell wurde uns klar, dass der aktuelle Weg sehr aufwändig ist und wir da eine Lösung benötigen. Wir fingen an, die erste Version des dubbr zu bauen, um die Transkripte und Aufnahmen in einer Cloud aufnehmen zu können.

Nach einer Weile kam da so einiges an Videos und Sprachen zusammen. Unsere Untertitel, die wir automatisch aus den Transkripten gewannen, waren richtig gut, besser als von jeder anderen Plattform und das gefiel uns! Wir optimierten den dubbr immer weiter. Die Aufnahmen wurden segmentbasierend ohne Hintergrund aufgenommen – direkt im Browser, sauber und klar mit perfekten Texten. Nachdem wir an die 1000 Videos in fünf, zehn, zwanzig und teilweise mehr Sprachen gemacht hatten, überlegten wir uns, wie wir diese Daten nutzen könnten.

War das der Zeitpunkt, zu dem Sie überlegten, Künstlicher Intelligenz einzusetzen?

Korz: Ja, wir suchten nach Lösungen. Warum also keine KI aufbauen? Die Qualität der KI hängt in vielen Belangen von den Daten ab und die waren ja schon da. Parallel zur Wachstumsstrategie der Plattform selbst beschlossen wir also, den Bereich KI zu erweitern. Zunächst war uns Speech To Text wichtig. Da wir abgeschlossene Segmente haben und diese sauber in diverse andere Sprachen übersetzt wurden, konnten wir den nächsten Schritt wagen: die automatische Übersetzung. Im August dieses Jahres waren wir so weit und haben mit Text-to-Speech den Kreislauf in der ersten kompletten Version geschlossen. Mittlerweile sind wir dabei, mit all den Aufnahmen unsere TTS-KI zu trainieren und in sehr naher Zukunft Neural Voices für viele Sprachen anzubieten.

Sprachen ändern sich. Wie wird die KI trainiert?

Korz: Sprachen unterliegen einem – ich würde fast sagen – wöchentlichen Wandel. Natürlich reden wir hier von Feinheiten, aber durch die Globalisierung und das Internet haben wir, besonders in Deutschland, einen teilweise unerträglichen Anglizismus erfahren. Aber Sprache muss natürlich leben und wir adaptieren von überall oder erfinden Worte. Derzeit sind wir dabei, die KI mit den Video-Metadaten zu verknüpfen, um so weitere Eingrenzungen vornehmen zu können. In festgelegten Abständen wird die KI immer wieder trainiert und wir überprüfen die Ergebnisse.

An Speech to Text hat man sich inzwischen fast gewöhnt. Text to Speech ist derzeit noch so etwas wie ein Rohdiamant im Bereich der KI-Anwendungen. Wie weit sind die Entwicklungen?

Korz: Wir haben Stand heute etwa 10.000 Videos mit Audiospuren in unterschiedlichsten Sprachen angereichert und machen das auch täglich aufs Neue. Standardstimmen sind dank vieler Pionierarbeit anderer Anbieter keine große Herausforderung mehr. Spannend wird es, wenn die Stimmen echt menschlich klingen sollen. Wir haben in einem Video oft mehrere Stimmen, die sehr unterschiedlich klingen. Von Anfang an haben wir bereits versucht, mit relevanten Metadaten die Stimmen zu klassifizieren, zum Beispiel maskulin, feminin, kindlich oder älter. Während ich dieses Interview gebe, rennen unsere KI-Server im Kämmerlein und trainieren die Stimmen. In Kürze werden wir damit beginnen, die neuralen Stimmen mit den Standardstimmen im dubbr auszutauschen. Sprache für Sprache, Stimme für Stimme.

Alleine der Bereich KI für TTS hat viele Monate Zeit in Anspruch genommen. Viel Hirnschmalz, viel Programmierung, Server, Hardware – auch das lagern wir nicht auf irgendwelche US-Server oder zu Google aus. Wenn man überlegt, wie viel Vorarbeit wir geleistet haben, um die Daten zu erstellen... Sehr viele tausende von Arbeitsstunden sind in dieses Projekt geflossen und das Made in Germany!

Ein sehr aktuelles Thema ist auch Live-Dubbing, also gewissermaßen die automatisierte Simultanübersetzung. Wann wird es entsprechende Angebote am Markt geben?

Korz: Mein Sohn Niklas hat damals seine Bachelor-Arbeit zum Thema "Live-Streaming auf alugha" geschrieben. Er hat neben der Arbeit auch gleich einen Prototypen geliefert, den wir intern genutzt haben. Damals war es aber nur eine Studie und es war eine Kombi aus multilingualem Livestreaming sowie dem multilingualen alugha Player. Mittlerweile können wir auf einen spannenden Datensatz zurückgreifen, was Speech To Text und die Übersetzung angeht. TTS schließt den Kreis. Der nächste Schritt ist jetzt Livetranskription, dann Übersetzung und dann Livedubbing. In den nächsten Monaten werden wir hier einiges zeigen können.

Auf Dolmetscher kommen damit schwierige Zeiten zu….

Korz: Wir sehen uns nicht als Ersatz, wir sehen uns als die perfekte Ergänzung. Man schreibt heute nicht weniger, nur weil es keine Schreibmaschinen mehr gibt. Wer jedoch nicht mit der Zeit geht, wird zwangsweise irgendwann auf der Strecke bleiben. Wir haben einige Übersetzungsbüros und Dubbingstudios, die gezielt den alugha dubbr nutzen, um kostengünstiger und wesentlich schneller den Kunden zu beliefern.

Längst lassen sich auch Stimmen klonen, womit allerdings auch einige Gefahren verbunden sind. Theoretisch könnte man über Voice Cloning mit der Stimme eines Politikers bei einem anderen Politiker anrufen und so bewusst eine Krise auslösen. Mit welchen Mechanismen lassen sich solche Szenarien verhindern?

Korz: Die kurze Antwort ist: Gar nicht. Es wird ein irrer Aufwand betrieben, um Videos kopiergeschützt zu halten und was bringt es? Musik Kopierschutz, DRM... Für mich persönlich ist das ein "Wohlfühlmechanismus", um ein wenig ruhiger schlafen zu können.

Generell ist es so, dass wir die Stimmen, die man bekommt, mit unserer KI selbst trainieren. Wir werden jedoch anbieten, dass man seine eigene Stimme mit denen im dubbr aufgenommenen Segmenten trainieren und die dann als TTS für seine Videos nutzen kann. Es ist nicht geplant, dass man diese Stimmen dann aus dem dubbr system extrahieren und woanders nutzen kann. Neben diesen Einschränkungen gibt es noch einige interne Sachen, die wir planen, um das Ganze rechtlich sicherer zu machen.

Ihr Start-up genießt auch im Ausland einen guten Ruf. Wie kommt es, dass ein Unternehmen aus Mannheim sich mit einer Geschäftsidee durchsetzt, die nicht aus dem Silicon Valley kommt?

Korz: Das war sehr, sehr viel Arbeit. Wir sind sehr viel unterwegs, nutzen jede Chance, alugha vor Ort zu zeigen, sprechen mit Kunden, geben hervorragenden persönlichen Support, nutzen unser Netzwerk und Kontakte aktiv. Wir entwickeln alugha sehr agil und kundenorientiert und sind selbst sehr exzessive Nutzer. Letzteres mag im ersten Moment etwas sonderbar klingen. Aber in der Tat haben wir dadurch jeden Tag selbst lernen können, wie wir unsere eigene Zeit besser einsetzen können in dem der dubbr vieles für uns übernimmt.

Welche weiteren Pläne haben Sie mit alugha?

Korz: An einigem arbeiten wir ja bereits sehr aktiv, beispielsweise dem Thema Live-Streaming oder Voice Cloning. Anderes ist auf der Agenda wie Emotion Cloning, Voice Extraction und Audiorestauration. Das sind natürlich alles naheliegende und offensichtliche Projekte und Weiterentwicklungen, die sicherlich jedes Unternehmen in der Branche und mit unserem Wissen ebenso in den Topf werfen würde. Daneben sind noch einige Nettigkeiten, die wir in der Planung haben und die vielen Menschen viel Arbeit, Zeit und Ressourcen sparen werden.

Das Interview führte Helmut van Rinsum

Bernd Korz, Jahrgang 1969, absolvierte zunächst eine Ausbildung zum Spezialbetonbauer und Techniker. Er managte er zahlreiche Musiker:innen aus Deutschland und New York und produzierte nebenbei Erklärvideos auf YouTube. Zusammen mit seinem Sohn Niklas entwickelte er ein Feature, um die Sprache bei den Videos wie bei einer DVD umschalten zu können. 2014 wurde alugha offiziell als GmbH gegründet und hat heute weltweit über 7000 B2B Kunden.

Weitere Interviews:
Jennifer Dorman: Warum Machine Learning verzerrte Rollenbilder begünstigt
Theo Steininger: „Erstmal Überblick über die Daten verschaffen“
Henrik Roth: Eine neue Zeitrechnung des Marketing

„Standardstimmen sind keine Herausforderung mehr“

Interview

5 Minuten

05.01.2022

Portrait von Bernd Korz

Das deutsche Softwareunternehmen alugha ist darauf spezialisiert, Onlinevideos in mehrsprachige Formate umzuwandeln. Mit der Technologie können so ziemlich alle Sprachen der Welt in einem einzigen Video vereint werden. Ein Gespräch mit Unternehmensgründer Bernd Korz über die Rolle von Künstlicher Intelligenz, Pläne mit Neural Voices und die Gefahr des Voice Cloning.

Herr Korz, Sie haben inzwischen Tausende Kunden im B2B-Bereich, darunter auch große Unternehmen wie John Deere. Welche Tools von alugha werden von ihnen in erster Linie eingesetzt?

Bernd Korz: Wir haben Kunden weltweit. Einige nutzen alugha sehr intensiv, andere für einzelne Projekte. Trimble macht zum Beispiel alle Schulungsvideos für ihre Produkte mit alugha. Cohu aus den USA nutzen unsere Tools, um alle Mitarbeiter global zu erreichen. Besonders der dubbr – unser Kernstück der Multilingualisierung – wird stark genutzt. Dort wird mit unseren unterschiedlichen KI-Systemen transkribiert, übersetzt und bei Bedarf auch Text To Speech (TTS) erledigt.

Wie sieht der Arbeitsablauf für die Kunden aus?

Korz: Man lädt sein Video auf die alugha Plattform, dann reichert man es mit relevanten Metadaten an, wie beispielsweise Koordinaten, Kategorien, Tags, Thumbnails, Titel, Beschreibung oder Originalsprache des Videos. Anschließend legt man die Sprecher und Stimmen fest und lässt die KI drüber laufen. Damit hat man schon ein komplettes Transkript, inklusive Satzzeichen und Segmentierung für jede einzelne Stimme. Danach bestimmt man seine neue Sprache und sofort werden sowohl die Metadaten als auch das gesamte Transkript in ebendiese übersetzt. Auch hier bietet unsere KI bereits sehr viel, jedoch empfehlen wir unseren Nutzern, die Collaboration Funktion zu nutzen und Muttersprachler: in das Projekt einzuladen und das Ergebnis zu verfeinern. Man kann noch einen Schritt weitergehen und entweder unsere KI mit verschiedenen Stimmen das Video wieder einsprechen lassen oder Collaborator zu nutzen, um Menschen sehr schnell das Video mit einer Voice Over aufzunehmen.

Sie bieten Übersetzungen in über 30 Sprachen an, darunter auch verschiedene arabische Dialekte. Wie kompliziert war es, eine entsprechende Datenbank aufzubauen?

Korz: Hier hatten wir das Henne-Ei-Problem. Wir waren sehr klein und hatten keine eigenen Daten. Dazu kam, dass man uns als Videoplattform wenig wahrgenommen hatte und wir sehr aufwändig eigenen Content produziert hatten. Wir fingen an, Videocontent von Drittanbietern einzukaufen, um unser Wachstum etwas zu beschleunigen. Wir begannen mit Tools von Adobe und anderen, die Videos zu transkribieren, neu aufzunehmen und dann über die alugha Plattform mehrsprachig zu verteilen. Relativ schnell wurde uns klar, dass der aktuelle Weg sehr aufwändig ist und wir da eine Lösung benötigen. Wir fingen an, die erste Version des dubbr zu bauen, um die Transkripte und Aufnahmen in einer Cloud aufnehmen zu können.

Nach einer Weile kam da so einiges an Videos und Sprachen zusammen. Unsere Untertitel, die wir automatisch aus den Transkripten gewannen, waren richtig gut, besser als von jeder anderen Plattform und das gefiel uns! Wir optimierten den dubbr immer weiter. Die Aufnahmen wurden segmentbasierend ohne Hintergrund aufgenommen – direkt im Browser, sauber und klar mit perfekten Texten. Nachdem wir an die 1000 Videos in fünf, zehn, zwanzig und teilweise mehr Sprachen gemacht hatten, überlegten wir uns, wie wir diese Daten nutzen könnten.

War das der Zeitpunkt, zu dem Sie überlegten, Künstlicher Intelligenz einzusetzen?

Korz: Ja, wir suchten nach Lösungen. Warum also keine KI aufbauen? Die Qualität der KI hängt in vielen Belangen von den Daten ab und die waren ja schon da. Parallel zur Wachstumsstrategie der Plattform selbst beschlossen wir also, den Bereich KI zu erweitern. Zunächst war uns Speech To Text wichtig. Da wir abgeschlossene Segmente haben und diese sauber in diverse andere Sprachen übersetzt wurden, konnten wir den nächsten Schritt wagen: die automatische Übersetzung. Im August dieses Jahres waren wir so weit und haben mit Text-to-Speech den Kreislauf in der ersten kompletten Version geschlossen. Mittlerweile sind wir dabei, mit all den Aufnahmen unsere TTS-KI zu trainieren und in sehr naher Zukunft Neural Voices für viele Sprachen anzubieten.

Sprachen ändern sich. Wie wird die KI trainiert?

Korz: Sprachen unterliegen einem – ich würde fast sagen – wöchentlichen Wandel. Natürlich reden wir hier von Feinheiten, aber durch die Globalisierung und das Internet haben wir, besonders in Deutschland, einen teilweise unerträglichen Anglizismus erfahren. Aber Sprache muss natürlich leben und wir adaptieren von überall oder erfinden Worte. Derzeit sind wir dabei, die KI mit den Video-Metadaten zu verknüpfen, um so weitere Eingrenzungen vornehmen zu können. In festgelegten Abständen wird die KI immer wieder trainiert und wir überprüfen die Ergebnisse.

An Speech to Text hat man sich inzwischen fast gewöhnt. Text to Speech ist derzeit noch so etwas wie ein Rohdiamant im Bereich der KI-Anwendungen. Wie weit sind die Entwicklungen?

Korz: Wir haben Stand heute etwa 10.000 Videos mit Audiospuren in unterschiedlichsten Sprachen angereichert und machen das auch täglich aufs Neue. Standardstimmen sind dank vieler Pionierarbeit anderer Anbieter keine große Herausforderung mehr. Spannend wird es, wenn die Stimmen echt menschlich klingen sollen. Wir haben in einem Video oft mehrere Stimmen, die sehr unterschiedlich klingen. Von Anfang an haben wir bereits versucht, mit relevanten Metadaten die Stimmen zu klassifizieren, zum Beispiel maskulin, feminin, kindlich oder älter. Während ich dieses Interview gebe, rennen unsere KI-Server im Kämmerlein und trainieren die Stimmen. In Kürze werden wir damit beginnen, die neuralen Stimmen mit den Standardstimmen im dubbr auszutauschen. Sprache für Sprache, Stimme für Stimme.

Alleine der Bereich KI für TTS hat viele Monate Zeit in Anspruch genommen. Viel Hirnschmalz, viel Programmierung, Server, Hardware – auch das lagern wir nicht auf irgendwelche US-Server oder zu Google aus. Wenn man überlegt, wie viel Vorarbeit wir geleistet haben, um die Daten zu erstellen... Sehr viele tausende von Arbeitsstunden sind in dieses Projekt geflossen und das Made in Germany!

Ein sehr aktuelles Thema ist auch Live-Dubbing, also gewissermaßen die automatisierte Simultanübersetzung. Wann wird es entsprechende Angebote am Markt geben?

Korz: Mein Sohn Niklas hat damals seine Bachelor-Arbeit zum Thema "Live-Streaming auf alugha" geschrieben. Er hat neben der Arbeit auch gleich einen Prototypen geliefert, den wir intern genutzt haben. Damals war es aber nur eine Studie und es war eine Kombi aus multilingualem Livestreaming sowie dem multilingualen alugha Player. Mittlerweile können wir auf einen spannenden Datensatz zurückgreifen, was Speech To Text und die Übersetzung angeht. TTS schließt den Kreis. Der nächste Schritt ist jetzt Livetranskription, dann Übersetzung und dann Livedubbing. In den nächsten Monaten werden wir hier einiges zeigen können.

Auf Dolmetscher kommen damit schwierige Zeiten zu….

Korz: Wir sehen uns nicht als Ersatz, wir sehen uns als die perfekte Ergänzung. Man schreibt heute nicht weniger, nur weil es keine Schreibmaschinen mehr gibt. Wer jedoch nicht mit der Zeit geht, wird zwangsweise irgendwann auf der Strecke bleiben. Wir haben einige Übersetzungsbüros und Dubbingstudios, die gezielt den alugha dubbr nutzen, um kostengünstiger und wesentlich schneller den Kunden zu beliefern.

Längst lassen sich auch Stimmen klonen, womit allerdings auch einige Gefahren verbunden sind. Theoretisch könnte man über Voice Cloning mit der Stimme eines Politikers bei einem anderen Politiker anrufen und so bewusst eine Krise auslösen. Mit welchen Mechanismen lassen sich solche Szenarien verhindern?

Korz: Die kurze Antwort ist: Gar nicht. Es wird ein irrer Aufwand betrieben, um Videos kopiergeschützt zu halten und was bringt es? Musik Kopierschutz, DRM... Für mich persönlich ist das ein "Wohlfühlmechanismus", um ein wenig ruhiger schlafen zu können.

Generell ist es so, dass wir die Stimmen, die man bekommt, mit unserer KI selbst trainieren. Wir werden jedoch anbieten, dass man seine eigene Stimme mit denen im dubbr aufgenommenen Segmenten trainieren und die dann als TTS für seine Videos nutzen kann. Es ist nicht geplant, dass man diese Stimmen dann aus dem dubbr system extrahieren und woanders nutzen kann. Neben diesen Einschränkungen gibt es noch einige interne Sachen, die wir planen, um das Ganze rechtlich sicherer zu machen.

Ihr Start-up genießt auch im Ausland einen guten Ruf. Wie kommt es, dass ein Unternehmen aus Mannheim sich mit einer Geschäftsidee durchsetzt, die nicht aus dem Silicon Valley kommt?

Korz: Das war sehr, sehr viel Arbeit. Wir sind sehr viel unterwegs, nutzen jede Chance, alugha vor Ort zu zeigen, sprechen mit Kunden, geben hervorragenden persönlichen Support, nutzen unser Netzwerk und Kontakte aktiv. Wir entwickeln alugha sehr agil und kundenorientiert und sind selbst sehr exzessive Nutzer. Letzteres mag im ersten Moment etwas sonderbar klingen. Aber in der Tat haben wir dadurch jeden Tag selbst lernen können, wie wir unsere eigene Zeit besser einsetzen können in dem der dubbr vieles für uns übernimmt.

Welche weiteren Pläne haben Sie mit alugha?

Korz: An einigem arbeiten wir ja bereits sehr aktiv, beispielsweise dem Thema Live-Streaming oder Voice Cloning. Anderes ist auf der Agenda wie Emotion Cloning, Voice Extraction und Audiorestauration. Das sind natürlich alles naheliegende und offensichtliche Projekte und Weiterentwicklungen, die sicherlich jedes Unternehmen in der Branche und mit unserem Wissen ebenso in den Topf werfen würde. Daneben sind noch einige Nettigkeiten, die wir in der Planung haben und die vielen Menschen viel Arbeit, Zeit und Ressourcen sparen werden.

Das Interview führte Helmut van Rinsum

Bernd Korz, Jahrgang 1969, absolvierte zunächst eine Ausbildung zum Spezialbetonbauer und Techniker. Er managte er zahlreiche Musiker:innen aus Deutschland und New York und produzierte nebenbei Erklärvideos auf YouTube. Zusammen mit seinem Sohn Niklas entwickelte er ein Feature, um die Sprache bei den Videos wie bei einer DVD umschalten zu können. 2014 wurde alugha offiziell als GmbH gegründet und hat heute weltweit über 7000 B2B Kunden.

Weitere Interviews:
Jennifer Dorman: Warum Machine Learning verzerrte Rollenbilder begünstigt
Theo Steininger: „Erstmal Überblick über die Daten verschaffen“
Henrik Roth: Eine neue Zeitrechnung des Marketing

Newsletter

Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.

Schließe Dich den 1.500+ Abonnenten an, kostenlos.

Newsletter

Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.

Schließe Dich den 1.500+ Abonnenten an, kostenlos.

Newsletter

Hier erfährst Du einmal in der Woche, wo Künstliche Intelligenz in das Marketing eingreift, welche Trends sich abzeichnen und wie sie Kommunikation und Medien verändert. Informativ, unterhaltsam, nachdenklich.

Schließe Dich den 1.500+ Abonnenten an, kostenlos.