+
Donald Trump spricht koreanisch, Kim Jong-un englisch ? das Unternehmen Neosapience hat das täuschend echt simuliert, um seine Geschäftsidee vorzuführen.

Sprachsynthetisierung

Leih mir Deine Stimme!

  • schließen

Ein Unternehmen aus Südkorea arbeitet daran, Stimmen reproduzierbar und neu generierbar zu machen. Was für viele Branchen enorme Kosteneinsparungen bedeutet, könnte auch eine neue Dimension von Fake News werden.

Wenn es nach Taesu Kim geht, ist bald alles gesagt. Das eigenständige Sprechen würde dann irgendwann zum Luxus, vielleicht zum Hobby, jedenfalls wäre es in vielen Situationen keine Notwendigkeit der Kommunikation mehr. Eine Stunde aufgenommenes Tonmaterial einer Stimme braucht der Unternehmer dafür, den Rest soll sein „Machine Learning-System“ – sein maschinelles Lernsystem – erledigen. „So können wir mit der Audiodatei alles programmieren, was wir gern gesagt haben wollen.“ Wäre das nicht praktisch?

So sieht es das südkoreanische Startup Neosapience, das daraus nun ein Geschäft macht. Zunächst nimmt sich der Betrieb der effizienten Vertonung von Texten an, was für die Produktion von Filmen und Musik enorme Kosteneinsparungen bedeuten dürfte. Dass der potenzielle Anwendungsbereich aber viel weiter reicht, ist Kim wohl bewusst. Superstars sollen durch Stimmkopien zum Greifen nah werden, außerdem die Sprachbarrieren im interkulturellen Austausch behoben werden. „Wir können sehr weit kommen“, glaubt der Gründer aus Seoul.

Das Geschäft mit Sprachsynthetisierung ist derzeit noch in einem Frühstadium. Laut der Marktanalyseplattform Markets and Markets wurden im Jahr 2016 weltweit 1,3 Milliarden US-Dollar in dieser Branche umgesetzt. Bis 2022 soll der Betrag auf drei Milliarden anwachsen. Die Vermutung hierbei ist, dass die Qualität von Anbietern, die Stimmen generieren, in den nächsten Jahren deutlich zunehmen wird. Schließlich haben erkennbar elektronische Stimmen, etwa in Aufzügen oder Navigationssystemen, die Welt schon in den letzten Jahren überflutet. Für ein deutliches weiteres Wachstum wäre wohl ein neuer Entwicklungssprung nötig. Und Stimmenkonstruktion durch kluge Maschinen, das könnte so ein Quantensprung sein.

Daran versucht man sich derzeit in mehreren Ländern. Mit der Idee, aus bestehenden Daten neue menschliche Kommunikation zu generieren und zu simulieren, sind Neosapience nicht die ersten. Mit dem Videoeffektprogramm Adobe After Effects und dem Programm Fakeapp des Hobbyentwicklers Deepfakes lassen sich bereits die Tonspuren von Reden verändern und die Mimik in der Videodatei dem Gesagten anpassen. Wissenschaftler der Carnegie Mellon University haben zudem ein „Machine Learning-System“ entwickelt, durch das etwa die Mimik von einer Person auf eine andere übertragen werden kann. Allerdings funktioniert das System bisher nicht einwandfrei, im Bild treten noch offensichtliche Fehler auf. Marktfähig ist das Ganze daher zunächst nur bedingt.

Konzentration auf Audiodateien

Das koreanische Startup sieht von Videoveränderungen ab, konzentriert sich stattdessen auf Audiodateien. Im Vergleich zu anderen Betrieben, die Sprachsynthetisierungen entwickelt haben, darunter Amazon und Google, benötigt Neosapience deutlich weniger Rohstimmenmaterial. „Die anderen brauchen 100 Stunden sehr kontrollierter Aufnahmen“, sagt Taesu Kim, dem schon eine Stunde genügen soll, um seine Maschine zum Lernen zu bringen und rasch klug werden zu lassen.

Soviel zur Leichtigkeit, mit der Sprachen und Texte in Zukunft gebaut werden können. Ein qualitativer Sprung in der Entwicklung ist aber die Generation von unterschiedlichen Sprachen, die der Ursprungsbesitzer der Stimme dazu gar nicht beherrschen muss. Um die Idee zu demonstrieren, veröffentlichte Neosapience im Sommer, als sich US-Präsident Donald Trump und Nordkoreas Regierungschef Kim Jong-un zu einem Regierungsgipfel in Singapur trafen, die Ansprachen der beiden Staatsmänner auf der je anderen Sprache: Trump sprach plötzlich koreanisch, Kim trug auf Englisch vor. Es klang ziemlich überzeugend.

Dabei ist es kein Zufall, dass so eine Innovation aus Südkorea kommt. Das Land mit einer der höchsten Internetdichten der Welt landet im aktuellen „Innovation Index“ des Finanzdienstleisters Bloomberg auf dem ersten Platz. Auch auf der Messe „Invest Korea Week“ Anfang November, mit der die koreanische Außenhandelskammer ihr Land als Produktions- und Investitionsstandort anpries, fiel vermehrt auf, wie sehr sich dortige Unternehmen mit der intelligenten Verarbeitung von Daten beschäftigen.

So wird in Incheon, südlich der Hauptstadt Seoul, gerade die Blaupause für ein neues Konzept einer Smart City entwickelt, das Südkorea in den kommenden Jahren in andere Länder exportieren will. Kernkonzept hierbei ist die Integration und Harmonisierung aller möglicher Daten, die bisher bei verschiedenen Behörden eingehen, um ein einheitliches städtisches Datenzentrum zu entwickeln. So können in Incheon Polizei und Feuerwehr, im Rahmen der Gesetze zur Privatsphäre, auf dieselben Daten zugreifen, um eine erhöhte Sicherheit zu gewährleisten.

Intelligente Verarbeitung von Daten

Geht es nach den Planern, sollen bald auch Daten von sozialen Netzwerken eingespeist werden. Dadurch sollen Bewohnern anhand ihrer persönlicher Daten individuelle Empfehlungen etwa zum Stromsparen oder zu Kulturangeboten unterbreitet werden. Nicht jedem dürfte dies gefallen. Aber eine Effizienzsteigerung des Alltagslebens wäre erreicht.

Ein Unternehmen der Samsung-Gruppe arbeitet derzeit an einer intelligenten Simultanübersetzungssoftware. Hyundai will seine neuen Autos mit allen möglichen anderen Datenquellen verbinden, um dem Fahrer so in Zukunft zuverlässige und komfortablere Transportbedingungen zu liefern. Südkorea tut derzeit so Einiges, um die Weltmacht für die intelligente Verarbeitung von Daten zu werden.

Fragen der Privatsphäre und des Datenschutzes dürften sich bei den meisten dieser Neuerungen durch kluge Gesetze klären lassen. Im Fall der Technologie von Neosapience ist dagegen wahrscheinlich, dass sie bald ein Selbstläufer wird. Sobald Stimmen einfach zu stehlen sind, wird es wohl schwierig, sie wieder einzufangen. So bekäme auch das Problem rund um Fake News eine neue Dimension. Stimmen könnten plötzlich täuschend echt Dinge sagen, die ihre ursprünglichen Besitzer nie ausgesprochen haben.

„Wir können nachverfolgen, welche Stimme echt ist und welche nicht“, sagt Taesu Kim dazu und verweist auf die Datenbank seines Unternehmens. Dennoch wäre ein Schaden zum Zeitpunkt einer derartigen Nachverfolgung auf Echtheit längst in der Welt. Ein Ruf wäre also potenziell ähnlich beschädigt wie nach falschen Mordvorwürfen, von denen sich kaum eine Person erholt.

Zudem haben neue Technologien die Tendenz, rasch kopiert zu werden. Ist das Entwicklerwissen erst in der Welt, wird es meist bald in weitere Hände geraten. Wenn die eigene Stimme nicht mehr nur einem selbst gehört, kann sich die Welt auf neue Probleme einstellen. Dafür aber auch auf günstig produzierte Filme. Und vielleicht weniger überflüssige Kommunikation. 

Das könnte Sie auch interessieren

Kommentare