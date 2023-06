KI-Forscher: „Die Maschine komponiert nicht“

Von: Lisa Berins

Der KI-Forscher Ali Nikrang über gefakte Songs, geklonte Stimmen und einen bevorstehenden Umbruch in der Musikwelt.

Herr Nikrang, in den vergangenen Wochen sind KI-Songs viral gegangen, „Heart On My Sleeve“ heißt ein Titel, in dem man KI-generierte Stimmen des Rappers Drake und von TheWeeknd hört. Ist damit eine Linie überschritten, befinden wird uns inmitten eines Umbruchs in der Musik?

Die künstliche Intelligenz wird die Musik grundlegend verändern. Es gibt schon einige Indizien dafür, und im vergangenen Jahr haben wir gesehen, wie mächtig und kreativ diese Systeme im Bereich der Bildbearbeitung und Textverarbeitung sind. In der Musik sind wir allerdings ein bisschen hinterher, zumindest noch nicht dort, wo ChatGPT ist. Ich glaube, der große Moment, an dem viele parallele Entwicklungen zusammenkommen, steht uns erst noch bevor.

Welche bahnbrechenden Entwicklungen kommen bald?

Es geht zwar in den beschriebenen Fällen sehr stark um die Voice-Cloning-Systeme, aber das ist wie gesagt nur ein Teil – der technisch einfachste. Daneben wird es in Zukunft weitere KI-Technologien geben, die momentan noch erforscht werden. Zur Zeit kann man die Stimme einer Sängerin, eines Sängers separat klonen und sie auf selbst komponierte Hintergrundmusik legen. Oder man kann mit KI die Musik komponieren und mit einer Stimme kombinieren. Dann muss man die Teile zusammenbauen, so wie es bei „Heart On My Sleeve“ war. Daneben gibt es aber auch schon jetzt theoretisch die Möglichkeit, dass man ganze Stücke komplett mit einer KI generiert: von der Komposition über die Lyrics bis hin zur geklonten Stimme.

Bald kann also jeder Mensch Musikstücke ganz einfach mit einem Prompt erstellen?

So wird es sein. Schon vor drei Jahren – eine Ewigkeit für die KI – launchte OpenAI das Programm „Jukebox“. Es wurde mit 1,2 Millionen Songs trainiert und kann vollständige Songs generieren: die Stimme, alle Instrumente. Dieses Programm ist technisch noch nicht so ausgereift, dass man es im Alltag einsetzen kann. Aber es zeigt, was bald möglich ist. Wenn man es mit Sprache steuern könnte und zum Beispiel sagen könnte, welche Instrumente man genau haben will, und es Möglichkeiten gäbe, den Song zu beschreiben; ob er schnell, langsam, melancholisch, fröhlich sein soll, welchen Stil er haben soll – dann wäre das wahrscheinlich der Umbruch, von dem Sie sprachen. Schon im Jahr 2020 wurde mit diesem Programm beispielsweise ein Song im Stil von Frank Sinatra produziert. Die Stimme ist perfekt simuliert. Und es ist alles Fake.

Wo liegt der künstlerische Aspekt dabei?

Meines Erachtens gibt es ein riesiges künstlerisches Potenzial, wenn man die KI als ein kreatives Tool sieht. Mit diesen KI-Programmen kann man beispielsweise Stimmen mischen und so aus mehreren eine neue Stimme generieren. Dasselbe funktioniert mit Instrumenten – es können völlig neue Instrumente kreiert werden. Es werden andere Formen der Musik und der Kunst entstehen – da geschieht seit einiger Zeit sehr viel. Letztes Jahr gab es Beispiele, die nicht viral gegangen sind, wo etwa die Künstlerin Holly Herndon ihre Stimme als ein KI-Model herausgeben hat. Jeder Mensch konnte diese Stimme einfach nutzen. Das ist für mich ein Vorbote von ganz neuen Spielarten und Genres von Kunst, bei denen wir nicht mehr in abgeschlossenen Werken denken, nach dem Motto „Das ist ein Stück mit Anfang und Ende“, sondern von einem Kunstwerk als einem dynamischen System sprechen.

Ein dynamisches Kunstwerk – wie würde das aussehen?

Es könnte zum Beispiel sein, dass es einen Song in verschiedenen Ausführungen gibt, die jedes Mal etwas anders klingen und die man mit seinen eigenen Vorlieben verknüpfen kann. Es könnte in Richtung von personalisierter Musik gehen: Das System kennt Ihren Geschmack und Ihre Stimmung, weiß, dass Sie lieber die Drums sehr laut hören oder eine prominente Klavierstimme mögen. Ein Song wird also vielleicht eher so etwas sein wie eine musikalische Umgebung, in der man sich bewegen kann. Aber das sind Spekulationen. Die Frage, wie sich das alles entwickelt, ist ja nicht nur eine technische, sondern auch eine gesellschaftliche: Wie groß ist die Bereitschaft der Gesellschaft, diese Art der Musik zu hören und zu nutzen?

Wir haben gesehen, dass sich „Heart On My Sleeve“ wahnsinnig schnell verbreitet hat. Den Fans ist es vielleicht gar nicht so wichtig, ob es echt ist oder ein Fake.

Zur Person Ali Nikrang ist ein KI-Forscher/-Entwickler und Musiker. Seit April hat er eine Professur für Künstliche Intelligenz und Musikalische Kreation an der Hochschule für Musik und Theater München (HMTM) inne, außerdem forscht er am Ars Electronica Futurelab in Linz, wo er sich mit der Interaktion zwischen Menschen und KI-Systemen bei kreativen Aufgaben mit Schwerpunkt Musik beschäftigt. Derzeit entwickelt er das Forschungswerkzeug Ricercar, ein KI-basiertes Musikkompositionssystems, das für die Komposition klassischer Musik verwendet werden kann.

Der Song ist viral gegangen, weil man ihn als KI-Drake-Song ausgegeben hat. Wenn man beispielsweise nicht die Stimme von Drake, sondern eine sehr ähnliche Stimme von jemandem anderen geklont hätte – wäre der Song dann auch so oft geklickt worden? Ich denke, wir dürfen nicht den Fehler machen anzunehmen, dass die Kunst nur auf der Ebene der Daten passiert. Es gehört ja noch weitaus mehr dazu, Künstlerin oder Künstler zu sein und Musik zu machen, nicht nur die Stimme. Es geht auch darum, wie sich der Künstler, die Künstlerin präsentiert, auf welche Community er oder sie abzielt, auf das Spezielle im Stil.

Die eigene Stimme ist für Musikerinnen und Musiker allerdings ein wichtiges Markenzeichen. Die Musikerin Grimes will offenbar ihre Stimme allgemein für die KI verfügbar machen – und die Nutzerinnen und Nutzer könnten mit an KI-Grimes-Songs verdienen. Wie finden Sie diese Idee?

Ich finde das sehr sympathisch und auch sehr logisch. Das wird ein Modell der Zukunft sein. Eine Stimme ist künstlerisches Eigentum, und ihr Einsatz muss auch honoriert und rechtlich geregelt werden. Was ich mir auch vorstellen könnte, ist, dass es in Verträgen zwischen Kunstschaffenden und Labels – die ja auch das Potenzial der Technologie erkennen – vielleicht eine Klausel geben wird, in der man dem Voice Cloning oder der Teilimitation zustimmt. Das sehe ich übrigens nicht als ein Problem der Musikindustrie. Im Gegenteil, das wird eine neue Welle, ein neuer Schub für sie sein.

Aber Fake ist nicht Original. Finden Sie das nicht problematisch?

Natürlich bringt das Herausforderungen mit sich. Die Frage, was original ist und was nicht, was künstlerisches Eigentum ist, muss geklärt werden, juristisch, aber auch gesellschaftlich. Es betrifft ja nicht nur die Musik und die Kunst. Das Voice Cloning werden wir sehr schnell auch in anderen Bereichen des Alltags haben. Wir müssen uns grundsätzlich überlegen: Wie geht man mit digitalen Zwillingen und mit Deepfakes um? Wenn das Bewusstsein dafür da ist, dass potenziell alles fake sein kann, dann sehe ich diese Entwicklungen gar nicht so kritisch. Allerdings müssen, wie gesagt, Persönlichkeits- und Urheberrechte geklärt werden.

Und da ist noch das meiste unklar. Wie will man zum Beispiel überhaupt wissen, aus welchen Quellen die KI genau einen Song zusammengebaut hat?

Das ist die Frage: Womit ist die KI trainiert worden, mit welchen Songs, die vielleicht ebenfalls urheberrechtlich geschützt sind? Man kann die einzelnen Werke im Endprodukt ja nicht mehr erkennen. Andererseits kann man dann auch die Frage stellen, ob man andere Maßstäbe anlegen sollte als beim Menschen. Der lernt ja auch und wird geprägt durch die geschützten Werke anderer, bevor er imstande ist, selbst zu komponieren.

Kann man das überhaupt noch so scharf trennen – menschlich und maschinell erzeugte Musik?

Es ist ja nicht so, dass es zu hundert Prozent KI-generierte Musik gibt, es ist immer ein Teil menschliche Arbeit dabei. Wir reden zwar davon, dass die KI „komponiert“, aber das ist nicht so; die Maschine macht Vorschläge, und der Mensch ist die Instanz, die darüber entscheidet, die eine Vorstellung vom Endprodukt hat und die Ideen weiterführt, Stück für Stück. Ich entwickle seit 2019 ein KI-basiertes Musikkompositionssystem, mit dem einmal Laien und auch Profis arbeiten sollen. Und ich bin der Meinung, die KI ist ein sehr starkes, kreatives Tool. Aber: Erst wenn sie selbst eine Absicht hat zu komponieren, dann würde ich auch sagen, sie komponiert.

Das Mastermind sitzt also noch vor dem Rechner … Dennoch müssen sich einige Musikerinnen und Musiker Gedanken darüber machen, ob sie auf lange Sicht noch gebraucht werden, oder?

Ich mache mir keine Sorgen, dass, wenn eine Stimme erst mal geklont ist, die Person nicht mehr interessant sein könnte. Auch bei Komponistinnen und Komponisten mache ich mir keine Sorgen. Ich sehe die Entwicklungen langfristig sehr positiv, denn Technologie hat der Musik noch nie geschadet. Es gab immer wieder Befürchtungen, zum Beispiel als das Grammophon auf den Markt kam oder die Schallplatte, aber wie wir heute wissen, ist dadurch nicht die Livemusik gestorben, im Gegenteil: Musik konnte weiter verbreitet werden, und Künstlerinnen und Künstler wurden berühmter. Konzerte wird es immer geben, da spielt auch der soziale Aspekt eine Rolle, das liegt uns doch allen in den Genen. Allerdings, was man auch sagen muss: Beim Aufkommen des Tonfilms wurden viele Pianisten vorerst und in der Übergangsphase arbeitslos. Einzelschicksale – die könnte es leider auch bei dieser Revolution in der Übergangsphase geben.