Sprechen ist nicht denken

Sprache gilt als komplexeste Herausforderung auf dem Weg zur klugen Maschine. Mit „DeepL“ hat eine Kölner Firma eine künstliche Intelligenz entwickelt, die Texte fast so gut übersetzt wie ein Mensch. Aber auch sie stößt an Grenzen
Nur neun Verse sind es im Alten Testament, doch sie beschreiben ein großes Menschheitsproblem: Der Turmbau zu Babel, ein Bauprojekt, das aufgrund der allseitig guten Verständigung in nur einer Sprache einfach zu gut klappte. Gott wurde mulmig zumute angesichts des Erfolgs der Menschen und so strafte er sie mit einer Sprachverwirrung. Nach Jahrhunderten fruchtloser Versuche, die Sprachen zu entwirren, soll es nun KI, die Künstliche Intelligenz, richten – und Babel rückgängig machen.
Das Rennen um die Sprachentwirrung, im Westen liefern es sich heute hauptsächlich Technologie-Konzerne wie Google, Amazon und Microsoft. Die aussichtsreichste Startnummer hat jedoch ausgerechnet ein kleines deutsches Unternehmen aus Köln. Der Mathematiker Gereon Frahling gründete 2007 mit einem Partner den Dienst „Linguee“, eine Datenbank, die Übersetzungen aus dem Netz zog und nebeneinanderstellte. Zehn Jahre später folgte auf „Linguee“ die nächste Stufe: „DeepL“, ein KI-Übersetzer, der ähnlich wie Google Translate funktioniert. „DeepL“ schreibt sich zwar auf die Fahnen, die Menschheit miteinander ins Gespräch bringen zu wollen. Aber selbst scheint man dort eher verschwiegen zu sein. Mehrere Gesprächsanfragen der FR blieben unbeantwortet.
Mit DeepL sandten Frahling und sein Team eine Schockwelle durch die Sprachindustrie
Lange waren Online-Übersetzer wie Google Translate für abstrus-amüsante Übersetzungen bekannt. Sie dienten damit menschlichen Übersetzern als Beweis, dass die Mathematik der Sprache eben doch nicht so einfach zu entschlüsseln ist. Mit dem Start der Übersetzungs-KI „DeepL“, angelehnt an den Begriff „Deep Learning“, sandten Frahling und sein Team dann jedoch eine Schockwelle durch die milliardenschwere Sprachindustrie.
„DeepL“ übersetzt mithilfe von Supercomputern innerhalb von Sekunden in zwölf Sprachen, darunter gängige europäische Sprachen sowie vereinfachtes Chinesisch und Russisch. Der Vorteil: Die KI übersetzt ganze Textabsätze, der Kontext wird miterfasst, die Ergebnisse klingen natürlicher. In Medienberichten sagte der aktuelle Geschäftsführer Jaroslaw Kutylowski, „DeepL“ gehe es nicht darum, Übersetzer arbeitslos zu machen, das Unternehmen wolle vielmehr den Sprachbedarf von Menschen decken, die sonst keinen Übersetzer engagieren würden. Zudem erleichtere „DeepL“ auch professionellen Übersetzerinnen und Übersetzern die Arbeit.
„Für meine Arbeit in der Sprachrichtung Englisch-Deutsch und bei technischen Standardtexten verwende ich DeepL fast jeden Tag als eine meiner Quellen“, bestätigt Andrea Bernard. Sie ist selbständige Übersetzerin für Englisch, Japanisch und Französisch. Jeder von der KI übersetzte Fachbegriff müsse aber überprüft und Übersetzungsvorschläge so lange geändert werden, bis sie passten. „Ich übersetze gerade eben nicht wie eine Maschine, auch wenn ich eine verwende“, sagt Bernard. Viele Übersetzer fühlten sich dennoch von solchen Tools angegriffen. „Aber ich verwende ja auch Computer und andere Onlinequellen.“ Für Bernard liegt es auf der Hand, dass Übersetzungsprogramme wie „DeepL“ noch lange nicht der Heilige Gral in Sachen weltweiter Verständigung sind. Anders als bei Google Translate klängen die Ergebnisse von „DeepL“ zwar besser, doch wer Ausgangs- und Zielsprache nicht umfassend verstehe, habe kaum eine Chance, die versteckten Fehler zu finden, vor allem wenn man sich im jeweiligen Fachgebiet nicht auskenne.
Neuronale Netze ermöglichen nie gekannte Sprach-Qualität
Die allermeisten Übersetzungsprogramme, aber auch Sprachassistentinnen wie „Siri“ und „Alexa“ basieren auf der Technologie der neuronalen Netze. Diese Netze imitieren menschliche Denkprozesse und bilden dafür eine sehr einfache Version eines menschlichen Gehirns nach, das aus Erfahrungen lernen soll. Bereits eingegebene Informationen sollen erhalten bleiben und bei einer neuen Eingabe nicht er-neut gelernt werden müssen. Je größer die Datenmenge, desto mehr Schichten weist ein neuronales Netz auf. Moderne neuronale Netze können, trotz zahlloser Verflechtungen zwischen den Daten, Informationen aus dem „Kurzzeitgedächtnis“ zurückholen.
„Neuronale Netze sind unglaublich mächtig“, sagt Josef van Genabith, Leiter der Abteilung Sprachtechnologie und Multilingualität am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Saarbrücken. „Alles, was man aus Daten lernen kann, können diese Netze erfassen und das ist eigentlich fast alles.“ Genau auf dieser Lernfähigkeit gründet der Erfolg: „Früher haben wir Wörter gezählt, Wahrscheinlichkeiten abgeschätzt.“ Dieser Ansatz führte jedoch zu den teils kuriosen Ergebnissen. Vor allem bei Sprachen, die eine sehr unterschiedliche Grammatik haben. Dass solche Übersetzungs-KIs inzwischen mit menschlichen Übersetzungen mithalten können, davon ist van Genabith überzeugt, schränkt jedoch ein, dass dies nur für bestimmte Sprachenpaare und Textsorten gelte.
„Eine Übersetzung ist nicht so einfach wie die Grundrechenarten“
Computern menschliche Sprache beizubringen – das ist in der KI-Forschung eine der größten Herausforderungen auf dem Weg zu einer menschengleichen oder gar übermenschlichen Künstlichen Intelligenz. Sprach-KIs wie „DeepL“, „Siri“ oder „Alexa“ können somit also als Indikator dafür dienen, wie weit man auf diesem Weg schon gekommen ist. Doch wie soll man etwa beurteilen, welche Übersetzung besser ist? Messen lässt sich das kaum, es braucht ein menschliches Urteil. Doch wer soll urteilen? Und nach welchen Kriterien? Und wer soll überhaupt gegen eine Übersetzungs-KI antreten?
In anderen Wettkämpfen zwischen Mensch und Maschine waren die menschlichen Herausforderer Weltmeister auf ihrem Gebiet, so etwa im Go oder Schach. Beim Übersetzen gibt es allerdings solche Champions nicht, Sprache bleibt Geschmackssache. Was die Zukunft des Übersetzens angeht, ist van Genabith optimistisch: „Eine Übersetzung ist nicht so einfach wie die Grundrechenarten. Die Maschinen werden immer besser werden, aber sie machen immer noch Fehler. Die menschlichen Übersetzer der Zukunft werden als Nachbearbeiter die maschinellen Übersetzungen korrigieren und zertifizieren.“ Es geht also weniger um Wettstreit als um Zusammenarbeit.
Zukunft hat eine Stimme
PROJEKT: Die Frankfurter Rundschau gibt Kreativrebellinnen, Ideen-Vulkanen und Fortschrittmachern eine Stimme - mit „Zukunft hat eine Stimme“. Ideen können vorgestellt werden unter www.fr.de/meinezukunft
WEITERLESEN: Ein Gespräch mit Jörg Draeger, Autor des Buches „Wir und die intelligenten Maschinen“, finden Sie unter www.fr.de/wissen/kuenstliche-intelligenz-viele-haben-horrorvorstellung-boesen-ki-13287645.html
Ohne das menschliche Korrektiv sind Sprach-KIs also momentan nicht denkbar. Ob sie jemals denkfähig sein werden, steht auf einem anderen Blatt. Denn Maschinen verstehen nicht, was sie da übersetzen, sprechen und schreiben.
Dennoch wirkt vieles, was Sprach-KIs heute tun, schon ziemlich intelligent. Im letzten Jahr sorgte die KI „GPT-3“ für Aufsehen, weil sie Texte verfasst, die nicht mehr ohne Weiteres von menschlichen zu unterscheiden sind. Die britische Zeitung „Guardian“ veröffentlichte im September einen Essay, der von „GPT-3“ verfasst sein soll. Die Zeitung versah ihren Artikel mit der suggestiven Überschrift: „Ein Roboter hat diesen Artikel geschrieben. Mensch, hast du langsam Angst?“ Die Zeitung schrieb unter dem Beitrag, dass die KI mehrere Versionen erstellt habe und die Redakteure sich das Beste aus allen Texten herausgepickt hätten. „GPT-3“ lernt aus Internet-Texten. Man braucht nur ein paar Sätze einzutippen und „GPT-3“ vervollständigt diese zu einem Text-Absatz, dessen Zusammenhänge durchaus plausibel wirken.
Doch auch sprechende KIs machen Fortschritte. Google demonstrierte im Jahr 2018, dass seine Sprach-KI „Duplex“ bereits so natürlich klingt, dass sie einen Friseurtermin vereinbaren kann, ohne dass die Gesprächspartnerin am anderen Ende der Leitung bemerkte, dass sie mit einer Maschine spricht. Und das chinesische Unternehmen iFlytek schafft es inzwischen, mit einer großen Menge an Trainingsdaten, Donald Trump Chinesisch sprechen zu lassen. An welcher Wegmarke hin zur menschengleichen, sogenannten starken KI stehen wir also?
Sprachtechnologien handeln in einem engen Bereich intelligent
Netaya Lotze ist Linguistin und Leiterin der Forschungsgruppe KI und Sprache an der Westfälischen Wilhelmsuniversität in Münster. Dort untersucht sie die Dialogfähigkeit von Chatbots und Sprachassistenten wie „Siri“ und „Alexa“. „Das meiste, was wir im Moment in der Mensch-Maschine-Interaktion haben, ist kein Dialog“, sagt die Linguistin. „Bedingung für eine starke KI ist eine Intentionalität, also ein Bewusstsein, das hinter einer Aussage steht und diese denkt. Auch die avanciertesten Systeme, die wir momentan haben, scheitern an der Intentionalität.“ Für Dialogsysteme sei es schlicht schon schwierig, Assoziationen korrekt zu lernen. „Informatiker und Informatikerinnen hatten lange eine naive Vorstellung von Dialog als Frage-Antwort-Muster. Aber Dialog funktioniert nicht ohne geteiltes Wissen, weil wir ja nicht immer bei Adam und Eva anfangen und nicht alles verbalisieren.“
Sprachtechnologien werden trotz ihrer Leistungen daher dennoch als enge KIs bezeichnet. Sie handeln in einem engen Bereich intelligent: Sie lernen, erfassen einfache Kontexte, doch so sehr diese menschlichen Eigenschaften auch mit Intelligenz in Verbindung gebracht werden, heißt das noch lange nicht, dass sie sprechen, wie Menschen es tun. „Es gibt Kollegen, die daran forschen, ob Maschinen tatsächlich ein Bewusstsein erlangen können“, sagt van Genabith vom DFKI. „Nach allem, was ich weiß, haben Silikonchips im Moment nicht viel Bewusstsein.“
Viele Menschen kommunizieren jedoch schon wie selbstverständlich mit solchen Silikonchips. Die beliebtesten sind Sprach-KIs wie „Alexa“ und „Siri“. Für manche gehört Alexa schon zur Familie, andere nehmen die Computerstimmen sogar „fast als richtige Persönlichkeit“ wahr. Das ergab eine Umfrage von CSI Research.
Sprach-KIs kommen in manchen Bereichen schon sehr nah an menschliche Leistungen heran
Aus Sicht von Netaya Lotze bleiben die Erwartungen an für intelligent gehaltene Sprachassistenten meist von Klischees beeinflusst. „Der KI-Diskurs hat etwas Mythisch-Überhöhtes. KI-Systeme werden dabei als Heilsbringer verkauft.“ Auch wenn „Siri“ und „Alexa“ dabei helfen, Einkaufslisten zu verwalten oder das Licht an- und auszuschalten, seien sie eben noch nicht zu viel mehr fähig. „Wir müssen uns von diesem sektenmäßigen Glaubensdiskurs emanzipieren, der von den Tech-Optimisten geschürt wird. Diese Optimisten sind schließlich die gleichen Leute, die diese Produkte entwickeln“, sagt Lotze und gibt folgendes Beispiel: „Wenn man sagt: ‚Schlag mir ein Geschenk für meine Schwester vor, Alexa!‘, funktioniert das nicht. Alexas bester Vorschlag war ein Tee, der Schwesterherz hieß. Die Ergebnisse werden dadurch beeinflusst, was als Datenlage zur Verfügung steht und das ist eben Amazon.“ Als menschlicher Gesprächspartner könne man ganz einfach, auch wenn man die Schwester nicht kenne, ein sinnvolles Geschenk vorschlagen. „Maschinelles Lernen und neuronale Netze sind keine Zauberei, sondern einfach nur der Versuch, kognitive Assoziationen als Wortfeld abzubilden.“
Oren Etzioni, Gründer des amerikanischen KI-Forschungsinstituts „AI2“ ist sogar der Meinung, die Macht oder Ohnmacht der ganzen KI-Technologie an Sprachassistenten ablesen zu können. Auf einer Podiumsdiskussion im Jahr 2019 sagte er: „Milliarden von Dollar wurden in ihre Entwicklung gesteckt und man kann damit tolle Sachen machen. Aber manchmal fragt man die gleiche Frage nur ein klein bisschen verändert und schon verstehen Siri und Alexa uns nicht mehr. Das ist der aktuelle Stand der Technik.“
Ob mit oder ohne Bewusstsein – Sprach-KIs kommen in manchen Bereichen schon sehr nah an menschliche Leistungen heran, manchmal auch schon nah genug. Das ist für manche eine gute Nachricht, für andere ein Grund zur Sorge. Dem chinesischen Sprach-KI-Riesen iFlytek etwa wird vorgeworfen, das chinesische Regime dabei unterstützt zu haben, die Uigurische Minderheit in der Provinz Xinjiang mithilfe von Sprachanalyse-Technologien zu überwachen.
Maschinen sollen Menschen unterstützen, so das Credo ihrer Entwickler. Dass Technologien mit guten und schlechten Absichten verwendet werden, dagegen wird auch die KI nicht gefeit sein. Übersetzungs-KIs haben den Alltag von Übersetzern schon verändert; folgt man Josef van Genabith vom DFKI, wird sich sogar das ganze Berufsbild wandeln. Netaya Lotze sagt: „Wir befinden uns in einer verwirrten Phase nach der Digitalisierung und wissen noch gar nicht, was wir wollen.“ Aus ihrer Sicht braucht es daher mehr Medienkompetenz und eine Debatte über Grundsätzliches: „Es ist ein uralter Traum der Menschheit, sich ein Ebenbild erschaffen zu wollen. Aber will man wirklich einen menschlichen Gesprächspartner erzeugen? Die Frage ist: Braucht man das? Und was hat man dann?“