+
Iryna Gurevych leitet die Forschergruppe.

Technische Universität Darmstadt

Auf der Suche nach Sprachwitz

  • schließen

Informatiker der TU Darmstadt wollen Computer dazu kriegen, Texte mit ähnlichen Sachverhalten zu erkennen. Das ist nicht leicht, denn den Maschinen fehlt jenes Weltwissen, das der Mensch stets als Hintergrund parat hat.

Informatiker der TU Darmstadt wollen Computer dazu kriegen, Texte mit ähnlichen Sachverhalten zu erkennen. Das ist nicht leicht, denn den Maschinen fehlt jenes Weltwissen, das der Mensch stets als Hintergrund parat hat.

Die Detektive der Guttenberg- und anderer Politiker-Plagiate hatten es vergleichsweise einfach: Sie mussten einfach nur wortidentische Texte entdecken. Aber man stelle sich vor, die Mogel-Doktoren hätten ihre Texte mit einem Synonym-Wörterbuch kräftig „überarbeitet“ – dann hätte wohl kein Computer-Suchprogramm auf der Welt die Plagiate gefunden. Außer vielleicht eine neu an der Technischen Universität (TU) Darmstadt entwickelte Software. Die ist in ersten Ansätzen in der Lage, Texte mit ähnlichen Aussagen zu erkennen – eine kognitive Leistung, die bislang allein einem menschlichen Leser vorbehalten war.

Dass Computer ähnliche Inhalte erkennen können, daran arbeiten zwar weltweit noch Dutzende andere Forscherteams. Doch das, was die Darmstädter Informatiker vom Ubiquitous Knowledge Processing (UKP) Lab um Professorin Iryna Gurevych zuletzt bei einem internationalen Wettbewerb vorstellten, war einfach besser.

Selbst für eine Maschine kein einfacher Job

Auf den ersten Blick scheint es ein einfacher Job für die Maschine zu sein. Ist es aber nicht, wie Gurevych an einem schlichten Beispiel erläutert: Das Wort Absatz kann zum einen diesen hier auf der Zeitungsseite gedruckten Textabsatz meinen – oder den von einem Schuh. Für den Menschen, der einen Text liest, sei der jeweilige Zusammenhang völlig klar. „Aber dem Computer fehlt jenes Weltwissen, das der Mensch stets als Hintergrund parat hat.“ Das muss er „lernen“. Wobei Computer-Lernen komplett anders aussieht als menschliches Lernen. Der digitale Kollege verknüpft nicht, er arbeitet nur mit einer irrsinnigen Geschwindigkeit Vorgaben ab. Das sieht, beispielhaft und vereinfacht am Absatz dargestellt, so aus: Die Programmierer definieren ein Umfeld von fünf Worten vor und hinter dem Begriff. Taucht in dem Bereich zum Beispiel der Begriff „Frankfurter Rundschau“ auf (oder ein anderes Druckerzeugnis), dann ist die Wahrscheinlichkeit hoch, dass es sich bei diesem Absatz um einen Textabschnitt handelt. Dumm nur, wenn es sich um ein Stück Prosa handelt und der Protagonist der Szene seinen Absatz just vor dem Haus der Frankfurter Rundschau verliert …

Damit der Computer nicht gleich bei der ersten Doppeldeutigkeit stolpert, lassen die TU-Informatiker ihr Programm mit Hunderten von Parametern arbeiten. Die Kunst dabei ist, dem Rechner beizubringen, was Menschen für ähnlich halten. „Einzelne Wörter erkennen – das geht schon ganz gut“, sagt Gurevych. Aber die Maschine soll am Ende noch viel mehr als Absätze auseinanderhalten können. Stufenweise soll ihr beigebracht werden, ähnliche Phrasen zu identifizieren, dann ganze Sätze, später kurze Textstücke und schließlich die Ähnlichkeit von Botschaften in einem ganzen Leitartikel. Dafür muss das Programm Satzbau pauken und sich sogar mit stilistischen Finessen auskennen.

Bevor das klappt, liegt noch ein langer Weg vor den rund zwei Dutzend Mitarbeitern des Darmstädter Projekts. Um eine Ahnung von der Komplexität zu bekommen, greift die Leiterin des UKP-Lab gern ein Beispiel mit ironischer Note auf. Jeder Mensch weiß auf Anhieb, was gemeint ist, wenn er in einer Restaurantkritik liest: Die Cola war schön kalt – und das Essen auch. Der Computer aber liest da erst mal: A ist schön – und B auch. Den Aufwand zur möglichst präzisen Texterkennung betreiben die TU-Wissenschaftler aber nicht, dass man künftig noch mehr Schummel-Akademikern auf die Schliche kommt. Es gibt ganz handfeste Ideen für praktische Anwendungen. Das kann im wissenschaftlichen Bereich sein, etwa bei der Literatur- oder Quellensuche: Wer bislang per Schlagwort in die Volltextsuche ging, gibt künftig der Maschine einen Text und sagt ihr: Filtere mir aus dem digitalen Textuniversum einen mit verwandtem Inhalt heraus.

Nutzen für die Wirtschaft

Denkbar ist der Einsatz einer solchen Software aber auch für den Alltag, das tägliche Surfen im Internet. Nutzer von Suchmaschinen kennen das in Ansätzen schon – etwa wenn ihnen Google ähnliche Suchbegriffe vorschlägt. Ein aufwendigerer Einsatz wäre, erläutert Gurevych, das automatische Auswerten von Produktkritiken. So könnte eine Firma all das, was Tausende Menschen im Internet zum neuen Espresso-Automaten zu sagen haben, strukturiert aufarbeiten lassen.

Und schließlich – diese Anwendung liegt der gebürtigen Ukrainerin besonders am Herzen – ließen sich Prüfungsfragen maschinell bearbeiten. Das aber nicht etwa, um sich als Professorin freie Nachmittage zu schaffen. Vielmehr wäre das eine besonders interessante Sache für den neuen Kooperationspartner des UKP- Lab: Im Deutschen Institut für Internationale Pädagogische Forschung, dem DIPF in Frankfurt, lagern Unmengen von Tests, die sich so eines Tages ohne den Einsatz von vielen Hilfskräften auswerten lassen.

Das könnte Sie auch interessieren

Mehr zum Thema

Kommentare