Darmstadt: Wie Maschinen lernen

Von: Claudia Kabel

Die TU Darmstadt ist führend in der Forschung zur künstlichen Intelligenz. © Michael Schick

Wie kann eine künstliche Intelligenz (KI) erkennen lernen, was Pornographie oder Gewalt ist? Ein erstmals veröffentlichter gigantischer Datensatz soll Klarheit bringen.

Die KI-Systeme von Google, Facebook und Co verwerten seit Jahren gigantische Datensätze, die unter anderem aus Bildern oder Texten bestehen. Diese Datensätze sind allerdings nicht öffentlich zugänglich. Nun wurde erstmals von einer deutschen Forschungsgruppe unter Beteiligung der Technischen Universität (TU) Darmstadt ein ebenfalls sehr großer Datensatz offengelegt. Die darin enthaltenen über fünf Milliarden Bilder sollen dazu dienen, künstliche Intelligenz (KI)-Modelle zu trainieren, um zum Beispiel den Maschinen beizubringen, wann Inhalte anstößig sind. Also wann es sich etwa um Pornografie, Gewalt oder beleidigende Inhalte handelt, sagt Patrick Schramowski.

Der 32-jährige Doktorand Schramowski ist wissenschaftlicher Mitarbeiter im Fachgebiet Künstliche Intelligenz und Maschinelles Lernen am Fachbereich Informatik der TU und arbeitet zudem im TU-Forschungsverbund „Third Wave of Artificial Intelligence“ (3AI) des hochschulübergreifenden Hessischen Zentrums für Künstliche Intelligenz (hessian.AI) mit, das seinen Sitz an der TU Darmstadt hat.

Schramowski wurde nun als Co-Autor des Datensatzes der Forschungsgruppe LAION kürzlich bei einer der weltweit wichtigsten Konferenzen zu künstlicher Intelligenz in New Orleans für die herausragende Veröffentlichung mit einem Outstanding Paper Award (engl. Auszeichnung für eine hervorragende Veröffentlichung) geehrt.

Dies sei wie „ein Sechser im Lotto“, sagt Kristian Kersting, Professor im Fachbereich Informatik der TU, in dessen Team Schramowski als wissenschaftlicher Mitarbeiter forscht. Die Auszeichnung sei eine der wichtigsten auf dem Gebiet der KI und ein „Super-Erfolg für 3AI, die TU Darmstadt und hessian.AI“, so Kersting. Mit dem Datensatz soll die nächste Generation von KI-Modellen trainiert werden. Nämlich KIs, die sich selbst beibringen, was potenziell unangemessene Inhalte sind, um sie dann zu filtern.

Schramowskis Schwerpunkt liegt dabei auf ethischen Fragen. „KI-Systeme nehmen einen immer größeren Einfluss auf unsere Gesellschaft.“ Deshalb sei es wichtig herauszufinden, wie künstliche Intelligenz lernt. Dies könne man anhand der Gestaltung von Datensätzen identifizieren, indem etwa verschiedene Daten ausgewählt werden, anhand derer die KI dann trainiert wird. Wenn zum Beispiel Bilder nur weibliche Stewardessen zeigen, lernt die KI, dass dies offenbar ein typischer Frauenberuf ist. Um diese Annahme zu korrigieren, könnte man mehr Bilder männlicher Flugbegleiter zeigen, erklärt Schramowski.

Komplizierter wird es, wenn eine KI entscheiden soll, wann zum Beispiel Nacktheit anstößig ist. Dies sei auch kulturell bedingt, so Schramowski. Auch gebe es die künstlerische Darstellung von Nacktheit, die nicht als anstößig gelte. „Dadurch, dass der Datensatz jetzt öffentlich ist und wir auch den Code zur Verfügung stellen, haben wir die Chance, das Lernverhalten von KIs weiter zu erforschen.“ Die Inhalte des Datensatzes stammen dabei aus frei zugänglichen Inhalten, die im Internet archiviert werden, etwa Bilder aus Wikipedia-Einträgen. Der Datensatz werde bereits angewendet. Ein Beispiel dafür sei das öffentlich zugängliche generative Deep-Learning-Bild-System Stable Diffusion. Dieses generiert anhand von Textbeschreibungen detaillierte Bilder.

Die KI-Forschung ist eine zentrale Disziplin an der TU Darmstadt, die international führend ist. Die TU ist Mitglied in den beiden großen europäischen KI-Initiativen ELLIS und CLAIRE und trägt federführend das Hessische Zentrum für Künstliche Intelligenz (hessian.AI) mit. Regelmäßig gewinnen Forschende der TU Auszeichnungen und Preise.

Erst kürzlich sprach die Alexander-von-Humboldt-Stiftung der TU Darmstadt mit einer Humboldt-Professur bereits zum dritten Mal den höchstdotierten Forschungspreis Deutschlands zu. Der von der TU nominierte Preisträger Marcus Rohrbach gilt als international ausgewiesener Spitzenforscher im Bereich KI und soll nun die TU verstärken.

TU-Forscher Patrick Schramowski. © TU Darmstadt