Als Fabian Suchanek aus Saarbrücken an die ligurische Küste fliegen wollte, erschlug ihn zunächst die Auswahl: 66 Verbindungen von elf Flughäfen zu sechs Zielen boten sich an. Der Leiter der Forschungsgruppe Ontologien am Max-Planck-Institut für Informatik wusste sich zu helfen: Ein selbstentwickelter Flugplaner destillierte ihm rasch alle geeigneten Verbindungen heraus. Die Informationen bezog er aus Wikipedia.
Die Internet-Enzyklopädie darf in vielen Universitätsseminaren und Nachrichtenredaktionen nicht zitiert werden. Aber bei Forschern, die sich mit Künstlicher Intelligenz und Sprachverarbeitung beschäftigen, genießt sie einen ausgezeichneten Ruf. Grund dafür ist die semistrukturelle Aufbereitung des Wissens.
Die Verlinkung macht Übersetzungen möglich
"Die Texte haben eine relativ hohe Qualität, und die Link-Struktur erlaubt thematische Gruppierungen die internationale Verlinkung unterstützt zudem Übersetzungen", urteilt Alexander Koller, Professor für Computerlinguistik an der Universität Potsdam. "Wikipedia ist toll."
Damit Computer automatisch auf Wissen zugreifen können, muss es zunächst zu Ontologien aufbereitet werden: Das sind hochgradig strukturierte, maschinenlesbare Wissensspeicher, die nicht nur Begriffe, sondern auch deren Eigenschaften und die Beziehungen zueinander erfassen. Sie decken oft nur einen speziellen Bereich für eine Anwendung ab, da Menschen sie zumeist mühsam von Hand erzeugen. Wikipedia dagegen umfasst schlicht alles, zusammengetragen von mehr als eineinhalb Millionen Autoren: Die Artikel sind nach einem Schema verfasst, verlinkt und durchkategorisiert. Das ist von einer vollwertigen Ontologie zwar noch weit entfernt, bietet aber viele Ansatzpunkte, um mit statistischen Verfahren Wortbedeutungen auf die Spur zu kommen, gezielt Informationen zu extrahieren und zu Ontologien aufzubereiten. Weltweit suchen Forscher nach den besten Algorithmen, um Wikipedia zu strukturieren.
120 Millionen Fakten zum Auswerten
So stützt sich Fabian Suchaneks Flugplaner auf die Ontologie Yago. Die entwickeln Forscher seit 2006 am Max-Planck-Institut, sie umfasst mittlerweile zehn Millionen Einträge mit über 120 Millionen Fakten und wurde automatisch aus Wikipedia, der lexikalischen Datenbank WordNet sowie GeoNames erzeugt. Eine modulare Architektur erleichtert die Integration weiterer Quellen. Prominentester Nutzer von Yago ist das Watson-System von IBM. Das hat 2011 in der Quizshow "Jeopardy!" gegen Menschen gewonnen. Dabei ging es darum, auf eine vorgegebene Antwort die passende Frage zu finden.
Es gibt bereits kommerzielle Software, die Ontologien verwendet. Dazu gehört etwa Apples Sprachsteuerung Siri. Google hat im Dezember die deutsche Variante des Knowledge Graph gestartet. Dabei werden bestimmte Suchergebnisse, wie Künstlernamen, in einem Kasten rechts neben den Standardergebnissen lexikalisch aufbereitet. Der Knowledge Graph basiert auf Freebase, was wiederum auch auf Wikipedia fußt.
"Wir sehen diese Projekte als Zeichen eines Trends zu mehr semantischer Interaktion mit dem Computer", sagt Fabian Suchanek. Außer Yago gibt es weitere frei verfügbare Ontologien. Mit etwas mehr als zehn Millionen Einträgen ist die in internationaler Kooperation erzeugte DBPedia so umfangreich wie Yago. Das Besondere an DBPedia ist, dass sie in 111 Sprachen vorliegt. Auch die am Heidelberger Institut für Theoretische Studien entwickelte Wissensdatenbank WikiNet benutzt Wikipedia und zwar um Eigennamen zu erkennen.
Darf also doch aus Wikipedia zitiert werden? "Unsere Arbeit beruht auf der Hypothese, dass allgemein unstrittiges Wissen in Wikipedia korrekt ist", sagt Suchanek. Dazu zählten geografische Informationen oder Filmdaten. Bei Politik sei es aber unerlässlich, Originalquellen heranzuziehen. Yago kommt auf diese Weise auf eine Fehlerquote von unter fünf Prozent, was laut Suchanek für automatisch erstellte Ontologien ein Spitzenwert ist.
Damit die Suchmaschine uns endlich versteht
Das aufbereitete Wissen von Wikipedia dürfte bald bessere Suchmaschinen ermöglichen, die Fragen in natürlicher Sprache beantworten. Computerlinguist Jan W. Amtrup von der US-Firma Kofax erwartet, dass das Internet immer weniger "eine passive Informationsquelle" sein wird, sondern "dass man quasi mit ihm kooperiert". Ein persönlicher digitaler Assistent könnte bei der Reiseplanung dann vielleicht Alternativen vorschlagen: "Du bist letztes Jahr schon nach Miami geflogen. Wie wäre es mit Jamaica? Ähnliches Klima, aber wesentlich exotischer."
Hans-Arthur Marsiske
© New Scientist Deutschland GmbH 3/2013
Alle Rechte vorbehalten.
Vervielfältigung nur mit Erlaubnis der SPIEGEL-Gruppe.