15. Zusammenfassung
In der vorliegenden Diplomarbeit wurde die Extraktion eines multilingualen Thesaurus aus den
Daten derWikipedia behandelt. Zunächst wurden einige Grundlagen überWikipedia und Thesauri
erörtert (.1) und der Stand der Forschung auf diesem Gebiet evaluiert (.2). Dann wurde eine
Methode entworfen, mit der die relevanten Informationen aus dem Wiki-Text extrahiert werden
können, sowie ein Schema zur Interpretation dieser Informationen zum Aufbau eines Thesaurus
entworfen (.4). Desweiteren wurde ein Prototyp (WikiWord) entwickelt, der diese Methode implementiert
(.8 und .9) und die gewonnenen Daten in einer geeigneten Struktur in einer relationalen
Datenbank speichert (.C). Für den so entstandenen Thesaurus wurde ein Verfahren entwickelt,
mit dem er in ein Austauschformat exportiert werden kann, das auf den Standards RDF und SKOS
beruht (.10). WikiWord umfasst insgesamt über 31 000 Zeilen Programmcode in fast 300 Klassen
(.G).
Der Prototyp wurde verwendet, um die Daten einiger Wikipedia-Projekte zu importieren und
aus ihnen einen multilingualen Thesaurus zu erzeugen. Dieser wurden in Hinblick auf seine
Validität sowie seine Nützlichkeit für verschiedene Aufgaben aus dem Bereich der automatischen
Sprachverarbeitung sowie des Information Retrieval evaluiert (.IV).
15.1. Besonderheiten
Das WikiWord-System, das in der vorliegenden Arbeit beschrieben ist, implementiert eine „endto-
end-Lösung“ für die Aufgabe der automatischen Erstellung eines multilingualen Thesaurus,
wobei es auf die Daten der Wikipedia zurückgreift. Dabei werden vor allem Informationen verwendet,
die durch die Verknüpfungsstruktur sowie die Kategorisierung und die Verwendung von
Vorlagen in den Wiki-Seiten kodiert sind. Eigenschaften, die WikiWord von den in .2 beschriebenen
Systemen und Verfahren abgrenzt, sind insbesondere:
• Zur Bestimmung der Bezeichnungen für die durch Artikel repräsentierten Konzepte wurde
unter anderem der Link-Text von Wiki-Links verwendet, die auf diese Artikel verweisen
(siehe .8.9). Dabei wurde auch die Frequenz dieser Zuordnungen gespeichert. Die
Verwendung des Link-Textes ist zwar in der Literatur durchaus bereits untersucht worde,
jedoch in der Regel nicht im Kontext einer Thesaurus-Struktur, sondern nur in Bezug auf
Disambiguierungssysteme, insbesondere für die Named Entity Recognition (vergleiche .2.3
und .2.4).
• Zur Bestimmung der Bezeichnungen für Konzepte wurden, neben den gängigen
Quellen wie Seitentitel und Weiterleitungen sowie den zum Teil ebenfalls schon untersuchten
Begriffsklärungsseiten, zusätzliche Quellen erschlossen, insbesondere die bei
der Kategorisierung angegebenen Sort-Keys sowie die Verwendung der Magic Words
DISPLAYTITLE und DEFAULTSORT (siehe .9.1).
15. Zusammenfassung 132
• Für die Verarbeitung von Begriffsklärungsseiten wurde ein Algorithmus entwickelt (.8.10,
.13), der deutlich über das hinaus geht, was in bisherigen Arbeiten zu dem Thema beschrieben
wurde (vergleiche .2.3).
• Es wurde ein Verfahren entwickelt, das zu Kategorien einen „Hauptartikel“ bestimmt,
und Kategorie und Artikel dann auf dasselbe Konzept im Thesaurus abbildet
(.9.1.2). Dieses Verfahren ist insbesondere sprachunabhängig und basiert nicht auf einer
Stammformreduktion. Ein solches Verfahren ist in den einschlägigen Arbeiten bisher nicht
beschrieben worden.
• Es wurde auf der Basis verschiedener Merkmale, wie den verwendeten Kategorien und
Vorlagen, eine Klassifikation von Seiten und Konzepten vorgenommen (siehe .8.5 und
.8.6). Eine solche Klassifikation von Konzepten wurde zwar zuvor im Rahmen der Named
Entity Recognition beschrieben, aber nicht mit einem Thesaurus kombiniert.
• Die Nutzung von Language-Links zur Bestimmung der semantischen Ähnlichkeit zwischen
Konzepten wurde erstmals untersucht (siehe .9.1.3). Überhaupt gibt es zwar eine große
Zahl von Arbeiten zur Bestimmung von semantischer Verwandtheit unter Verwendung der
Wikipedia (vergleiche .2.3), semantische Ähnlichkeit wird jedoch kaum behandelt.
• Die Kombination der Daten aus mehreren Wikipedias durch Zusammenfassen äquivalenter
Konzepte aus den verschiedenen Sprachen, identifiziert aufgrund ihrer Language-Links,
wurde ebenfalls zuvor nicht beschrieben. Lediglich AUER U. A. (2007) nutzt die Language-
Links, um Glossen in mehreren Sprachen anzubieten. Dabei dient allerdings die englische
Wikipeda als Basis für die Datenstruktur, währendWikiWord alle Sprachen gleichberechtigt
behandelt. Auch wird die Strukturinformation aus anderen Wikipedias nicht verwendet. In
HAMMW¨OHNER (2007B) wird zwar der Abgleich von Kategoriestrukturen verschiedener Wikis
mit Hilfe der Language-Links vorgeschlagen, eine Vereinigung der Strukturen wird jedoch
nicht betrachtet.
• WikiWord berücksichtigt Konzepte, die im Wiki nur als Abschnitte von Artikeln, nicht als
eigenständige Artikel, repräsentiert sind (.9.1.1).
• Außerdem werden Konzepte berücksichtigt, auf die zwar verwiesen wird, die aber keinen
eigenen Artikel haben. Obwohl zu solchen Konzepten wenig Informationen vorliegen, können
sie z. B. zur Indexierung von Dokumenten dennoch nützlich sein.
• Die von WikiWord erstellte Datenstruktur ist konzeptorientiert und abstrahiert weitgehend
von den Strukturen der Wikipedia. Insbesondere werden, im Unterschied zu ZESCH U. A.
(2007A), Kategorien gar nicht direkt und Wiki-Seiten nur als Hilfskonstrukt gespeichert.
• Die Bereitstellung einer Abbildung auf RDF/SKOS, wie in .10 beschrieben, erlaubt eine unmittelbare
Weiternutzung der erzeugten Daten in bestehenden Systemen zur Verarbeitung
von Wissensnetzen. Einen ähnlichen Ansatz verfolgen vor allem GREGOROWICZ UND KRAMER
(2006). AUER U. A. (2007) bietet zwar auch eine solche Abbildung, allerdings in Hinblick
auf die Repräsentation von Konzepteigenschaften und semantisch starken Beziehungen
zwischen Konzepten, wie sie typischerweise aus Infoboxen extrahiert werden, nicht in
15. Zusammenfassung 133
Hinblick auf eine Thesaurus-Struktur. VAN ASSEM U. A. (2006) untersuchen die Repräsentation
von Thesauri in SKOS, beschränken sich aber auf manuell gewartete Thesauri wie MeSH.
• WikiWord verwendet keine automatische Sprachverarbeitung. Textuelle Inhalte als solches
wurden bei der Verarbeitung ignoriert, mit Ausnahme der Extraktion des ersten Satzes als
Definition (Glosse) des Konzeptes. Die verwendeten Verfahren sind weitgehend sprachunabhängig.
Projektspezifische Muster, die Konventionen und Eigenheiten der betreffenden
Wikipedias wiederspiegeln, können über einen Satz von Konfigurationsvariablen angepasst
werden.
• Es wurde nicht versucht, konkrete semantische Beziehungen zwischen Konzepten oder
Eigenschaften und Werte von Artikelgegenständen zu ermitteln. Die Verarbeitung solcher
strukturierten Daten ist nicht Gegenstand dieser Arbeit.
WikiWord berücksichtigt also eine Vielzahl von Informationsquellen im Wiki-Text, von denen
einige bislang völlig oder doch weitgehend übergangen wurden. Dadurch entsteht nicht nur ein
Thesaurus, der für gängige Aufgaben wie Indexierung, Disambiguierung und Bestimmung von
semantischer Ähnlichkeit und Verwandtheit verwendet werden kann. Die so gewonnenen Daten
bieten auch eine reichere Datenbasis, auf die die verschiedenen in der Literatur beschriebenen
Verfahren zur Nutzung und Analyse der Wikipedia angewendet werden können.
15.2. Ergebnis und Ausblick
Die Evaluation der mit WikiWord erzeugten Daten zeigt, dass WikiWord eine sehr breite
Datenbasis liefert, die den in .5 definierten Anforderungen entspricht. Die Qualität der verschiedenen
extrahierten Daten ist befriedigend bis gut, und in einigen Fällen wurden Verfahren angegeben,
mit denen die Präzision der Daten auf Kosten der Abdeckung verbessert werden kann.
Evaluiert wurden insbesondere die Bedeutungsrelation (in .12.5) sowie die Bestimmung der semantischen
Verwandtheit von Konzepten und die automatische Bedeutungszuweisung (in .14).
Die Qualität der Zusammenfassung der Konzepte aus unterschiedlichen Sprachen zum Aufbau
eines multilingualen Thesaurus wurde ebenfalls betrachtet und für gut befunden (.11.3), hier
scheinen aber weitergehende Untersuchungen und insbesondere ein Vergleich mit alternativen
Verfahren sinnvoll.
Weitere Forschung verdient auch die Frage, inwieweit die teilweise unklaren oder fehlerhaften
Kategoriestrukturen, wie sie in einigen Wikipedias vorliegen, durch geschickte Kombination der
Informationen aus mehreren Wikis verbessert werden können, wie in HAMMW¨OHNER (2007B) vorgeschlagen.
Ein Punkt, für den die Evaluation der Praxistauglichkeit noch weitgehend aussteht, ist der Export
nach RDF/SKOS (.10). Zwar bieten diese Standards eine Orientierungshilfe in Bezug darauf,
welche Inhalte wichtig sind und in welcher Form sie zu repräsentieren sind W3C (2005),
Integrationstests mit einem oder mehreren realen Systemen, die SKOS-Daten verarbeiten können,
wären jedoch angezeigt. Projekte, die vermutlich von den von WikiWord bereitgestellten Daten
15. Zusammenfassung 134
profitieren könnten, und die sich daher für einen Integrationstest anbieten, sind unter anderem
DBpedia AUER U. A. (2007), DBPEDIA, Wortschatz QUASTHOFF (1998), WORTSCHATZ, Freebase FREEBASE sowie
das freie Wörterbuchprojekt OmegaWiki VAN MULLIGEN U. A. (2006), OMEGAWIKI.
Die Frage, inwieweit der von WikiWord erstellte multilinguale Thesaurus als Basis für ein
Übersetzungssystem geeignet ist, wäre ebenfalls noch zu untersuchen. Insbesondere eine
Evaluation des Nutzens der Informationen aus diesem Thesaurus für ein bestehendes System wäre
aufschlussreich.
Die vorliegende Diplomarbeit beschreibt Methoden zur Extraktion von Wissen über Beziehungen
von Konzepten zueinander sowie über die Bezeichnungen, die für Konzepte verwendet werden. Es
wurde ein funktionsfähiger Prototyp entwickelt und auf die Daten einigerWikipedias angewendet.
Es konnte gezeigt werden, dass die beschriebenen Methoden die gestellten Anforderungen befriedigend
erfüllen, und es wurde eine Anzahl von Ansätzen für weiterführende Untersuchungen aufgezeigt.
Der Autor verbleibt in der Hoffnung, mit dieser Arbeit einen Beitrag dazu geleistet zu haben,
Systeme zur automatischen Sprachverarbeitung und Information Retrieval dadurch zu verbessern,
dass sie Zugang zu einer großen Menge detaillierten lexikalisch-semantischen Weltwissens
erhalten.
Wissen ist nicht genug. Wir müssen es anwenden.
— J.W. Goethe
Teil V.
Anhang
In der vorliegenden Diplomarbeit wurde die Extraktion eines multilingualen Thesaurus aus den
Daten derWikipedia behandelt. Zunächst wurden einige Grundlagen überWikipedia und Thesauri
erörtert (.1) und der Stand der Forschung auf diesem Gebiet evaluiert (.2). Dann wurde eine
Methode entworfen, mit der die relevanten Informationen aus dem Wiki-Text extrahiert werden
können, sowie ein Schema zur Interpretation dieser Informationen zum Aufbau eines Thesaurus
entworfen (.4). Desweiteren wurde ein Prototyp (WikiWord) entwickelt, der diese Methode implementiert
(.8 und .9) und die gewonnenen Daten in einer geeigneten Struktur in einer relationalen
Datenbank speichert (.C). Für den so entstandenen Thesaurus wurde ein Verfahren entwickelt,
mit dem er in ein Austauschformat exportiert werden kann, das auf den Standards RDF und SKOS
beruht (.10). WikiWord umfasst insgesamt über 31 000 Zeilen Programmcode in fast 300 Klassen
(.G).
Der Prototyp wurde verwendet, um die Daten einiger Wikipedia-Projekte zu importieren und
aus ihnen einen multilingualen Thesaurus zu erzeugen. Dieser wurden in Hinblick auf seine
Validität sowie seine Nützlichkeit für verschiedene Aufgaben aus dem Bereich der automatischen
Sprachverarbeitung sowie des Information Retrieval evaluiert (.IV).
15.1. Besonderheiten
Das WikiWord-System, das in der vorliegenden Arbeit beschrieben ist, implementiert eine „endto-
end-Lösung“ für die Aufgabe der automatischen Erstellung eines multilingualen Thesaurus,
wobei es auf die Daten der Wikipedia zurückgreift. Dabei werden vor allem Informationen verwendet,
die durch die Verknüpfungsstruktur sowie die Kategorisierung und die Verwendung von
Vorlagen in den Wiki-Seiten kodiert sind. Eigenschaften, die WikiWord von den in .2 beschriebenen
Systemen und Verfahren abgrenzt, sind insbesondere:
• Zur Bestimmung der Bezeichnungen für die durch Artikel repräsentierten Konzepte wurde
unter anderem der Link-Text von Wiki-Links verwendet, die auf diese Artikel verweisen
(siehe .8.9). Dabei wurde auch die Frequenz dieser Zuordnungen gespeichert. Die
Verwendung des Link-Textes ist zwar in der Literatur durchaus bereits untersucht worde,
jedoch in der Regel nicht im Kontext einer Thesaurus-Struktur, sondern nur in Bezug auf
Disambiguierungssysteme, insbesondere für die Named Entity Recognition (vergleiche .2.3
und .2.4).
• Zur Bestimmung der Bezeichnungen für Konzepte wurden, neben den gängigen
Quellen wie Seitentitel und Weiterleitungen sowie den zum Teil ebenfalls schon untersuchten
Begriffsklärungsseiten, zusätzliche Quellen erschlossen, insbesondere die bei
der Kategorisierung angegebenen Sort-Keys sowie die Verwendung der Magic Words
DISPLAYTITLE und DEFAULTSORT (siehe .9.1).
15. Zusammenfassung 132
• Für die Verarbeitung von Begriffsklärungsseiten wurde ein Algorithmus entwickelt (.8.10,
.13), der deutlich über das hinaus geht, was in bisherigen Arbeiten zu dem Thema beschrieben
wurde (vergleiche .2.3).
• Es wurde ein Verfahren entwickelt, das zu Kategorien einen „Hauptartikel“ bestimmt,
und Kategorie und Artikel dann auf dasselbe Konzept im Thesaurus abbildet
(.9.1.2). Dieses Verfahren ist insbesondere sprachunabhängig und basiert nicht auf einer
Stammformreduktion. Ein solches Verfahren ist in den einschlägigen Arbeiten bisher nicht
beschrieben worden.
• Es wurde auf der Basis verschiedener Merkmale, wie den verwendeten Kategorien und
Vorlagen, eine Klassifikation von Seiten und Konzepten vorgenommen (siehe .8.5 und
.8.6). Eine solche Klassifikation von Konzepten wurde zwar zuvor im Rahmen der Named
Entity Recognition beschrieben, aber nicht mit einem Thesaurus kombiniert.
• Die Nutzung von Language-Links zur Bestimmung der semantischen Ähnlichkeit zwischen
Konzepten wurde erstmals untersucht (siehe .9.1.3). Überhaupt gibt es zwar eine große
Zahl von Arbeiten zur Bestimmung von semantischer Verwandtheit unter Verwendung der
Wikipedia (vergleiche .2.3), semantische Ähnlichkeit wird jedoch kaum behandelt.
• Die Kombination der Daten aus mehreren Wikipedias durch Zusammenfassen äquivalenter
Konzepte aus den verschiedenen Sprachen, identifiziert aufgrund ihrer Language-Links,
wurde ebenfalls zuvor nicht beschrieben. Lediglich AUER U. A. (2007) nutzt die Language-
Links, um Glossen in mehreren Sprachen anzubieten. Dabei dient allerdings die englische
Wikipeda als Basis für die Datenstruktur, währendWikiWord alle Sprachen gleichberechtigt
behandelt. Auch wird die Strukturinformation aus anderen Wikipedias nicht verwendet. In
HAMMW¨OHNER (2007B) wird zwar der Abgleich von Kategoriestrukturen verschiedener Wikis
mit Hilfe der Language-Links vorgeschlagen, eine Vereinigung der Strukturen wird jedoch
nicht betrachtet.
• WikiWord berücksichtigt Konzepte, die im Wiki nur als Abschnitte von Artikeln, nicht als
eigenständige Artikel, repräsentiert sind (.9.1.1).
• Außerdem werden Konzepte berücksichtigt, auf die zwar verwiesen wird, die aber keinen
eigenen Artikel haben. Obwohl zu solchen Konzepten wenig Informationen vorliegen, können
sie z. B. zur Indexierung von Dokumenten dennoch nützlich sein.
• Die von WikiWord erstellte Datenstruktur ist konzeptorientiert und abstrahiert weitgehend
von den Strukturen der Wikipedia. Insbesondere werden, im Unterschied zu ZESCH U. A.
(2007A), Kategorien gar nicht direkt und Wiki-Seiten nur als Hilfskonstrukt gespeichert.
• Die Bereitstellung einer Abbildung auf RDF/SKOS, wie in .10 beschrieben, erlaubt eine unmittelbare
Weiternutzung der erzeugten Daten in bestehenden Systemen zur Verarbeitung
von Wissensnetzen. Einen ähnlichen Ansatz verfolgen vor allem GREGOROWICZ UND KRAMER
(2006). AUER U. A. (2007) bietet zwar auch eine solche Abbildung, allerdings in Hinblick
auf die Repräsentation von Konzepteigenschaften und semantisch starken Beziehungen
zwischen Konzepten, wie sie typischerweise aus Infoboxen extrahiert werden, nicht in
15. Zusammenfassung 133
Hinblick auf eine Thesaurus-Struktur. VAN ASSEM U. A. (2006) untersuchen die Repräsentation
von Thesauri in SKOS, beschränken sich aber auf manuell gewartete Thesauri wie MeSH.
• WikiWord verwendet keine automatische Sprachverarbeitung. Textuelle Inhalte als solches
wurden bei der Verarbeitung ignoriert, mit Ausnahme der Extraktion des ersten Satzes als
Definition (Glosse) des Konzeptes. Die verwendeten Verfahren sind weitgehend sprachunabhängig.
Projektspezifische Muster, die Konventionen und Eigenheiten der betreffenden
Wikipedias wiederspiegeln, können über einen Satz von Konfigurationsvariablen angepasst
werden.
• Es wurde nicht versucht, konkrete semantische Beziehungen zwischen Konzepten oder
Eigenschaften und Werte von Artikelgegenständen zu ermitteln. Die Verarbeitung solcher
strukturierten Daten ist nicht Gegenstand dieser Arbeit.
WikiWord berücksichtigt also eine Vielzahl von Informationsquellen im Wiki-Text, von denen
einige bislang völlig oder doch weitgehend übergangen wurden. Dadurch entsteht nicht nur ein
Thesaurus, der für gängige Aufgaben wie Indexierung, Disambiguierung und Bestimmung von
semantischer Ähnlichkeit und Verwandtheit verwendet werden kann. Die so gewonnenen Daten
bieten auch eine reichere Datenbasis, auf die die verschiedenen in der Literatur beschriebenen
Verfahren zur Nutzung und Analyse der Wikipedia angewendet werden können.
15.2. Ergebnis und Ausblick
Die Evaluation der mit WikiWord erzeugten Daten zeigt, dass WikiWord eine sehr breite
Datenbasis liefert, die den in .5 definierten Anforderungen entspricht. Die Qualität der verschiedenen
extrahierten Daten ist befriedigend bis gut, und in einigen Fällen wurden Verfahren angegeben,
mit denen die Präzision der Daten auf Kosten der Abdeckung verbessert werden kann.
Evaluiert wurden insbesondere die Bedeutungsrelation (in .12.5) sowie die Bestimmung der semantischen
Verwandtheit von Konzepten und die automatische Bedeutungszuweisung (in .14).
Die Qualität der Zusammenfassung der Konzepte aus unterschiedlichen Sprachen zum Aufbau
eines multilingualen Thesaurus wurde ebenfalls betrachtet und für gut befunden (.11.3), hier
scheinen aber weitergehende Untersuchungen und insbesondere ein Vergleich mit alternativen
Verfahren sinnvoll.
Weitere Forschung verdient auch die Frage, inwieweit die teilweise unklaren oder fehlerhaften
Kategoriestrukturen, wie sie in einigen Wikipedias vorliegen, durch geschickte Kombination der
Informationen aus mehreren Wikis verbessert werden können, wie in HAMMW¨OHNER (2007B) vorgeschlagen.
Ein Punkt, für den die Evaluation der Praxistauglichkeit noch weitgehend aussteht, ist der Export
nach RDF/SKOS (.10). Zwar bieten diese Standards eine Orientierungshilfe in Bezug darauf,
welche Inhalte wichtig sind und in welcher Form sie zu repräsentieren sind W3C (2005),
Integrationstests mit einem oder mehreren realen Systemen, die SKOS-Daten verarbeiten können,
wären jedoch angezeigt. Projekte, die vermutlich von den von WikiWord bereitgestellten Daten
15. Zusammenfassung 134
profitieren könnten, und die sich daher für einen Integrationstest anbieten, sind unter anderem
DBpedia AUER U. A. (2007), DBPEDIA, Wortschatz QUASTHOFF (1998), WORTSCHATZ, Freebase FREEBASE sowie
das freie Wörterbuchprojekt OmegaWiki VAN MULLIGEN U. A. (2006), OMEGAWIKI.
Die Frage, inwieweit der von WikiWord erstellte multilinguale Thesaurus als Basis für ein
Übersetzungssystem geeignet ist, wäre ebenfalls noch zu untersuchen. Insbesondere eine
Evaluation des Nutzens der Informationen aus diesem Thesaurus für ein bestehendes System wäre
aufschlussreich.
Die vorliegende Diplomarbeit beschreibt Methoden zur Extraktion von Wissen über Beziehungen
von Konzepten zueinander sowie über die Bezeichnungen, die für Konzepte verwendet werden. Es
wurde ein funktionsfähiger Prototyp entwickelt und auf die Daten einigerWikipedias angewendet.
Es konnte gezeigt werden, dass die beschriebenen Methoden die gestellten Anforderungen befriedigend
erfüllen, und es wurde eine Anzahl von Ansätzen für weiterführende Untersuchungen aufgezeigt.
Der Autor verbleibt in der Hoffnung, mit dieser Arbeit einen Beitrag dazu geleistet zu haben,
Systeme zur automatischen Sprachverarbeitung und Information Retrieval dadurch zu verbessern,
dass sie Zugang zu einer großen Menge detaillierten lexikalisch-semantischen Weltwissens
erhalten.
Wissen ist nicht genug. Wir müssen es anwenden.
— J.W. Goethe
Teil V.
Anhang