History: DanielKinzler Chapter 14: Zusammenfassung

View page
Source of version: 1 (current)

15. Zusammenfassung
In der vorliegenden Diplomarbeit wurde die Extraktion eines multilingualen Thesaurus aus den
Daten derWikipedia behandelt. ZunÃ¤chst wurden einige Grundlagen Ã¼berWikipedia und Thesauri
erÃ¶rtert (.1) und der Stand der Forschung auf diesem Gebiet evaluiert (.2). Dann wurde eine
Methode entworfen, mit der die relevanten Informationen aus dem Wiki-Text extrahiert werden
kÃ¶nnen, sowie ein Schema zur Interpretation dieser Informationen zum Aufbau eines Thesaurus
entworfen (.4). Desweiteren wurde ein Prototyp (WikiWord) entwickelt, der diese Methode implementiert
(.8 und .9) und die gewonnenen Daten in einer geeigneten Struktur in einer relationalen
Datenbank speichert (.C). FÃ¼r den so entstandenen Thesaurus wurde ein Verfahren entwickelt,
mit dem er in ein Austauschformat exportiert werden kann, das auf den Standards RDF und SKOS
beruht (.10). WikiWord umfasst insgesamt Ã¼ber 31 000 Zeilen Programmcode in fast 300 Klassen
(.G).
Der Prototyp wurde verwendet, um die Daten einiger Wikipedia-Projekte zu importieren und
aus ihnen einen multilingualen Thesaurus zu erzeugen. Dieser wurden in Hinblick auf seine
ValiditÃ¤t sowie seine NÃ¼tzlichkeit fÃ¼r verschiedene Aufgaben aus dem Bereich der automatischen
Sprachverarbeitung sowie des Information Retrieval evaluiert (.IV).
15.1. Besonderheiten
Das WikiWord-System, das in der vorliegenden Arbeit beschrieben ist, implementiert eine â€žendto-
end-LÃ¶sungâ€œ fÃ¼r die Aufgabe der automatischen Erstellung eines multilingualen Thesaurus,
wobei es auf die Daten der Wikipedia zurÃ¼ckgreift. Dabei werden vor allem Informationen verwendet,
die durch die VerknÃ¼pfungsstruktur sowie die Kategorisierung und die Verwendung von
Vorlagen in den Wiki-Seiten kodiert sind. Eigenschaften, die WikiWord von den in .2 beschriebenen
Systemen und Verfahren abgrenzt, sind insbesondere:
â€¢ Zur Bestimmung der Bezeichnungen fÃ¼r die durch Artikel reprÃ¤sentierten Konzepte wurde
unter anderem der Link-Text von Wiki-Links verwendet, die auf diese Artikel verweisen
(siehe .8.9). Dabei wurde auch die Frequenz dieser Zuordnungen gespeichert. Die
Verwendung des Link-Textes ist zwar in der Literatur durchaus bereits untersucht worde,
jedoch in der Regel nicht im Kontext einer Thesaurus-Struktur, sondern nur in Bezug auf
Disambiguierungssysteme, insbesondere fÃ¼r die Named Entity Recognition (vergleiche .2.3
und .2.4).
â€¢ Zur Bestimmung der Bezeichnungen fÃ¼r Konzepte wurden, neben den gÃ¤ngigen
Quellen wie Seitentitel und Weiterleitungen sowie den zum Teil ebenfalls schon untersuchten
BegriffsklÃ¤rungsseiten, zusÃ¤tzliche Quellen erschlossen, insbesondere die bei
der Kategorisierung angegebenen Sort-Keys sowie die Verwendung der Magic Words
DISPLAYTITLE und DEFAULTSORT (siehe .9.1).
15. Zusammenfassung 132
â€¢ FÃ¼r die Verarbeitung von BegriffsklÃ¤rungsseiten wurde ein Algorithmus entwickelt (.8.10,
.13), der deutlich Ã¼ber das hinaus geht, was in bisherigen Arbeiten zu dem Thema beschrieben
wurde (vergleiche .2.3).
â€¢ Es wurde ein Verfahren entwickelt, das zu Kategorien einen â€žHauptartikelâ€œ bestimmt,
und Kategorie und Artikel dann auf dasselbe Konzept im Thesaurus abbildet
(.9.1.2). Dieses Verfahren ist insbesondere sprachunabhÃ¤ngig und basiert nicht auf einer
Stammformreduktion. Ein solches Verfahren ist in den einschlÃ¤gigen Arbeiten bisher nicht
beschrieben worden.
â€¢ Es wurde auf der Basis verschiedener Merkmale, wie den verwendeten Kategorien und
Vorlagen, eine Klassifikation von Seiten und Konzepten vorgenommen (siehe .8.5 und
.8.6). Eine solche Klassifikation von Konzepten wurde zwar zuvor im Rahmen der Named
Entity Recognition beschrieben, aber nicht mit einem Thesaurus kombiniert.
â€¢ Die Nutzung von Language-Links zur Bestimmung der semantischen Ã„hnlichkeit zwischen
Konzepten wurde erstmals untersucht (siehe .9.1.3). Ãœberhaupt gibt es zwar eine groÃŸe
Zahl von Arbeiten zur Bestimmung von semantischer Verwandtheit unter Verwendung der
Wikipedia (vergleiche .2.3), semantische Ã„hnlichkeit wird jedoch kaum behandelt.
â€¢ Die Kombination der Daten aus mehreren Wikipedias durch Zusammenfassen Ã¤quivalenter
Konzepte aus den verschiedenen Sprachen, identifiziert aufgrund ihrer Language-Links,
wurde ebenfalls zuvor nicht beschrieben. Lediglich [AUER U. A. (2007)] nutzt die Language-
Links, um Glossen in mehreren Sprachen anzubieten. Dabei dient allerdings die englische
Wikipeda als Basis fÃ¼r die Datenstruktur, wÃ¤hrendWikiWord alle Sprachen gleichberechtigt
behandelt. Auch wird die Strukturinformation aus anderen Wikipedias nicht verwendet. In
[HAMMWÂ¨OHNER (2007B)] wird zwar der Abgleich von Kategoriestrukturen verschiedener Wikis
mit Hilfe der Language-Links vorgeschlagen, eine Vereinigung der Strukturen wird jedoch
nicht betrachtet.
â€¢ WikiWord berÃ¼cksichtigt Konzepte, die im Wiki nur als Abschnitte von Artikeln, nicht als
eigenstÃ¤ndige Artikel, reprÃ¤sentiert sind (.9.1.1).
â€¢ AuÃŸerdem werden Konzepte berÃ¼cksichtigt, auf die zwar verwiesen wird, die aber keinen
eigenen Artikel haben. Obwohl zu solchen Konzepten wenig Informationen vorliegen, kÃ¶nnen
sie z. B. zur Indexierung von Dokumenten dennoch nÃ¼tzlich sein.
â€¢ Die von WikiWord erstellte Datenstruktur ist konzeptorientiert und abstrahiert weitgehend
von den Strukturen der Wikipedia. Insbesondere werden, im Unterschied zu [ZESCH U. A.
(2007A)], Kategorien gar nicht direkt und Wiki-Seiten nur als Hilfskonstrukt gespeichert.
â€¢ Die Bereitstellung einer Abbildung auf RDF/SKOS, wie in .10 beschrieben, erlaubt eine unmittelbare
Weiternutzung der erzeugten Daten in bestehenden Systemen zur Verarbeitung
von Wissensnetzen. Einen Ã¤hnlichen Ansatz verfolgen vor allem [GREGOROWICZ UND KRAMER
(2006)]. [AUER U. A. (2007)] bietet zwar auch eine solche Abbildung, allerdings in Hinblick
auf die ReprÃ¤sentation von Konzepteigenschaften und semantisch starken Beziehungen
zwischen Konzepten, wie sie typischerweise aus Infoboxen extrahiert werden, nicht in
15. Zusammenfassung 133
Hinblick auf eine Thesaurus-Struktur. [VAN ASSEM U. A. (2006)] untersuchen die ReprÃ¤sentation
von Thesauri in SKOS, beschrÃ¤nken sich aber auf manuell gewartete Thesauri wie MeSH.
â€¢ WikiWord verwendet keine automatische Sprachverarbeitung. Textuelle Inhalte als solches
wurden bei der Verarbeitung ignoriert, mit Ausnahme der Extraktion des ersten Satzes als
Definition (Glosse) des Konzeptes. Die verwendeten Verfahren sind weitgehend sprachunabhÃ¤ngig.
Projektspezifische Muster, die Konventionen und Eigenheiten der betreffenden
Wikipedias wiederspiegeln, kÃ¶nnen Ã¼ber einen Satz von Konfigurationsvariablen angepasst
werden.
â€¢ Es wurde nicht versucht, konkrete semantische Beziehungen zwischen Konzepten oder
Eigenschaften und Werte von ArtikelgegenstÃ¤nden zu ermitteln. Die Verarbeitung solcher
strukturierten Daten ist nicht Gegenstand dieser Arbeit.
WikiWord berÃ¼cksichtigt also eine Vielzahl von Informationsquellen im Wiki-Text, von denen
einige bislang vÃ¶llig oder doch weitgehend Ã¼bergangen wurden. Dadurch entsteht nicht nur ein
Thesaurus, der fÃ¼r gÃ¤ngige Aufgaben wie Indexierung, Disambiguierung und Bestimmung von
semantischer Ã„hnlichkeit und Verwandtheit verwendet werden kann. Die so gewonnenen Daten
bieten auch eine reichere Datenbasis, auf die die verschiedenen in der Literatur beschriebenen
Verfahren zur Nutzung und Analyse der Wikipedia angewendet werden kÃ¶nnen.
15.2. Ergebnis und Ausblick
Die Evaluation der mit WikiWord erzeugten Daten zeigt, dass WikiWord eine sehr breite
Datenbasis liefert, die den in .5 definierten Anforderungen entspricht. Die QualitÃ¤t der verschiedenen
extrahierten Daten ist befriedigend bis gut, und in einigen FÃ¤llen wurden Verfahren angegeben,
mit denen die PrÃ¤zision der Daten auf Kosten der Abdeckung verbessert werden kann.
Evaluiert wurden insbesondere die Bedeutungsrelation (in .12.5) sowie die Bestimmung der semantischen
Verwandtheit von Konzepten und die automatische Bedeutungszuweisung (in .14).
Die QualitÃ¤t der Zusammenfassung der Konzepte aus unterschiedlichen Sprachen zum Aufbau
eines multilingualen Thesaurus wurde ebenfalls betrachtet und fÃ¼r gut befunden (.11.3), hier
scheinen aber weitergehende Untersuchungen und insbesondere ein Vergleich mit alternativen
Verfahren sinnvoll.
Weitere Forschung verdient auch die Frage, inwieweit die teilweise unklaren oder fehlerhaften
Kategoriestrukturen, wie sie in einigen Wikipedias vorliegen, durch geschickte Kombination der
Informationen aus mehreren Wikis verbessert werden kÃ¶nnen, wie in [HAMMWÂ¨OHNER (2007B)] vorgeschlagen.
Ein Punkt, fÃ¼r den die Evaluation der Praxistauglichkeit noch weitgehend aussteht, ist der Export
nach RDF/SKOS (.10). Zwar bieten diese Standards eine Orientierungshilfe in Bezug darauf,
welche Inhalte wichtig sind und in welcher Form sie zu reprÃ¤sentieren sind [W3C (2005)],
Integrationstests mit einem oder mehreren realen Systemen, die SKOS-Daten verarbeiten kÃ¶nnen,
wÃ¤ren jedoch angezeigt. Projekte, die vermutlich von den von WikiWord bereitgestellten Daten
15. Zusammenfassung 134
profitieren kÃ¶nnten, und die sich daher fÃ¼r einen Integrationstest anbieten, sind unter anderem
DBpedia [AUER U. A. (2007), DBPEDIA], Wortschatz [QUASTHOFF (1998), WORTSCHATZ], Freebase [FREEBASE] sowie
das freie WÃ¶rterbuchprojekt OmegaWiki [VAN MULLIGEN U. A. (2006), OMEGAWIKI].
Die Frage, inwieweit der von WikiWord erstellte multilinguale Thesaurus als Basis fÃ¼r ein
Ãœbersetzungssystem geeignet ist, wÃ¤re ebenfalls noch zu untersuchen. Insbesondere eine
Evaluation des Nutzens der Informationen aus diesem Thesaurus fÃ¼r ein bestehendes System wÃ¤re
aufschlussreich.
Die vorliegende Diplomarbeit beschreibt Methoden zur Extraktion von Wissen Ã¼ber Beziehungen
von Konzepten zueinander sowie Ã¼ber die Bezeichnungen, die fÃ¼r Konzepte verwendet werden. Es
wurde ein funktionsfÃ¤higer Prototyp entwickelt und auf die Daten einigerWikipedias angewendet.
Es konnte gezeigt werden, dass die beschriebenen Methoden die gestellten Anforderungen befriedigend
erfÃ¼llen, und es wurde eine Anzahl von AnsÃ¤tzen fÃ¼r weiterfÃ¼hrende Untersuchungen aufgezeigt.
Der Autor verbleibt in der Hoffnung, mit dieser Arbeit einen Beitrag dazu geleistet zu haben,
Systeme zur automatischen Sprachverarbeitung und Information Retrieval dadurch zu verbessern,
dass sie Zugang zu einer groÃŸen Menge detaillierten lexikalisch-semantischen Weltwissens
erhalten.
Wissen ist nicht genug. Wir mÃ¼ssen es anwenden.
â€” J.W. Goethe
Teil V.
Anhang