DanielKinzler Chapter 2: Einordnung

2. Einordnung
Im Folgenden wird ein Überblick über den Stand der Forschung in Bereichen gegeben, die
in Bezug auf den Gegenstand der vorliegenden Arbeit besonders relevant sind. Insbesondere
werden Arbeiten betrachtet, die entweder die Wikipedia selbst zum Gegenstand haben oder
Inhalte und Struktur der Wikipedia nutzen, um Aufgaben aus dem Bereich der automatischen
Sprachverarbeitung und des Information Retrieval zu bewältigen.
2.1. Untersuchung von Struktur und Qualität der Wikipedia
Die Wikipedia findet seit dem Jahr 2005 zunehmend Beachtung in der Forschung, sowohl
als Gegenstand von Untersuchungen als auch als Datenbasis oder Korpus für Verfahren zur
Bewältigung einer Vielzahl von unterschiedlichen Aufgaben.
Im Bereich der Arbeiten, die allgemeine Eigenschaften der Wikipedia untersuchen, wie zum
Beispiel das Wachstum oder die Verknüpfungsstruktur, sind vor allem die Arbeiten von J. Voß
zu nennen VOSS (2005A), VOSS (2005B) sowie ein Vortrag von J. Wales, dem Gründer1 der Wikipedia
WALES (2004). A. Capocci et. Al. untersuchen die Eigenschaften der Wikipedia insbesondere in
Hinblick auf das Modell des Preferential Attachment CAPOCCI U. A. (2006), während F. Bellomi und
R. Bonato gängige Algorithmen wie HITS und PageRank zur Bestimmung der Relevanz bzw.
Autorität auf die Wikipedia anwenden BELLOMI UND BONATO (2005B), BELLOMI UND BONATO (2005A).
Gegen die Verwendung der Wikipedia als Datenbasis für Verfahren der Wissens- und
Sprachverarbeitung gab es lange Zeit (und gibt es zum Teil noch immer) den Vorbehalt, dass
die Qualität der Inhalte zu schlecht oder zumindest zu unzuverlässig sei, um sie bedenkenlos
verwenden zu können. Anlass für diese kritische Haltung war und ist zumeist der Umstand,
dass die Wikipedia jederzeit von jedermann frei bearbeitet werden kann und Vorkehrungen zur
Qualitätssicherung wie in einem traditionellen Redaktionssystem weitgehend fehlen. Dem wurde
von Seiten der Wikimedia Foundation sowie der Nutzer der Wikipedia entgegengehalten,
dass neben dem Einbringen neuer Informationen eben auch die redaktionellen Aufgaben wie
Qualitätssicherung von jedermann übernommen werden können und auch tatsächlich übernommen
werden WALES (2004). Seit dem Jahr 2006 ist es erklärtes Ziel der Wikipedia, die Qualität
und Verlässlichkeit der Artikel zu verbessern WP:100K. In der Wikipedia werden seit ihrer
Gründung, aber besonders seit 2006, immer neue Strukturen und Verfahren entwickelt, um die
Qualität der Artikel zu verbessern. Beispiele aus der deutschsprachigen Wikipedia sind das
Qualitätssicherungsprojekt WP:QS, die Auszeichnung von exzellenten Artikeln WP:EA sowie, als
Experiment seit Mai 2008, das Verfahren der gesichteten Versionen WP:GS: Änderungen, die von
anonymen oder neuen Benutzern vorgenommen werden, werden nicht mehr sofort, sondern erst
nach einer ersten (oberflächlichen) Prüfung der Allgemeinheit präsentiert.
1Oder Mitbegründer. Ob die Erfindung der Wikipedia alleine Jimmy Wales zuzuschreiben ist, oder inwieweit die Idee
auf Larry Sanger zurückgeht, ist Gegenstand eines andauernden Streits zwischen eben jenen.
2. Einordnung 15
Die erste und wohl bekannteste Studie zur Qualität der Inhalte der Wikipedia wurde von
J. Giles im Jahr 2005 für die Zeitschrift Nature durchgeführt GILES (2005). Giles vergleicht
hier eine Anzahl von Artikeln aus der Wikipedia mit den entsprechenden Einträgen in der
Encyclopaedia Britannica und kommt zu dem Ergebnis, dass die Wikipedia dem traditionellen
Nachschlagewerk in Bezug auf die Qualität kaum unterlegen und in Bezug auf die
Ausführlichkeit der Beschreibungen und die Abdeckung von aktuellen Themen gar überlegen ist.
Diese Untersuchung hatte zur Folge, dass die Wikipedia zunehmend als ernstzunehmende und
verlässliche Wissensbasis betrachtet und untersucht wurde.
Detailliertere und differenziertere Untersuchungen zur Qualität der Wikipedia wurden vor allem
von R. Hammwöhner durchgeführt HAMMW¨OHNER (2007A), HAMMW¨OHNER (2007B), HAMMW¨OHNER (2007).
Hierbei wurde insbesondere deutlich, dass die Qualität einzelner Artikel stark divergiert: es gibt
in Bezug auf die untersuchten Eigenschaften sowohl Beispiele sehr geringer, wie auch sehr hoher
Qualität. Diese Untersuchungen beruhen zum Teil auf den Kriterien, die von Stvilia et. Al. für die
Evaluation von Enzyklopädien entwickelt wurden STVILIA U. A. (2005). Probleme sieht Hammwöhner
besonders im Bereich der Wissensorganisation zum Beispiel in Form des Kategoriesystems, welches
insbesondere für die englischsprachige Wikipedia als schlecht strukturiert und zum Teil fehlerhaft
befunden wurde. Er schlägt vor, die Kategoriestrukturen aus mehrerenWikipedias über die
Language-Links, die sie verbinden, zu vergleichen und auf diese Weise Probleme aufzudecken
und zu beseitigen HAMMW¨OHNER (2007B).
2.2. Maschinenlesbare Wissensbasen
Es existieren bereits einige Versuche, eine maschinenlesbare Wissensbasis zur Verfügung zu stellen,
die als Grundlage für ein weites Feld an Verfahren aus den Bereichen der automatischen
Sprachverarbeitung, des Information Retrieval, aber auch der Wissensrepräsentation und künstlichen
Intelligenz dienen können. Zwei der ältesten und bekanntesten Systeme dieser Art sind Cyc
und WordNet:
Das Cyc-Projekt bietet eine manuell gepflegte, logikbasierte Ontologie mit etwa 300 000
Konzepten und 3 000 000 Verknüpfungen bzw. Aussagen über diese Konzepte (47 000 Konzepte
und 300 000 Aussagen in der Open-Source-Version OpenCyc) LENAT U. A. (1990), CYC, OPENCYC.
Es wird seit 1984 unter der Leitung von D. Lenat entwickelt und hat seine Wurzeln in der klassischen
KI-Forschung. Ziel des Cyc-Projektes ist es, Softwaresystemen Zugang zu „gesundem
Menschenverstand“ („Common Sense“), also Weltwissen, zu bieten. Neben der Ontologie enthält
es auch ein Lexikon, das (englische) Terme auf Konzepte der Ontologie abbildet.
WordNet ist ein von Hand erzeugtes semantisches Lexikon der englischen Sprache, es besteht
aus etwa 117 000 SynSets (Konzepten) mit etwa 155 000 Wörtern MILLER (1995), FELLBAUM (1998),
WORDNET
. Zwischen den Konzepten sind die für Thesauri üblichen Relationen definiert, wie allgemeiner/
spezieller und verwandt sowie einige speziellere, wie Aggregationsbeziehung (part-of ).
WordNet stammt aus dem Bereich der automatischen Sprachverarbeitung, es wird seit 1985 von
G. A. Miller und in jüngerer Zeit von C. Fellbaum betreut.
Eine neuere Entwicklung stellt SUMO (Suggested Upper Merged Ontology) dar, das eine gemeinsame
standardisierte „obere“ Ontologie für verschiedene Anwendungen im Bereich Suche,
2. Einordnung 16
automatisches Schließen sowie automatische Sprachverarbeitung bieten soll NILES UND PEASE (2001),
SUMO, IEEE:SUO-WG
. SUMO wird seit dem Jahr 2000 vom IEEE entwickelt und enthält Anfang
2008 etwa 20 000 handverlesene Konzepte und 70 000 Aussagen (Axiome). Für SUMO gibt es
eine vollständige Abbildung auf WordNet, mit deren Hilfe Wörter der englischen Sprache an die
abstrakten Konzepte der Ontologie gebunden werden können.
Lange vor solchen maschinenlesbaren Wissensbasen, die auf die Verwendung im Bereich
der automatischen Sprachverarbeitung und künstlichen Intelligenz ausgerichtet sind, gab es
Klassifikationssysteme bzw. kontrollierte Vokabulare für die Indexierung von Dokumenten, insbesondere
für die Verwendung in Bibliotheken. Einige prominente Beispiele sind DDC (Dewey
Decimal Classification DEWEY (1965), DDC) und die komplexere UDC (Universal Decimal
Classification OTLET UND FONTAINE (1905), UDC) sowie die LLC (Library of Congress Classification
LCC, CHAN (1986)). In Deutschland ist außerdem die ASB (Allgemeine Systematik für Öffentliche
Bibliotheken VBNW (2003)) verbreitet.
Neben diesen breit angelegten Systemen gibt es eine Vielzahl von fachspezifischen Thesauri,
die für die Indexierung von Dokumenten in bestimmten Fachbereichen und/oder für bestimmte
Institutionen entwickelt wurden. Bekannte Beispiele dafür sind unter anderem MeSH (die Medical
Subject Headings der United States National Library of Medicine LIPSCOMB (2000), MESH, das von
MEDLINE und PubMed für Arbeiten im Bereich Medizin und Biologie verwendet wird) und die
CR Classification (das ACM Computing Classification System für die Klassifikation von Arbeiten
aus dem Bereich Informatik und Informationstechnologie COULTER U. A. (1998), CCS).
Wissensbasen, die auf Informationen aus der Wikipedia beruhen, sind in den letzten Jahren ebenfalls
entstanden. Zu nennen sind hier einerseits YAGO, dasWordNet als ein strukturelles Rückgrat
verwendet, um die Inhalte der Wikipedia zu organisieren YAGO. Andererseits ist DBpedia zu erwähnen,
welches strukturierte Daten wie Attribut-Wert-Paare aus der Wikipedia extrahiert und in
einer RDF-Datenbank ablegt DBPEDIA. Diese beiden Datenbasen, sowie die Systeme, mit deren
Hilfe sie erstellt wurden, werden in .2.4 bzw. .2.5 noch etwas genauer betrachtet.
Ein weiteres derartiges Projekt ist Freebase, dessen Ziel es ist, eine frei zugängliche Datenbank zu
schaffen, in dem dasWissen derWelt verknüpft ist FREEBASE. Die Idee ist es, Daten aus unterschiedlichen
Quellen miteinander zu kombinieren und über eine einheitliche Schnittstelle zugänglich zu
machen. Freebase enthält Daten unter anderem aus der Wikipedia, aus PubMed2, dem CIA World
Factbook3 und diversen anderen Quellen.
Ziel von WikiWord ist es nun, Daten zu liefern, die solche Systeme ergänzen und bereichern
können. Insbesondere die Möglichkeit, Terme aus unterschiedlichen Sprachen auf ein gemeinsames
abstraktes Konzept abzubilden, sowie eine Vielzahl von Bezeichnungen für dasselbe
Konzept in jeder Sprache zu unterstützen, soll einen Beitrag dazu leisten, die Inhalte solcher
Wissensdatenbanken auf natürlichsprachliche Texte wie Dokumente oder Suchanfragen anwenden
zu können.
2<http://www.pubmedcentral.nih.gov/>
3<https://www.cia.gov/library/publications/the-world-factbook/index.html/>
2. Einordnung 17
2.3. Automatische Disambiguierung und semantische
Verwandtheit
Zwei eng miteinander verwandte Aufgaben aus dem Bereich der automatischen
Sprachverarbeitung und des Information Retrieval, die beide ein gewisses Maß an Weltwissen
benötigen, sind die automatische Disambiguierung (Sinnzuweisung, Bedeutungszuweisung) von
Termen sowie die Bestimmung des Grades der semantischen Verwandtheit und Ähnlichkeit
von Termen bzw. Konzepten. Die Datenbasis, die für diese Aufgaben benötigt wird, ist ein
Assoziationsnetz von Termen und/oder Konzepten, wie es durch einen Thesaurus gegeben ist.
Die Wikipedia erfreut sich in jüngster Zeit wachsender Beliebtheit als Grundlage für die automatische
Erstellung einer solchen Datenbasis, da sie ein weites Feld von Themen abdeckt und dabei
sehr aktuell ist. Zu nennen sind hier zunächst die Arbeiten von M. Strube und S. P. Ponzetto, die
Verfahren zur Extraktion von Thesauri und Taxonomien aus der Wikipedia entwickelt PONZETTO
(2007), PONZETTO UND STRUBE (2007B)
und verschiedene Methoden zur Berechnung der semantischen
Verwandtheit zwischen Konzepten evaluiert haben PONZETTO UND STRUBE (2007C), STRUBE UND PONZETTO
(2006), PONZETTO UND STRUBE (2007A)
. Hierbei wurden vor allem die Kategoriestruktur der Wikipedia
sowie die Querverweise zwischen Artikeln verwendet.
R. Mihalcea dagegen betrachtet vor allem die Beziehung zwischen Link-Text und Link-Ziel und
interpretiert diese als Bedeutungsannotation (Sense-Tags) MIHALCEA (2007). Konkret verwendet er
Wikipedia als Trainingsmenge für einen Klassifikator zur automatischen Bedeutungsannotation.
E. Gabrilovich verwendet verschiedene Eigenschaften von Wikipedia-Artikeln, um einen
Klassifikator zu trainieren, der Dokumente kategorisiert GABRILOVICH (2006), GABRILOVICH UNDMARKOVITCH
(2006), GABRILOVICH UND MARKOVITCH (2007)
. Ebenfalls mit der Klassifikation von Dokumenten mit Hilfe
der Informationen aus derWikipedia befasst sich P. Schönhofen SCH¨ONHOFEN (2006). A. Krizhanovsky
verwendet die Struktur vonWikipedia, um ähnliche Seiten zu gruppieren und so Synonymgruppen
zu finden KRIZHANOVSKY (2006).
Die Forschung von T. Zesch und I. Gurevych gilt besonders der Berechnung von semantischer
Verwandtheit und der Evaluation von Wikipedia als Datenbasis für diesen Zweck, im Vergleich
unter anderem zu WordNet ZESCH U. A. (2007A), ZESCH U. A. (2007B), ZESCH UND GUREVYCH (2007), besonders
unter Verwendung der Kategoriestruktur. Auf diese Arbeiten wird insbesondere bei der Evaluation
in Kapitel .14 Bezug genommen.
K. Nakayama et. Al. untersuchen neben Maßen für die semantische Verwandtheit auch Maße für
die Relevanz und Zentralität von Konzepten, insbesondere auf Basis der Struktur der Querverweise
über Wiki-Links NAKAYAMA U. A. (2007B), NAKAYAMA U. A. (2007A). Dabei untersuchen sie unter anderem,
inwieweit sich eine Beschränkung der Suchtiefe bei der Analyse der Verknüpfungsstruktur auf die
Ergebnisse auswirkt.
Die Evaluation all dieser Ansätze zeigt jeweils, dassWikipedia als Datenbasis für solche Aufgaben
beachtliche Ergebnisse liefert, in der Präzision häufig an manuell gewartete Wissensnetze wie
WordNet heran reicht und diesen in Bezug auf die Abdeckung von Spezialausdrücken oder aktuellen
Themen sogar überlegen ist.
In diesem Zusammenhang ebenfalls erwähnenswert sind die Arbeiten von M. Jarmasz und
S. Szpakowicz, die Roget’s Thesaurus auf seinen Nutzen für die Bestimmung semantischer
2. Einordnung 18
Verwandtheit untersucht haben JARMASZ UND SZPAKOWICZ (2001), JARMASZ UND SZPAKOWICZ (2003). Dabei
haben sie insbesondere den Wert einer reichen Taxonomie für diese Aufgabe herausgestellt.
2.4. Erzeugung von Thesauri und Taxonomien
Die Idee, Wikipedia als lexikalisch-semantische Datenbasis zur Erstellung von Thesauri und
Taxonomien zu verwenden, ist schon verschiedentlich Gegenstand der Forschung gewesen. Auch
die oben beschriebenen Systeme zur Untersuchung von semantischer Verwandtheit verwenden alle
ein Thesaurus-artiges Assoziationsnetzwerk, insbesondere die Arbeiten von M. Strube und S. P.
Ponzetto, die von E. Gabrilovich, von T. Zesch und I. Gurevych sowie die von K. Nakayama et. Al.
Im Folgenden werden einige Untersuchungen aufgeführt, die den Aufbau eines Thesaurus oder
einer Taxonomie unmittelbar zum Ziel haben.
A. Gregorowicz und M. A. Kramer bauen auf Grundlage der Wikipedia ein Term-Konzept-
Netzwerk auf, das Relationen zwischen Konzepten sowie die Zuordnungen von Termen zu
Konzepten enthält, sehr ähnlich der Struktur, die auch in der vorliegenden Diplomarbeit verwendet
wird GREGOROWICZ UND KRAMER (2006). D. Milne et. Al. untersuchen eine ähnliche Struktur insbesondere
in Hinblick auf eine Verwendung für die Indexierung von Dokumenten und das Information
Retrieval MILNE U. A. (2006), MILNE UND NICHOLS (2007), MILNE U. A. (2007). Sie entwickeln eine wissensbasierte
Suchmaschine namens Koru, um die Eignung der aus der Wikipedia gewonnenen Daten für
Indexierung und Suche zu demonstrieren.
J. Voß untersucht, wie sich das Kategoriesystem der Wikipedia zu anderen Indexierungs- und
Klassifikationssystemen verhält VOSS (2006). M. Ruiz-Casado et. Al. ordnen Wikipedia-Einträge
automatisch WordNet-SynSets zu und evaluieren die relative Abdeckung und Granularität dieser
beiden Wissensbasen RUIZ-CASADO U. A. (2005). F. M. Suchanek et. Al. kombinieren ebenfalls
Wikipedia und WordNet, allerdings mit dem Ziel, Wikipedia-Einträge als Individuen bzw.
Instanzen von Klassen zu verwenden, die von WordNet-Einträgen gebildet werden SUCHANEK U. A.
(2007)
. Auf diese Weise entsteht eine neue Wissensstruktur, YAGO, die die Wohlstrukturiertheit
von WordNet mit der Informationsfülle und Aktualität der Wikipedia verbinden soll.
Z. Syed et. Al. verwenden die Einträge der Wikipedia als Vokabular zur Indexierung von
Dokumenten. Die durch Querverweise zwischen Artikeln gegebene Assoziation von Themen
wird zur Bestimmung relevanter Konzepte zu einer Suchanfrage genutzt, indem das Verfahren
der Spearding Activation auf die Verknüpfungsstruktur angewendet wird SYED U. A. (2008). M.
Hepp et. Al. untersuchen, inwieweit sich Wikipedia-Einträge bzw. ihre URLs als Bezeichner für
Konzepte zur Indexierung von Dokumenten eignen HEPP U. A. (2006). Sie betrachten dabei unter
anderem, wie sich das Konzept, das mit einer gegebenen URL bzw. URI verbunden ist, über die
Zeit verändert.
L. Muchnik et. Al. beschreiben ein Modell für die Hierarchisierung von Netzwerken im
Allgemeinen, und validieren es unter anderem am Beispiel der Wikipedia, indem sie allein auf
Grund der Struktur der Querverweise eine Taxonomie der Artikel aufbauen und diese mit der
Kategoriestruktur vergleichen MUCHNIK U. A. (2007). Eines der Maße für die lokale Bestimmung
der Zentralität von Konzepten, die dabei entwickelt wurden, nämlich der Local Hierarchy Score
(LHS), wird auch im Rahmen dieser Arbeit verwendet (.9.3).
2. Einordnung 19
E.M. van Mullige et. Al. entwickeln eine Erweiterung der MediaWiki-Software, mit deren Hilfe die
komplexen, hoch strukturierten Daten eines multilingualen Wörterbuches und Thesaurus namens
OmegaWiki (ehemals WiktionaryZ) kollaborativ in einem Wiki verwaltet und bearbeitet werden
können VAN MULLIGEN U. A. (2006), OMEGAWIKI. Die MediaWiki-Erweiterung, Wikidata, auf der diese
Anwendung basiert, wurde vornehmlich für den Einsatz in OmegaWiki entwickelt. Sie dient vor
allem der Verwaltung von relationalen Datensätzen in einem Wiki. Dabei liegt der Fokus, anders
als bei dem weiter unten erwähnten Semantic MediaWiki, darauf, eine komplexe aber fest
vorgegebene Datenbankstruktur mit Inhalten zu füllen. Zu diesem Zweck werden spezialisierte
Eingabehilfen bereitgestellt.
2.5. Wissensextraktion
Wikipedia kann auch als Grundlage für die Erzeugung einer Wissensbasis dienen, die über ein
bloßes Assoziationsnetzwerk und einfache Subsumtionsbeziehungen hinausgeht: durch geeignete
Verfahren lassen sich Attribut-Wert-Paare sowie semantisch bedeutsame Relationen zwischen
Entitäten bzw. Konzepten extrahieren. In den letzten Jahren wurden verschiedene Versuche unternommen,
diese Informationen zugänglich zu machen.
S. Auer, J. Lehmann et. Al. haben ein System namens DBpedia entwickelt, das Attributwerte sowie
semantische Relationen aus der Wikipedia extrahiert, vor allem durch Auswertung spezieller
Vorlagen, so genannter Infoboxen AUER U. A. (2007), AUER UND LEHMANN (2007), DBPEDIA. Diese bieten
strukturierte Daten in einer Form an, die bereits weitgehend dem Modell von Attribut-Wert-Paaren
entspricht WP:IB. DBpedia stellt die so gewonnenen Daten als eineWissensbasis im RDF-Format
W3C:RDF (2004) bereit und bietet eine Abfrageschnittstelle, die komplexe logikbasierte Abfragen
auf der Basis von SPARQL W3C:SPARQL (2008) erlaubt.
Auch D. P. T. Nguyen et. Al. verwenden Infoboxen zur Gewinnung von strukturierten Daten sowie
zur Klassifikation von Artikeln bzw. von Konzepten NGUYEN U. A. (2007). F. Wu und D. S. Weld
benutzen ebenfalls die Informationen aus Infoboxen, trainieren aber ein System zur Erkennung
von Textmustern darauf, Informationen aus dem Fließtext mit denen aus Infoboxen abzugleichen
und gegebenenfalls Infoboxen zu ergänzen oder zu erzeugen WU UND WELD (2007).
Neben der Forschung zur Extraktion von Daten aus der Wikipedia gibt es auch Versuche, Wiki-
Systeme so zu erweitern, dass sie unmittelbar zur Erzeugung und Pflege von strukturierten, semantisch
bedeutsamen und maschinenlesbaren Daten verwendet werden können. Der wohl bekannteste
Versuch ist wohl der von M. Krötzsch et. Al., welche mit Semantic MediaWiki eine Erweiterung
von MediaWiki entwickelt haben, mit dessen Hilfe strukturierte Daten wie semantische Relationen
und Attributwerte direkt in einem Wiki-System verwaltet und bearbeitet werden können KR¨OTZSCH
U. A. (2005), KR¨OTZSCH U. A. (2007), SMW
. Sie schlagen vor, dieses System auch für die Wikipedia selbst
zu verwenden. T. Redmann und H. Thomas untersuchen, wie sich Topic Maps GARSHOL (2004),
ISO:13250 (2003)
mit Hilfe eines Wiki-Systems bearbeiten lassen, und wie sich umgekehrt die typischen
Strukturen einesWikis in Form einer Topic Map speichern lassen REDMANN UND THOMAS (2007).
R. Witte und T. Gitzinger schlagen vor, Mustererkennung und automatische Sprachverarbeitung
direkt in Wiki-Systeme zu integrieren, um so den Aufbau einer Wissensbasis aus Texten sowie
2. Einordnung 20
umgekehrt die Beschreibung von strukturierten Daten in Texten als interaktiven Prozess zu gestalten
WITTE UND GITZINGER (2007).
2.6. Named Entity Recognition
Eine wichtige Aufgabe im Bereich der automatischen Sprachverarbeitung sowie des Information
Retrieval ist die Erkennung und Disambiguierung von Named Entities, also vor allem von
(Eigennamen von) Personen, Orten, Organisationen und ähnlichem. Wikipedia enthält, genau wie
andere Enzyklopädien, eine große Zahl von Einträgen über eben solche Konzepte, und bietet sich
daher als Datenbasis für eine Erkennung solcher Named Entities an.
S. Cucerzan und W. Dakka untersuchten Methoden zur Disambiguierung von Namen sowie zur
Klassifikation von Dokumenten unter Verwendung von Verfahren des maschinellen Lernens, konkret
eines naiven Bayes-Klassifikators sowie Support Vector Machines (SVM). Dabei wurden unter
anderem Informationen aus den Seitentiteln,Weiterleitungen, Begriffsklärungsseiten sowie aus
dem Link-Text von Wiki-Links verwendet DAKKA UND CUCERZAN (2008), CUCERZAN (2007). Einen ähnlichen
Ansatz verfolgen R. Bunescu und M. Pasca, die ebenfalls SVM auf der Basis von Wikipedia
für die Erkennung von Named Entities trainieren BUNESCU UND PASCA (2006).
A. Toral und R. Munoz entwarfen ein System zum automatischen Aufbau eines Gazetteers aus der
Wikipedia, indem sie ähnlich wie F. M. Suchanek Beschreibungen von Instanzen aus derWikipedia
mit Klassen aus WordNet kombinierten TORAL UND MUNOZ (2007), TORAL UND MUNOZ (2006). J. Kazama
und K. Torisawa präsentieren eine Methode zur Erkennung und Klassifikation von Wikipedia-
Seiten über Named Entities, die auf der Analyse des ersten Satzes von Wikipedia-Artikeln beruht
KAZAMA UND TORISAWA (2007).
2.7. Eigenschaften von WikiWord
Dieser Abschnitt gibt einen kurzen Überblick über die Eigenschaften der WikiWord-Software,
die im Rahmen dieser Diplomarbeit entwickelt wurde. Dabei werden insbesondere solche
Eigenschaften betrachtet, die WikiWord zu den oben erwähnten Arbeiten in Beziehung setzen
bzw. von ihnen abgrenzen.
• WikiWord erzeugt einen konzeptorientierten Thesaurus, also ein Netzwerk von Konzepten,
die durch Relationen wie Subsumtion, Verwandtheit und Ähnlichkeit verbunden sind,
mit einer zusätzlichen Bedeutungsrelation, die Terme mit Konzepten assoziiert und als
Lexikon dient (vergleiche GREGOROWICZ UND KRAMER (2006)). Die meisten der oben beschriebenen
Systeme zum Aufbau eines Thesaurus aus der Wikipedia (zum Beispiel die Arbeiten
von T. Zesch und I. Gurevych) übergehen die Bedeutungsrelation weitgehend und befassen
sich kaum mit der Identifikation verschiedener Bezeichnungen für Konzepte. In der Regel
erschöpft sich die Behandlung von Synonymien in der Auflösung von Weiterleitungen, wie
sie in der Wikipedia definiert sind.
2. Einordnung 21
• WikiWord erzeugt einen multilingualen Thesaurus, indem es Language-Links verwendet,
um Artikel über dasselbe Konzept in unterschiedlichen Wikipedias zu identifizieren und zu
vereinigen. Eine solche Konsolidierung der Informationen aus unterschiedlichenWikipedias
zu einer sprachübergreifenden Wissensbasis wurde in den oben erwähnten Studien bislang
nicht untersucht. Lediglich AUER U. A. (2007) verwendet einige Informationen aus unterschiedlichen
Wikipedias, wobei die Grundstruktur an die englischsprachige Wikipedia
gebunden bleibt.
• WikiWord verwendet neben Seitentiteln und Weiterleitungsseiten auch
Begriffsklärungsseiten sowie insbesondere auch Link-Text, um die verschiedenen
Bezeichnungen für ein Konzept zu ermitteln und zu gewichten. Link-Text wird in den
oben erwähnten Arbeiten zur Erzeugung eines Thesaurus kaum erwähnt, lediglich die
Forschung zur Named Entity Recognition scheint sich dieser Informationsquelle bisher
bedient zu haben (z. B. S. Cucerzan und W. Dakka). Dadurch deckt WikiWord eine
Vielzahl von Bezeichnungen ab, die anderweitig schwer zu erfassen sind, darunter viele
Mehrwortphrasen, Abkürzungen, flektierte Formen sowie ungenaue oder synekdotische
Verwendungen von Termen.
• WikiWord liefert zu vielen Konzepten den ersten Satz des entsprechenden Wikipedia-
Artikels als Glosse in den gegebenen Sprachen. Die oben erwähnten Verfahren nutzen meist
den ersten Absatz als Glosse, statt nur des ersten Satzes, was zu mehr „Rauschen“ führt.
Zudem wird sie häufig lediglich zur Bestimmung der semantischen Verwandtheit oder ähnlichem
herangezogen und nicht als Eigenschaft eines Konzeptes im Resultat wiedergegeben.
• WikiWord verzichtet auf eine Analyse natürlicher Sprache, nicht einmal
Stammformreduktion (Stemming) oder Wortarterkennung (POS-Tagging) kommen
zum Einsatz. Das verwendete einfache Pattern Matching beschränkt sich auf Muster, die
bestimmte Markup-Konstrukte und Strukturmerkmale von Wikipedia-Seiten erkennen.
Das einzige verwendete Verfahren, das entfernt auf Sprachverarbeitung beruht, ist das zur
Erkennung von Satzenden: Dieses wird verwendet, um Glossen aus denWikipedia-Artikeln
zu extrahieren.
• WikiWord extrahiert keine Attribut-Wert-Paare oder andere strukturierte Daten aus Vorlagen
wie Infoboxen oder ähnlichem. Während Wikipedia eine reiche Quelle für diese Art von
Informationen ist, soll die Auswertung dieser Daten Projekten wie DBpedia überlassen bleiben
(vergleiche .2.5).
• WikiWord verwendet kein maschinelles Lernen und kaum statistische Heuristiken4.
Stattdessen werden Strukturen und Konventionen, die in den verschiedenen Wikipedia-
Projekten anzutreffen sind, explizit modelliert und ausgewertet. So kann die Investition
menschlichen Urteils, die in der Struktur der Wikipedia enthalten ist, direkt genutzt werden.
• WikiWord berücksichtigt Konzepte, die nur als Abschnitte von Artikeln repräsentiert sind,
sowie Konzepte, die zwar referenziert werden, jedoch (noch) keinen eigenen Artikel haben.
4eine erwähnenswerte Heuristik mag das Cutoff-Verfahren sein, das in .10.4 beschrieben ist.
2. Einordnung 22
Damit wird eine deutlich größere Zahl von Konzepten berücksichtigt, wobei allerdings zu
vielen davon kaum Informationen vorliegen. Solche „schwachen“ Konzepte werden von
WikiWord gekennzeichnet und können daher bei Bedarf ignoriert werden.
• WikiWord liefert zusätzlich zu der Subsumtionsrelation eine grobe Typisierung der
Konzepte, die insbesondere verschiedene Arten von Named Entities identifizieren, zum
Beispiel Personen, Orte, Zeitpunkte und Lebensformen. Diese Typen können zur Filterung
der Konzepte je nach Anwendungsgebiet verwendet werden.
• WikiWord konsolidiert Konzepte aus Artikeln mit Konzepten, die in der Wikipedia durch
Kategorien repräsentiert sind.
Insgesamt versucht WikiWord, möglichst viele lexikalisch-semantische Informationen, die in der
Wikipedia kodiert sind, zugänglich zu machen. Dabei berührt es viele Bereiche, die von den oben
beschriebenen Arbeiten über die Erzeugung von Taxonomien und Thesauri aus der Wikipedia
behandelt werden, sowie auch von Arbeiten, die sich mit Named Entity Recognition befassen.
WikiWord verzichtet auf heuristische und statistische Verfahren und beschränkt sich weitgehend
auf die bloße Extraktion und Repräsentation der Daten. Die meisten der oben erwähnten
Verfahren könnten auf die von WikiWord extrahierten Daten angewendet werden, statt die Daten
der Wikipedia direkt zu benutzen — es wäre zu untersuchen, inwiefern sie von den zusätzlichen
von WikiWord berücksichtigten Strukturen und Konventionen der Wikipedia profitieren. Die von
WikiWord erzeugte Datenbasis ist aber auch als eigenständiger, multilingualer, konzeptorientierter
Thesaurus nützlich für Aufgaben wie Indexierung, Disambiguierung und Bestimmung von semantischer
Ähnlichkeit (vergleiche .IV).
Teil II.
Entwurf

Upcoming Events

No records to display