1. Grundlagen 3
Bevor der Entwurf und die Implementation von WikiWord dargelegt werden können, werden in
den verbleibenden Abschnitten dieses Kapitels Grundbegriffe geklärt (.1.1), ein Überblick über
wichtige Eigenschaften der Wikipedia geboten (.1.2) sowie verschiedene Arten und Aspekte von
Thesauri betrachtet (.1.3). Das folgende Kapitel gibt dann eine Übersicht über den Stand der
Forschung in Hinblick auf die automatische Erstellung von Thesauri im Allgemeinen und die
Extraktion von Wissen aus der Wikipedia im Speziellen (.2).
1.1. Begriffe
Zunächst eine kurze Übersicht über Begriffe, die in dieser Arbeit spezielle Bedeutung haben:
Wiki: Im Allgemeinen eine Webseite, die von jedem frei bearbeitet werden kann LEUF UND
CUNNINGHAM (2001); im Speziellen ein bestimmtes Wikipedia-Projekt (siehe unten).
Wikipedia: Ein Projekt zur kooperativen Erstellung einer Enzyklopädie unter Verwendung der
Wiki-Technologie (.1.2). Je nach Kontext bezeichnet Wikipedia ein bestimmtes Wikipedia-
Projekt in einer bestimmten Sprache (siehe unten).
MediaWiki: MediaWiki ist die Software, auf der dieWikipedia-Wikis basieren und die für diesen
Zweck von der Wikimedia Foundation entwickelt wird MW:ABOUT. MediaWiki ist freie
Software, lizenziert unter der GPL GPL.
Wikimedia: DieWikimedia Foundation ist eine gemeinnützige Stiftung mit Sitz in St. Petersburg,
Florida, USA, deren Zweck die Förderung von freiem Wissen ist WM:ABOUT, OKD, FCW.
Sie betreibt Anfang 2008 über 750 Wiki-Projekte M:SITES, WM:PROJECTS zu unterschiedlichen
Themen in unterschiedlichen Sprachen, unter anderem auch die Wikipedia-Projekte.
WikiWord: Das im Rahmen dieser Diplomarbeit entwickelte Softwaresystem zur automatischen
Extraktion eines multilingualen Thesaurus aus der Wikipedia.
Projekt: Ein (Wiki-)Projekt ist eine konkrete Website, auf der ein Wiki-System verwendet wird
und eine Gemeinschaft von Benutzern gemeinsam Inhalte zu einem bestimmten Thema erstellt
— zum Beispiel die deutschsprachige Wikipedia (de.wikipedia.org). Im Falle der
Wikipedia korrespondiert ein konkretes Projekt jeweils mit einer Sprache, in der enzyklopädische
Inhalte erstellt werden. Diese Inhalte dienen als Korpus im Sinne dieser Arbeit (siehe
unten).
Sprache: EinWikipedia-Projekt ist immer mit der Sprache assoziiert, in der seine Inhalte verfasst
sind. Jeder Sprache ist ein Code zugeordnet, der als Präfix für Language-Links und als
Subdomain dient (.1.2). Diese Codes folgen imWesentlichen der ISO 639-1 Norm ISO:639-
1 (2002), M:SITES. Zum Beispiel verwendet die deutschsprachige Wikipedia den Code de
(und damit die Domain de.wikipedia.org). Ein Sprach-Code identifiziert also auch ein
Wiki-Projekt und damit einen Korpus, aus dem ein (lokaler) Datensatz für den Thesaurus
extrahiert werden kann.
1. Grundlagen 4
Korpus: Ein Korpus ist im Kontext dieser Arbeit eine Sammlung von Wiki-Seiten, die
Gegenstand der Analyse zwecks Erzeugung eines (lokalen) Datensatzes für den Thesaurus
sein kann. Ein Korpus ist immer einer Sprache und einem Wiki-Projekt zugeordnet; mit
dem einer Sprache zugeordneten Korpus ist daher die Menge von Wiki-Seiten gemeint, die
in dem zu der Sprache gehörigen Wikipedia-Projekt enthalten sind.
Seite: Eine (Wiki-)Seite ist eine (Wiki-)Text-Ressource mit einem eindeutigen Namen innerhalb
einesWiki-Projektes und damit einer eindeutigen URL. Sie kann analysiert werden, um aus
ihr Informationen zu gewinnen, die dann zum Aufbau eines Thesaurus verwendet werden
können (siehe .8).
Im Folgenden werden die Namen von Wiki-Seiten serifenlos und kursiv gesetzt, zum
Beispiel: Sprachwissenschaft.
Artikel: Ein Artikel ist eine Wiki-Seite, die ein Konzept definiert. Nicht alle Seiten sind
Artikel, prominente Gegenbeispiele sind Weiterleitungen (Redirects), Begriffsklärungen
(Disambiguations) und Kategorien (siehe .1.2, .8.5); weitere Gegenbeispiele sind Wiki-
Seiten, die im Zuge dieser Arbeit nicht betrachtet werden, wie zum Beispiel Benutzerseiten.
Konzept: Ein Konzept ist im Kontext dieser Arbeit ein (abstrakter oder konkreter)
Betrachtungsgegenstand, in der Wikipedia insbesondere Gegenstand von Artikeln.
Konzepte haben eine Menge von Termen als Bezeichnungen, sie sind somit die Bedeutung
der ihnen zugeordneten Terme, also das Bezeichnete (auch Signifikat, fr. Signifé) im
Sinne der Semiotik de Saussures DE SAUSSURE (2001), S. 76FF. Ein wesentlicher Aspekt dieser
Arbeit ist es, diese Beziehung zwischen Konzept und Term zu explizieren, also eine
Bedeutungsrelation aufzubauen. Gemeinsam mit den Beziehungen zwischen Konzepten
bildet die Bedeutungsrelation einen konzeptorientierten Thesaurus MATTHEWS (2003) (siehe
.4.2).
Im Folgenden werden die Namen von Konzepten in Kapitälchen gesetzt, zum Beispiel:
SPRACHWISSENSCHAFT.
Term: Ein Term ist im Kontext dieser Arbeit ein Wort oder eine Wortgruppe bzw. Phrase, die
benutzt wird, um auf ein Konzept Bezug zu nehmen—das heißt, er ist eine Bezeichnung für
ein Konzept, also das Bezeichnende (auch Signifikant, fr. Signifiant) im Sinne der Semiotik
de Saussures DE SAUSSURE (2001), S. 76FF. Unterschiedliche Wortformen und Schreibweisen
werden dabei als unterschiedliche Terme betrachtet, selbst dann, wenn sie sich nur in der
Großschreibung unterscheiden. Die Bedeutungsrelation zwischen Termen und Konzepten
ist ein wesentlicher Aspekt dieser Arbeit (siehe .4.2 und .8.9).
Im Folgenden werden Terme kursiv und in Anführungszeichen gesetzt, zum Beispiel:
„Sprachwissenschaft“.
Dump: Ein (Wikipedia-)Dump ist eine Datei, die eine Menge von Wikipedia-Seiten enthält,
das heißt, sie beinhaltet den Wiki-Text der betreffenden Seiten sowie die dazugehörige
Meta-Information, eingebettet in eine dafür entworfene XML-Struktur MW:XML.
Dumps der Wikipedia-Inhalte werden periodisch alle paar Monate erstellt und zur
freien Weiternutzung angeboten WM:DOWNLOAD. Es gibt für jede Wikipedia unterschiedliche
Dumps, die verschiedene Mengen von Seiten enthalten. Für diese
1. Grundlagen 5
Arbeit sind diejenigen Dumps relevant, die alle Seiten im Hauptnamensraum (die
„Artikel“) sowie alle Kategorieseiten beinhalten, wobei nur die aktuelle Revision jeder
Seite benötigt wird. Die für diese Anwendung zugeschnittenen Dumps folgen
dem Namensschema wikiname-datum-pages-articles.xml, also zum Beispiel
dewiki-20080320-pages-articles.xml für den Dump der deutschsprachigen
Wikipedia vom 20. März 2008, der die aktuelle Version aller Seiten im Hauptnamensraum
sowie Kategorien und Vorlagen enthält.
Datensatz: Im Zusammenhang dieser Diplomarbeit ist ein Datensatz eine Sammlung von
Informationen über Konzepte und Terme und ihre Beziehungen zueinander. Datensätze gibt
es in zwei Ausprägungen: Lokale (sprachspezifische) Datensätze enthalten die Daten, die
aus einem Korpus in einer bestimmten Sprache extrahiert wurden, sie repräsentieren damit
einen monolingualen Thesaurus (siehe .4.2). Globale Datensätze kombinieren mehrere lokale
Datensätze zu einem multilingualen Thesaurus, indem sie äquivalente Konzepte aus
den einzelnen Sprachen zu jeweils einem sprachunabhängigen Konzept zusammenfassen
(siehe .4.3).
Datensätze werden typischerweise nach dem Wiki benannt, auf dessen Basis sie erstellt
wurden.
Kollektion: Im Zusammenhang dieser Diplomarbeit ist eine Kollektion eine Menge von
Datensätzen, die zusammen einen multilingualen Thesaurus bilden. Eine Kollektion enthält
einen lokalen Datensatz pro betrachteter Sprache sowie einen globalen Datensatz, der
die Konzepte aus den lokalen Datensätzen miteinander verbindet.
Wie in .10.1 beschrieben, wird der Name der Kollektion verwendet, um einen universell
eindeutigen Bezeichner (URI) für den Datensatz zu erzeugen. Es ist daher zweckmäßig,
aussagekräftige und eindeutige Namen für Kollektionen zu verwenden, insbesondere solche,
die Informationen über die verwendeten Wikis, deren Version und eventuelle thematische
Ausschnitte enthalten.
1.2. Wikipedia
Wikipedia ist eine Online-Enzyklopädie, die von Tausenden von Benutzern in Kollaboration erstellt
wird FIEBIG (2005). Sie beruht auf dem „Wiki-Prinzip“, also der Idee, dass jeder, auch ohne
Anmeldung, die Inhalte sofort bearbeiten und erweitern kann LEUF UND CUNNINGHAM (2001).Wikipedia
verwendet zu diesem Zweck die MediaWiki-Software MW:ABOUT, die von der Wikimedia
Foundation WM:ABOUT für diesen Zweck entwickelt wird.
Wikipedia zählt Anfang 2008, nur sieben Jahre nach ihrer Gründung im Jahre 2001, mit bis zu
fünfundsechzigtausend Seitenaufrufen pro Sekunde zu den zehn meistgenutzten Webseiten weltweit
WM:SURVEY (2008), WM:10M (2008). Wikipedia-Projekte gibt es in über 250 Sprachen mit
insgesamt über zehn Millionen Artikeln1 WM:10M (2008), M:SITES, WM:PROJECTS, davon über
1Nach der internen Zählweise von MediaWiki: Alle Artikel im Hauptnamensraum, die keine Weiterleitung sind und
mindestens einen Wiki-Link enthalten; Begriffsklärungsseiten werden also mitgezählt.
1. Grundlagen 6
zwei Millionen in der englischsprachigen und über siebenhunderttausend in der deutschsprachigen
Wikipedia WM:2M (2007), WP:STATS. Alle Inhalte sind unter der GFDL lizenziert GFDL und
damit frei verwendbar OKD, FCW. Der gesamte Korpus der Wikipedia wird periodisch als XML
MW:XML in so genannte Dumps exportiert und zur Weiternutzung angeboten WM:DOWNLOAD.
Die kollaborative Natur von Wikipedia erlaubt eine hohe Aktualität der Inhalte sowie ein rapides
Wachstum der thematischen Abdeckung. Die Anzahl der Seiten in einer Sprache folgt in der Regel
zunächst einer exponentiellen Wachstumskurve VOSS (2005B) und scheint sich mittlerweile zu linearem
Wachstum abzuflachen WP:STATS. Für die Zukunft ist damit zu rechnen, dass sich das
Wachstum noch weiter verlangsamt, so dass sich insgesamt eine logistische Funktion(„S-Kurve“)
für dasWachstum ergibt. Die Qualität einzelner Artikel in der Wikipedia ist recht unterschiedlich,
insgesamt jedoch mit der Qualität traditioneller Enzyklopädien vergleichbar GILES (2005).
Einträge in der Wikipedia sind recht uniform und folgen gewissen Konventionen: insbesondere
beschreibt jede Seite genau ein Konzept WP:ARTIKEL (Ausnahmen sind Weiterleitungen und
Begriffsklärungsseiten, siehe unten) und beginnt mit einer Begriffsdefinition (Glosse) WP:WSIGA.
Da es sich bei der Wikipedia um eine Enzyklopädie handelt, enthält sie vor allem Substantive,
Nominalphrasen und Eigennamen; Verben und Adjektive kommen dagegen kaum vor. Für eine
Verwendung im Bereich des Information Retrieval ist das kaum problematisch (und eventuell
sogar von Vorteil), da zur Klassifikation und Indexierung von Dokumenten ohnehin hauptsächlich
Substantive verwendet werden, weil diese gut geeignet sind, den thematischen Inhalt eines
Dokumentes wiederzugeben, siehe SYED U. A. (2008), HEPP U. A. (2006), EIRON UND MCCURLEY (2003) sowie
WP:V. Insbesondere enthält die Wikipedia im Gegensatz zu manuell erstellten Thesauri und
Wörterbüchern eine große Zahl von Einträgen über Orte, Personen, Werke und Organisationen
— sie eignet sich daher besonders, um Informationen zu Eigennamen (proper nouns bzw. Named
Entities) zu finden. Auch enthält sie eine Vielzahl von Fachausdrücken aus den verschiedensten
Fachbereichen, die in der Regel in allgemeinen Thesauri und Wörterbüchern nicht enthalten sind.
Eine weitere Eigenheit der Wikipedia betrifft die Granularität ihrer Einträge: zwar deckt die
Wikipedia einen weiten Bereich menschlichenWissens ab, da sie aber eine Enzyklopädie ist, bleiben
die Einträge aus lexikographischer Sicht eher grob: zum Beispiel werden die Begriffe „physikalisch“
und „Physiker“ mit unter den Eintrag für „Physik“ gefasst. Diese Art von Ungenauigkeit
ist aber in Hinblick auf die Indexierung und Klassifikation von Dokumenten, also für eine „oberflächliche“
Analyse von Texten, eher hilfreich als schädlich (vergleiche IDE UND VERONIS (1998),
S. 22 und WILKS U. A. (1996), S. 59). Die fachliche, taxonomische Granularität aber (ob z. B. die
„Atomphysik“ einen eigenen Artikel hat oder mit unter „Physik“ behandelt wird) hängt vor allem
von der Gesamtgröße der Wikipedia ab und variiert damit stark zwischen den verschiedenen
Sprachen — ein Umstand, den es bei der Erstellung des globalen Datensatzes zu berücksichtigen
gilt (siehe .4.3 und .9.2).
Weitere Funktionen, Eigenschaften und Konventionen, die Wikipedia zu einer exzellenten
Ressource für lexikalisch-semantische Informationen machen und im Zusammenhang mit dieser
Arbeit wichtig sind, seien im Folgenden genannt:
Seiten: Ein Wiki enthält ein Netzwerk von (Hypertext-)Seiten, die untereinander eng über
Hyperlinks verknüpft sind BELLOMI UND BONATO (2005B). Jede Seite hat einen eindeutigen
1. Grundlagen 7
Namen, über den sie innerhalb des Wikis über Wiki-Links angesprochen werden kann LEUF
UND CUNNINGHAM (2001) und der als URL-Suffix dient, so dass eine eindeutige URI RFC:3986
(2005) für diese Seite entsteht.
Der Name der Seite ist in derWikipedia das enzyklopädische Lemma des Artikels. Im Zuge
der vorliegenden Arbeit wird der Seitenname als eindeutiger Bezeichner sowohl für die Seite
(also Ressource) als auch für das Konzept, das auf der Seite beschrieben wird, verwendet
W3C (2005), BERNERS-LEE (1998).Welches von beiden gemeint ist, ist im Kontext eindeutig, für
eine externe Darstellung muss aber klar zwischen diesen unterschieden werden; mehr dazu
in Kapitel .10.
Für den Fall, dass die „natürliche“ Bezeichnung zweier Konzepte derselbe Term ist,
wird durch einen sogenannten Klammerzusatz als Qualifikator ein eindeutiges Lemma geschaffen
(ein Klammer-Lemma) WP:NK. So wird zum Beispiel zwischen Bock_(Gestell),
Bock_(Turngerät), Bock_(Insel) und Bock_(Dudelsack) sowie Bock_(Familienname) unterschieden
(das Tier dagegen wird unter Huftiere behandelt). In einem solchen Fall gibt
es zusätzlich eine Begriffsklärungsseite (siehe unten), die diese Bedeutungen aufzählt —
sie würde entweder den Namen ohne Klammerzusatz tragen (Bock), oder den Zusatz
„Begriffsklärung“ (also Bock_(Begriffsklärung)) WP:BKL.
Wiki-Text: Wikis verwenden eine Markup-Sprache, genannt Wiki-Text, die sich im
Funktionsumfang an HTML orientiert, aber leichter für Menschen zu lesen und zu
bearbeiten sein soll LEUF UND CUNNINGHAM (2001). „Wiki-Text“ ist als allgemeine Bezeichnung
zu verstehen, die konkreten Markup-Sprachen verschiedener Wiki-Systeme unterscheiden
sich zum Teil erheblich voneinander. Im Kontext dieser Arbeit ist mit Wiki-Text die von
MediaWiki verwendete Markup-Sprache gemeint (.A).
Beispiele für Wiki-Text werden im Folgenden kursiv in einer nichtproportionalen Schrift
gesetzt, zum Beispiel: [[Sprachwissenschaft]].
Die Art und Weise, wie Wiki-Markup in der Wikipedia verwendet wird WP:WSIGA, ist
im Vergleich zu Webseiten im Allgemeinen relativ reich an Semantik. Insbesondere die
Verwendung von Vorlagen sowie die Zuweisung von Kategorien sind im Kontext dieser
Arbeit sehr nützlich.
Wiki-Links: Ein wichtiger Aspekt von Wikis ist die leichte Verknüpfbarkeit von Seiten untereinander
WP:V. MediaWiki verwendet für diesen Zweck Wiki-Links, die als Name des
Zielartikels in doppelten eckigen Klammern geschrieben werden, z. B. [[Sprache]]. Die
Syntax ist in .A.3 genauer beschrieben. Wiki-Links, die auf eine Seite zeigen, die nicht
existiert, werden von MediaWiki rot dargestellt. Solche „roten Links“ sind nicht als Fehler
zu werten, sondern vielmehr als ein Hinweis auf fehlende Inhalte WP:RL.
Der Link-Text ist eine wichtige Quelle für die Zuordnung von Termen (dem Link-Text) zu
Konzepten (dem Link-Ziel), das heißt, für den Aufbau der Bedeutungsrelation (siehe .8.7):
Der Link-Text verhält sich zum Link-Ziel ähnlich wie der Titel der Seite (also das Lemma)
zu ihrem Inhalt (dem Konzept) MIHALCEA (2007) sowie CRASWELL U. A. (2001), EIRON UND MCCURLEY
(2003), KRAFT UND ZIEN (2004).
Namensräume: MediaWiki unterstützt (und Wikipedia nutzt) Namensräume für Wiki-Seiten,
um Seiten mit unterschiedlicher Funktion voneinander zu trennen und Namenskonflikte zu
1. Grundlagen 8
vermeiden WP:NS. MediaWiki gibt eine Anzahl von Namensräumen fest vor, darunter solche
für Benutzerseiten, Projektseiten, Hilfeseiten, Kategorien und einige mehr MW:NS.
Jedem Namensraum ist zudem ein entsprechender Diskussionsnamensraum zugeordnet
(und jeder Seite entsprechend potentiell eine Diskussionsseite, die dazu dient, die Arbeit an
der Seite zu koordinieren). Namensräume werden über einen Präfix am Seitennamen adressiert:
Der Link [[Hilfe:Formatieren]] verweist auf eine Seite im Namensraum Hilfe,
die sich mit Textformatierung befasst. Die Namen (Präfixe) der Namensräume sind sprachabhängig,
eine Liste der Namen der verwendeten Namensräume ist in jedem XML-Dump
enthalten.
Der eigentliche Inhalt des Wikis, im Falle der Wikipedia die enzyklopädische Information,
befindet sich auf Seiten im Hauptnamensraum, dem kein Präfix (oder genauer, der leere
String als Präfix) zugeordnet ist. Seiten im Hauptnamensraum werden auch als Artikel bezeichnet,
insbesondere dann, wenn sie keine Weiterleitungen und keine Begriffsklärungen
sind, wenn sie also ein Konzept beschreiben. Solche Artikel beinhalten das Sachwissen der
Wikipedia.
Interwiki-Links: Auch Verknüpfungen auf andereWikis sind mittels sogenannter Interwiki-Links
bequem möglich: für jedes Wiki, das als Ziel von Interwiki-Links dienen soll, muss dafür
ein Präfix zugewiesen werden, der bei der Definition des Wiki-Links verwendet wird (siehe
.A.3).
Language-Links: Interwiki-Links mit bestimmten Präfixen, die als Sprachcodes definiert sind,
werden besonders behandelt: Sie werden als Verknüpfungen auf eine äquivalente Seite in
einer anderen Sprache in einem anderen Wiki interpretiert (siehe .A.3).
Kategorien: Kategorien erlauben es, Wiki-Seiten zu Gruppen zusammenzufassen. Eine Seite
kann zu beliebig vielen Kategorien gehören und jeder Kategorie ist eine Kategorieseite zugeordnet,
über die sie beschrieben und selbst wieder Kategorien zugeordnet werden kann
WP:KAT. Um einer Seite eine Kategorie zuzuweisen, wird auf der Seite einfach ein Wiki-
Link auf diese Kategorie eingefügt, siehe .A.3. Sort-Keys (Sortierschlüssel), die bei der
Zuweisung von Kategorien angegeben wurden, sind eine wichtige Quelle für die Terme, die
einem Konzept zuzuordnen sind (siehe auch .9.1).
Per Konvention bilden Kategorien in der Wikipedia eine thematische Polyhierarchie
WP:KAT, sie lassen sich damit als semantische Relation der Über- bzw. Unterordnung
(Subsumtion) zwischen den von den Seiten beschriebenen Konzepten interpretieren. Zum
Beispiel wäre das speziellere Konzept UNSINN dem allgemeineren Konzept SEMANTIK untergeordnet.
Dabei ist die Art der Unterordnung unspezifiziert, die Relation bildet also keine
Taxonomie und lässt sich auch nur sehr eingeschränkt in Ontologien verwenden (vergleiche
PONZETTO UND STRUBE (2007B)). Diese Relation entspricht der Hyponym-Relation in einem
klassischen, Term-basierten Thesaurus, bzw. der NT/BT-Relation nach ISO 2788 ISO:2788
(1986). Sie bildet zusammen mit der Bedeutungsrelation den Kern des Thesaurus (siehe
.4.2). Zu beachten ist dabei, dass die MediaWiki-Software Zyklen in der Kategoriestruktur
zulässt—diese sind zwar per Konvention unerwünscht, können aber vorkommen und müssen
bei der Erstellung des Thesaurus entfernt werden (siehe .9.1.3).
1. Grundlagen 9
Neben den inhaltlich relevanten Kategorien existieren in der Wikipedia eine Vielzahl von
Wartungskategorien wie zum Beispiel Kategorie:Wikipedia:Lückenhaft, die sich auf die
Seite beziehen, nicht auf das beschriebene Konzept. Solche Kategorien sollten zur Erstellung
eines Thesaurus nicht verwendet werden und werden daher beim Import nach Möglichkeit
ignoriert (siehe .9.1).
Weiterleitungen: Weiterleitungen (Redirects) definieren einen Alias für einen Seitentitel (siehe
.A.6 für eine Beschreibung der Syntax). Eine Wiki-Seite kann über diesen Mechanismus
unter mehreren Namen erreichbar sein. Zum Beispiel könnte USA eine Weiterleitung
auf Vereinigte Staaten von Amerika sein WP:WL. Weiterleitungen sind eine wichtige
Quelle für Informationen darüber, welche alternativen Bezeichnungen (Terme) für welche
Konzepte verwendet werden (.A.6).
Vorlagen: MediaWiki unterstützt Vorlagen (Templates) als eine Methode, den Inhalt einer Wiki-
Seite in eine andere einzubinden (siehe .A.5). Beim Einbinden von Vorlagen können sogenannte
Vorlagen-Parameter verwendet werden: Sie erlauben es, beim Einbinden konkrete
Werte anzugeben, die dann für Platzhalter eingesetzt werden, die im Wiki-Text der Vorlage
verwendet wurden WP:VOR.
Vorlagen werden in der Wikipedia für verschiedene Zwecke benutzt: zur einheitlichen
Anzeige von strukturierten Daten (in sogenannten Infoboxen oder Taxoboxen WP:IB),
als Navigationselement zu verwandten Themen (sogenannten Navileisten, WP:NAVI), als
Markierung für Probleme mit einer Seite, als Formatierungshilfe im laufenden Text sowie
für diverse andere Zwecke WP:TB. Unter anderem werden Vorlagen auch verwendet,
um besondere Arten von Seiten zu kennzeichnen, insbesondere zum Beispiel
Begriffsklärungsseiten. Sie sind daher besonders nützlich, um solche besonderen Seiten zu
erkennen.
Vorlagen sind Gegenstand diverser Arbeiten über die Wikipedia, insbesondere können
Infoboxen leicht für eine Wissensextraktion verwendet werden, die Eigenschaft-Wert-Paare
für die Eigenschaften des Artikelgegenstandes liefert (z. B. bei Auer u. a. (2007), siehe
auch .2.5). In der vorliegenden Arbeit werden Vorlagen jedoch fast ausschließlich zur
Identifikation von Ressourcen- und Konzepttypen verwendet (siehe .8.5 bzw. .8.6 sowie
.8.4).
Magic Words: MediaWiki verwendet zwei Arten von Magic Words: „Variablen“, die Zugriff auf
kontext- oder projektspezifischeWerte bieten und „Optionen“, die die Verarbeitung der Seite
beeinflussen (siehe .A.6).
Die meisten Magic Words werden für den Zweck dieser Arbeit ignoriert; manche
Variablen aber, insbesondere eben der Seitenname, werden vor der Bearbeitung durch
den betreffenden konkreten Wert ersetzt (siehe .8.3). Einige weitere werden ähnlich wie
Vorlagen interpretiert, um zusätzliche Informationen zu gewinnen — Beispiele hierfür
sind {{DISPLAYTITLE:...}} und {{DEFAULTSORT:...}} (vergleiche .8.4). Ein weiteres
Beispiel für Magic Words, die vonWikiWord verwendet werden, sind die Markierungen
für Weiterleitungsseiten, siehe .A.6.
Extension-Tags und Parser-Functions: MediaWiki bietet zwei Möglichkeiten für die
Erweiterung des Wiki-Text-Markups an: Extension-Tags verwenden Tags der Form
1. Grundlagen 10
<mytag>...</mytag>, Parser-Functions verwenden vorlagenartige Strukturen der Form
{{#mytag:argument}} (siehe auch .A.7). Beide Formen werden bei der Analyse von
Wiki-Text im Rahmen dieser Arbeit vollständig ignoriert (siehe .8.3).
Begriffsklärungen: Begriffsklärungsseiten (Disambiguierungen) sind eine wichtige Konvention
in Wikipedia-Projekten: Gibt es mehrere unterschiedliche Bedeutungen zu einem Term, so
wird für diesen Term eine Begriffsklärungsseite angelegt, die alle Bedeutungen des Terms
aufzählt WP:BKL. Dazu wird in der Regel eine Listenstruktur verwendet, die in jeder Zeile
eine Glosse für eine der Bedeutungen hat und auf den entsprechenden Artikel verweist.
Wie schon oben erwähnt, wird die Begriffsklärungsseite entweder direkt mit dem fraglichen
Term als Name angelegt oder mit dem Zusatz (Begriffsklärung) —in letzterem Fall enthält
per Konvention die Seite ohne Namenszusatz (die Seite zur Hauptbedeutung des Terms)
einen Verweis auf die Begriffsklärungsseite.
Wie auch Weiterleitungen sind Begriffsklärungen im Kontext dieser Arbeit eine wichtige
Quelle für die Bedeutungsrelation, also um alle Bedeutungen eines Terms und umgekehrt
alle Bezeichnungen für ein Konzept zu finden (siehe .8.10).
1.3. Thesauri
Ein Thesaurus ist traditionell eine Sammlung von Termen (Wörtern), ihrer Beziehungen und
Definitionen. Die verschiedenen Beziehungen dienen insbesondere dazu, den passendsten Term
für einen Gegenstand, das heißt, die beste Bezeichnung für ein Konzept zu finden. Ein Thesaurus
ist daher besonders als Struktur für ein kontrolliertes Vokabular geeignet, das zur Indexierung von
Dokumenten verwendet werden soll.
Thesauri definieren in der Regel zumindest eine Äquivalenzbeziehung zwischen synonymen
und pseudo-synonymen (also für den Zweck der Indexierung gleichwertigen) Termen, eine
(poly-)hierarchische Subsumtionsbeziehung zwischen allgemeinen und speziellen Termen sowie
häufig eine Assoziationsbeziehung zwischen semantisch verwandten Termen STOCK (2007), S. 283FF.
Die ISO definiert insbesondere die folgenden Relationen ISO:2788 (1986):
UF bzw. USE: Used For bzw. Use gibt an, dass ein Term anstelle eines anderen verwendet werden
soll — über diese Relation wird der Deskriptor (Preferred Term) aus einer Menge von
(Pseudo-)Synonymen (einem sogenannten SynSet) festgelegt.
BT bzw. NT: Broader Term bzw. Narrower Term gibt an, dass ein Term allgemeiner bzw. spezieller
als ein anderer, das heißt, ein Hyperonym bzw. Hyponym zu diesem ist.
RT: Related Term gibt an, dass ein Term mit einem anderen semantisch verwandt ist. Diese
Beziehung besteht häufig unter anderem zwischen Kohyponymen.
Synonyme können so direkt modelliert werden, Homonyme dagegen nicht: häufig werden sie
disambiguiert, indem ein Qualifikator als Zusatz angehängt wird, entweder direkt als Teil des
Terms oder über eine spezielle Relation.
1. Grundlagen 11
Die hierarchische Beziehung (Hyponymiebeziehung) in einem Thesaurus ist häufig als Taxonomie
angelegt, also als eine strenge thematische Gliederung, über die Terme in Sachgebiete eingeordnet
werden. Die Hyponymiebeziehung kann auch als Polyhierarchie angelegt sein, so dass sich insgesamt
ein gerichteter, azyklischer Graph als Struktur bildet, anstelle eines einfachen Baums. Die
Semantik der Hyponymiebeziehung ist in der Regel nicht weiter spezifiziert, meist handelt es sich
um eine Vermengung der Abstraktionsbeziehung (subtype), der Instanzbeziehung (is-a), der
Aggregationsbeziehung (part-of) und gelegentlich der Attributbeziehung (property-of) VOSS
(2006), PONZETTO (2007).
Im Kontext der automatischen Verarbeitung von Wissen, Sprachen und Dokumenten erweist es
sich als hilfreich, eine weitere Ebene der Indirektion einzuführen und so zu einem „konzeptorientierten
Thesaurus“ zu gelangen, der auf einem Konzept-Term-Netzwerk basiert statt auf einem
reinen Netzwerk von Termen JOHNSTON U. A. (1998), MATTHEWS (2003), W3C (2005). So ergibt sich ein
Wissensorganisationssystem (Knowledge Organisation System, KOS). Dieses Modell scheint insbesondere
auch besser auf die Datenstruktur derWikipedia zu passen: Es werden die semantischen
Beziehungen zwischen Konzepten direkt modelliert und zusätzlich angegeben, welche Terme zu
welchem Konzept gehören (vergleiche VAN ASSEM U. A. (2006), GREGOROWICZ UND KRAMER (2006)). Die
Beziehungen zwischen Termen (Homonym, Synonym) ergeben sich dann implizit (.4.2). Ein ähnliches
Modell wird auch von WordNet verwendet, in dem Konzepte durch SynSets repräsentiert
und semantische Beziehungen zwischen SynSets statt zwischen Termen modelliert werden MILLER
(1995), FELLBAUM (1998), WORDNET.
In einem solchen konzeptorientierten Thesaurus gibt es nun vor allem die folgenden Beziehungen:
Bedeutung: Verbindet einen Term mit einer Anzahl von Konzepten (Bedeutungen), bzw. ein
Konzept mit einer Anzahl von Termen (Bezeichnungen). Daraus ergibt sich implizit die
Synonymie oder Homonymie von Termen.
Subsumtion: Verbindet allgemeinere mit spezielleren Konzepten, analog zu der
Hyponymierelation zwischen Termen.
Verwandtheit: Verbindet verwandte Konzepte, z. B. solche, die zu einem gemeinsamen
Themengebiet gehören oder häufig im selben Kontext verwendet werden.
Ähnlichkeit: Verbindet ähnliche Konzepte, z. B. solche, die zu einem gewissen Grade austauschbar
sind. Ähnliche Konzepte sind häufig Kohyponyme. Für eine Abgrenzung von semantischer
Verwandtheit und Ähnlichkeit siehe ZESCH U. A. (2007B).
Die semantischen Beziehungen in einem solchen Thesaurus sind aber weiterhin relativ „schwach“:
Wie schon oben für die Hyponymierelation, ist auch hier im Gegensatz zu den Relationen in einer
Ontologie nichts über die Art der Subsumtion (Subtyp, Instanz, Teil etc.) oder der Verwandtheit
bekannt PONZETTO UND STRUBE (2007B), HEPP U. A. (2006). Auch können Relationen nicht reifiziert oder
klassifiziert werden. Solche schwachen Beziehungen sind aber für die Zwecke des Information
Retrieval in aller Regel ausreichend.
Ziel dieser Diplomarbeit ist es nun, einen solchen konzeptorientierten Thesaurus auf Grundlage
des Datenbestandes der Wikipedia vollautomatisch zu erstellen.
1. Grundlagen 12
1.4. Nutzen
Der Nutzen von Thesauri (insbesondere der konzeptorientierten Art) für die automatische
Sprachverarbeitung und für das Information Retrieval liegt in der Überbrückung der Semantic
Gap zwischen dem bloßen Text als Folge von Zeichen und dem konzeptuellen Inhalt von
Dokumenten DAVULCU U. A. (2006), GREGOROWICZ UND KRAMER (2006). Handelt es sich um einen multilingualen
Thesaurus, kann auf dieseWeise auch die Kluft zwischen verschiedenen Sprachen überwunden
werden: Verschiedene Terme (Wörter und Phrasen) aus verschiedenen Sprachen werden
auf eine relativ kleine Menge wohldefinierter Konzepte abgebildet, die untereinander in Beziehung
stehen. Die in einem Dokument behandelten Konzepte werden so einer automatischen Analyse zugänglich.
Konkret kann ein maschinenlesbarer, multilingualer, konzeptorientierter Thesaurus insbesondere
in den folgenden Bereichen nützlich sein:
1. Für das klassische Information Retrieval ist es vorteilhaft, statt Termen abstrakte Konzepte
für die Indexierung von Dokumenten verwenden zu können: so lassen sich Unterschiede in
Sprache und Terminologie leicht überbrücken. Häufig werden Konzepte als Mengen von
Termen modelliert, die durch Clustering-Verfahren gewonnen wurden, wie beim Latent
Semantic Indexing (LSI) DEERWESTER U. A. (1990), KUMAR U. A. (2006). Die Verwendung eines konzeptorientierten
Thesaurus erlaubt es dagegen, menschliches Wissen über die Zuordnung
von Termen zu Konzepten zu nutzen (siehe .2.4 und insbesondere MILNE UND NICHOLS (2007)).
Neben der klassischen Dokumentensuche profitieren auch Aufgaben wie Resource Selection
und Topic Tracking von diesem Ansatz.
2. Ein Thesaurus auf Basis der Wikipedia eignet sich besonders für die Named Entity
Recognition (NER), da Wikipedia im Gegensatz zu klassischen Wörterbüchern eine große
Zahl von Einträgen zu Orten, Personen und Organisationen hat (siehe .2.6).
3. Die Informationen über ähnliche, verwandte und übergeordnete Konzepte, die in einem
Thesaurus enthalten sind, können unter anderem für eine gezielte Query Expansion verwendet
werden MILNE UND NICHOLS (2007). Es ist zu erwarten, dass dies besonders dann effektiv ist,
wenn die Indexierung und Abfrage anhand von Konzepten statt von Termen erfolgt, da so
Mehrdeutigkeiten vermieden werden können SYED U. A. (2008).
4. Die Verwandtheitsbeziehungen zwischen Konzepten können auch verwendet werden, um
Terme im Kontext zu disambiguieren: Für eine Menge von Termen kann die Bedeutung
jedes Terms so gewählt werden, dass die Bedeutungen (Konzepte) gut zueinander passen
— auf diese Weise lässt sich mit großer Wahrscheinlichkeit die intendierte Bedeutung der
Terme finden MIHALCEA (2007), STRUBE UND PONZETTO (2006), CUCERZAN (2007), siehe .2.3. Diese
Bedeutungszuweisung ist neben der Anwendung auf Suchanfragen auch wichtig bei der
Wissensextraktion, dem Topic Tracking sowie der automatischen Übersetzung.
5. Ein multilingualer Thesaurus kann auch als Basis für ein Übersetzungswörterbuch oder
gar ein automatisches Übersetzungssystem dienen. Die aus der Wikipedia gewonnenen
Informationen bieten hier eine nützliche Ergänzung zu traditionellen Wörterbüchern, da sie
1. Grundlagen 13
eine große Zahl von Fachbegriffen sowie viele Namen für Orte und Personen abdecken, die
in manuell gepflegten Wörterbüchern in der Regel fehlen.
6. Ein aus der Wikipedia gewonnener multilingualer Thesaurus kann auch als Basis für eine
(teil-)manuelle Erstellung von Wörterbüchern, Taxonomien und Ontologien dienen. Für
Ontologien und Wissensrepräsentationssysteme wie DBpedia oder YAGO kann es auch
möglich sein, Informationen aus der Wikipedia automatisch zu integrieren (siehe .2.2 und
.2.5).
7. Viele der weiter unten in .2 beschriebenen Systeme und Verfahren verwenden als Grundlage
eine aus derWikipedia extrahierte Struktur, die deutlich weniger Informationen berücksichtigt
als WikiWord. Sie könnten vermutlich davon profitieren, WikiWord als Werkzeug für
die Extraktion der Wikipedia-Struktur zu verwenden, um dann die betreffenden Verfahren
auf diese reichere Struktur anzuwenden.
Ein wichtiger Aspekt des in der vorliegenden Diplomarbeit vorgeschlagenen Ansatzes ist es, dass
der Aufbau des Thesaurus aus denWikipedia-Daten vollautomatisch und verhältnismäßig schnell2
erfolgt: Die manuelle Wartung eines Thesaurus ist sehr aufwändig und teuer, um so mehr, je mehr
Fachgebiete der Thesaurus abdecken soll. So ist es kaum möglich, einen Thesaurus auf dem neusten
Stand zu halten, insbesondere in Hinblick auf neue Technologien oder auch aktuell wichtige
Organisationen und Personen. Schon deshalb decken die meisten Thesauri nur einen eng eingegrenzten
Fachbereich ab und enthalten nur relativ wenige Terme bzw. Konzepte: WordNet zum
Beispiel enthält etwa 117 000 Konzepte (SynSets) WORDNET, MeSH kennt nur 24 767 Konzepte
MESH (siehe auch .2.2).
Ein Thesaurus, der automatisch aus Wikipedia-Daten erstellt wird, hat diese Probleme nicht:
Wikipedia ist sehr aktuell und deckt sehr weite Bereiche des menschlichenWissens ab RUIZ-CASADO
U. A. (2005), VOSS (2005B) (WikiWord liefert etwa 6 Millionen Konzepte und 12 Millionen Terme für
die englische Sprache, vergleiche .11.2). Insbesondere sind genau solche Themenbereiche abgedeckt,
die im Augenblick besonders im öffentlichen Bewusstsein stehen und daher besonders
interessant sind für das Information Retrieval (vergleiche SYED U. A. (2008), HEPP U. A. (2006), MILNE UND
NICHOLS (2007)). Zudem stehen die Daten unter einer freien Lizenz und sind in einer Vielzahl von
Sprachen verfügbar.
Ein multilingualer, konzeptorientierter Thesaurus auf Wikipedia-Basis besitzt also das Potential,
für wichtige Aufgaben des Information Retrieval und der automatischen Sprachverarbeitung eine
breite, aktuelle und qualitativ hochwertige Datenbasis zu liefern. Außerdem kann er verwendet
werden, um existierende, manuell gewartete Thesauri zu ergänzen und zu erweitern.
2Einige Tage bis Wochen auf einem üblichen Datenbanksystem, siehe .11.1.
Bevor der Entwurf und die Implementation von WikiWord dargelegt werden können, werden in
den verbleibenden Abschnitten dieses Kapitels Grundbegriffe geklärt (.1.1), ein Überblick über
wichtige Eigenschaften der Wikipedia geboten (.1.2) sowie verschiedene Arten und Aspekte von
Thesauri betrachtet (.1.3). Das folgende Kapitel gibt dann eine Übersicht über den Stand der
Forschung in Hinblick auf die automatische Erstellung von Thesauri im Allgemeinen und die
Extraktion von Wissen aus der Wikipedia im Speziellen (.2).
1.1. Begriffe
Zunächst eine kurze Übersicht über Begriffe, die in dieser Arbeit spezielle Bedeutung haben:
Wiki: Im Allgemeinen eine Webseite, die von jedem frei bearbeitet werden kann LEUF UND
CUNNINGHAM (2001); im Speziellen ein bestimmtes Wikipedia-Projekt (siehe unten).
Wikipedia: Ein Projekt zur kooperativen Erstellung einer Enzyklopädie unter Verwendung der
Wiki-Technologie (.1.2). Je nach Kontext bezeichnet Wikipedia ein bestimmtes Wikipedia-
Projekt in einer bestimmten Sprache (siehe unten).
MediaWiki: MediaWiki ist die Software, auf der dieWikipedia-Wikis basieren und die für diesen
Zweck von der Wikimedia Foundation entwickelt wird MW:ABOUT. MediaWiki ist freie
Software, lizenziert unter der GPL GPL.
Wikimedia: DieWikimedia Foundation ist eine gemeinnützige Stiftung mit Sitz in St. Petersburg,
Florida, USA, deren Zweck die Förderung von freiem Wissen ist WM:ABOUT, OKD, FCW.
Sie betreibt Anfang 2008 über 750 Wiki-Projekte M:SITES, WM:PROJECTS zu unterschiedlichen
Themen in unterschiedlichen Sprachen, unter anderem auch die Wikipedia-Projekte.
WikiWord: Das im Rahmen dieser Diplomarbeit entwickelte Softwaresystem zur automatischen
Extraktion eines multilingualen Thesaurus aus der Wikipedia.
Projekt: Ein (Wiki-)Projekt ist eine konkrete Website, auf der ein Wiki-System verwendet wird
und eine Gemeinschaft von Benutzern gemeinsam Inhalte zu einem bestimmten Thema erstellt
— zum Beispiel die deutschsprachige Wikipedia (de.wikipedia.org). Im Falle der
Wikipedia korrespondiert ein konkretes Projekt jeweils mit einer Sprache, in der enzyklopädische
Inhalte erstellt werden. Diese Inhalte dienen als Korpus im Sinne dieser Arbeit (siehe
unten).
Sprache: EinWikipedia-Projekt ist immer mit der Sprache assoziiert, in der seine Inhalte verfasst
sind. Jeder Sprache ist ein Code zugeordnet, der als Präfix für Language-Links und als
Subdomain dient (.1.2). Diese Codes folgen imWesentlichen der ISO 639-1 Norm ISO:639-
1 (2002), M:SITES. Zum Beispiel verwendet die deutschsprachige Wikipedia den Code de
(und damit die Domain de.wikipedia.org). Ein Sprach-Code identifiziert also auch ein
Wiki-Projekt und damit einen Korpus, aus dem ein (lokaler) Datensatz für den Thesaurus
extrahiert werden kann.
1. Grundlagen 4
Korpus: Ein Korpus ist im Kontext dieser Arbeit eine Sammlung von Wiki-Seiten, die
Gegenstand der Analyse zwecks Erzeugung eines (lokalen) Datensatzes für den Thesaurus
sein kann. Ein Korpus ist immer einer Sprache und einem Wiki-Projekt zugeordnet; mit
dem einer Sprache zugeordneten Korpus ist daher die Menge von Wiki-Seiten gemeint, die
in dem zu der Sprache gehörigen Wikipedia-Projekt enthalten sind.
Seite: Eine (Wiki-)Seite ist eine (Wiki-)Text-Ressource mit einem eindeutigen Namen innerhalb
einesWiki-Projektes und damit einer eindeutigen URL. Sie kann analysiert werden, um aus
ihr Informationen zu gewinnen, die dann zum Aufbau eines Thesaurus verwendet werden
können (siehe .8).
Im Folgenden werden die Namen von Wiki-Seiten serifenlos und kursiv gesetzt, zum
Beispiel: Sprachwissenschaft.
Artikel: Ein Artikel ist eine Wiki-Seite, die ein Konzept definiert. Nicht alle Seiten sind
Artikel, prominente Gegenbeispiele sind Weiterleitungen (Redirects), Begriffsklärungen
(Disambiguations) und Kategorien (siehe .1.2, .8.5); weitere Gegenbeispiele sind Wiki-
Seiten, die im Zuge dieser Arbeit nicht betrachtet werden, wie zum Beispiel Benutzerseiten.
Konzept: Ein Konzept ist im Kontext dieser Arbeit ein (abstrakter oder konkreter)
Betrachtungsgegenstand, in der Wikipedia insbesondere Gegenstand von Artikeln.
Konzepte haben eine Menge von Termen als Bezeichnungen, sie sind somit die Bedeutung
der ihnen zugeordneten Terme, also das Bezeichnete (auch Signifikat, fr. Signifé) im
Sinne der Semiotik de Saussures DE SAUSSURE (2001), S. 76FF. Ein wesentlicher Aspekt dieser
Arbeit ist es, diese Beziehung zwischen Konzept und Term zu explizieren, also eine
Bedeutungsrelation aufzubauen. Gemeinsam mit den Beziehungen zwischen Konzepten
bildet die Bedeutungsrelation einen konzeptorientierten Thesaurus MATTHEWS (2003) (siehe
.4.2).
Im Folgenden werden die Namen von Konzepten in Kapitälchen gesetzt, zum Beispiel:
SPRACHWISSENSCHAFT.
Term: Ein Term ist im Kontext dieser Arbeit ein Wort oder eine Wortgruppe bzw. Phrase, die
benutzt wird, um auf ein Konzept Bezug zu nehmen—das heißt, er ist eine Bezeichnung für
ein Konzept, also das Bezeichnende (auch Signifikant, fr. Signifiant) im Sinne der Semiotik
de Saussures DE SAUSSURE (2001), S. 76FF. Unterschiedliche Wortformen und Schreibweisen
werden dabei als unterschiedliche Terme betrachtet, selbst dann, wenn sie sich nur in der
Großschreibung unterscheiden. Die Bedeutungsrelation zwischen Termen und Konzepten
ist ein wesentlicher Aspekt dieser Arbeit (siehe .4.2 und .8.9).
Im Folgenden werden Terme kursiv und in Anführungszeichen gesetzt, zum Beispiel:
„Sprachwissenschaft“.
Dump: Ein (Wikipedia-)Dump ist eine Datei, die eine Menge von Wikipedia-Seiten enthält,
das heißt, sie beinhaltet den Wiki-Text der betreffenden Seiten sowie die dazugehörige
Meta-Information, eingebettet in eine dafür entworfene XML-Struktur MW:XML.
Dumps der Wikipedia-Inhalte werden periodisch alle paar Monate erstellt und zur
freien Weiternutzung angeboten WM:DOWNLOAD. Es gibt für jede Wikipedia unterschiedliche
Dumps, die verschiedene Mengen von Seiten enthalten. Für diese
1. Grundlagen 5
Arbeit sind diejenigen Dumps relevant, die alle Seiten im Hauptnamensraum (die
„Artikel“) sowie alle Kategorieseiten beinhalten, wobei nur die aktuelle Revision jeder
Seite benötigt wird. Die für diese Anwendung zugeschnittenen Dumps folgen
dem Namensschema wikiname-datum-pages-articles.xml, also zum Beispiel
dewiki-20080320-pages-articles.xml für den Dump der deutschsprachigen
Wikipedia vom 20. März 2008, der die aktuelle Version aller Seiten im Hauptnamensraum
sowie Kategorien und Vorlagen enthält.
Datensatz: Im Zusammenhang dieser Diplomarbeit ist ein Datensatz eine Sammlung von
Informationen über Konzepte und Terme und ihre Beziehungen zueinander. Datensätze gibt
es in zwei Ausprägungen: Lokale (sprachspezifische) Datensätze enthalten die Daten, die
aus einem Korpus in einer bestimmten Sprache extrahiert wurden, sie repräsentieren damit
einen monolingualen Thesaurus (siehe .4.2). Globale Datensätze kombinieren mehrere lokale
Datensätze zu einem multilingualen Thesaurus, indem sie äquivalente Konzepte aus
den einzelnen Sprachen zu jeweils einem sprachunabhängigen Konzept zusammenfassen
(siehe .4.3).
Datensätze werden typischerweise nach dem Wiki benannt, auf dessen Basis sie erstellt
wurden.
Kollektion: Im Zusammenhang dieser Diplomarbeit ist eine Kollektion eine Menge von
Datensätzen, die zusammen einen multilingualen Thesaurus bilden. Eine Kollektion enthält
einen lokalen Datensatz pro betrachteter Sprache sowie einen globalen Datensatz, der
die Konzepte aus den lokalen Datensätzen miteinander verbindet.
Wie in .10.1 beschrieben, wird der Name der Kollektion verwendet, um einen universell
eindeutigen Bezeichner (URI) für den Datensatz zu erzeugen. Es ist daher zweckmäßig,
aussagekräftige und eindeutige Namen für Kollektionen zu verwenden, insbesondere solche,
die Informationen über die verwendeten Wikis, deren Version und eventuelle thematische
Ausschnitte enthalten.
1.2. Wikipedia
Wikipedia ist eine Online-Enzyklopädie, die von Tausenden von Benutzern in Kollaboration erstellt
wird FIEBIG (2005). Sie beruht auf dem „Wiki-Prinzip“, also der Idee, dass jeder, auch ohne
Anmeldung, die Inhalte sofort bearbeiten und erweitern kann LEUF UND CUNNINGHAM (2001).Wikipedia
verwendet zu diesem Zweck die MediaWiki-Software MW:ABOUT, die von der Wikimedia
Foundation WM:ABOUT für diesen Zweck entwickelt wird.
Wikipedia zählt Anfang 2008, nur sieben Jahre nach ihrer Gründung im Jahre 2001, mit bis zu
fünfundsechzigtausend Seitenaufrufen pro Sekunde zu den zehn meistgenutzten Webseiten weltweit
WM:SURVEY (2008), WM:10M (2008). Wikipedia-Projekte gibt es in über 250 Sprachen mit
insgesamt über zehn Millionen Artikeln1 WM:10M (2008), M:SITES, WM:PROJECTS, davon über
1Nach der internen Zählweise von MediaWiki: Alle Artikel im Hauptnamensraum, die keine Weiterleitung sind und
mindestens einen Wiki-Link enthalten; Begriffsklärungsseiten werden also mitgezählt.
1. Grundlagen 6
zwei Millionen in der englischsprachigen und über siebenhunderttausend in der deutschsprachigen
Wikipedia WM:2M (2007), WP:STATS. Alle Inhalte sind unter der GFDL lizenziert GFDL und
damit frei verwendbar OKD, FCW. Der gesamte Korpus der Wikipedia wird periodisch als XML
MW:XML in so genannte Dumps exportiert und zur Weiternutzung angeboten WM:DOWNLOAD.
Die kollaborative Natur von Wikipedia erlaubt eine hohe Aktualität der Inhalte sowie ein rapides
Wachstum der thematischen Abdeckung. Die Anzahl der Seiten in einer Sprache folgt in der Regel
zunächst einer exponentiellen Wachstumskurve VOSS (2005B) und scheint sich mittlerweile zu linearem
Wachstum abzuflachen WP:STATS. Für die Zukunft ist damit zu rechnen, dass sich das
Wachstum noch weiter verlangsamt, so dass sich insgesamt eine logistische Funktion(„S-Kurve“)
für dasWachstum ergibt. Die Qualität einzelner Artikel in der Wikipedia ist recht unterschiedlich,
insgesamt jedoch mit der Qualität traditioneller Enzyklopädien vergleichbar GILES (2005).
Einträge in der Wikipedia sind recht uniform und folgen gewissen Konventionen: insbesondere
beschreibt jede Seite genau ein Konzept WP:ARTIKEL (Ausnahmen sind Weiterleitungen und
Begriffsklärungsseiten, siehe unten) und beginnt mit einer Begriffsdefinition (Glosse) WP:WSIGA.
Da es sich bei der Wikipedia um eine Enzyklopädie handelt, enthält sie vor allem Substantive,
Nominalphrasen und Eigennamen; Verben und Adjektive kommen dagegen kaum vor. Für eine
Verwendung im Bereich des Information Retrieval ist das kaum problematisch (und eventuell
sogar von Vorteil), da zur Klassifikation und Indexierung von Dokumenten ohnehin hauptsächlich
Substantive verwendet werden, weil diese gut geeignet sind, den thematischen Inhalt eines
Dokumentes wiederzugeben, siehe SYED U. A. (2008), HEPP U. A. (2006), EIRON UND MCCURLEY (2003) sowie
WP:V. Insbesondere enthält die Wikipedia im Gegensatz zu manuell erstellten Thesauri und
Wörterbüchern eine große Zahl von Einträgen über Orte, Personen, Werke und Organisationen
— sie eignet sich daher besonders, um Informationen zu Eigennamen (proper nouns bzw. Named
Entities) zu finden. Auch enthält sie eine Vielzahl von Fachausdrücken aus den verschiedensten
Fachbereichen, die in der Regel in allgemeinen Thesauri und Wörterbüchern nicht enthalten sind.
Eine weitere Eigenheit der Wikipedia betrifft die Granularität ihrer Einträge: zwar deckt die
Wikipedia einen weiten Bereich menschlichenWissens ab, da sie aber eine Enzyklopädie ist, bleiben
die Einträge aus lexikographischer Sicht eher grob: zum Beispiel werden die Begriffe „physikalisch“
und „Physiker“ mit unter den Eintrag für „Physik“ gefasst. Diese Art von Ungenauigkeit
ist aber in Hinblick auf die Indexierung und Klassifikation von Dokumenten, also für eine „oberflächliche“
Analyse von Texten, eher hilfreich als schädlich (vergleiche IDE UND VERONIS (1998),
S. 22 und WILKS U. A. (1996), S. 59). Die fachliche, taxonomische Granularität aber (ob z. B. die
„Atomphysik“ einen eigenen Artikel hat oder mit unter „Physik“ behandelt wird) hängt vor allem
von der Gesamtgröße der Wikipedia ab und variiert damit stark zwischen den verschiedenen
Sprachen — ein Umstand, den es bei der Erstellung des globalen Datensatzes zu berücksichtigen
gilt (siehe .4.3 und .9.2).
Weitere Funktionen, Eigenschaften und Konventionen, die Wikipedia zu einer exzellenten
Ressource für lexikalisch-semantische Informationen machen und im Zusammenhang mit dieser
Arbeit wichtig sind, seien im Folgenden genannt:
Seiten: Ein Wiki enthält ein Netzwerk von (Hypertext-)Seiten, die untereinander eng über
Hyperlinks verknüpft sind BELLOMI UND BONATO (2005B). Jede Seite hat einen eindeutigen
1. Grundlagen 7
Namen, über den sie innerhalb des Wikis über Wiki-Links angesprochen werden kann LEUF
UND CUNNINGHAM (2001) und der als URL-Suffix dient, so dass eine eindeutige URI RFC:3986
(2005) für diese Seite entsteht.
Der Name der Seite ist in derWikipedia das enzyklopädische Lemma des Artikels. Im Zuge
der vorliegenden Arbeit wird der Seitenname als eindeutiger Bezeichner sowohl für die Seite
(also Ressource) als auch für das Konzept, das auf der Seite beschrieben wird, verwendet
W3C (2005), BERNERS-LEE (1998).Welches von beiden gemeint ist, ist im Kontext eindeutig, für
eine externe Darstellung muss aber klar zwischen diesen unterschieden werden; mehr dazu
in Kapitel .10.
Für den Fall, dass die „natürliche“ Bezeichnung zweier Konzepte derselbe Term ist,
wird durch einen sogenannten Klammerzusatz als Qualifikator ein eindeutiges Lemma geschaffen
(ein Klammer-Lemma) WP:NK. So wird zum Beispiel zwischen Bock_(Gestell),
Bock_(Turngerät), Bock_(Insel) und Bock_(Dudelsack) sowie Bock_(Familienname) unterschieden
(das Tier dagegen wird unter Huftiere behandelt). In einem solchen Fall gibt
es zusätzlich eine Begriffsklärungsseite (siehe unten), die diese Bedeutungen aufzählt —
sie würde entweder den Namen ohne Klammerzusatz tragen (Bock), oder den Zusatz
„Begriffsklärung“ (also Bock_(Begriffsklärung)) WP:BKL.
Wiki-Text: Wikis verwenden eine Markup-Sprache, genannt Wiki-Text, die sich im
Funktionsumfang an HTML orientiert, aber leichter für Menschen zu lesen und zu
bearbeiten sein soll LEUF UND CUNNINGHAM (2001). „Wiki-Text“ ist als allgemeine Bezeichnung
zu verstehen, die konkreten Markup-Sprachen verschiedener Wiki-Systeme unterscheiden
sich zum Teil erheblich voneinander. Im Kontext dieser Arbeit ist mit Wiki-Text die von
MediaWiki verwendete Markup-Sprache gemeint (.A).
Beispiele für Wiki-Text werden im Folgenden kursiv in einer nichtproportionalen Schrift
gesetzt, zum Beispiel: [[Sprachwissenschaft]].
Die Art und Weise, wie Wiki-Markup in der Wikipedia verwendet wird WP:WSIGA, ist
im Vergleich zu Webseiten im Allgemeinen relativ reich an Semantik. Insbesondere die
Verwendung von Vorlagen sowie die Zuweisung von Kategorien sind im Kontext dieser
Arbeit sehr nützlich.
Wiki-Links: Ein wichtiger Aspekt von Wikis ist die leichte Verknüpfbarkeit von Seiten untereinander
WP:V. MediaWiki verwendet für diesen Zweck Wiki-Links, die als Name des
Zielartikels in doppelten eckigen Klammern geschrieben werden, z. B. [[Sprache]]. Die
Syntax ist in .A.3 genauer beschrieben. Wiki-Links, die auf eine Seite zeigen, die nicht
existiert, werden von MediaWiki rot dargestellt. Solche „roten Links“ sind nicht als Fehler
zu werten, sondern vielmehr als ein Hinweis auf fehlende Inhalte WP:RL.
Der Link-Text ist eine wichtige Quelle für die Zuordnung von Termen (dem Link-Text) zu
Konzepten (dem Link-Ziel), das heißt, für den Aufbau der Bedeutungsrelation (siehe .8.7):
Der Link-Text verhält sich zum Link-Ziel ähnlich wie der Titel der Seite (also das Lemma)
zu ihrem Inhalt (dem Konzept) MIHALCEA (2007) sowie CRASWELL U. A. (2001), EIRON UND MCCURLEY
(2003), KRAFT UND ZIEN (2004).
Namensräume: MediaWiki unterstützt (und Wikipedia nutzt) Namensräume für Wiki-Seiten,
um Seiten mit unterschiedlicher Funktion voneinander zu trennen und Namenskonflikte zu
1. Grundlagen 8
vermeiden WP:NS. MediaWiki gibt eine Anzahl von Namensräumen fest vor, darunter solche
für Benutzerseiten, Projektseiten, Hilfeseiten, Kategorien und einige mehr MW:NS.
Jedem Namensraum ist zudem ein entsprechender Diskussionsnamensraum zugeordnet
(und jeder Seite entsprechend potentiell eine Diskussionsseite, die dazu dient, die Arbeit an
der Seite zu koordinieren). Namensräume werden über einen Präfix am Seitennamen adressiert:
Der Link [[Hilfe:Formatieren]] verweist auf eine Seite im Namensraum Hilfe,
die sich mit Textformatierung befasst. Die Namen (Präfixe) der Namensräume sind sprachabhängig,
eine Liste der Namen der verwendeten Namensräume ist in jedem XML-Dump
enthalten.
Der eigentliche Inhalt des Wikis, im Falle der Wikipedia die enzyklopädische Information,
befindet sich auf Seiten im Hauptnamensraum, dem kein Präfix (oder genauer, der leere
String als Präfix) zugeordnet ist. Seiten im Hauptnamensraum werden auch als Artikel bezeichnet,
insbesondere dann, wenn sie keine Weiterleitungen und keine Begriffsklärungen
sind, wenn sie also ein Konzept beschreiben. Solche Artikel beinhalten das Sachwissen der
Wikipedia.
Interwiki-Links: Auch Verknüpfungen auf andereWikis sind mittels sogenannter Interwiki-Links
bequem möglich: für jedes Wiki, das als Ziel von Interwiki-Links dienen soll, muss dafür
ein Präfix zugewiesen werden, der bei der Definition des Wiki-Links verwendet wird (siehe
.A.3).
Language-Links: Interwiki-Links mit bestimmten Präfixen, die als Sprachcodes definiert sind,
werden besonders behandelt: Sie werden als Verknüpfungen auf eine äquivalente Seite in
einer anderen Sprache in einem anderen Wiki interpretiert (siehe .A.3).
Kategorien: Kategorien erlauben es, Wiki-Seiten zu Gruppen zusammenzufassen. Eine Seite
kann zu beliebig vielen Kategorien gehören und jeder Kategorie ist eine Kategorieseite zugeordnet,
über die sie beschrieben und selbst wieder Kategorien zugeordnet werden kann
WP:KAT. Um einer Seite eine Kategorie zuzuweisen, wird auf der Seite einfach ein Wiki-
Link auf diese Kategorie eingefügt, siehe .A.3. Sort-Keys (Sortierschlüssel), die bei der
Zuweisung von Kategorien angegeben wurden, sind eine wichtige Quelle für die Terme, die
einem Konzept zuzuordnen sind (siehe auch .9.1).
Per Konvention bilden Kategorien in der Wikipedia eine thematische Polyhierarchie
WP:KAT, sie lassen sich damit als semantische Relation der Über- bzw. Unterordnung
(Subsumtion) zwischen den von den Seiten beschriebenen Konzepten interpretieren. Zum
Beispiel wäre das speziellere Konzept UNSINN dem allgemeineren Konzept SEMANTIK untergeordnet.
Dabei ist die Art der Unterordnung unspezifiziert, die Relation bildet also keine
Taxonomie und lässt sich auch nur sehr eingeschränkt in Ontologien verwenden (vergleiche
PONZETTO UND STRUBE (2007B)). Diese Relation entspricht der Hyponym-Relation in einem
klassischen, Term-basierten Thesaurus, bzw. der NT/BT-Relation nach ISO 2788 ISO:2788
(1986). Sie bildet zusammen mit der Bedeutungsrelation den Kern des Thesaurus (siehe
.4.2). Zu beachten ist dabei, dass die MediaWiki-Software Zyklen in der Kategoriestruktur
zulässt—diese sind zwar per Konvention unerwünscht, können aber vorkommen und müssen
bei der Erstellung des Thesaurus entfernt werden (siehe .9.1.3).
1. Grundlagen 9
Neben den inhaltlich relevanten Kategorien existieren in der Wikipedia eine Vielzahl von
Wartungskategorien wie zum Beispiel Kategorie:Wikipedia:Lückenhaft, die sich auf die
Seite beziehen, nicht auf das beschriebene Konzept. Solche Kategorien sollten zur Erstellung
eines Thesaurus nicht verwendet werden und werden daher beim Import nach Möglichkeit
ignoriert (siehe .9.1).
Weiterleitungen: Weiterleitungen (Redirects) definieren einen Alias für einen Seitentitel (siehe
.A.6 für eine Beschreibung der Syntax). Eine Wiki-Seite kann über diesen Mechanismus
unter mehreren Namen erreichbar sein. Zum Beispiel könnte USA eine Weiterleitung
auf Vereinigte Staaten von Amerika sein WP:WL. Weiterleitungen sind eine wichtige
Quelle für Informationen darüber, welche alternativen Bezeichnungen (Terme) für welche
Konzepte verwendet werden (.A.6).
Vorlagen: MediaWiki unterstützt Vorlagen (Templates) als eine Methode, den Inhalt einer Wiki-
Seite in eine andere einzubinden (siehe .A.5). Beim Einbinden von Vorlagen können sogenannte
Vorlagen-Parameter verwendet werden: Sie erlauben es, beim Einbinden konkrete
Werte anzugeben, die dann für Platzhalter eingesetzt werden, die im Wiki-Text der Vorlage
verwendet wurden WP:VOR.
Vorlagen werden in der Wikipedia für verschiedene Zwecke benutzt: zur einheitlichen
Anzeige von strukturierten Daten (in sogenannten Infoboxen oder Taxoboxen WP:IB),
als Navigationselement zu verwandten Themen (sogenannten Navileisten, WP:NAVI), als
Markierung für Probleme mit einer Seite, als Formatierungshilfe im laufenden Text sowie
für diverse andere Zwecke WP:TB. Unter anderem werden Vorlagen auch verwendet,
um besondere Arten von Seiten zu kennzeichnen, insbesondere zum Beispiel
Begriffsklärungsseiten. Sie sind daher besonders nützlich, um solche besonderen Seiten zu
erkennen.
Vorlagen sind Gegenstand diverser Arbeiten über die Wikipedia, insbesondere können
Infoboxen leicht für eine Wissensextraktion verwendet werden, die Eigenschaft-Wert-Paare
für die Eigenschaften des Artikelgegenstandes liefert (z. B. bei Auer u. a. (2007), siehe
auch .2.5). In der vorliegenden Arbeit werden Vorlagen jedoch fast ausschließlich zur
Identifikation von Ressourcen- und Konzepttypen verwendet (siehe .8.5 bzw. .8.6 sowie
.8.4).
Magic Words: MediaWiki verwendet zwei Arten von Magic Words: „Variablen“, die Zugriff auf
kontext- oder projektspezifischeWerte bieten und „Optionen“, die die Verarbeitung der Seite
beeinflussen (siehe .A.6).
Die meisten Magic Words werden für den Zweck dieser Arbeit ignoriert; manche
Variablen aber, insbesondere eben der Seitenname, werden vor der Bearbeitung durch
den betreffenden konkreten Wert ersetzt (siehe .8.3). Einige weitere werden ähnlich wie
Vorlagen interpretiert, um zusätzliche Informationen zu gewinnen — Beispiele hierfür
sind {{DISPLAYTITLE:...}} und {{DEFAULTSORT:...}} (vergleiche .8.4). Ein weiteres
Beispiel für Magic Words, die vonWikiWord verwendet werden, sind die Markierungen
für Weiterleitungsseiten, siehe .A.6.
Extension-Tags und Parser-Functions: MediaWiki bietet zwei Möglichkeiten für die
Erweiterung des Wiki-Text-Markups an: Extension-Tags verwenden Tags der Form
1. Grundlagen 10
<mytag>...</mytag>, Parser-Functions verwenden vorlagenartige Strukturen der Form
{{#mytag:argument}} (siehe auch .A.7). Beide Formen werden bei der Analyse von
Wiki-Text im Rahmen dieser Arbeit vollständig ignoriert (siehe .8.3).
Begriffsklärungen: Begriffsklärungsseiten (Disambiguierungen) sind eine wichtige Konvention
in Wikipedia-Projekten: Gibt es mehrere unterschiedliche Bedeutungen zu einem Term, so
wird für diesen Term eine Begriffsklärungsseite angelegt, die alle Bedeutungen des Terms
aufzählt WP:BKL. Dazu wird in der Regel eine Listenstruktur verwendet, die in jeder Zeile
eine Glosse für eine der Bedeutungen hat und auf den entsprechenden Artikel verweist.
Wie schon oben erwähnt, wird die Begriffsklärungsseite entweder direkt mit dem fraglichen
Term als Name angelegt oder mit dem Zusatz (Begriffsklärung) —in letzterem Fall enthält
per Konvention die Seite ohne Namenszusatz (die Seite zur Hauptbedeutung des Terms)
einen Verweis auf die Begriffsklärungsseite.
Wie auch Weiterleitungen sind Begriffsklärungen im Kontext dieser Arbeit eine wichtige
Quelle für die Bedeutungsrelation, also um alle Bedeutungen eines Terms und umgekehrt
alle Bezeichnungen für ein Konzept zu finden (siehe .8.10).
1.3. Thesauri
Ein Thesaurus ist traditionell eine Sammlung von Termen (Wörtern), ihrer Beziehungen und
Definitionen. Die verschiedenen Beziehungen dienen insbesondere dazu, den passendsten Term
für einen Gegenstand, das heißt, die beste Bezeichnung für ein Konzept zu finden. Ein Thesaurus
ist daher besonders als Struktur für ein kontrolliertes Vokabular geeignet, das zur Indexierung von
Dokumenten verwendet werden soll.
Thesauri definieren in der Regel zumindest eine Äquivalenzbeziehung zwischen synonymen
und pseudo-synonymen (also für den Zweck der Indexierung gleichwertigen) Termen, eine
(poly-)hierarchische Subsumtionsbeziehung zwischen allgemeinen und speziellen Termen sowie
häufig eine Assoziationsbeziehung zwischen semantisch verwandten Termen STOCK (2007), S. 283FF.
Die ISO definiert insbesondere die folgenden Relationen ISO:2788 (1986):
UF bzw. USE: Used For bzw. Use gibt an, dass ein Term anstelle eines anderen verwendet werden
soll — über diese Relation wird der Deskriptor (Preferred Term) aus einer Menge von
(Pseudo-)Synonymen (einem sogenannten SynSet) festgelegt.
BT bzw. NT: Broader Term bzw. Narrower Term gibt an, dass ein Term allgemeiner bzw. spezieller
als ein anderer, das heißt, ein Hyperonym bzw. Hyponym zu diesem ist.
RT: Related Term gibt an, dass ein Term mit einem anderen semantisch verwandt ist. Diese
Beziehung besteht häufig unter anderem zwischen Kohyponymen.
Synonyme können so direkt modelliert werden, Homonyme dagegen nicht: häufig werden sie
disambiguiert, indem ein Qualifikator als Zusatz angehängt wird, entweder direkt als Teil des
Terms oder über eine spezielle Relation.
1. Grundlagen 11
Die hierarchische Beziehung (Hyponymiebeziehung) in einem Thesaurus ist häufig als Taxonomie
angelegt, also als eine strenge thematische Gliederung, über die Terme in Sachgebiete eingeordnet
werden. Die Hyponymiebeziehung kann auch als Polyhierarchie angelegt sein, so dass sich insgesamt
ein gerichteter, azyklischer Graph als Struktur bildet, anstelle eines einfachen Baums. Die
Semantik der Hyponymiebeziehung ist in der Regel nicht weiter spezifiziert, meist handelt es sich
um eine Vermengung der Abstraktionsbeziehung (subtype), der Instanzbeziehung (is-a), der
Aggregationsbeziehung (part-of) und gelegentlich der Attributbeziehung (property-of) VOSS
(2006), PONZETTO (2007).
Im Kontext der automatischen Verarbeitung von Wissen, Sprachen und Dokumenten erweist es
sich als hilfreich, eine weitere Ebene der Indirektion einzuführen und so zu einem „konzeptorientierten
Thesaurus“ zu gelangen, der auf einem Konzept-Term-Netzwerk basiert statt auf einem
reinen Netzwerk von Termen JOHNSTON U. A. (1998), MATTHEWS (2003), W3C (2005). So ergibt sich ein
Wissensorganisationssystem (Knowledge Organisation System, KOS). Dieses Modell scheint insbesondere
auch besser auf die Datenstruktur derWikipedia zu passen: Es werden die semantischen
Beziehungen zwischen Konzepten direkt modelliert und zusätzlich angegeben, welche Terme zu
welchem Konzept gehören (vergleiche VAN ASSEM U. A. (2006), GREGOROWICZ UND KRAMER (2006)). Die
Beziehungen zwischen Termen (Homonym, Synonym) ergeben sich dann implizit (.4.2). Ein ähnliches
Modell wird auch von WordNet verwendet, in dem Konzepte durch SynSets repräsentiert
und semantische Beziehungen zwischen SynSets statt zwischen Termen modelliert werden MILLER
(1995), FELLBAUM (1998), WORDNET.
In einem solchen konzeptorientierten Thesaurus gibt es nun vor allem die folgenden Beziehungen:
Bedeutung: Verbindet einen Term mit einer Anzahl von Konzepten (Bedeutungen), bzw. ein
Konzept mit einer Anzahl von Termen (Bezeichnungen). Daraus ergibt sich implizit die
Synonymie oder Homonymie von Termen.
Subsumtion: Verbindet allgemeinere mit spezielleren Konzepten, analog zu der
Hyponymierelation zwischen Termen.
Verwandtheit: Verbindet verwandte Konzepte, z. B. solche, die zu einem gemeinsamen
Themengebiet gehören oder häufig im selben Kontext verwendet werden.
Ähnlichkeit: Verbindet ähnliche Konzepte, z. B. solche, die zu einem gewissen Grade austauschbar
sind. Ähnliche Konzepte sind häufig Kohyponyme. Für eine Abgrenzung von semantischer
Verwandtheit und Ähnlichkeit siehe ZESCH U. A. (2007B).
Die semantischen Beziehungen in einem solchen Thesaurus sind aber weiterhin relativ „schwach“:
Wie schon oben für die Hyponymierelation, ist auch hier im Gegensatz zu den Relationen in einer
Ontologie nichts über die Art der Subsumtion (Subtyp, Instanz, Teil etc.) oder der Verwandtheit
bekannt PONZETTO UND STRUBE (2007B), HEPP U. A. (2006). Auch können Relationen nicht reifiziert oder
klassifiziert werden. Solche schwachen Beziehungen sind aber für die Zwecke des Information
Retrieval in aller Regel ausreichend.
Ziel dieser Diplomarbeit ist es nun, einen solchen konzeptorientierten Thesaurus auf Grundlage
des Datenbestandes der Wikipedia vollautomatisch zu erstellen.
1. Grundlagen 12
1.4. Nutzen
Der Nutzen von Thesauri (insbesondere der konzeptorientierten Art) für die automatische
Sprachverarbeitung und für das Information Retrieval liegt in der Überbrückung der Semantic
Gap zwischen dem bloßen Text als Folge von Zeichen und dem konzeptuellen Inhalt von
Dokumenten DAVULCU U. A. (2006), GREGOROWICZ UND KRAMER (2006). Handelt es sich um einen multilingualen
Thesaurus, kann auf dieseWeise auch die Kluft zwischen verschiedenen Sprachen überwunden
werden: Verschiedene Terme (Wörter und Phrasen) aus verschiedenen Sprachen werden
auf eine relativ kleine Menge wohldefinierter Konzepte abgebildet, die untereinander in Beziehung
stehen. Die in einem Dokument behandelten Konzepte werden so einer automatischen Analyse zugänglich.
Konkret kann ein maschinenlesbarer, multilingualer, konzeptorientierter Thesaurus insbesondere
in den folgenden Bereichen nützlich sein:
1. Für das klassische Information Retrieval ist es vorteilhaft, statt Termen abstrakte Konzepte
für die Indexierung von Dokumenten verwenden zu können: so lassen sich Unterschiede in
Sprache und Terminologie leicht überbrücken. Häufig werden Konzepte als Mengen von
Termen modelliert, die durch Clustering-Verfahren gewonnen wurden, wie beim Latent
Semantic Indexing (LSI) DEERWESTER U. A. (1990), KUMAR U. A. (2006). Die Verwendung eines konzeptorientierten
Thesaurus erlaubt es dagegen, menschliches Wissen über die Zuordnung
von Termen zu Konzepten zu nutzen (siehe .2.4 und insbesondere MILNE UND NICHOLS (2007)).
Neben der klassischen Dokumentensuche profitieren auch Aufgaben wie Resource Selection
und Topic Tracking von diesem Ansatz.
2. Ein Thesaurus auf Basis der Wikipedia eignet sich besonders für die Named Entity
Recognition (NER), da Wikipedia im Gegensatz zu klassischen Wörterbüchern eine große
Zahl von Einträgen zu Orten, Personen und Organisationen hat (siehe .2.6).
3. Die Informationen über ähnliche, verwandte und übergeordnete Konzepte, die in einem
Thesaurus enthalten sind, können unter anderem für eine gezielte Query Expansion verwendet
werden MILNE UND NICHOLS (2007). Es ist zu erwarten, dass dies besonders dann effektiv ist,
wenn die Indexierung und Abfrage anhand von Konzepten statt von Termen erfolgt, da so
Mehrdeutigkeiten vermieden werden können SYED U. A. (2008).
4. Die Verwandtheitsbeziehungen zwischen Konzepten können auch verwendet werden, um
Terme im Kontext zu disambiguieren: Für eine Menge von Termen kann die Bedeutung
jedes Terms so gewählt werden, dass die Bedeutungen (Konzepte) gut zueinander passen
— auf diese Weise lässt sich mit großer Wahrscheinlichkeit die intendierte Bedeutung der
Terme finden MIHALCEA (2007), STRUBE UND PONZETTO (2006), CUCERZAN (2007), siehe .2.3. Diese
Bedeutungszuweisung ist neben der Anwendung auf Suchanfragen auch wichtig bei der
Wissensextraktion, dem Topic Tracking sowie der automatischen Übersetzung.
5. Ein multilingualer Thesaurus kann auch als Basis für ein Übersetzungswörterbuch oder
gar ein automatisches Übersetzungssystem dienen. Die aus der Wikipedia gewonnenen
Informationen bieten hier eine nützliche Ergänzung zu traditionellen Wörterbüchern, da sie
1. Grundlagen 13
eine große Zahl von Fachbegriffen sowie viele Namen für Orte und Personen abdecken, die
in manuell gepflegten Wörterbüchern in der Regel fehlen.
6. Ein aus der Wikipedia gewonnener multilingualer Thesaurus kann auch als Basis für eine
(teil-)manuelle Erstellung von Wörterbüchern, Taxonomien und Ontologien dienen. Für
Ontologien und Wissensrepräsentationssysteme wie DBpedia oder YAGO kann es auch
möglich sein, Informationen aus der Wikipedia automatisch zu integrieren (siehe .2.2 und
.2.5).
7. Viele der weiter unten in .2 beschriebenen Systeme und Verfahren verwenden als Grundlage
eine aus derWikipedia extrahierte Struktur, die deutlich weniger Informationen berücksichtigt
als WikiWord. Sie könnten vermutlich davon profitieren, WikiWord als Werkzeug für
die Extraktion der Wikipedia-Struktur zu verwenden, um dann die betreffenden Verfahren
auf diese reichere Struktur anzuwenden.
Ein wichtiger Aspekt des in der vorliegenden Diplomarbeit vorgeschlagenen Ansatzes ist es, dass
der Aufbau des Thesaurus aus denWikipedia-Daten vollautomatisch und verhältnismäßig schnell2
erfolgt: Die manuelle Wartung eines Thesaurus ist sehr aufwändig und teuer, um so mehr, je mehr
Fachgebiete der Thesaurus abdecken soll. So ist es kaum möglich, einen Thesaurus auf dem neusten
Stand zu halten, insbesondere in Hinblick auf neue Technologien oder auch aktuell wichtige
Organisationen und Personen. Schon deshalb decken die meisten Thesauri nur einen eng eingegrenzten
Fachbereich ab und enthalten nur relativ wenige Terme bzw. Konzepte: WordNet zum
Beispiel enthält etwa 117 000 Konzepte (SynSets) WORDNET, MeSH kennt nur 24 767 Konzepte
MESH (siehe auch .2.2).
Ein Thesaurus, der automatisch aus Wikipedia-Daten erstellt wird, hat diese Probleme nicht:
Wikipedia ist sehr aktuell und deckt sehr weite Bereiche des menschlichenWissens ab RUIZ-CASADO
U. A. (2005), VOSS (2005B) (WikiWord liefert etwa 6 Millionen Konzepte und 12 Millionen Terme für
die englische Sprache, vergleiche .11.2). Insbesondere sind genau solche Themenbereiche abgedeckt,
die im Augenblick besonders im öffentlichen Bewusstsein stehen und daher besonders
interessant sind für das Information Retrieval (vergleiche SYED U. A. (2008), HEPP U. A. (2006), MILNE UND
NICHOLS (2007)). Zudem stehen die Daten unter einer freien Lizenz und sind in einer Vielzahl von
Sprachen verfügbar.
Ein multilingualer, konzeptorientierter Thesaurus auf Wikipedia-Basis besitzt also das Potential,
für wichtige Aufgaben des Information Retrieval und der automatischen Sprachverarbeitung eine
breite, aktuelle und qualitativ hochwertige Datenbasis zu liefern. Außerdem kann er verwendet
werden, um existierende, manuell gewartete Thesauri zu ergänzen und zu erweitern.
2Einige Tage bis Wochen auf einem üblichen Datenbanksystem, siehe .11.1.