History: DanielKinzler Chapter 1: Grundlagen

View page Show All Versions
Source of version: 1 (current)

1. Grundlagen 3
Bevor der Entwurf und die Implementation von WikiWord dargelegt werden kÃ¶nnen, werden in
den verbleibenden Abschnitten dieses Kapitels Grundbegriffe geklÃ¤rt (.1.1), ein Ãœberblick Ã¼ber
wichtige Eigenschaften der Wikipedia geboten (.1.2) sowie verschiedene Arten und Aspekte von
Thesauri betrachtet (.1.3). Das folgende Kapitel gibt dann eine Ãœbersicht Ã¼ber den Stand der
Forschung in Hinblick auf die automatische Erstellung von Thesauri im Allgemeinen und die
Extraktion von Wissen aus der Wikipedia im Speziellen (.2).


1.1. Begriffe
ZunÃ¤chst eine kurze Ãœbersicht Ã¼ber Begriffe, die in dieser Arbeit spezielle Bedeutung haben:
Wiki: Im Allgemeinen eine Webseite, die von jedem frei bearbeitet werden kann [LEUF UND
CUNNINGHAM (2001)]; im Speziellen ein bestimmtes Wikipedia-Projekt (siehe unten).
Wikipedia: Ein Projekt zur kooperativen Erstellung einer EnzyklopÃ¤die unter Verwendung der
Wiki-Technologie (.1.2). Je nach Kontext bezeichnet Wikipedia ein bestimmtes Wikipedia-
Projekt in einer bestimmten Sprache (siehe unten).
MediaWiki: MediaWiki ist die Software, auf der dieWikipedia-Wikis basieren und die fÃ¼r diesen
Zweck von der Wikimedia Foundation entwickelt wird [MW:ABOUT]. MediaWiki ist freie
Software, lizenziert unter der GPL [GPL].
Wikimedia: DieWikimedia Foundation ist eine gemeinnÃ¼tzige Stiftung mit Sitz in St. Petersburg,
Florida, USA, deren Zweck die FÃ¶rderung von freiem Wissen ist [WM:ABOUT, OKD, FCW].
Sie betreibt Anfang 2008 Ã¼ber 750 Wiki-Projekte [M:SITES, WM:PROJECTS] zu unterschiedlichen
Themen in unterschiedlichen Sprachen, unter anderem auch die Wikipedia-Projekte.
WikiWord: Das im Rahmen dieser Diplomarbeit entwickelte Softwaresystem zur automatischen
Extraktion eines multilingualen Thesaurus aus der Wikipedia.
Projekt: Ein (Wiki-)Projekt ist eine konkrete Website, auf der ein Wiki-System verwendet wird
und eine Gemeinschaft von Benutzern gemeinsam Inhalte zu einem bestimmten Thema erstellt
â€” zum Beispiel die deutschsprachige Wikipedia (de.wikipedia.org). Im Falle der
Wikipedia korrespondiert ein konkretes Projekt jeweils mit einer Sprache, in der enzyklopÃ¤dische
Inhalte erstellt werden. Diese Inhalte dienen als Korpus im Sinne dieser Arbeit (siehe
unten).
Sprache: EinWikipedia-Projekt ist immer mit der Sprache assoziiert, in der seine Inhalte verfasst
sind. Jeder Sprache ist ein Code zugeordnet, der als PrÃ¤fix fÃ¼r Language-Links und als
Subdomain dient (.1.2). Diese Codes folgen imWesentlichen der ISO 639-1 Norm [ISO:639-
1 (2002), M:SITES]. Zum Beispiel verwendet die deutschsprachige Wikipedia den Code de
(und damit die Domain de.wikipedia.org). Ein Sprach-Code identifiziert also auch ein
Wiki-Projekt und damit einen Korpus, aus dem ein (lokaler) Datensatz fÃ¼r den Thesaurus
extrahiert werden kann.
1. Grundlagen 4
Korpus: Ein Korpus ist im Kontext dieser Arbeit eine Sammlung von Wiki-Seiten, die
Gegenstand der Analyse zwecks Erzeugung eines (lokalen) Datensatzes fÃ¼r den Thesaurus
sein kann. Ein Korpus ist immer einer Sprache und einem Wiki-Projekt zugeordnet; mit
dem einer Sprache zugeordneten Korpus ist daher die Menge von Wiki-Seiten gemeint, die
in dem zu der Sprache gehÃ¶rigen Wikipedia-Projekt enthalten sind.
Seite: Eine (Wiki-)Seite ist eine (Wiki-)Text-Ressource mit einem eindeutigen Namen innerhalb
einesWiki-Projektes und damit einer eindeutigen URL. Sie kann analysiert werden, um aus
ihr Informationen zu gewinnen, die dann zum Aufbau eines Thesaurus verwendet werden
kÃ¶nnen (siehe .8).
Im Folgenden werden die Namen von Wiki-Seiten serifenlos und kursiv gesetzt, zum
Beispiel: Sprachwissenschaft.
Artikel: Ein Artikel ist eine Wiki-Seite, die ein Konzept definiert. Nicht alle Seiten sind
Artikel, prominente Gegenbeispiele sind Weiterleitungen (Redirects), BegriffsklÃ¤rungen
(Disambiguations) und Kategorien (siehe .1.2, .8.5); weitere Gegenbeispiele sind Wiki-
Seiten, die im Zuge dieser Arbeit nicht betrachtet werden, wie zum Beispiel Benutzerseiten.
Konzept: Ein Konzept ist im Kontext dieser Arbeit ein (abstrakter oder konkreter)
Betrachtungsgegenstand, in der Wikipedia insbesondere Gegenstand von Artikeln.
Konzepte haben eine Menge von Termen als Bezeichnungen, sie sind somit die Bedeutung
der ihnen zugeordneten Terme, also das Bezeichnete (auch Signifikat, fr. SignifÃ©) im
Sinne der Semiotik de Saussures [DE SAUSSURE (2001), S. 76FF]. Ein wesentlicher Aspekt dieser
Arbeit ist es, diese Beziehung zwischen Konzept und Term zu explizieren, also eine
Bedeutungsrelation aufzubauen. Gemeinsam mit den Beziehungen zwischen Konzepten
bildet die Bedeutungsrelation einen konzeptorientierten Thesaurus [MATTHEWS (2003)] (siehe
.4.2).
Im Folgenden werden die Namen von Konzepten in KapitÃ¤lchen gesetzt, zum Beispiel:
SPRACHWISSENSCHAFT.
Term: Ein Term ist im Kontext dieser Arbeit ein Wort oder eine Wortgruppe bzw. Phrase, die
benutzt wird, um auf ein Konzept Bezug zu nehmenâ€”das heiÃŸt, er ist eine Bezeichnung fÃ¼r
ein Konzept, also das Bezeichnende (auch Signifikant, fr. Signifiant) im Sinne der Semiotik
de Saussures [DE SAUSSURE (2001), S. 76FF]. Unterschiedliche Wortformen und Schreibweisen
werden dabei als unterschiedliche Terme betrachtet, selbst dann, wenn sie sich nur in der
GroÃŸschreibung unterscheiden. Die Bedeutungsrelation zwischen Termen und Konzepten
ist ein wesentlicher Aspekt dieser Arbeit (siehe .4.2 und .8.9).
Im Folgenden werden Terme kursiv und in AnfÃ¼hrungszeichen gesetzt, zum Beispiel:
â€žSprachwissenschaftâ€œ.
Dump: Ein (Wikipedia-)Dump ist eine Datei, die eine Menge von Wikipedia-Seiten enthÃ¤lt,
das heiÃŸt, sie beinhaltet den Wiki-Text der betreffenden Seiten sowie die dazugehÃ¶rige
Meta-Information, eingebettet in eine dafÃ¼r entworfene XML-Struktur [MW:XML].
Dumps der Wikipedia-Inhalte werden periodisch alle paar Monate erstellt und zur
freien Weiternutzung angeboten [WM:DOWNLOAD]. Es gibt fÃ¼r jede Wikipedia unterschiedliche
Dumps, die verschiedene Mengen von Seiten enthalten. FÃ¼r diese
1. Grundlagen 5
Arbeit sind diejenigen Dumps relevant, die alle Seiten im Hauptnamensraum (die
â€žArtikelâ€œ) sowie alle Kategorieseiten beinhalten, wobei nur die aktuelle Revision jeder
Seite benÃ¶tigt wird. Die fÃ¼r diese Anwendung zugeschnittenen Dumps folgen
dem Namensschema wikiname-datum-pages-articles.xml, also zum Beispiel
dewiki-20080320-pages-articles.xml fÃ¼r den Dump der deutschsprachigen
Wikipedia vom 20. MÃ¤rz 2008, der die aktuelle Version aller Seiten im Hauptnamensraum
sowie Kategorien und Vorlagen enthÃ¤lt.
Datensatz: Im Zusammenhang dieser Diplomarbeit ist ein Datensatz eine Sammlung von
Informationen Ã¼ber Konzepte und Terme und ihre Beziehungen zueinander. DatensÃ¤tze gibt
es in zwei AusprÃ¤gungen: Lokale (sprachspezifische) DatensÃ¤tze enthalten die Daten, die
aus einem Korpus in einer bestimmten Sprache extrahiert wurden, sie reprÃ¤sentieren damit
einen monolingualen Thesaurus (siehe .4.2). Globale DatensÃ¤tze kombinieren mehrere lokale
DatensÃ¤tze zu einem multilingualen Thesaurus, indem sie Ã¤quivalente Konzepte aus
den einzelnen Sprachen zu jeweils einem sprachunabhÃ¤ngigen Konzept zusammenfassen
(siehe .4.3).
DatensÃ¤tze werden typischerweise nach dem Wiki benannt, auf dessen Basis sie erstellt
wurden.
Kollektion: Im Zusammenhang dieser Diplomarbeit ist eine Kollektion eine Menge von
DatensÃ¤tzen, die zusammen einen multilingualen Thesaurus bilden. Eine Kollektion enthÃ¤lt
einen lokalen Datensatz pro betrachteter Sprache sowie einen globalen Datensatz, der
die Konzepte aus den lokalen DatensÃ¤tzen miteinander verbindet.
Wie in .10.1 beschrieben, wird der Name der Kollektion verwendet, um einen universell
eindeutigen Bezeichner (URI) fÃ¼r den Datensatz zu erzeugen. Es ist daher zweckmÃ¤ÃŸig,
aussagekrÃ¤ftige und eindeutige Namen fÃ¼r Kollektionen zu verwenden, insbesondere solche,
die Informationen Ã¼ber die verwendeten Wikis, deren Version und eventuelle thematische
Ausschnitte enthalten.
1.2. Wikipedia
Wikipedia ist eine Online-EnzyklopÃ¤die, die von Tausenden von Benutzern in Kollaboration erstellt
wird [FIEBIG (2005)]. Sie beruht auf dem â€žWiki-Prinzipâ€œ, also der Idee, dass jeder, auch ohne
Anmeldung, die Inhalte sofort bearbeiten und erweitern kann [LEUF UND CUNNINGHAM (2001)].Wikipedia
verwendet zu diesem Zweck die MediaWiki-Software [MW:ABOUT], die von der Wikimedia
Foundation [WM:ABOUT] fÃ¼r diesen Zweck entwickelt wird.
Wikipedia zÃ¤hlt Anfang 2008, nur sieben Jahre nach ihrer GrÃ¼ndung im Jahre 2001, mit bis zu
fÃ¼nfundsechzigtausend Seitenaufrufen pro Sekunde zu den zehn meistgenutzten Webseiten weltweit
[WM:SURVEY (2008), WM:10M (2008)]. Wikipedia-Projekte gibt es in Ã¼ber 250 Sprachen mit
insgesamt Ã¼ber zehn Millionen Artikeln1 [WM:10M (2008), M:SITES, WM:PROJECTS], davon Ã¼ber
1Nach der internen ZÃ¤hlweise von MediaWiki: Alle Artikel im Hauptnamensraum, die keine Weiterleitung sind und
mindestens einen Wiki-Link enthalten; BegriffsklÃ¤rungsseiten werden also mitgezÃ¤hlt.
1. Grundlagen 6
zwei Millionen in der englischsprachigen und Ã¼ber siebenhunderttausend in der deutschsprachigen
Wikipedia [WM:2M (2007), WP:STATS]. Alle Inhalte sind unter der GFDL lizenziert [GFDL] und
damit frei verwendbar [OKD, FCW]. Der gesamte Korpus der Wikipedia wird periodisch als XML
[MW:XML] in so genannte Dumps exportiert und zur Weiternutzung angeboten [WM:DOWNLOAD].
Die kollaborative Natur von Wikipedia erlaubt eine hohe AktualitÃ¤t der Inhalte sowie ein rapides
Wachstum der thematischen Abdeckung. Die Anzahl der Seiten in einer Sprache folgt in der Regel
zunÃ¤chst einer exponentiellen Wachstumskurve [VOSS (2005B)] und scheint sich mittlerweile zu linearem
Wachstum abzuflachen [WP:STATS]. FÃ¼r die Zukunft ist damit zu rechnen, dass sich das
Wachstum noch weiter verlangsamt, so dass sich insgesamt eine logistische Funktion(â€žS-Kurveâ€œ)
fÃ¼r dasWachstum ergibt. Die QualitÃ¤t einzelner Artikel in der Wikipedia ist recht unterschiedlich,
insgesamt jedoch mit der QualitÃ¤t traditioneller EnzyklopÃ¤dien vergleichbar [GILES (2005)].
EintrÃ¤ge in der Wikipedia sind recht uniform und folgen gewissen Konventionen: insbesondere
beschreibt jede Seite genau ein Konzept [WP:ARTIKEL] (Ausnahmen sind Weiterleitungen und
BegriffsklÃ¤rungsseiten, siehe unten) und beginnt mit einer Begriffsdefinition (Glosse) [WP:WSIGA].
Da es sich bei der Wikipedia um eine EnzyklopÃ¤die handelt, enthÃ¤lt sie vor allem Substantive,
Nominalphrasen und Eigennamen; Verben und Adjektive kommen dagegen kaum vor. FÃ¼r eine
Verwendung im Bereich des Information Retrieval ist das kaum problematisch (und eventuell
sogar von Vorteil), da zur Klassifikation und Indexierung von Dokumenten ohnehin hauptsÃ¤chlich
Substantive verwendet werden, weil diese gut geeignet sind, den thematischen Inhalt eines
Dokumentes wiederzugeben, siehe [SYED U. A. (2008), HEPP U. A. (2006), EIRON UND MCCURLEY (2003)] sowie
[WP:V]. Insbesondere enthÃ¤lt die Wikipedia im Gegensatz zu manuell erstellten Thesauri und
WÃ¶rterbÃ¼chern eine groÃŸe Zahl von EintrÃ¤gen Ã¼ber Orte, Personen, Werke und Organisationen
â€” sie eignet sich daher besonders, um Informationen zu Eigennamen (proper nouns bzw. Named
Entities) zu finden. Auch enthÃ¤lt sie eine Vielzahl von FachausdrÃ¼cken aus den verschiedensten
Fachbereichen, die in der Regel in allgemeinen Thesauri und WÃ¶rterbÃ¼chern nicht enthalten sind.
Eine weitere Eigenheit der Wikipedia betrifft die GranularitÃ¤t ihrer EintrÃ¤ge: zwar deckt die
Wikipedia einen weiten Bereich menschlichenWissens ab, da sie aber eine EnzyklopÃ¤die ist, bleiben
die EintrÃ¤ge aus lexikographischer Sicht eher grob: zum Beispiel werden die Begriffe â€žphysikalischâ€œ
und â€žPhysikerâ€œ mit unter den Eintrag fÃ¼r â€žPhysikâ€œ gefasst. Diese Art von Ungenauigkeit
ist aber in Hinblick auf die Indexierung und Klassifikation von Dokumenten, also fÃ¼r eine â€žoberflÃ¤chlicheâ€œ
Analyse von Texten, eher hilfreich als schÃ¤dlich (vergleiche [IDE UND VERONIS (1998),
S. 22] und [WILKS U. A. (1996), S. 59]). Die fachliche, taxonomische GranularitÃ¤t aber (ob z. B. die
â€žAtomphysikâ€œ einen eigenen Artikel hat oder mit unter â€žPhysikâ€œ behandelt wird) hÃ¤ngt vor allem
von der GesamtgrÃ¶ÃŸe der Wikipedia ab und variiert damit stark zwischen den verschiedenen
Sprachen â€” ein Umstand, den es bei der Erstellung des globalen Datensatzes zu berÃ¼cksichtigen
gilt (siehe .4.3 und .9.2).
Weitere Funktionen, Eigenschaften und Konventionen, die Wikipedia zu einer exzellenten
Ressource fÃ¼r lexikalisch-semantische Informationen machen und im Zusammenhang mit dieser
Arbeit wichtig sind, seien im Folgenden genannt:
Seiten: Ein Wiki enthÃ¤lt ein Netzwerk von (Hypertext-)Seiten, die untereinander eng Ã¼ber
Hyperlinks verknÃ¼pft sind [BELLOMI UND BONATO (2005B)]. Jede Seite hat einen eindeutigen
1. Grundlagen 7
Namen, Ã¼ber den sie innerhalb des Wikis Ã¼ber Wiki-Links angesprochen werden kann [LEUF
UND CUNNINGHAM (2001)] und der als URL-Suffix dient, so dass eine eindeutige URI [RFC:3986
(2005)] fÃ¼r diese Seite entsteht.
Der Name der Seite ist in derWikipedia das enzyklopÃ¤dische Lemma des Artikels. Im Zuge
der vorliegenden Arbeit wird der Seitenname als eindeutiger Bezeichner sowohl fÃ¼r die Seite
(also Ressource) als auch fÃ¼r das Konzept, das auf der Seite beschrieben wird, verwendet
[W3C (2005), BERNERS-LEE (1998)].Welches von beiden gemeint ist, ist im Kontext eindeutig, fÃ¼r
eine externe Darstellung muss aber klar zwischen diesen unterschieden werden; mehr dazu
in Kapitel .10.
FÃ¼r den Fall, dass die â€žnatÃ¼rlicheâ€œ Bezeichnung zweier Konzepte derselbe Term ist,
wird durch einen sogenannten Klammerzusatz als Qualifikator ein eindeutiges Lemma geschaffen
(ein Klammer-Lemma) [WP:NK]. So wird zum Beispiel zwischen Bock_(Gestell),
Bock_(TurngerÃ¤t), Bock_(Insel) und Bock_(Dudelsack) sowie Bock_(Familienname) unterschieden
(das Tier dagegen wird unter Huftiere behandelt). In einem solchen Fall gibt
es zusÃ¤tzlich eine BegriffsklÃ¤rungsseite (siehe unten), die diese Bedeutungen aufzÃ¤hlt â€”
sie wÃ¼rde entweder den Namen ohne Klammerzusatz tragen (Bock), oder den Zusatz
â€žBegriffsklÃ¤rungâ€œ (also Bock_(BegriffsklÃ¤rung)) [WP:BKL].
Wiki-Text: Wikis verwenden eine Markup-Sprache, genannt Wiki-Text, die sich im
Funktionsumfang an HTML orientiert, aber leichter fÃ¼r Menschen zu lesen und zu
bearbeiten sein soll [LEUF UND CUNNINGHAM (2001)]. â€žWiki-Textâ€œ ist als allgemeine Bezeichnung
zu verstehen, die konkreten Markup-Sprachen verschiedener Wiki-Systeme unterscheiden
sich zum Teil erheblich voneinander. Im Kontext dieser Arbeit ist mit Wiki-Text die von
MediaWiki verwendete Markup-Sprache gemeint (.A).
Beispiele fÃ¼r Wiki-Text werden im Folgenden kursiv in einer nichtproportionalen Schrift
gesetzt, zum Beispiel: [[Sprachwissenschaft]].
Die Art und Weise, wie Wiki-Markup in der Wikipedia verwendet wird [WP:WSIGA], ist
im Vergleich zu Webseiten im Allgemeinen relativ reich an Semantik. Insbesondere die
Verwendung von Vorlagen sowie die Zuweisung von Kategorien sind im Kontext dieser
Arbeit sehr nÃ¼tzlich.
Wiki-Links: Ein wichtiger Aspekt von Wikis ist die leichte VerknÃ¼pfbarkeit von Seiten untereinander
[WP:V]. MediaWiki verwendet fÃ¼r diesen Zweck Wiki-Links, die als Name des
Zielartikels in doppelten eckigen Klammern geschrieben werden, z. B. [[Sprache]]. Die
Syntax ist in .A.3 genauer beschrieben. Wiki-Links, die auf eine Seite zeigen, die nicht
existiert, werden von MediaWiki rot dargestellt. Solche â€žroten Linksâ€œ sind nicht als Fehler
zu werten, sondern vielmehr als ein Hinweis auf fehlende Inhalte [WP:RL].
Der Link-Text ist eine wichtige Quelle fÃ¼r die Zuordnung von Termen (dem Link-Text) zu
Konzepten (dem Link-Ziel), das heiÃŸt, fÃ¼r den Aufbau der Bedeutungsrelation (siehe .8.7):
Der Link-Text verhÃ¤lt sich zum Link-Ziel Ã¤hnlich wie der Titel der Seite (also das Lemma)
zu ihrem Inhalt (dem Konzept) [MIHALCEA (2007)] sowie [CRASWELL U. A. (2001), EIRON UND MCCURLEY
(2003), KRAFT UND ZIEN (2004)].
NamensrÃ¤ume: MediaWiki unterstÃ¼tzt (und Wikipedia nutzt) NamensrÃ¤ume fÃ¼r Wiki-Seiten,
um Seiten mit unterschiedlicher Funktion voneinander zu trennen und Namenskonflikte zu
1. Grundlagen 8
vermeiden [WP:NS]. MediaWiki gibt eine Anzahl von NamensrÃ¤umen fest vor, darunter solche
fÃ¼r Benutzerseiten, Projektseiten, Hilfeseiten, Kategorien und einige mehr [MW:NS].
Jedem Namensraum ist zudem ein entsprechender Diskussionsnamensraum zugeordnet
(und jeder Seite entsprechend potentiell eine Diskussionsseite, die dazu dient, die Arbeit an
der Seite zu koordinieren). NamensrÃ¤ume werden Ã¼ber einen PrÃ¤fix am Seitennamen adressiert:
Der Link [[Hilfe:Formatieren]] verweist auf eine Seite im Namensraum Hilfe,
die sich mit Textformatierung befasst. Die Namen (PrÃ¤fixe) der NamensrÃ¤ume sind sprachabhÃ¤ngig,
eine Liste der Namen der verwendeten NamensrÃ¤ume ist in jedem XML-Dump
enthalten.
Der eigentliche Inhalt des Wikis, im Falle der Wikipedia die enzyklopÃ¤dische Information,
befindet sich auf Seiten im Hauptnamensraum, dem kein PrÃ¤fix (oder genauer, der leere
String als PrÃ¤fix) zugeordnet ist. Seiten im Hauptnamensraum werden auch als Artikel bezeichnet,
insbesondere dann, wenn sie keine Weiterleitungen und keine BegriffsklÃ¤rungen
sind, wenn sie also ein Konzept beschreiben. Solche Artikel beinhalten das Sachwissen der
Wikipedia.
Interwiki-Links: Auch VerknÃ¼pfungen auf andereWikis sind mittels sogenannter Interwiki-Links
bequem mÃ¶glich: fÃ¼r jedes Wiki, das als Ziel von Interwiki-Links dienen soll, muss dafÃ¼r
ein PrÃ¤fix zugewiesen werden, der bei der Definition des Wiki-Links verwendet wird (siehe
.A.3).
Language-Links: Interwiki-Links mit bestimmten PrÃ¤fixen, die als Sprachcodes definiert sind,
werden besonders behandelt: Sie werden als VerknÃ¼pfungen auf eine Ã¤quivalente Seite in
einer anderen Sprache in einem anderen Wiki interpretiert (siehe .A.3).
Kategorien: Kategorien erlauben es, Wiki-Seiten zu Gruppen zusammenzufassen. Eine Seite
kann zu beliebig vielen Kategorien gehÃ¶ren und jeder Kategorie ist eine Kategorieseite zugeordnet,
Ã¼ber die sie beschrieben und selbst wieder Kategorien zugeordnet werden kann
[WP:KAT]. Um einer Seite eine Kategorie zuzuweisen, wird auf der Seite einfach ein Wiki-
Link auf diese Kategorie eingefÃ¼gt, siehe .A.3. Sort-Keys (SortierschlÃ¼ssel), die bei der
Zuweisung von Kategorien angegeben wurden, sind eine wichtige Quelle fÃ¼r die Terme, die
einem Konzept zuzuordnen sind (siehe auch .9.1).
Per Konvention bilden Kategorien in der Wikipedia eine thematische Polyhierarchie
[WP:KAT], sie lassen sich damit als semantische Relation der Ãœber- bzw. Unterordnung
(Subsumtion) zwischen den von den Seiten beschriebenen Konzepten interpretieren. Zum
Beispiel wÃ¤re das speziellere Konzept UNSINN dem allgemeineren Konzept SEMANTIK untergeordnet.
Dabei ist die Art der Unterordnung unspezifiziert, die Relation bildet also keine
Taxonomie und lÃ¤sst sich auch nur sehr eingeschrÃ¤nkt in Ontologien verwenden (vergleiche
[PONZETTO UND STRUBE (2007B)]). Diese Relation entspricht der Hyponym-Relation in einem
klassischen, Term-basierten Thesaurus, bzw. der NT/BT-Relation nach ISO 2788 [ISO:2788
(1986)]. Sie bildet zusammen mit der Bedeutungsrelation den Kern des Thesaurus (siehe
.4.2). Zu beachten ist dabei, dass die MediaWiki-Software Zyklen in der Kategoriestruktur
zulÃ¤sstâ€”diese sind zwar per Konvention unerwÃ¼nscht, kÃ¶nnen aber vorkommen und mÃ¼ssen
bei der Erstellung des Thesaurus entfernt werden (siehe .9.1.3).
1. Grundlagen 9
Neben den inhaltlich relevanten Kategorien existieren in der Wikipedia eine Vielzahl von
Wartungskategorien wie zum Beispiel Kategorie:Wikipedia:LÃ¼ckenhaft, die sich auf die
Seite beziehen, nicht auf das beschriebene Konzept. Solche Kategorien sollten zur Erstellung
eines Thesaurus nicht verwendet werden und werden daher beim Import nach MÃ¶glichkeit
ignoriert (siehe .9.1).
Weiterleitungen: Weiterleitungen (Redirects) definieren einen Alias fÃ¼r einen Seitentitel (siehe
.A.6 fÃ¼r eine Beschreibung der Syntax). Eine Wiki-Seite kann Ã¼ber diesen Mechanismus
unter mehreren Namen erreichbar sein. Zum Beispiel kÃ¶nnte USA eine Weiterleitung
auf Vereinigte Staaten von Amerika sein [WP:WL]. Weiterleitungen sind eine wichtige
Quelle fÃ¼r Informationen darÃ¼ber, welche alternativen Bezeichnungen (Terme) fÃ¼r welche
Konzepte verwendet werden (.A.6).
Vorlagen: MediaWiki unterstÃ¼tzt Vorlagen (Templates) als eine Methode, den Inhalt einer Wiki-
Seite in eine andere einzubinden (siehe .A.5). Beim Einbinden von Vorlagen kÃ¶nnen sogenannte
Vorlagen-Parameter verwendet werden: Sie erlauben es, beim Einbinden konkrete
Werte anzugeben, die dann fÃ¼r Platzhalter eingesetzt werden, die im Wiki-Text der Vorlage
verwendet wurden [WP:VOR].
Vorlagen werden in der Wikipedia fÃ¼r verschiedene Zwecke benutzt: zur einheitlichen
Anzeige von strukturierten Daten (in sogenannten Infoboxen oder Taxoboxen [WP:IB]),
als Navigationselement zu verwandten Themen (sogenannten Navileisten, [WP:NAVI]), als
Markierung fÃ¼r Probleme mit einer Seite, als Formatierungshilfe im laufenden Text sowie
fÃ¼r diverse andere Zwecke [WP:TB]. Unter anderem werden Vorlagen auch verwendet,
um besondere Arten von Seiten zu kennzeichnen, insbesondere zum Beispiel
BegriffsklÃ¤rungsseiten. Sie sind daher besonders nÃ¼tzlich, um solche besonderen Seiten zu
erkennen.
Vorlagen sind Gegenstand diverser Arbeiten Ã¼ber die Wikipedia, insbesondere kÃ¶nnen
Infoboxen leicht fÃ¼r eine Wissensextraktion verwendet werden, die Eigenschaft-Wert-Paare
fÃ¼r die Eigenschaften des Artikelgegenstandes liefert (z. B. bei Auer u. a. (2007), siehe
auch .2.5). In der vorliegenden Arbeit werden Vorlagen jedoch fast ausschlieÃŸlich zur
Identifikation von Ressourcen- und Konzepttypen verwendet (siehe .8.5 bzw. .8.6 sowie
.8.4).
Magic Words: MediaWiki verwendet zwei Arten von Magic Words: â€žVariablenâ€œ, die Zugriff auf
kontext- oder projektspezifischeWerte bieten und â€žOptionenâ€œ, die die Verarbeitung der Seite
beeinflussen (siehe .A.6).
Die meisten Magic Words werden fÃ¼r den Zweck dieser Arbeit ignoriert; manche
Variablen aber, insbesondere eben der Seitenname, werden vor der Bearbeitung durch
den betreffenden konkreten Wert ersetzt (siehe .8.3). Einige weitere werden Ã¤hnlich wie
Vorlagen interpretiert, um zusÃ¤tzliche Informationen zu gewinnen â€” Beispiele hierfÃ¼r
sind {{DISPLAYTITLE:...}} und {{DEFAULTSORT:...}} (vergleiche .8.4). Ein weiteres
Beispiel fÃ¼r Magic Words, die vonWikiWord verwendet werden, sind die Markierungen
fÃ¼r Weiterleitungsseiten, siehe .A.6.
Extension-Tags und Parser-Functions: MediaWiki bietet zwei MÃ¶glichkeiten fÃ¼r die
Erweiterung des Wiki-Text-Markups an: Extension-Tags verwenden Tags der Form
1. Grundlagen 10
<mytag>...</mytag>, Parser-Functions verwenden vorlagenartige Strukturen der Form
{{#mytag:argument}} (siehe auch .A.7). Beide Formen werden bei der Analyse von
Wiki-Text im Rahmen dieser Arbeit vollstÃ¤ndig ignoriert (siehe .8.3).
BegriffsklÃ¤rungen: BegriffsklÃ¤rungsseiten (Disambiguierungen) sind eine wichtige Konvention
in Wikipedia-Projekten: Gibt es mehrere unterschiedliche Bedeutungen zu einem Term, so
wird fÃ¼r diesen Term eine BegriffsklÃ¤rungsseite angelegt, die alle Bedeutungen des Terms
aufzÃ¤hlt [WP:BKL]. Dazu wird in der Regel eine Listenstruktur verwendet, die in jeder Zeile
eine Glosse fÃ¼r eine der Bedeutungen hat und auf den entsprechenden Artikel verweist.
Wie schon oben erwÃ¤hnt, wird die BegriffsklÃ¤rungsseite entweder direkt mit dem fraglichen
Term als Name angelegt oder mit dem Zusatz (BegriffsklÃ¤rung) â€”in letzterem Fall enthÃ¤lt
per Konvention die Seite ohne Namenszusatz (die Seite zur Hauptbedeutung des Terms)
einen Verweis auf die BegriffsklÃ¤rungsseite.
Wie auch Weiterleitungen sind BegriffsklÃ¤rungen im Kontext dieser Arbeit eine wichtige
Quelle fÃ¼r die Bedeutungsrelation, also um alle Bedeutungen eines Terms und umgekehrt
alle Bezeichnungen fÃ¼r ein Konzept zu finden (siehe .8.10).
1.3. Thesauri
Ein Thesaurus ist traditionell eine Sammlung von Termen (WÃ¶rtern), ihrer Beziehungen und
Definitionen. Die verschiedenen Beziehungen dienen insbesondere dazu, den passendsten Term
fÃ¼r einen Gegenstand, das heiÃŸt, die beste Bezeichnung fÃ¼r ein Konzept zu finden. Ein Thesaurus
ist daher besonders als Struktur fÃ¼r ein kontrolliertes Vokabular geeignet, das zur Indexierung von
Dokumenten verwendet werden soll.
Thesauri definieren in der Regel zumindest eine Ã„quivalenzbeziehung zwischen synonymen
und pseudo-synonymen (also fÃ¼r den Zweck der Indexierung gleichwertigen) Termen, eine
(poly-)hierarchische Subsumtionsbeziehung zwischen allgemeinen und speziellen Termen sowie
hÃ¤ufig eine Assoziationsbeziehung zwischen semantisch verwandten Termen [STOCK (2007), S. 283FF].
Die ISO definiert insbesondere die folgenden Relationen [ISO:2788 (1986)]:
UF bzw. USE: Used For bzw. Use gibt an, dass ein Term anstelle eines anderen verwendet werden
soll â€” Ã¼ber diese Relation wird der Deskriptor (Preferred Term) aus einer Menge von
(Pseudo-)Synonymen (einem sogenannten SynSet) festgelegt.
BT bzw. NT: Broader Term bzw. Narrower Term gibt an, dass ein Term allgemeiner bzw. spezieller
als ein anderer, das heiÃŸt, ein Hyperonym bzw. Hyponym zu diesem ist.
RT: Related Term gibt an, dass ein Term mit einem anderen semantisch verwandt ist. Diese
Beziehung besteht hÃ¤ufig unter anderem zwischen Kohyponymen.
Synonyme kÃ¶nnen so direkt modelliert werden, Homonyme dagegen nicht: hÃ¤ufig werden sie
disambiguiert, indem ein Qualifikator als Zusatz angehÃ¤ngt wird, entweder direkt als Teil des
Terms oder Ã¼ber eine spezielle Relation.
1. Grundlagen 11
Die hierarchische Beziehung (Hyponymiebeziehung) in einem Thesaurus ist hÃ¤ufig als Taxonomie
angelegt, also als eine strenge thematische Gliederung, Ã¼ber die Terme in Sachgebiete eingeordnet
werden. Die Hyponymiebeziehung kann auch als Polyhierarchie angelegt sein, so dass sich insgesamt
ein gerichteter, azyklischer Graph als Struktur bildet, anstelle eines einfachen Baums. Die
Semantik der Hyponymiebeziehung ist in der Regel nicht weiter spezifiziert, meist handelt es sich
um eine Vermengung der Abstraktionsbeziehung (subtype), der Instanzbeziehung (is-a), der
Aggregationsbeziehung (part-of) und gelegentlich der Attributbeziehung (property-of) [VOSS
(2006), PONZETTO (2007)].
Im Kontext der automatischen Verarbeitung von Wissen, Sprachen und Dokumenten erweist es
sich als hilfreich, eine weitere Ebene der Indirektion einzufÃ¼hren und so zu einem â€žkonzeptorientierten
Thesaurusâ€œ zu gelangen, der auf einem Konzept-Term-Netzwerk basiert statt auf einem
reinen Netzwerk von Termen [JOHNSTON U. A. (1998), MATTHEWS (2003), W3C (2005)]. So ergibt sich ein
Wissensorganisationssystem (Knowledge Organisation System, KOS). Dieses Modell scheint insbesondere
auch besser auf die Datenstruktur derWikipedia zu passen: Es werden die semantischen
Beziehungen zwischen Konzepten direkt modelliert und zusÃ¤tzlich angegeben, welche Terme zu
welchem Konzept gehÃ¶ren (vergleiche [VAN ASSEM U. A. (2006), GREGOROWICZ UND KRAMER (2006)]). Die
Beziehungen zwischen Termen (Homonym, Synonym) ergeben sich dann implizit (.4.2). Ein Ã¤hnliches
Modell wird auch von WordNet verwendet, in dem Konzepte durch SynSets reprÃ¤sentiert
und semantische Beziehungen zwischen SynSets statt zwischen Termen modelliert werden [MILLER
(1995), FELLBAUM (1998), WORDNET].
In einem solchen konzeptorientierten Thesaurus gibt es nun vor allem die folgenden Beziehungen:
Bedeutung: Verbindet einen Term mit einer Anzahl von Konzepten (Bedeutungen), bzw. ein
Konzept mit einer Anzahl von Termen (Bezeichnungen). Daraus ergibt sich implizit die
Synonymie oder Homonymie von Termen.
Subsumtion: Verbindet allgemeinere mit spezielleren Konzepten, analog zu der
Hyponymierelation zwischen Termen.
Verwandtheit: Verbindet verwandte Konzepte, z. B. solche, die zu einem gemeinsamen
Themengebiet gehÃ¶ren oder hÃ¤ufig im selben Kontext verwendet werden.
Ã„hnlichkeit: Verbindet Ã¤hnliche Konzepte, z. B. solche, die zu einem gewissen Grade austauschbar
sind. Ã„hnliche Konzepte sind hÃ¤ufig Kohyponyme. FÃ¼r eine Abgrenzung von semantischer
Verwandtheit und Ã„hnlichkeit siehe [ZESCH U. A. (2007B)].
Die semantischen Beziehungen in einem solchen Thesaurus sind aber weiterhin relativ â€žschwachâ€œ:
Wie schon oben fÃ¼r die Hyponymierelation, ist auch hier im Gegensatz zu den Relationen in einer
Ontologie nichts Ã¼ber die Art der Subsumtion (Subtyp, Instanz, Teil etc.) oder der Verwandtheit
bekannt [PONZETTO UND STRUBE (2007B), HEPP U. A. (2006)]. Auch kÃ¶nnen Relationen nicht reifiziert oder
klassifiziert werden. Solche schwachen Beziehungen sind aber fÃ¼r die Zwecke des Information
Retrieval in aller Regel ausreichend.
Ziel dieser Diplomarbeit ist es nun, einen solchen konzeptorientierten Thesaurus auf Grundlage
des Datenbestandes der Wikipedia vollautomatisch zu erstellen.
1. Grundlagen 12
1.4. Nutzen
Der Nutzen von Thesauri (insbesondere der konzeptorientierten Art) fÃ¼r die automatische
Sprachverarbeitung und fÃ¼r das Information Retrieval liegt in der ÃœberbrÃ¼ckung der Semantic
Gap zwischen dem bloÃŸen Text als Folge von Zeichen und dem konzeptuellen Inhalt von
Dokumenten [DAVULCU U. A. (2006), GREGOROWICZ UND KRAMER (2006)]. Handelt es sich um einen multilingualen
Thesaurus, kann auf dieseWeise auch die Kluft zwischen verschiedenen Sprachen Ã¼berwunden
werden: Verschiedene Terme (WÃ¶rter und Phrasen) aus verschiedenen Sprachen werden
auf eine relativ kleine Menge wohldefinierter Konzepte abgebildet, die untereinander in Beziehung
stehen. Die in einem Dokument behandelten Konzepte werden so einer automatischen Analyse zugÃ¤nglich.
Konkret kann ein maschinenlesbarer, multilingualer, konzeptorientierter Thesaurus insbesondere
in den folgenden Bereichen nÃ¼tzlich sein:
1. FÃ¼r das klassische Information Retrieval ist es vorteilhaft, statt Termen abstrakte Konzepte
fÃ¼r die Indexierung von Dokumenten verwenden zu kÃ¶nnen: so lassen sich Unterschiede in
Sprache und Terminologie leicht Ã¼berbrÃ¼cken. HÃ¤ufig werden Konzepte als Mengen von
Termen modelliert, die durch Clustering-Verfahren gewonnen wurden, wie beim Latent
Semantic Indexing (LSI) [DEERWESTER U. A. (1990), KUMAR U. A. (2006)]. Die Verwendung eines konzeptorientierten
Thesaurus erlaubt es dagegen, menschliches Wissen Ã¼ber die Zuordnung
von Termen zu Konzepten zu nutzen (siehe .2.4 und insbesondere [MILNE UND NICHOLS (2007)]).
Neben der klassischen Dokumentensuche profitieren auch Aufgaben wie Resource Selection
und Topic Tracking von diesem Ansatz.
2. Ein Thesaurus auf Basis der Wikipedia eignet sich besonders fÃ¼r die Named Entity
Recognition (NER), da Wikipedia im Gegensatz zu klassischen WÃ¶rterbÃ¼chern eine groÃŸe
Zahl von EintrÃ¤gen zu Orten, Personen und Organisationen hat (siehe .2.6).
3. Die Informationen Ã¼ber Ã¤hnliche, verwandte und Ã¼bergeordnete Konzepte, die in einem
Thesaurus enthalten sind, kÃ¶nnen unter anderem fÃ¼r eine gezielte Query Expansion verwendet
werden [MILNE UND NICHOLS (2007)]. Es ist zu erwarten, dass dies besonders dann effektiv ist,
wenn die Indexierung und Abfrage anhand von Konzepten statt von Termen erfolgt, da so
Mehrdeutigkeiten vermieden werden kÃ¶nnen [SYED U. A. (2008)].
4. Die Verwandtheitsbeziehungen zwischen Konzepten kÃ¶nnen auch verwendet werden, um
Terme im Kontext zu disambiguieren: FÃ¼r eine Menge von Termen kann die Bedeutung
jedes Terms so gewÃ¤hlt werden, dass die Bedeutungen (Konzepte) gut zueinander passen
â€” auf diese Weise lÃ¤sst sich mit groÃŸer Wahrscheinlichkeit die intendierte Bedeutung der
Terme finden [MIHALCEA (2007), STRUBE UND PONZETTO (2006), CUCERZAN (2007)], siehe .2.3. Diese
Bedeutungszuweisung ist neben der Anwendung auf Suchanfragen auch wichtig bei der
Wissensextraktion, dem Topic Tracking sowie der automatischen Ãœbersetzung.
5. Ein multilingualer Thesaurus kann auch als Basis fÃ¼r ein ÃœbersetzungswÃ¶rterbuch oder
gar ein automatisches Ãœbersetzungssystem dienen. Die aus der Wikipedia gewonnenen
Informationen bieten hier eine nÃ¼tzliche ErgÃ¤nzung zu traditionellen WÃ¶rterbÃ¼chern, da sie
1. Grundlagen 13
eine groÃŸe Zahl von Fachbegriffen sowie viele Namen fÃ¼r Orte und Personen abdecken, die
in manuell gepflegten WÃ¶rterbÃ¼chern in der Regel fehlen.
6. Ein aus der Wikipedia gewonnener multilingualer Thesaurus kann auch als Basis fÃ¼r eine
(teil-)manuelle Erstellung von WÃ¶rterbÃ¼chern, Taxonomien und Ontologien dienen. FÃ¼r
Ontologien und WissensreprÃ¤sentationssysteme wie DBpedia oder YAGO kann es auch
mÃ¶glich sein, Informationen aus der Wikipedia automatisch zu integrieren (siehe .2.2 und
.2.5).
7. Viele der weiter unten in .2 beschriebenen Systeme und Verfahren verwenden als Grundlage
eine aus derWikipedia extrahierte Struktur, die deutlich weniger Informationen berÃ¼cksichtigt
als WikiWord. Sie kÃ¶nnten vermutlich davon profitieren, WikiWord als Werkzeug fÃ¼r
die Extraktion der Wikipedia-Struktur zu verwenden, um dann die betreffenden Verfahren
auf diese reichere Struktur anzuwenden.
Ein wichtiger Aspekt des in der vorliegenden Diplomarbeit vorgeschlagenen Ansatzes ist es, dass
der Aufbau des Thesaurus aus denWikipedia-Daten vollautomatisch und verhÃ¤ltnismÃ¤ÃŸig schnell2
erfolgt: Die manuelle Wartung eines Thesaurus ist sehr aufwÃ¤ndig und teuer, um so mehr, je mehr
Fachgebiete der Thesaurus abdecken soll. So ist es kaum mÃ¶glich, einen Thesaurus auf dem neusten
Stand zu halten, insbesondere in Hinblick auf neue Technologien oder auch aktuell wichtige
Organisationen und Personen. Schon deshalb decken die meisten Thesauri nur einen eng eingegrenzten
Fachbereich ab und enthalten nur relativ wenige Terme bzw. Konzepte: WordNet zum
Beispiel enthÃ¤lt etwa 117 000 Konzepte (SynSets) [WORDNET], MeSH kennt nur 24 767 Konzepte
[MESH] (siehe auch .2.2).
Ein Thesaurus, der automatisch aus Wikipedia-Daten erstellt wird, hat diese Probleme nicht:
Wikipedia ist sehr aktuell und deckt sehr weite Bereiche des menschlichenWissens ab [RUIZ-CASADO
U. A. (2005), VOSS (2005B)] (WikiWord liefert etwa 6 Millionen Konzepte und 12 Millionen Terme fÃ¼r
die englische Sprache, vergleiche .11.2). Insbesondere sind genau solche Themenbereiche abgedeckt,
die im Augenblick besonders im Ã¶ffentlichen Bewusstsein stehen und daher besonders
interessant sind fÃ¼r das Information Retrieval (vergleiche [SYED U. A. (2008), HEPP U. A. (2006), MILNE UND
NICHOLS (2007)]). Zudem stehen die Daten unter einer freien Lizenz und sind in einer Vielzahl von
Sprachen verfÃ¼gbar.
Ein multilingualer, konzeptorientierter Thesaurus auf Wikipedia-Basis besitzt also das Potential,
fÃ¼r wichtige Aufgaben des Information Retrieval und der automatischen Sprachverarbeitung eine
breite, aktuelle und qualitativ hochwertige Datenbasis zu liefern. AuÃŸerdem kann er verwendet
werden, um existierende, manuell gewartete Thesauri zu ergÃ¤nzen und zu erweitern.
2Einige Tage bis Wochen auf einem Ã¼blichen Datenbanksystem, siehe .11.1.