History: DanielKinzler Chapter 1: Grundlagen
View page
Collapse Into Edit Sessions
Source of version: 1
(current)
«
»
1. Grundlagen 3 Bevor der Entwurf und die Implementation von WikiWord dargelegt werden können, werden in den verbleibenden Abschnitten dieses Kapitels Grundbegriffe geklärt (.1.1), ein Überblick über wichtige Eigenschaften der Wikipedia geboten (.1.2) sowie verschiedene Arten und Aspekte von Thesauri betrachtet (.1.3). Das folgende Kapitel gibt dann eine Übersicht über den Stand der Forschung in Hinblick auf die automatische Erstellung von Thesauri im Allgemeinen und die Extraktion von Wissen aus der Wikipedia im Speziellen (.2). 1.1. Begriffe Zunächst eine kurze Übersicht über Begriffe, die in dieser Arbeit spezielle Bedeutung haben: Wiki: Im Allgemeinen eine Webseite, die von jedem frei bearbeitet werden kann [LEUF UND CUNNINGHAM (2001)]; im Speziellen ein bestimmtes Wikipedia-Projekt (siehe unten). Wikipedia: Ein Projekt zur kooperativen Erstellung einer Enzyklopädie unter Verwendung der Wiki-Technologie (.1.2). Je nach Kontext bezeichnet Wikipedia ein bestimmtes Wikipedia- Projekt in einer bestimmten Sprache (siehe unten). MediaWiki: MediaWiki ist die Software, auf der dieWikipedia-Wikis basieren und die für diesen Zweck von der Wikimedia Foundation entwickelt wird [MW:ABOUT]. MediaWiki ist freie Software, lizenziert unter der GPL [GPL]. Wikimedia: DieWikimedia Foundation ist eine gemeinnützige Stiftung mit Sitz in St. Petersburg, Florida, USA, deren Zweck die Förderung von freiem Wissen ist [WM:ABOUT, OKD, FCW]. Sie betreibt Anfang 2008 über 750 Wiki-Projekte [M:SITES, WM:PROJECTS] zu unterschiedlichen Themen in unterschiedlichen Sprachen, unter anderem auch die Wikipedia-Projekte. WikiWord: Das im Rahmen dieser Diplomarbeit entwickelte Softwaresystem zur automatischen Extraktion eines multilingualen Thesaurus aus der Wikipedia. Projekt: Ein (Wiki-)Projekt ist eine konkrete Website, auf der ein Wiki-System verwendet wird und eine Gemeinschaft von Benutzern gemeinsam Inhalte zu einem bestimmten Thema erstellt — zum Beispiel die deutschsprachige Wikipedia (de.wikipedia.org). Im Falle der Wikipedia korrespondiert ein konkretes Projekt jeweils mit einer Sprache, in der enzyklopädische Inhalte erstellt werden. Diese Inhalte dienen als Korpus im Sinne dieser Arbeit (siehe unten). Sprache: EinWikipedia-Projekt ist immer mit der Sprache assoziiert, in der seine Inhalte verfasst sind. Jeder Sprache ist ein Code zugeordnet, der als Präfix für Language-Links und als Subdomain dient (.1.2). Diese Codes folgen imWesentlichen der ISO 639-1 Norm [ISO:639- 1 (2002), M:SITES]. Zum Beispiel verwendet die deutschsprachige Wikipedia den Code de (und damit die Domain de.wikipedia.org). Ein Sprach-Code identifiziert also auch ein Wiki-Projekt und damit einen Korpus, aus dem ein (lokaler) Datensatz für den Thesaurus extrahiert werden kann. 1. Grundlagen 4 Korpus: Ein Korpus ist im Kontext dieser Arbeit eine Sammlung von Wiki-Seiten, die Gegenstand der Analyse zwecks Erzeugung eines (lokalen) Datensatzes für den Thesaurus sein kann. Ein Korpus ist immer einer Sprache und einem Wiki-Projekt zugeordnet; mit dem einer Sprache zugeordneten Korpus ist daher die Menge von Wiki-Seiten gemeint, die in dem zu der Sprache gehörigen Wikipedia-Projekt enthalten sind. Seite: Eine (Wiki-)Seite ist eine (Wiki-)Text-Ressource mit einem eindeutigen Namen innerhalb einesWiki-Projektes und damit einer eindeutigen URL. Sie kann analysiert werden, um aus ihr Informationen zu gewinnen, die dann zum Aufbau eines Thesaurus verwendet werden können (siehe .8). Im Folgenden werden die Namen von Wiki-Seiten serifenlos und kursiv gesetzt, zum Beispiel: Sprachwissenschaft. Artikel: Ein Artikel ist eine Wiki-Seite, die ein Konzept definiert. Nicht alle Seiten sind Artikel, prominente Gegenbeispiele sind Weiterleitungen (Redirects), Begriffsklärungen (Disambiguations) und Kategorien (siehe .1.2, .8.5); weitere Gegenbeispiele sind Wiki- Seiten, die im Zuge dieser Arbeit nicht betrachtet werden, wie zum Beispiel Benutzerseiten. Konzept: Ein Konzept ist im Kontext dieser Arbeit ein (abstrakter oder konkreter) Betrachtungsgegenstand, in der Wikipedia insbesondere Gegenstand von Artikeln. Konzepte haben eine Menge von Termen als Bezeichnungen, sie sind somit die Bedeutung der ihnen zugeordneten Terme, also das Bezeichnete (auch Signifikat, fr. Signifé) im Sinne der Semiotik de Saussures [DE SAUSSURE (2001), S. 76FF]. Ein wesentlicher Aspekt dieser Arbeit ist es, diese Beziehung zwischen Konzept und Term zu explizieren, also eine Bedeutungsrelation aufzubauen. Gemeinsam mit den Beziehungen zwischen Konzepten bildet die Bedeutungsrelation einen konzeptorientierten Thesaurus [MATTHEWS (2003)] (siehe .4.2). Im Folgenden werden die Namen von Konzepten in Kapitälchen gesetzt, zum Beispiel: SPRACHWISSENSCHAFT. Term: Ein Term ist im Kontext dieser Arbeit ein Wort oder eine Wortgruppe bzw. Phrase, die benutzt wird, um auf ein Konzept Bezug zu nehmen—das heißt, er ist eine Bezeichnung für ein Konzept, also das Bezeichnende (auch Signifikant, fr. Signifiant) im Sinne der Semiotik de Saussures [DE SAUSSURE (2001), S. 76FF]. Unterschiedliche Wortformen und Schreibweisen werden dabei als unterschiedliche Terme betrachtet, selbst dann, wenn sie sich nur in der Großschreibung unterscheiden. Die Bedeutungsrelation zwischen Termen und Konzepten ist ein wesentlicher Aspekt dieser Arbeit (siehe .4.2 und .8.9). Im Folgenden werden Terme kursiv und in Anführungszeichen gesetzt, zum Beispiel: „Sprachwissenschaft“. Dump: Ein (Wikipedia-)Dump ist eine Datei, die eine Menge von Wikipedia-Seiten enthält, das heißt, sie beinhaltet den Wiki-Text der betreffenden Seiten sowie die dazugehörige Meta-Information, eingebettet in eine dafür entworfene XML-Struktur [MW:XML]. Dumps der Wikipedia-Inhalte werden periodisch alle paar Monate erstellt und zur freien Weiternutzung angeboten [WM:DOWNLOAD]. Es gibt für jede Wikipedia unterschiedliche Dumps, die verschiedene Mengen von Seiten enthalten. Für diese 1. Grundlagen 5 Arbeit sind diejenigen Dumps relevant, die alle Seiten im Hauptnamensraum (die „Artikel“) sowie alle Kategorieseiten beinhalten, wobei nur die aktuelle Revision jeder Seite benötigt wird. Die für diese Anwendung zugeschnittenen Dumps folgen dem Namensschema wikiname-datum-pages-articles.xml, also zum Beispiel dewiki-20080320-pages-articles.xml für den Dump der deutschsprachigen Wikipedia vom 20. März 2008, der die aktuelle Version aller Seiten im Hauptnamensraum sowie Kategorien und Vorlagen enthält. Datensatz: Im Zusammenhang dieser Diplomarbeit ist ein Datensatz eine Sammlung von Informationen über Konzepte und Terme und ihre Beziehungen zueinander. Datensätze gibt es in zwei Ausprägungen: Lokale (sprachspezifische) Datensätze enthalten die Daten, die aus einem Korpus in einer bestimmten Sprache extrahiert wurden, sie repräsentieren damit einen monolingualen Thesaurus (siehe .4.2). Globale Datensätze kombinieren mehrere lokale Datensätze zu einem multilingualen Thesaurus, indem sie äquivalente Konzepte aus den einzelnen Sprachen zu jeweils einem sprachunabhängigen Konzept zusammenfassen (siehe .4.3). Datensätze werden typischerweise nach dem Wiki benannt, auf dessen Basis sie erstellt wurden. Kollektion: Im Zusammenhang dieser Diplomarbeit ist eine Kollektion eine Menge von Datensätzen, die zusammen einen multilingualen Thesaurus bilden. Eine Kollektion enthält einen lokalen Datensatz pro betrachteter Sprache sowie einen globalen Datensatz, der die Konzepte aus den lokalen Datensätzen miteinander verbindet. Wie in .10.1 beschrieben, wird der Name der Kollektion verwendet, um einen universell eindeutigen Bezeichner (URI) für den Datensatz zu erzeugen. Es ist daher zweckmäßig, aussagekräftige und eindeutige Namen für Kollektionen zu verwenden, insbesondere solche, die Informationen über die verwendeten Wikis, deren Version und eventuelle thematische Ausschnitte enthalten. 1.2. Wikipedia Wikipedia ist eine Online-Enzyklopädie, die von Tausenden von Benutzern in Kollaboration erstellt wird [FIEBIG (2005)]. Sie beruht auf dem „Wiki-Prinzip“, also der Idee, dass jeder, auch ohne Anmeldung, die Inhalte sofort bearbeiten und erweitern kann [LEUF UND CUNNINGHAM (2001)].Wikipedia verwendet zu diesem Zweck die MediaWiki-Software [MW:ABOUT], die von der Wikimedia Foundation [WM:ABOUT] für diesen Zweck entwickelt wird. Wikipedia zählt Anfang 2008, nur sieben Jahre nach ihrer Gründung im Jahre 2001, mit bis zu fünfundsechzigtausend Seitenaufrufen pro Sekunde zu den zehn meistgenutzten Webseiten weltweit [WM:SURVEY (2008), WM:10M (2008)]. Wikipedia-Projekte gibt es in über 250 Sprachen mit insgesamt über zehn Millionen Artikeln1 [WM:10M (2008), M:SITES, WM:PROJECTS], davon über 1Nach der internen Zählweise von MediaWiki: Alle Artikel im Hauptnamensraum, die keine Weiterleitung sind und mindestens einen Wiki-Link enthalten; Begriffsklärungsseiten werden also mitgezählt. 1. Grundlagen 6 zwei Millionen in der englischsprachigen und über siebenhunderttausend in der deutschsprachigen Wikipedia [WM:2M (2007), WP:STATS]. Alle Inhalte sind unter der GFDL lizenziert [GFDL] und damit frei verwendbar [OKD, FCW]. Der gesamte Korpus der Wikipedia wird periodisch als XML [MW:XML] in so genannte Dumps exportiert und zur Weiternutzung angeboten [WM:DOWNLOAD]. Die kollaborative Natur von Wikipedia erlaubt eine hohe Aktualität der Inhalte sowie ein rapides Wachstum der thematischen Abdeckung. Die Anzahl der Seiten in einer Sprache folgt in der Regel zunächst einer exponentiellen Wachstumskurve [VOSS (2005B)] und scheint sich mittlerweile zu linearem Wachstum abzuflachen [WP:STATS]. Für die Zukunft ist damit zu rechnen, dass sich das Wachstum noch weiter verlangsamt, so dass sich insgesamt eine logistische Funktion(„S-Kurve“) für dasWachstum ergibt. Die Qualität einzelner Artikel in der Wikipedia ist recht unterschiedlich, insgesamt jedoch mit der Qualität traditioneller Enzyklopädien vergleichbar [GILES (2005)]. Einträge in der Wikipedia sind recht uniform und folgen gewissen Konventionen: insbesondere beschreibt jede Seite genau ein Konzept [WP:ARTIKEL] (Ausnahmen sind Weiterleitungen und Begriffsklärungsseiten, siehe unten) und beginnt mit einer Begriffsdefinition (Glosse) [WP:WSIGA]. Da es sich bei der Wikipedia um eine Enzyklopädie handelt, enthält sie vor allem Substantive, Nominalphrasen und Eigennamen; Verben und Adjektive kommen dagegen kaum vor. Für eine Verwendung im Bereich des Information Retrieval ist das kaum problematisch (und eventuell sogar von Vorteil), da zur Klassifikation und Indexierung von Dokumenten ohnehin hauptsächlich Substantive verwendet werden, weil diese gut geeignet sind, den thematischen Inhalt eines Dokumentes wiederzugeben, siehe [SYED U. A. (2008), HEPP U. A. (2006), EIRON UND MCCURLEY (2003)] sowie [WP:V]. Insbesondere enthält die Wikipedia im Gegensatz zu manuell erstellten Thesauri und Wörterbüchern eine große Zahl von Einträgen über Orte, Personen, Werke und Organisationen — sie eignet sich daher besonders, um Informationen zu Eigennamen (proper nouns bzw. Named Entities) zu finden. Auch enthält sie eine Vielzahl von Fachausdrücken aus den verschiedensten Fachbereichen, die in der Regel in allgemeinen Thesauri und Wörterbüchern nicht enthalten sind. Eine weitere Eigenheit der Wikipedia betrifft die Granularität ihrer Einträge: zwar deckt die Wikipedia einen weiten Bereich menschlichenWissens ab, da sie aber eine Enzyklopädie ist, bleiben die Einträge aus lexikographischer Sicht eher grob: zum Beispiel werden die Begriffe „physikalisch“ und „Physiker“ mit unter den Eintrag für „Physik“ gefasst. Diese Art von Ungenauigkeit ist aber in Hinblick auf die Indexierung und Klassifikation von Dokumenten, also für eine „oberflächliche“ Analyse von Texten, eher hilfreich als schädlich (vergleiche [IDE UND VERONIS (1998), S. 22] und [WILKS U. A. (1996), S. 59]). Die fachliche, taxonomische Granularität aber (ob z. B. die „Atomphysik“ einen eigenen Artikel hat oder mit unter „Physik“ behandelt wird) hängt vor allem von der Gesamtgröße der Wikipedia ab und variiert damit stark zwischen den verschiedenen Sprachen — ein Umstand, den es bei der Erstellung des globalen Datensatzes zu berücksichtigen gilt (siehe .4.3 und .9.2). Weitere Funktionen, Eigenschaften und Konventionen, die Wikipedia zu einer exzellenten Ressource für lexikalisch-semantische Informationen machen und im Zusammenhang mit dieser Arbeit wichtig sind, seien im Folgenden genannt: Seiten: Ein Wiki enthält ein Netzwerk von (Hypertext-)Seiten, die untereinander eng über Hyperlinks verknüpft sind [BELLOMI UND BONATO (2005B)]. Jede Seite hat einen eindeutigen 1. Grundlagen 7 Namen, über den sie innerhalb des Wikis über Wiki-Links angesprochen werden kann [LEUF UND CUNNINGHAM (2001)] und der als URL-Suffix dient, so dass eine eindeutige URI [RFC:3986 (2005)] für diese Seite entsteht. Der Name der Seite ist in derWikipedia das enzyklopädische Lemma des Artikels. Im Zuge der vorliegenden Arbeit wird der Seitenname als eindeutiger Bezeichner sowohl für die Seite (also Ressource) als auch für das Konzept, das auf der Seite beschrieben wird, verwendet [W3C (2005), BERNERS-LEE (1998)].Welches von beiden gemeint ist, ist im Kontext eindeutig, für eine externe Darstellung muss aber klar zwischen diesen unterschieden werden; mehr dazu in Kapitel .10. Für den Fall, dass die „natürliche“ Bezeichnung zweier Konzepte derselbe Term ist, wird durch einen sogenannten Klammerzusatz als Qualifikator ein eindeutiges Lemma geschaffen (ein Klammer-Lemma) [WP:NK]. So wird zum Beispiel zwischen Bock_(Gestell), Bock_(Turngerät), Bock_(Insel) und Bock_(Dudelsack) sowie Bock_(Familienname) unterschieden (das Tier dagegen wird unter Huftiere behandelt). In einem solchen Fall gibt es zusätzlich eine Begriffsklärungsseite (siehe unten), die diese Bedeutungen aufzählt — sie würde entweder den Namen ohne Klammerzusatz tragen (Bock), oder den Zusatz „Begriffsklärung“ (also Bock_(Begriffsklärung)) [WP:BKL]. Wiki-Text: Wikis verwenden eine Markup-Sprache, genannt Wiki-Text, die sich im Funktionsumfang an HTML orientiert, aber leichter für Menschen zu lesen und zu bearbeiten sein soll [LEUF UND CUNNINGHAM (2001)]. „Wiki-Text“ ist als allgemeine Bezeichnung zu verstehen, die konkreten Markup-Sprachen verschiedener Wiki-Systeme unterscheiden sich zum Teil erheblich voneinander. Im Kontext dieser Arbeit ist mit Wiki-Text die von MediaWiki verwendete Markup-Sprache gemeint (.A). Beispiele für Wiki-Text werden im Folgenden kursiv in einer nichtproportionalen Schrift gesetzt, zum Beispiel: [[Sprachwissenschaft]]. Die Art und Weise, wie Wiki-Markup in der Wikipedia verwendet wird [WP:WSIGA], ist im Vergleich zu Webseiten im Allgemeinen relativ reich an Semantik. Insbesondere die Verwendung von Vorlagen sowie die Zuweisung von Kategorien sind im Kontext dieser Arbeit sehr nützlich. Wiki-Links: Ein wichtiger Aspekt von Wikis ist die leichte Verknüpfbarkeit von Seiten untereinander [WP:V]. MediaWiki verwendet für diesen Zweck Wiki-Links, die als Name des Zielartikels in doppelten eckigen Klammern geschrieben werden, z. B. [[Sprache]]. Die Syntax ist in .A.3 genauer beschrieben. Wiki-Links, die auf eine Seite zeigen, die nicht existiert, werden von MediaWiki rot dargestellt. Solche „roten Links“ sind nicht als Fehler zu werten, sondern vielmehr als ein Hinweis auf fehlende Inhalte [WP:RL]. Der Link-Text ist eine wichtige Quelle für die Zuordnung von Termen (dem Link-Text) zu Konzepten (dem Link-Ziel), das heißt, für den Aufbau der Bedeutungsrelation (siehe .8.7): Der Link-Text verhält sich zum Link-Ziel ähnlich wie der Titel der Seite (also das Lemma) zu ihrem Inhalt (dem Konzept) [MIHALCEA (2007)] sowie [CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)]. Namensräume: MediaWiki unterstützt (und Wikipedia nutzt) Namensräume für Wiki-Seiten, um Seiten mit unterschiedlicher Funktion voneinander zu trennen und Namenskonflikte zu 1. Grundlagen 8 vermeiden [WP:NS]. MediaWiki gibt eine Anzahl von Namensräumen fest vor, darunter solche für Benutzerseiten, Projektseiten, Hilfeseiten, Kategorien und einige mehr [MW:NS]. Jedem Namensraum ist zudem ein entsprechender Diskussionsnamensraum zugeordnet (und jeder Seite entsprechend potentiell eine Diskussionsseite, die dazu dient, die Arbeit an der Seite zu koordinieren). Namensräume werden über einen Präfix am Seitennamen adressiert: Der Link [[Hilfe:Formatieren]] verweist auf eine Seite im Namensraum Hilfe, die sich mit Textformatierung befasst. Die Namen (Präfixe) der Namensräume sind sprachabhängig, eine Liste der Namen der verwendeten Namensräume ist in jedem XML-Dump enthalten. Der eigentliche Inhalt des Wikis, im Falle der Wikipedia die enzyklopädische Information, befindet sich auf Seiten im Hauptnamensraum, dem kein Präfix (oder genauer, der leere String als Präfix) zugeordnet ist. Seiten im Hauptnamensraum werden auch als Artikel bezeichnet, insbesondere dann, wenn sie keine Weiterleitungen und keine Begriffsklärungen sind, wenn sie also ein Konzept beschreiben. Solche Artikel beinhalten das Sachwissen der Wikipedia. Interwiki-Links: Auch Verknüpfungen auf andereWikis sind mittels sogenannter Interwiki-Links bequem möglich: für jedes Wiki, das als Ziel von Interwiki-Links dienen soll, muss dafür ein Präfix zugewiesen werden, der bei der Definition des Wiki-Links verwendet wird (siehe .A.3). Language-Links: Interwiki-Links mit bestimmten Präfixen, die als Sprachcodes definiert sind, werden besonders behandelt: Sie werden als Verknüpfungen auf eine äquivalente Seite in einer anderen Sprache in einem anderen Wiki interpretiert (siehe .A.3). Kategorien: Kategorien erlauben es, Wiki-Seiten zu Gruppen zusammenzufassen. Eine Seite kann zu beliebig vielen Kategorien gehören und jeder Kategorie ist eine Kategorieseite zugeordnet, über die sie beschrieben und selbst wieder Kategorien zugeordnet werden kann [WP:KAT]. Um einer Seite eine Kategorie zuzuweisen, wird auf der Seite einfach ein Wiki- Link auf diese Kategorie eingefügt, siehe .A.3. Sort-Keys (Sortierschlüssel), die bei der Zuweisung von Kategorien angegeben wurden, sind eine wichtige Quelle für die Terme, die einem Konzept zuzuordnen sind (siehe auch .9.1). Per Konvention bilden Kategorien in der Wikipedia eine thematische Polyhierarchie [WP:KAT], sie lassen sich damit als semantische Relation der Über- bzw. Unterordnung (Subsumtion) zwischen den von den Seiten beschriebenen Konzepten interpretieren. Zum Beispiel wäre das speziellere Konzept UNSINN dem allgemeineren Konzept SEMANTIK untergeordnet. Dabei ist die Art der Unterordnung unspezifiziert, die Relation bildet also keine Taxonomie und lässt sich auch nur sehr eingeschränkt in Ontologien verwenden (vergleiche [PONZETTO UND STRUBE (2007B)]). Diese Relation entspricht der Hyponym-Relation in einem klassischen, Term-basierten Thesaurus, bzw. der NT/BT-Relation nach ISO 2788 [ISO:2788 (1986)]. Sie bildet zusammen mit der Bedeutungsrelation den Kern des Thesaurus (siehe .4.2). Zu beachten ist dabei, dass die MediaWiki-Software Zyklen in der Kategoriestruktur zulässt—diese sind zwar per Konvention unerwünscht, können aber vorkommen und müssen bei der Erstellung des Thesaurus entfernt werden (siehe .9.1.3). 1. Grundlagen 9 Neben den inhaltlich relevanten Kategorien existieren in der Wikipedia eine Vielzahl von Wartungskategorien wie zum Beispiel Kategorie:Wikipedia:Lückenhaft, die sich auf die Seite beziehen, nicht auf das beschriebene Konzept. Solche Kategorien sollten zur Erstellung eines Thesaurus nicht verwendet werden und werden daher beim Import nach Möglichkeit ignoriert (siehe .9.1). Weiterleitungen: Weiterleitungen (Redirects) definieren einen Alias für einen Seitentitel (siehe .A.6 für eine Beschreibung der Syntax). Eine Wiki-Seite kann über diesen Mechanismus unter mehreren Namen erreichbar sein. Zum Beispiel könnte USA eine Weiterleitung auf Vereinigte Staaten von Amerika sein [WP:WL]. Weiterleitungen sind eine wichtige Quelle für Informationen darüber, welche alternativen Bezeichnungen (Terme) für welche Konzepte verwendet werden (.A.6). Vorlagen: MediaWiki unterstützt Vorlagen (Templates) als eine Methode, den Inhalt einer Wiki- Seite in eine andere einzubinden (siehe .A.5). Beim Einbinden von Vorlagen können sogenannte Vorlagen-Parameter verwendet werden: Sie erlauben es, beim Einbinden konkrete Werte anzugeben, die dann für Platzhalter eingesetzt werden, die im Wiki-Text der Vorlage verwendet wurden [WP:VOR]. Vorlagen werden in der Wikipedia für verschiedene Zwecke benutzt: zur einheitlichen Anzeige von strukturierten Daten (in sogenannten Infoboxen oder Taxoboxen [WP:IB]), als Navigationselement zu verwandten Themen (sogenannten Navileisten, [WP:NAVI]), als Markierung für Probleme mit einer Seite, als Formatierungshilfe im laufenden Text sowie für diverse andere Zwecke [WP:TB]. Unter anderem werden Vorlagen auch verwendet, um besondere Arten von Seiten zu kennzeichnen, insbesondere zum Beispiel Begriffsklärungsseiten. Sie sind daher besonders nützlich, um solche besonderen Seiten zu erkennen. Vorlagen sind Gegenstand diverser Arbeiten über die Wikipedia, insbesondere können Infoboxen leicht für eine Wissensextraktion verwendet werden, die Eigenschaft-Wert-Paare für die Eigenschaften des Artikelgegenstandes liefert (z. B. bei Auer u. a. (2007), siehe auch .2.5). In der vorliegenden Arbeit werden Vorlagen jedoch fast ausschließlich zur Identifikation von Ressourcen- und Konzepttypen verwendet (siehe .8.5 bzw. .8.6 sowie .8.4). Magic Words: MediaWiki verwendet zwei Arten von Magic Words: „Variablen“, die Zugriff auf kontext- oder projektspezifischeWerte bieten und „Optionen“, die die Verarbeitung der Seite beeinflussen (siehe .A.6). Die meisten Magic Words werden für den Zweck dieser Arbeit ignoriert; manche Variablen aber, insbesondere eben der Seitenname, werden vor der Bearbeitung durch den betreffenden konkreten Wert ersetzt (siehe .8.3). Einige weitere werden ähnlich wie Vorlagen interpretiert, um zusätzliche Informationen zu gewinnen — Beispiele hierfür sind {{DISPLAYTITLE:...}} und {{DEFAULTSORT:...}} (vergleiche .8.4). Ein weiteres Beispiel für Magic Words, die vonWikiWord verwendet werden, sind die Markierungen für Weiterleitungsseiten, siehe .A.6. Extension-Tags und Parser-Functions: MediaWiki bietet zwei Möglichkeiten für die Erweiterung des Wiki-Text-Markups an: Extension-Tags verwenden Tags der Form 1. Grundlagen 10 <mytag>...</mytag>, Parser-Functions verwenden vorlagenartige Strukturen der Form {{#mytag:argument}} (siehe auch .A.7). Beide Formen werden bei der Analyse von Wiki-Text im Rahmen dieser Arbeit vollständig ignoriert (siehe .8.3). Begriffsklärungen: Begriffsklärungsseiten (Disambiguierungen) sind eine wichtige Konvention in Wikipedia-Projekten: Gibt es mehrere unterschiedliche Bedeutungen zu einem Term, so wird für diesen Term eine Begriffsklärungsseite angelegt, die alle Bedeutungen des Terms aufzählt [WP:BKL]. Dazu wird in der Regel eine Listenstruktur verwendet, die in jeder Zeile eine Glosse für eine der Bedeutungen hat und auf den entsprechenden Artikel verweist. Wie schon oben erwähnt, wird die Begriffsklärungsseite entweder direkt mit dem fraglichen Term als Name angelegt oder mit dem Zusatz (Begriffsklärung) —in letzterem Fall enthält per Konvention die Seite ohne Namenszusatz (die Seite zur Hauptbedeutung des Terms) einen Verweis auf die Begriffsklärungsseite. Wie auch Weiterleitungen sind Begriffsklärungen im Kontext dieser Arbeit eine wichtige Quelle für die Bedeutungsrelation, also um alle Bedeutungen eines Terms und umgekehrt alle Bezeichnungen für ein Konzept zu finden (siehe .8.10). 1.3. Thesauri Ein Thesaurus ist traditionell eine Sammlung von Termen (Wörtern), ihrer Beziehungen und Definitionen. Die verschiedenen Beziehungen dienen insbesondere dazu, den passendsten Term für einen Gegenstand, das heißt, die beste Bezeichnung für ein Konzept zu finden. Ein Thesaurus ist daher besonders als Struktur für ein kontrolliertes Vokabular geeignet, das zur Indexierung von Dokumenten verwendet werden soll. Thesauri definieren in der Regel zumindest eine Äquivalenzbeziehung zwischen synonymen und pseudo-synonymen (also für den Zweck der Indexierung gleichwertigen) Termen, eine (poly-)hierarchische Subsumtionsbeziehung zwischen allgemeinen und speziellen Termen sowie häufig eine Assoziationsbeziehung zwischen semantisch verwandten Termen [STOCK (2007), S. 283FF]. Die ISO definiert insbesondere die folgenden Relationen [ISO:2788 (1986)]: UF bzw. USE: Used For bzw. Use gibt an, dass ein Term anstelle eines anderen verwendet werden soll — über diese Relation wird der Deskriptor (Preferred Term) aus einer Menge von (Pseudo-)Synonymen (einem sogenannten SynSet) festgelegt. BT bzw. NT: Broader Term bzw. Narrower Term gibt an, dass ein Term allgemeiner bzw. spezieller als ein anderer, das heißt, ein Hyperonym bzw. Hyponym zu diesem ist. RT: Related Term gibt an, dass ein Term mit einem anderen semantisch verwandt ist. Diese Beziehung besteht häufig unter anderem zwischen Kohyponymen. Synonyme können so direkt modelliert werden, Homonyme dagegen nicht: häufig werden sie disambiguiert, indem ein Qualifikator als Zusatz angehängt wird, entweder direkt als Teil des Terms oder über eine spezielle Relation. 1. Grundlagen 11 Die hierarchische Beziehung (Hyponymiebeziehung) in einem Thesaurus ist häufig als Taxonomie angelegt, also als eine strenge thematische Gliederung, über die Terme in Sachgebiete eingeordnet werden. Die Hyponymiebeziehung kann auch als Polyhierarchie angelegt sein, so dass sich insgesamt ein gerichteter, azyklischer Graph als Struktur bildet, anstelle eines einfachen Baums. Die Semantik der Hyponymiebeziehung ist in der Regel nicht weiter spezifiziert, meist handelt es sich um eine Vermengung der Abstraktionsbeziehung (subtype), der Instanzbeziehung (is-a), der Aggregationsbeziehung (part-of) und gelegentlich der Attributbeziehung (property-of) [VOSS (2006), PONZETTO (2007)]. Im Kontext der automatischen Verarbeitung von Wissen, Sprachen und Dokumenten erweist es sich als hilfreich, eine weitere Ebene der Indirektion einzuführen und so zu einem „konzeptorientierten Thesaurus“ zu gelangen, der auf einem Konzept-Term-Netzwerk basiert statt auf einem reinen Netzwerk von Termen [JOHNSTON U. A. (1998), MATTHEWS (2003), W3C (2005)]. So ergibt sich ein Wissensorganisationssystem (Knowledge Organisation System, KOS). Dieses Modell scheint insbesondere auch besser auf die Datenstruktur derWikipedia zu passen: Es werden die semantischen Beziehungen zwischen Konzepten direkt modelliert und zusätzlich angegeben, welche Terme zu welchem Konzept gehören (vergleiche [VAN ASSEM U. A. (2006), GREGOROWICZ UND KRAMER (2006)]). Die Beziehungen zwischen Termen (Homonym, Synonym) ergeben sich dann implizit (.4.2). Ein ähnliches Modell wird auch von WordNet verwendet, in dem Konzepte durch SynSets repräsentiert und semantische Beziehungen zwischen SynSets statt zwischen Termen modelliert werden [MILLER (1995), FELLBAUM (1998), WORDNET]. In einem solchen konzeptorientierten Thesaurus gibt es nun vor allem die folgenden Beziehungen: Bedeutung: Verbindet einen Term mit einer Anzahl von Konzepten (Bedeutungen), bzw. ein Konzept mit einer Anzahl von Termen (Bezeichnungen). Daraus ergibt sich implizit die Synonymie oder Homonymie von Termen. Subsumtion: Verbindet allgemeinere mit spezielleren Konzepten, analog zu der Hyponymierelation zwischen Termen. Verwandtheit: Verbindet verwandte Konzepte, z. B. solche, die zu einem gemeinsamen Themengebiet gehören oder häufig im selben Kontext verwendet werden. Ähnlichkeit: Verbindet ähnliche Konzepte, z. B. solche, die zu einem gewissen Grade austauschbar sind. Ähnliche Konzepte sind häufig Kohyponyme. Für eine Abgrenzung von semantischer Verwandtheit und Ähnlichkeit siehe [ZESCH U. A. (2007B)]. Die semantischen Beziehungen in einem solchen Thesaurus sind aber weiterhin relativ „schwach“: Wie schon oben für die Hyponymierelation, ist auch hier im Gegensatz zu den Relationen in einer Ontologie nichts über die Art der Subsumtion (Subtyp, Instanz, Teil etc.) oder der Verwandtheit bekannt [PONZETTO UND STRUBE (2007B), HEPP U. A. (2006)]. Auch können Relationen nicht reifiziert oder klassifiziert werden. Solche schwachen Beziehungen sind aber für die Zwecke des Information Retrieval in aller Regel ausreichend. Ziel dieser Diplomarbeit ist es nun, einen solchen konzeptorientierten Thesaurus auf Grundlage des Datenbestandes der Wikipedia vollautomatisch zu erstellen. 1. Grundlagen 12 1.4. Nutzen Der Nutzen von Thesauri (insbesondere der konzeptorientierten Art) für die automatische Sprachverarbeitung und für das Information Retrieval liegt in der Überbrückung der Semantic Gap zwischen dem bloßen Text als Folge von Zeichen und dem konzeptuellen Inhalt von Dokumenten [DAVULCU U. A. (2006), GREGOROWICZ UND KRAMER (2006)]. Handelt es sich um einen multilingualen Thesaurus, kann auf dieseWeise auch die Kluft zwischen verschiedenen Sprachen überwunden werden: Verschiedene Terme (Wörter und Phrasen) aus verschiedenen Sprachen werden auf eine relativ kleine Menge wohldefinierter Konzepte abgebildet, die untereinander in Beziehung stehen. Die in einem Dokument behandelten Konzepte werden so einer automatischen Analyse zugänglich. Konkret kann ein maschinenlesbarer, multilingualer, konzeptorientierter Thesaurus insbesondere in den folgenden Bereichen nützlich sein: 1. Für das klassische Information Retrieval ist es vorteilhaft, statt Termen abstrakte Konzepte für die Indexierung von Dokumenten verwenden zu können: so lassen sich Unterschiede in Sprache und Terminologie leicht überbrücken. Häufig werden Konzepte als Mengen von Termen modelliert, die durch Clustering-Verfahren gewonnen wurden, wie beim Latent Semantic Indexing (LSI) [DEERWESTER U. A. (1990), KUMAR U. A. (2006)]. Die Verwendung eines konzeptorientierten Thesaurus erlaubt es dagegen, menschliches Wissen über die Zuordnung von Termen zu Konzepten zu nutzen (siehe .2.4 und insbesondere [MILNE UND NICHOLS (2007)]). Neben der klassischen Dokumentensuche profitieren auch Aufgaben wie Resource Selection und Topic Tracking von diesem Ansatz. 2. Ein Thesaurus auf Basis der Wikipedia eignet sich besonders für die Named Entity Recognition (NER), da Wikipedia im Gegensatz zu klassischen Wörterbüchern eine große Zahl von Einträgen zu Orten, Personen und Organisationen hat (siehe .2.6). 3. Die Informationen über ähnliche, verwandte und übergeordnete Konzepte, die in einem Thesaurus enthalten sind, können unter anderem für eine gezielte Query Expansion verwendet werden [MILNE UND NICHOLS (2007)]. Es ist zu erwarten, dass dies besonders dann effektiv ist, wenn die Indexierung und Abfrage anhand von Konzepten statt von Termen erfolgt, da so Mehrdeutigkeiten vermieden werden können [SYED U. A. (2008)]. 4. Die Verwandtheitsbeziehungen zwischen Konzepten können auch verwendet werden, um Terme im Kontext zu disambiguieren: Für eine Menge von Termen kann die Bedeutung jedes Terms so gewählt werden, dass die Bedeutungen (Konzepte) gut zueinander passen — auf diese Weise lässt sich mit großer Wahrscheinlichkeit die intendierte Bedeutung der Terme finden [MIHALCEA (2007), STRUBE UND PONZETTO (2006), CUCERZAN (2007)], siehe .2.3. Diese Bedeutungszuweisung ist neben der Anwendung auf Suchanfragen auch wichtig bei der Wissensextraktion, dem Topic Tracking sowie der automatischen Übersetzung. 5. Ein multilingualer Thesaurus kann auch als Basis für ein Übersetzungswörterbuch oder gar ein automatisches Übersetzungssystem dienen. Die aus der Wikipedia gewonnenen Informationen bieten hier eine nützliche Ergänzung zu traditionellen Wörterbüchern, da sie 1. Grundlagen 13 eine große Zahl von Fachbegriffen sowie viele Namen für Orte und Personen abdecken, die in manuell gepflegten Wörterbüchern in der Regel fehlen. 6. Ein aus der Wikipedia gewonnener multilingualer Thesaurus kann auch als Basis für eine (teil-)manuelle Erstellung von Wörterbüchern, Taxonomien und Ontologien dienen. Für Ontologien und Wissensrepräsentationssysteme wie DBpedia oder YAGO kann es auch möglich sein, Informationen aus der Wikipedia automatisch zu integrieren (siehe .2.2 und .2.5). 7. Viele der weiter unten in .2 beschriebenen Systeme und Verfahren verwenden als Grundlage eine aus derWikipedia extrahierte Struktur, die deutlich weniger Informationen berücksichtigt als WikiWord. Sie könnten vermutlich davon profitieren, WikiWord als Werkzeug für die Extraktion der Wikipedia-Struktur zu verwenden, um dann die betreffenden Verfahren auf diese reichere Struktur anzuwenden. Ein wichtiger Aspekt des in der vorliegenden Diplomarbeit vorgeschlagenen Ansatzes ist es, dass der Aufbau des Thesaurus aus denWikipedia-Daten vollautomatisch und verhältnismäßig schnell2 erfolgt: Die manuelle Wartung eines Thesaurus ist sehr aufwändig und teuer, um so mehr, je mehr Fachgebiete der Thesaurus abdecken soll. So ist es kaum möglich, einen Thesaurus auf dem neusten Stand zu halten, insbesondere in Hinblick auf neue Technologien oder auch aktuell wichtige Organisationen und Personen. Schon deshalb decken die meisten Thesauri nur einen eng eingegrenzten Fachbereich ab und enthalten nur relativ wenige Terme bzw. Konzepte: WordNet zum Beispiel enthält etwa 117 000 Konzepte (SynSets) [WORDNET], MeSH kennt nur 24 767 Konzepte [MESH] (siehe auch .2.2). Ein Thesaurus, der automatisch aus Wikipedia-Daten erstellt wird, hat diese Probleme nicht: Wikipedia ist sehr aktuell und deckt sehr weite Bereiche des menschlichenWissens ab [RUIZ-CASADO U. A. (2005), VOSS (2005B)] (WikiWord liefert etwa 6 Millionen Konzepte und 12 Millionen Terme für die englische Sprache, vergleiche .11.2). Insbesondere sind genau solche Themenbereiche abgedeckt, die im Augenblick besonders im öffentlichen Bewusstsein stehen und daher besonders interessant sind für das Information Retrieval (vergleiche [SYED U. A. (2008), HEPP U. A. (2006), MILNE UND NICHOLS (2007)]). Zudem stehen die Daten unter einer freien Lizenz und sind in einer Vielzahl von Sprachen verfügbar. Ein multilingualer, konzeptorientierter Thesaurus auf Wikipedia-Basis besitzt also das Potential, für wichtige Aufgaben des Information Retrieval und der automatischen Sprachverarbeitung eine breite, aktuelle und qualitativ hochwertige Datenbasis zu liefern. Außerdem kann er verwendet werden, um existierende, manuell gewartete Thesauri zu ergänzen und zu erweitern. 2Einige Tage bis Wochen auf einem üblichen Datenbanksystem, siehe .11.1.
History
Enable pagination
rows per page
HTML diff
Side-by-side diff
Side-by-side diff by characters
Inline diff
Inline diff by characters
Full side-by-side diff
Full side-by-side diff by characters
Full inline diff
Full inline diff by characters
Unified diff
Side-by-side view
Information
Version
Fri 30 of May, 2008 21:18 GMT
alain_desilets
1
Actions
View
Source
Select action to perform with checked...
Remove
OK
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display