History: DanielKinzler Chapter 4: Ablauf

View page
Source of version: 1 (current)

4. Ablauf
Wiki-Text
Analyse
Ressourcen
Verarbeitung
Lok. Konzepte
Zusammenf.
Glob. Konzepte
Export
Thesaurus
Abb. 4.1: Transformationen
Das Vorgehen von WikiWord lÃ¤sst sich als eine Folge von Datentransformationen betrachten: In
Abb. 4.1 ist eine Aneinanderreihung von Datenmodellen und Verarbeitungsschritten dargestellt,
in der jeweils ein Transformationsschritt die Daten von einem Modell in ein anderes Ã¼berfÃ¼hrt1.
Die Implementation von WikiWord folgt grob dieser Struktur (.7.1), in der konkreten Umsetzung
wurden allerdings einige der Schritte verschachtelt und parallelisiert (.7.2).
Die einzelnen Transformationen sowie die resultierenden Datenmodelle sind im Folgenden beschrieben.
4.1. Analyse von Wiki-Text
Die erste Transformation ist die Analyse des Wiki-Textes (.1.2) aus dem XML-Dump (vergleiche
[WM:DOWNLOAD, MW:XML]). Hierbei werden die relevanten Informationen aus dem Wiki-Text
extrahiert und in das Ressourcenmodell Ã¼berfÃ¼hrt, das die Wiki-Seite reprÃ¤sentiert und direkten
Zugriff auf Eigenschaften dieser Seite bietet. Dabei entfÃ¤llt ein GroÃŸteil des textlichen Inhalts, die
Seite wird als eine ungeordnete Sammlung von Features wie Wiki-Links, Kategorien, Vorlagen
und so weiter betrachtet.
Das Ressourcenmodell bietet insbesondere Zugang zu folgenden Eigenschaften der Wiki-Seite:
â€¢ der Titel der Seite, sowie der Namensraum, zu dem die Seite gehÃ¶rt.
1die grafische Aufteilung in mehrere Spalten erfolgt lediglich aus PlatzgrÃ¼nden.
4. Ablauf 26
â€¢ der Text der Seite, in verschiedenen Verarbeitungsstufen, vom unverÃ¤nderten Wiki-Text bis
zu reinem FlieÃŸtext ohne Markup, siehe .8.3.
â€¢ alleWiki-Links, also alleWiki-Seiten, auf die diese Seite verweist, mitsamt dem Link-Text
jedes Verweises. Der Mechanismus zur Extraktion der Wiki-Links ist in .8.7 beschrieben.
MancheWiki-Links haben eine spezielle Semantik (siehe .A.3) und werden daher auch von
WikiWord gesondert interpretiert. Solche besonderen Wiki-Links definieren:
â€“ die Kategorien, denen die Seite zugeordnet ist.
â€“ die Language-Links, die auf der Seite definiert sind.
â€¢ alle Abschnitte (Ãœberschriften) der Seite.
â€¢ die Vorlagen, die auf der Seite verwendet werden, samt den Parametern ihrer Verwendung
(.A.5). Das Verfahren, mit dem die Vorlagen extrahiert werden, ist in .8.4 beschrieben.
Diese Informationen werden grÃ¶ÃŸtenteils durch einfaches Pattern-Matching auf Basis des Wiki-
Textes gewonnen. Auf Grund dieser Basisinformationen werden (ebenfalls imWesentlichen durch
Pattern-Matching) weitere, speziellere Eigenschaften bestimmt:
â€¢ der Typ der Seite. Diese Eigenschaft bestimmt, wie die Seite weiter verarbeitet wird.
MÃ¶gliche Typen von Seiten sind: Artikel, Weiterleitung, BegriffsklÃ¤rung, Liste sowie
Kategorie. Details dieser Klassifikation sind in .8.5 beschrieben.
â€¢ der Typ des Konzeptes, das die Seite beschreibt, falls sie ein Artikel ist. Diese Klassifikation
hat keinen Einfluss auf die weitere Verarbeitung der Daten, kann aber bei der Verwendung
des Thesaurus nÃ¼tzlich sein, insbesondere fÃ¼r die Aufgabe der Named Entity Recognition.
MÃ¶gliche Typen von Konzepten sind: Ort, Person, Organisation, Name, Zeitpunkt, Zahl,
Lebensform und sonstige. Details der Konzeptklassifikation sind in .8.6 beschrieben.
â€¢ eine Menge von Termen, die als Bezeichnung fÃ¼r das Konzept direkt aus der Seite selbst,
insbesondere aus ihrem Titel, abgeleitet werden kÃ¶nnen (fÃ¼r Details, siehe .8.9).
â€¢ der erste Satz des Textes der Seite, zur Verwendung als Definition (Glosse) fÃ¼r das Konzept,
das der Artikel beschreibt. FÃ¼r das Verfahren zur Extraktion des ersten Satzes, siehe .8.8.
â€¢ Bedeutungslinks, also Wiki-Links auf einer BegriffsklÃ¤rungsseite, die auf eine der mÃ¶glichen
Bedeutungen des zu klÃ¤renden Begriffs zeigen. Der Algorithmus zur Extraktion von
Bedeutungslinks ist in .8.10 beschrieben.
â€¢ das Ziel der Weiterleitung, falls die Seite eine Weiterleitung ist.
Die verwendeten Muster zur Erkennung bestimmter Informationen im Wiki-Text sind zum Teil
Wiki-spezifisch. Zu beachten ist, dass sie zum grÃ¶ÃŸten Teil nicht ad hoc bestimmt wurden, sondern
die vorgegebene Syntax des Wiki-Markups (.A) oder explizite Konventionen und Richtlinien der
einzelnen Wiki-Projekte nachbilden (vergleiche [WP:ARTIKEL, WP:KAT, WP:BKL]).
Die Verfahren, die verwendet werden werden, um die einzelnen Eigenschaften der Wiki-Seite zu
bestimmten, wird in .8 beschrieben. Das Ressourcenmodell selbst ist in .D.1 definiert.
4. Ablauf 27
4.2. Aufbau des lokalen Datenmodells
Concept
Term
meaning
broader
(a) Relationen
A B
C D
a
b c d e
f g h
(b) Struktur
Abb. 4.2: Datenmodell
Die zweite Transformation ist die Verarbeitung der Informationen aus dem Ressourcenmodell,
also der Import in das lokale Datenmodell (das Konzeptmodell). In diesem Schritt werden die
Informationen aus der Wikipedia als Elemente eines Thesaurus interpretiert (.9.1).
Das lokale Datenmodell definiert die Struktur eines monolingualen, konzeptorientierten
Thesaurus. Konkrete lokale DatensÃ¤tze, also konkrete monolinguale Thesauri, werden in dieser
Struktur gespeichert. Das Datenmodell ist ein Term-Konzept-Netzwerk (Abb. 4.2), es enthÃ¤lt
Beziehungen zwischen Termen und Konzepten (die Bedeutungsrelation) und zwischen verschiedenen
Konzepten (zum Beispiel Subsumtion oder Verwandtheit), wie in Abb. 4.2(a) dargestellt.
Beziehungen zwischen Termen ergeben sich implizit. Dieses Modell Ã¤hnelt den Strukturen, die
in der Literatur fÃ¼r Ã¤hnliche Zwecke vorgeschlagen wurden, insbesondere z. B. in [GREGOROWICZ UND
KRAMER (2006)] und anderen Arbeiten, die in .2.4 vorgestellt wurden. Die Umsetzung dieses Modells
als Schema fÃ¼r ein relationales Datenbanksystem ist in .C.1 beschrieben.
Im Einzelnen besteht das Modell aus den folgenden Elementen:
Terme: Terme (in Abb. 4.2(b) als Kreise dargestellt) sind lexikalische Einheiten: WÃ¶rter,
Wortformen, Wortgruppen, Phrasen, Namen und so weiter. Jeder Term existiert nur einmal
in einem Datensatz (also hÃ¶chstens einmal pro Sprache). Terme sind Bezeichnungen fÃ¼r
Konzepte.
Konzepte: Konzepte (in Abb. 4.2(b) eckige KÃ¤stchen) sind logische Einheiten: sie reprÃ¤sentieren
(abstrakte oder konkrete) Dinge. Konzepte sind Bedeutungen von Termen.
Zu jedem Konzept werden neben seiner IdentitÃ¤t weitere Eigenschaften gespeichert, unter
anderem ein Name zur Anzeige in einer Benutzerschnittstelle und der Typ des Konzeptes
(wie oben im Abschnitt Ã¼ber das Ressourcenmodell beschrieben), sowie weitere sekundÃ¤re
Eigenschaften wie ein IDF-Wert (.9.3).
Bedeutungsrelation: Die Bedeutungsrelation (in Abb. 4.2(b) als durchgezogene Linien dargestellt)
verbindet Terme und Konzepte, zum Beispiel die Terme a, b und c mit Konzept
A. Dabei kÃ¶nnen beliebig viele Terme einem Konzept und beliebig viele Konzepte einem
4. Ablauf 28
Term zugeordnet sein. Die Bedeutungsrelation dient der ÃœberbrÃ¼ckung der Semantic Gap
zwischen dem Text als Folge von WÃ¶rtern und demWissen Ã¼ber Konzepte (siehe dazu auch
[SUCHANEK U. A. (2007)] und wieder [GREGOROWICZ UND KRAMER (2006)]). Die Bedeutungsrelation ist
gewichtet, konkret wird angegeben, wie oft welche Bezeichnung fÃ¼r welches Konzept verwendet
wurde.
Die gepunkteten Verbindungen in der Abbildung ergeben sich implizit aus der
Bedeutungsrelation: Sie zeigt Synonymie zwischen zwei Termen, die beide Ã¼ber die
Bedeutungsrelation mit demselben Konzept verbunden sind (zum Beispiel a und b
wegen ihrer Verbindung zu A) und Homonymie zwischen Konzepten, die Ã¼ber die
Bedeutungsrelation mit demselben Term verbunden sind (zum Beispiel zwischen A und C
wegen ihrer Verbindung zu b und c)2.
Subsumtionsrelation: Die Subsumtionsrelation (in Abb. 4.2(b) als Pfeil dargestellt) verbindet
allgemeinere mit spezielleren Konzepten. Sie ist irreflexiv und antisymmetrisch, sowie
konzeptionell transitiv, und bildet auf der Menge der Konzepte einen gerichteten azyklischen
Graphen. Idealerweise (aber nicht notwendigerweise) sind alle Konzepte von einer
einzigen â€žWurzelâ€œ aus erreichbar. Die konkrete Semantik der Subsumtion bleibt unbestimmt,
die Relation beinhaltet so unterschiedliche Beziehungen wie Abstraktion (subtype),
Instanziierung (is-a), Aggregation (part-of ) und gelegentlich auch Attribution (property-of );
siehe dazu [VOSS (2006), PONZETTO UND STRUBE (2007B), HAMMWÂ¨OHNER (2007)] sowie weitere Arbeiten,
die in .2.4 erwÃ¤hnt wurden. Diese Relation entspricht der Hyponymiebeziehung zwischen
Termen, also der BT/NT-Beziehung nach ISO [ISO:2788 (1986)].
Verwandtheit und Ã„hnlichkeit: Die semantische Verwandtheit und Ã„hnlichkeit von Konzepten
(in Abb. 4.2(b) eine gestrichelte Linie) ist eine symmetrische Beziehung. Sie ist unter anderem
fÃ¼r die automatische Disambiguierung von Termen sowie fÃ¼r die Aufgabe der Query
Expansion nÃ¼tzlich (vergleiche dazu die Arbeiten, die in .2.3 vorgestellt wurden, insbesondere
[ZESCH U. A. (2007B)] und [STRUBE UND PONZETTO (2006)]).
Lokale DatensÃ¤tze werden in einer relationalen Datenbank abgelegt (siehe .C.1), fÃ¼r die programmatische
Verwendung einzelner Konzepte gibt es aber auch eine objektorientierte ReprÃ¤sentation
als Transferobjekte der Datenzugriffsschicht (siehe .C.3). Jedes Konzept wird als Objekt dargestellt,
das Zugriff auf die Eigenschaften des Konzeptes bietet, unter anderem auf alle
Bezeichnungen fÃ¼r das Konzept sowie auf verwandte und untergeordnete Konzepte (.D.2).
Die Beziehungen des lokalen Datenmodells werden aus dem Ressourcenmodell aufgebaut, das
heiÃŸt, die in den einzelnen Ressourcen (Wiki-Seiten) enthaltenen Informationen werden als
Beziehungen im lokalen Datenmodell (also im Thesaurus) interpretiert und dann als solche gespeichert.
Insbesondere werden folgende Interpretationen vorgenommen:
â€¢ Seiten, die keineWeiterleitungen, BegriffsklÃ¤rungen, Listen, Kategorien oder andere besondere
Seiten sind, werden als Artikel betrachtet, das heiÃŸt, es wird angenommen, dass sie
genau ein Konzept beschreiben. Entsprechend wird fÃ¼r jeden Artikel ein Konzept im lokalen
Datensatz angelegt, mit dem Konzepttyp, den das Ressourcenmodell fÃ¼r diese Seite
2Der Ãœbersichtlichkeit halber wurden nicht alle Beziehungen, die sich so ergeben, in der Abbildung dargestellt.
4. Ablauf 29
bestimmt hat; das entspricht dem Vorgehen in der Literatur, wie in den Arbeiten in .2.3 und
.2.4 beschrieben.
â€¢ die Subsumtionsrelation wird direkt aus den Kategorien abgeleitet, denen eine Seite zugeordnet
ist. Dabei wird nicht zwischen Kategorieseiten und Artikeln unterschieden, das heiÃŸt,
Kategorien sind ebenfalls einfach Konzepte (.9.1). Auch das entspricht im Wesentlichen
dem, was laut .2.4 das Ã¼bliche Vorgehen ist.
â€¢ die Verwandtheit von Konzepten wird aufgrund von Querverweisen (Wiki-Links) zwischen
Artikeln bestimmt: wenn zwei Artikel sich gegenseitig Ã¼ber Wiki-Links referenzieren, wird
davon ausgegangen, dass die Konzepte, die diese Artikel beschreiben, miteinander verwandt
sind [GREGOROWICZ UND KRAMER (2006)], siehe .9.1.3.
â€¢ die Ã„hnlichkeit von Konzepten wird Ã¼ber die Language-Links bestimmt: wenn zwei Artikel
Ã¼ber Language-Links denselben Artikel in einer anderen Sprache referenzieren, so werden
die Konzepte, die diese beiden Artikel beschreiben, als Ã¤hnlich angesehen. Der Grund
ist, dass Language-Links immer auf Ã¤hnliche (oder, idealerweise, Ã¤quivalente) Artikel verweisen
[WP:INTERLANG], und die Ã„hnlichkeitsbeziehung als transitiv und symmetrisch betrachtet
wird. Language-Links wurden in [HAMMWÂ¨OHNER (2007B)] untersucht, der Ansatz, sie
zur Bestimmung von semantischer Ã„hnlichkeit zu verwenden, scheint jedoch noch nicht
verfolgt worden zu sein.
â€¢ die Bezeichnungen (Terme) fÃ¼r ein Konzept werden aus einer Vielzahl von Quellen bestimmt,
unter anderem:
â€“ aus dem Titel des Artikels, sowie der Verwendung des Magic Words DISPLAYTITLE.
Letzteres wurde in der Literatur bislang nicht betrachtet.
â€“ aus den Titeln von Weiterleitungen, die auf den Artikel verweisen.
Weiterleitungsseiten werden von so gut wie allen Arbeiten zur Struktur von
Wikipedia betrachtet, vergleiche .2.3 und .2.4.
â€“ aus den Titeln von BegriffsklÃ¤rungsseiten, die auf den Artikel verweisen.
BegriffsklÃ¤rungsseiten werden in der Literatur ebenfalls hÃ¤ufig berÃ¼cksichtigt,
vergleiche z. B. [PONZETTO UND STRUBE (2007C)].
â€“ aus dem Link-Text von Wiki-Links, die auf den Artikel verweisen. Diese Information
wurde bei der Analyse der Wikipedia bislang kaum genutzt (mit der Ausnahme von
[MIHALCEA (2007)] sowie einigen Arbeiten zur Named Entity Recognition, siehe .2.6),
obwohl sie fÃ¼r das Information Retrieval sehr wertvoll sein kann (vergleiche [EIRON UND
MCCURLEY (2003), KRAFT UND ZIEN (2004)]).
â€“ aus Sort-Keys, die bei der Kategorisierung des Artikels angegeben wurden, sowie
der Verwendung des Magic Words DEFAULTSORT. Diese Quellen fÃ¼r alternative
Bezeichnungen wurden in der Literatur bisher nicht untersucht.
Die Interpretation von Informationen aus dem Wiki-Text ist in .9.1 nÃ¤her beschrieben. Nach
dem Import der Daten aus den einzelnen Seiten der Wikipedia findet eine Nachbereitung statt
(.9.1.3). Dabei werden insbesondere Weiterleitungen und Kategorisierungs-Aliase aufgelÃ¶st (siehe
.9.1.3 und .9.1.2) sowie die Verwandtheit und Ã„hnlichkeit von Konzepten berechnet (.9.1.3).
Das Ergebnis ist ein lokaler Datensatz, der einen monolingualen Thesaurus reprÃ¤sentiert.
4. Ablauf 30
4.3. ZusammenfÃ¼hren
Die dritte Transformation ist das ZusammenfÃ¼hren der einzelnen lokalen DatensÃ¤tze zu einem globalen
Datensatz: Gruppen von untereinander Ã¤hnlichen Konzepten aus unterschiedlichen Sprachen
werden zu jeweils einem sprachunabhÃ¤ngigen Konzept vereinigt. Eine solche Methode zum
Aufbau eines multilingualen Thesaurus wurde in den eingangs erwÃ¤hnten Arbeiten nicht beschrieben.
Das globale Datenmodell enthÃ¤lt vor allem Informationen darÃ¼ber, welche Konzepte aus den einzelnen
sprachspezifischen DatensÃ¤tzen zu einem sprachunabhÃ¤ngigen Konzept zusammengefasst
wurden und wie die Beziehungen zwischen den lokalen Konzepten auf die globalen Konzepte
abgebildet wurden (siehe .C.1). Zusammen mit den lokalen DatensÃ¤tzen, auf die er sich bezieht,
bildet der globale Datensatz eine Kollektion, die einen multilingualen Thesaurus reprÃ¤sentiert.
Jedes Konzept im globalen Datensatz ist eine Menge von lokalen Konzepten, die aus jeder
Sprache (hÃ¶chstens) ein Konzept enthÃ¤lt. Sprachspezifische Eigenschaften (insbesondere Terme
und Glossen) werden in dem globalen Datensatz nicht noch einmal abgelegt â€” statt dessen werden
sie bei Bedarf dem betreffenden lokalen Datensatz entnommen.
Die Hauptaufgabe beim Aufbau des globalen Datensatzes ist es also, Gruppen von Konzepten aus
unterschiedlichen Sprachen (also lokalen DatensÃ¤tzen) zu finden, die sich mÃ¶glichst Ã¤hnlich sind,
bzw. idealerweise zueinander Ã¤quivalent. Dabei ist die unter UmstÃ¤nden sehr unterschiedliche
GranularitÃ¤t und Abdeckung der Wikipedias in den einzelnen Sprachen zu berÃ¼cksichtigen. Der
hierfÃ¼r verwendete Algorithmus lÃ¤sst sich wie folgt zusammenfassen:
1. Nimm alle Konzepte aus allen Sprachen der Kollektion vorlÃ¤ufig in den multilingualen
Thesaurus auf.
2. Bestimme, welche Konzepte Ã¼ber einen Language-Link direkt auf ein anderes Konzept
in dem multilingualen Thesaurus, der ja Konzepte aus unterschiedlichen Sprachen enthÃ¤lt,
verweisen. Auf diese Weise werden Paare von Ã¤hnlichen Konzepten im multilingualen
Thesaurus markiert.
3. Bestimme, welche Paare von Konzepten sich auf diese Weise gegenseitig referenzieren. Da
die Ã¼ber einen Language-Link referenzierten Konzepte im Allgemeinen entweder Ã¤quivalent
oder allgemeiner sind als das betreffende Konzept selbst, ist davon auszugehen, dass
zwei Konzepte, die sich gegenseitig auf dieseWeise referenzieren, Ã¤quivalent sind oder sich
zumindest stark Ã¤hneln. Dieses Vorgehen ist analog zu der Methode, die [GREGOROWICZ UND
KRAMER (2006)] folgend zur Bestimmung verwandter Konzepte innerhalb einer Sprache verwendet
wurde.
4. Vereinige Paare solcher Konzepte, wobei alle Eigenschaften und Relationen der beiden
Konzepte zusammengefasst werden. Dabei wird mitgefÃ¼hrt, welche Sprachen das vereinigte
Konzept abdeckt. Jede Sprache darf in dem resultierenden sprachÃ¼bergreifenden Konzept
hÃ¶chstens einmal vorkommen.
4. Ablauf 31
5. Vereinige so lange, bis kein solches Paare von Konzepten mehr vorhanden ist, das vereinigt
werden kann. Sind zwei Konzepte zwar durch gegenseitige Language-Links verbunden,
aber die Mengen der von ihnen bereits abgedeckten Sprachen Ã¼berlappen sich, so stehen
diese beiden Konzepte in Konflikt zueinander und kÃ¶nnen nicht vereinigt werden. Solche
Konzepte sind sich in der Regel sehr Ã¤hnlich (siehe auch .11.3).
Dieses Verfahren ist in .9.2 genauer beschrieben. Auf das eigentliche ZusammenfÃ¼hren folgt auch
hier eine Nachbereitungsphase zur Konsolidierung der Daten (.9.2.3). Dabei werden aufgrund der
neu bestimmten Beziehungen zwischen den sprachÃ¼bergreifenden Konzepten die Verwandtheit
und Ã„hnlichkeit der Konzepte neu berechnet.
4.4. Export
Die vierte und letzte Transformation ist der Export der lokalen und globalen DatensÃ¤tze in
eine extern weiterverwendbare Form, nÃ¤mlich das Thesaurus-Modell (siehe .10). Es reprÃ¤sentiert
die aus der Wikipedia extrahierten Beziehungen in einer standardisierten, fÃ¼r andere
Softwaresysteme nÃ¼tzlichen Form, nÃ¤mlich RDF/SKOS (.10.3). Die Modellierung der
Thesaurusdaten in RDF/SKOS folgt insbesondere [GREGOROWICZ UND KRAMER (2006), VAN ASSEM U. A. (2006),
W3C (2005)].
Teil III.
Implementation