DanielKinzler Chapter 10: Export

10. Export 76
10.1. URIs
Ein wichtiger Aspekt der Datenrepräsentation auf der Basis von RDF ist es, gute URIs für die einzelnen
RDF-Ressourcen zu wählen. URIs sind universell eindeutige Bezeichner (Identifikatoren)
für eine beliebige Ressource (also irgend eine „Sache“), deren Syntax in RFC:3986 (2005) festgelegt
ist. URIs ähneln äußerlich stark URLs, unterscheiden sich aber insbesondere durch ihre Semantik
und Verwendung: URLs erlauben einen Zugriff auf eine elektronische Ressource, indem sie das
Zugriffsprotokoll sowie den Ort der Ressource angeben, während URIs die Ressource lediglich
eindeutig identifizieren W3C:URI (2001). Dabei kann die URL eines Dokumentes gleichzeitig als
seine URI dienen, und umgekehrt kann die URI einer Ressource so gestaltet sein, dass sie als URL
der Ressource selbst, oder zumindest einer Beschreibung der Ressource fungieren kann.
Eine wichtige Eigenschaft von URIs (und idealerweise auch URLs) ist, dass die URI einer
Ressource möglichst stabil bleibt, sich also nicht verändert, und dass sie möglichst unabhängig
ist von rein technischen Aspekten wie dem physischen Speicherort und dem Datenformat BERNERSLEE
(1998)
. Bei der Wahl von URIs ist daher auch entscheidend, wie aussagekräftig sie sind: beliebige
Bezeichner, die zum Beispiel auf automatisch zugewiesenen numerischen IDs in irgend
einer Datenbank basieren, sind weniger geeignet als URIs, die menschenlesbare Informationen
über die Ressource enthalten, für die sie stehen. Solche „lesbaren“ URIs bleiben in der Regel über
die Zeit stabil, sind von technischen Gegebenheiten unabhängig und können häufig ohne zusätzliches
Wissen aus einem Teil des Namens hergeleitet werden. Zum Beispiel kann die URL (und
URI) des Wikipedia-Artikels Wasser einfach durch Voranstellen eines Präfix erzeugt werden:
<http://de.wikipedia.org/wiki/Wasser>.
Bei der Vergabe von URIs ist außerdem das Problem der Identitätskrise zu beachten MILES (2005A),
PEPPER UND SCHWAB (2003), HALPIN (2006)
, welches im Kontext von RDF häufig auftritt und oft nicht ausreichend
gelöst wird: Wenn ein Dokument gegeben ist, das ein bestimmtes Konzept beschreibt,
dann liegt es nahe, die URL des Dokuments als URI für dieses Konzept zu verwenden. Das
wäre aber ein Fehler, da dann nicht zwischen dem Dokument selbst und dem Gegenstand des
Dokuments unterschieden werden kann. Wenn wir zum Beispiel die URL der Wikipedia-Seite
http://de.wikipedia.org/wiki/Urfaust als URI für das Konzept URFAUST ansehen und
dementsprechend JOHANN_WOLFGANG_VON_GOETHE als Autor zuordnen, führt das zu Verwirrung,
weil Goethe dann als Mitautor derWikipedia-Seite verstanden werden könnte. Es muss daher stets
zwischen der URI des Dokumentes (die meist gleich der URL ist) und der URI für das Konzept,
das das Dokument beschreibt, unterschieden werden — wobei die URI des Konzeptes durchaus
auch als URL für das betreffende Dokument dienen kann: die URLs dürfen zu denselben Daten
führen, solange bei der Verwendung der URIs klar zwischen Dokument und Konzept unterschieden
wird.
Es ist außerdem der Unterschied zwischen RDF-Ressourcen und WikiWord-Ressourcen zu beachten:
eine RDF-Ressource ist irgendein durch eine URI identifiziertes Objekt, das Gegenstand
von Aussagen (RDF-Statements) sein kann; eine WikiWord-Ressource ist dagegen immer eine
Wikipedia-Seite. In dem hier beschriebenen RDF-basierten Datenmodell werden unter anderem
WikiWord-Konzepte, Wikipedia-Seiten (also WikiWord-Ressource), Korpora und Konzepttypen
durch RDF-Ressourcen modelliert — was nichts weiter heißt, als dass ihnen eine eindeutige URI
zugewiesen wird.
10. Export 77
Zusätzlich zu den in .10.2 beschriebenen Standard-Vokabularen benutzt WikiWord die folgenden
URI-Schemata für die Repräsentation der Thesaurusdaten:
http://Sprache.wikipedia.org/wiki/Seitentitel: Die URL einer Wikipedia-Seite repräsentiert
die Seite selbst als Ressource.
http://brightbyte.de/vocab/wikiword#Element: Dieses URI-Schema dient als Basis für
das Vokabular, das zur Repräsentation derWikiWord-Strukturen in RDF definiert ist. Es enthält
verschiedene Datentypen und Prädikate, die weiter unten beschrieben und in der Datei
/WikiWord/WikiWord/src/main/wikiword.rdf auf der beiliegenden CD oder online
unter <http://brightbyte.de/DA/WikiWord/WikiWord/src/main/wikiword.
rdf> formal definiert werden. In Folgenden wird der URI-Präfix desWikiWord-Vokabulars
entsprechend der QName-Notation mit ww abgekürzt.
http://brightbyte.de/vocab/wikiword/concept-type#Konzepttyp: Dieses URISchema
wird für die Codes der Konzepttypen verwendet (siehe .8.6).
http://brightbyte.de/vocab/wikiword/resource-type#Seitentyp: Dieses URISchema
wird für die Codes der Ressourcetypen verwendet (siehe .8.5). Allerdings
werden Ressourcetypen in der hier beschriebenen Repräsentation des Thesaurus nicht
wiedergegeben— sie werden vor allem während des Imports benötigt.
http://brightbyte.de/vocab/wikiword/dataset/Qualifier/Kollektion:Datensatz:
Dieses URI-Schema wird für die eindeutige Identifizierung von Datensätzen benutzt: dabei
stehen Datensatz und Kollektion für den Namen des Datensatzes und die Datensatz-
Kollektion wie eingangs in .1.1 beschrieben. Qualifier repräsentiert einen Bezeichner
(zum Beispiel einen Domain Name) der Organisation, die den Datensatz erstellt. Er
kann über den Tweak-Wert rdf.dataset.qualifier konfiguriert werden. Aus der
Kombination dieser Angaben ergibt sich idealerweise eine global eindeutige URI für den
Datensatz.
http://brightbyte.de/vocab/wikiword/concept/from/Korpus-URL/Seitentitel:
Dieses URI-Schema repräsentiert Konzepte anhand eines eindeutigen Seitennamens in
einem Korpus. Korpus-URL ist dabei die URI (bzw. URL) des Korpus (typischerweise,
aber nicht unbedingt, eines Wikipedia-Projektes) und Seitentitel ist der Name der
Ressource in diesem Korpus, die das gewünschte Konzept definiert oder beschreibt. Dieser
Weg der Identifikation von RDF-Ressourcen sollte bevorzugt werden, wenn das Konzept
eindeutig einem Dokument in einem Korpus zugeordnet werden kann. Solche URIs sind
relativ stabil gegenüber Änderungen an der Datenbasis2 und dem Modus der Verarbeitung.
http://brightbyte.de/vocab/wikiword/concept/in/Thesaurus-URI/Konzept-ID:
Dieses URI-Schema repräsentiert Konzepte anhand ihrer eindeutigen, numerischen
ID innerhalb eines Datensatzes. Thesaurus-URI ist dabei die URI eines Datensatzes
2Es kommt vor, dass sich der in der Wikipedia für ein Konzept verwendete Seitentitel ändert. Dabei wird aber nur
selten ein Titel gewählt, der vorher für ein anderes Konzept verwendet wurde. Meist wird auch der alte Titel als
Weiterleitung (Alias) behalten. Vergleiche HEPP U. A. (2006).
10. Export 78
(typischerweise, aber nicht unbedingt, wie oben beschrieben) und Konzept-ID ist die
numerische ID, in hexadezimaler Notation, mit einem vorangestellten „x“. Dieser Weg der
Identifikation von RDF-Ressourcen kann verwendet werden, wenn die direkte Adressierung
über einen Namen nicht möglich ist. Solche URIs sind instabil insofern, als dass sie für
alternative oder zukünftige Versionen des Thesaurus nutzlos sind.
Die zwei unterschiedlichen Wege, eine URI für ein Konzept zu bestimmen, werden auch in VAN
ASSEM U. A. (2006)
diskutiert. WikiWord benutzt beide: Konzepte aus einem lokalen Datensatz werden
über das namensbasierte URI-Schema adressiert, weil sie direkt einem Dokument in einem
Korpus zugeordnet werden können, nämlich dem Wikipedia-Artikel, der sie beschreibt. Eine solche
URI ist relativ stabil und unabhängig von dem Kontext, in dem das Konzept verarbeitet oder
betrachtet wird. Das Konzept wird dabei letztlich dadurch definiert, wie die Seite in derWikipedia
verwendet wird BLACK (2006).
Konzepte aus einem globalen Datensatz können auf diese Weise nicht adressiert werden: sie sind
nicht unbedingt einem, sondern möglicherweise mehreren Dokumenten zugeordnet. Außerdem
könnte dasselbe Konzept unterschiedlichen Mengen von Dokumenten zugeordnet sein, je nachdem,
welche Sprachen bei der Erstellung des mehrsprachigen Thesaurus betrachtet werden, wie
sich die Language-Links in den einzelnen Artikeln entwickeln oder ob neue Artikel hinzukommen,
die dieses Konzept beschreiben.
Daher verwendetWikiWord für globale Konzepte das zweite URI-Schema, das auf der internen ID
des Konzeptes beruht: diese ID bezieht sich direkt auf den konkreten Datensatz, sie ist also „empfindlich“
gegen jede Änderung an den Ausgangsdaten oder der Konfiguration von WikiWord. Um
nun URIs identifizieren zu können, die dasselbe Konzept in verschiedenen Datensätzen repräsentieren,
eignet sich die Methode des „semantic Handshake“: den sprachunabhängigen Konzepten
werden dazu über das Prädikat owl:sameAs „ihre“ sprachspezifischen Konzepte zugeordnet. Zwei
sprachunabhängige Konzepte aus unterschiedlichen globalen Datensätzen (also multilingualen
Thesauri) können dann als äquivalent angesehen werden, wenn sie beide mit dem selben sprachspezifischen
Konzept identifiziert sind (für das es ja eine stabile URI gibt).
Auf dieseWeise ergibt sich zwar keine eindeutige Zuordnung von Konzepten aus einem Thesaurus
zu Konzepten in dem anderen — eine solche Zuordnung existiert im allgemeinen gar nicht, da je
nach Konfiguration und Datenbasis lokale Konzepte unterschiedlich zu globalen gruppiert werden
können. Aber der semantic Handshake erlaubt doch in der Regel eine weitgehende semantische
Integration (vergleiche MAICHER (2007)).
10.2. Vokabulare
Basierend auf dem sehr einfachen Datenmodell von RDF sind eine Vielzahl von Standard-
Vokabularen definiert. Einige dieser Vokabulare werden auch von WikiWord eingesetzt:
RDF Schema (http://www.w3.org/2000/01/rdf-schema#, W3C:RDFS (2000), im
Folgenden rdfs) ist ein Vokabular, um RDF-Vokabulare zu beschreiben. Es definiert
10. Export 79
unter anderem Prädikate zum Ausbau einer Ableitungshierarchie von Klassen und
Eigenschaften.
Web Ontology Language (http://www.w3.org/2002/07/owl#, W3C:OWL (2004), im
Folgenden owl) ist ein Vokabular zum Aufbau von Ontologien. Ähnlich wie RDFS definiert
es Prädikate zur Beschreibung von Klassen und Eigenschaften sowie ihrer Beziehungen
untereinander, bietet dabei jedoch weit größere Ausdrucksmächtigkeit. Die Semantik von
OWL entspricht einer (gerade noch) entscheidbaren Untermenge der Prädikatenlogik erster
Stufe, der sogenannten Beschreibungslogik.
XML Schema (http://www.w3.org/2001/XMLSchema#, W3C:XSD (2004), im Folgenden
xsd) ist ein Vokabular zur Spezifikation von XML-Formaten. Im Kontext von RDF werden
aus dem XSD Vokabular fast ausschließlich die Datentypen verwendet, die es für Literale
definiert.
Dublin Core (http://purl.org/dc/elements/1.1/, DCME (2008), im Folgenden dc) ist ein
Vokabular zu Beschreibung von Medien. Es definiert unter anderem Prädikate zur Angabe
von Autoren, Quellen, Publikationsdaten, etc. Dublin Core wird vor allem für dokumentbezogene
Metadaten verwendet, unter anderem auch oft in HTML-Dateien und, in diesem
Fall, Thesauri.
Simple Knowledge Organization System (http://www.w3.org/2004/02/skos/core#,
W3C:SKOS (2004), im Folgenden skos) ist ein Vokabular zur Beschreibung einfacher
Wissensstrukturen, insbesondere entworfen für Thesauri, Taxonomien und ähnliche
sprachorientierte Wissensbasen MILES (2005B). Es definiert Relationen für den Aufbau
einer Subsumtionshierarchie von Konzepten, für die Angabe von Verwandtheit zwischen
Konzepten, sowie zur Zuweisung von Termen (Labels) zu Konzepten.
Das SKOS-Vokabular bietet sich zur Repräsentation der WikiWord-Daten an, da das
Datenmodell dem Modell der WikiWord-Datensätze bereits recht ähnlich ist (vergleiche
.4.2 und .C.1, siehe auch GREGOROWICZ UND KRAMER (2006), VAN ASSEM U. A. (2006)).
Zudem unterstützen zahlreicheWissensorganisationssysteme im Bereich der automatischen
Sprachverarbeitung und des Information Retrieval das SKOS-Vokabular zur Repräsentation
von Term-Konzept-Graphen.
Aus den Standard-Vokabularen werden vor allem die folgenden Klassen und Eigenschaften benutzt:
rdf:type weist einer RDF-Ressource einen Typ, also eine Klasse zu.
owl:sameAs gibt an, dass zwei RDF-Ressourcen identisch sind, dass also zwei URIs dasselbe
Ding bezeichnen.
skos:Concept ist die Klasse für Konzepte im Thesaurus.
skos:ConceptScheme ist die Klasse für den Thesaurus selbst.
skos:inScheme gibt an, zu welchem Thesaurus ein Konzept gehört.
10. Export 80
skos:broader und skos:narrower verbinden allgemeinere mit spezielleren Konzepten.
skos:related verbindet Konzepte, die miteinander semantisch verwandt sind.
skos:prefLabel gibt den bevorzugten Label für ein Konzept an. Muss pro Sprache und
Thesaurus (Scheme) eindeutig sein.
skos:altLabel gibt alternative Labels für ein Konzept an.
skos:definition ist die Definition eines Konzeptes, als Literal oder URL eines Dokumentes.
WikiWord definiert auch ein eigenes RDF-Vokabular (.F.3), das die Möglichkeiten von SKOS
etwas erweitert, um mehr Informationen aus den Datenmodellen repräsentieren zu können (vergleiche
VAN ASSEM U. A. (2006)). Das Programm ExportRdf (.10.3, .B.1) kann dieses Vokabular verwenden,
um einen Thesaurus zu beschreiben. Alternativ kann aber mit Hilfe der Option skos
aber auch die Ausgabe von „reinem“ SKOS erwirkt werden, um so (auf Kosten der Aussagekraft)
die Kompatibilität zu erhöhen.
Das WikiWord-Vokabular definiert die folgenden Prädikate:
ww:similar ist eine Relation, die semantische Ähnlichkeit zwischen zwei Konzepten ausdrückt
(siehe .9.1.3 und .C.2). Diese Beziehung ist Spezialisierung von skos:related.
ww:assoc ist eine Relation, die eine unspezifizierte Assoziation von Konzepten repräsentiert.
Diese Beziehung ist schwächer als skos:related und muss nicht symmetrisch sein. Sie
wird vor allem zur Repräsentation von Querverweisen (Hyperlinks) verwendet.
ww:concept-type ist die Klasse für Konzepttypen, wie in .8.6 beschrieben. Die Standard-
Konzepttypen sind im Namensraum http://brightbyte.de/vocab/wikiword/
concept-type# definiert.
ww:type bestimmt den Typ des Konzeptes, wie in .8.6 beschrieben. Die einzelnen Typen werden
als RDF-Ressourcen vom Typ ww:concept-type modelliert.
ww:displayLabel gibt (pro Sprache) einen Namen an, der zur Anzeige des Konzeptes verwendet
werden kann. Diese Eigenschaft ist ähnlich zu skos:prefLabel, mit einigen wichtigen
Unterschieden: ein Wert von ww:displayLabel kann auch gleichzeitig noch einmal als
Wert von skos:altLabel auftreten und ww:displayLabel impliziert auch nicht, dass der
Wert in natürlicher Sprache für das Konzept verwendet wird.
Den Konzepten sind Bewertungen und Ränge bezüglich verschiedener Maße zugeordnet (.9.3,
.C.2). Diese Werte können auch in RDF repräsentiert werden:
ww:score ist eine Relation, die einem Konzept eine Bewertung bezüglich irgend eines Maßes
zuweist. Bewertungen sind beliebige reelle Zahlen. Diese Relation dient als Basis für die im
Folgenden definierten spezifischen Bewertungen.
10. Export 81
ww:idfScore ist die Inverse Document Frquency.
ww:lhsScore ist der Local Hierarchy Score.
ww:inDegree ist die Anzahl der eingehenden Hyperlinks.
ww:outDegree ist die Anzahl der ausgehenden Hyperlinks.
ww:linkDegree ist die Summe der eingehenden und ausgehenden Hyperlinks.
Für die Bestimmung und Bedeutung der einzelnen Scores, siehe .9.3. Bezüglich jeder dieser
Bewertungen ist jedem Konzept ein Rang zugeordnet:
ww:rank ist eine Relation, die einem Konzept einen Rang bezüglich irgend eines Maßes zuweist.
Ränge sind natürliche Zahlen und ihre Zuordnung ist eindeutig insofern, als dass keine zwei
Konzepte in einem Thesaurus bezüglich desselben Maßes denselben Rang haben können.
Diese Relation dient als Basis für die im Folgenden definierten spezifischen Ränge.
ww:idfRank ist der Rang bezüglich der Inverse Document Frequency.
ww:lhsRank ist der Rang bezüglich des Local Hierarchy Score.
ww:inRank ist der Rang bezüglich der Anzahl der eingehenden Hyperlinks.
ww:outRank ist der Rang bezüglich der Anzahl der ausgehenden Hyperlinks.
ww:linkRank ist der Rang bezüglich der Summe der eingehenden und ausgehenden Hyperlinks.
10.3. Abbildung des Datenmodells auf RDF
Das in vorausgegangenen Kapiteln beschriebene Datenmodell (.4.2, .C.1) kann fast direkt auf
SKOS abgebildet werden, und zwar sowohl das lokale Datenmodell für einen monolingualen
als auch das globale Datenmodell für einen multilingualen Thesaurus. Diese Abbildung folgt
im Wesentlichen W3C (2005), MATTHEWS (2003) und VAN ASSEM U. A. (2006) sowie dem Vorgehen von
GREGOROWICZ UND KRAMER (2006). Dabei sind die RDF-Daten des multilingualen Thesaurus, anders als
bei den internen Datensätzen, unabhängig von den monolingualen Thesauri.
Der Export als RDF ist in der Klasse ExportRdf implementiert. Ausgehend von den internen
Datenmodellen werden RDF-Statements generiert, wobei verschiedene Optionen und Modi zu
berücksichtigen sind:
Monolingualer Thesaurus: Die Relationen aus dem lokalen Datensatz werden direkt ausgegeben.
10. Export 82
Multilingualer Thesaurus: Die Relationen aus dem globalen Datensatz werden direkt ausgegeben.
Für jede Sprache, auf die sich der globale Datensatz bezieht, werden die sprachspezifischen
Informationen aus dem entsprechenden lokalen Datensatz ausgelesen, mit den
globalen Konzepten verknüpft und ausgegeben. Alle Relationen beziehen sich auf globale
Konzepte.
skos-Option: Diese Option bewirkt, dass das WikiWord-Vokabular nicht verwendet und statt
dessen auf das SKOS-Vokabular zurückgegriffen wird. Das verbessert unter Umständen die
Kompatibilität, es gehen aber mehr Informationen verloren.
assoc-Option: Diese Option bewirkt, dass zusätzlich die ww:assoc-Relation ausgegeben
wird, die die Hyperlinks zwischen Wikipedia-Artikeln als „lose“ Assoziation der entsprechenden
Konzepte interpretiert.
noscore-Option: Diese Option bewirkt, dass keine Bewertungen und Rankings für die einzelnen
Konzepte ausgegeben werden.
cutoff und force-cutoff: Diese Optionen steuern das Cutoff-Verhalten für die
Termzuordnung, siehe .10.4.
min-langmatch: Diese Optionen bestimmt den Cutoff-Wert für die Bestimmung ähnlicher
Konzepte: sie gibt an, wie viele Language-Links zwei Konzepte gemeinsam haben müssen,
um als ähnlich angesehen zu werden (vergleiche .12.3).
Als erstes wird dem Thesaurus an sich (also dem Datensatz) nach dem oben beschriebenen Muster
eine URI zugeteilt und Metadaten zugewiesen. Dafür wird vor allem das Dublin Core Vokabular
verwendet:
rdf:type wird auf skos:ConceptScheme gesetzt, um anzugeben, dass es sich bei der Entität,
die die URI bezeichnet, um ein ConceptScheme im Sinne von SKOS handelt, also um eine
Wissensstruktur oder Konzept-Term Netz, wie sie ein konzeptorientierter Thesaurus darstellt.
dc:identifier weist dem Thesaurus eine eindeutige ID zu. Hier wird die URI des Thesaurus
als Literal angegeben.
dc:creator wird immer mit „WikiWord“ angegeben, da die Erzeugung ja vollautomatisch ist.
Wurde der Tweak-Wert rdf.dataset.qualifier definiert, so wird der angegebene Wert
hier mit ausgegeben, da der „Qualifier“ ja die Person oder Institution beschreiben soll, die
den Thesaurus generiert.
dc:created gibt den Zeitpunkt an, zu dem der Thesaurus exportiert wurde.
dc:title gibt den Titel des Thesaurus an, also den Namen des Datensatzes, inklusive der
Kollektion.
dc:description ist ein kurzer Text, der besagt, dass die Daten mittels WikiWord aus der
Wikipedia erzeugt wurden.
10. Export 83
dc:rights gibt Hinweise zum Urheberrecht an den Thesaurusdaten. Dieser Text besagt, dass der
Thesaurus automatisch erstellt wurde und daher nicht urheberrechtlich geschützt ist. Für die
Rechte an zitierten Texten aus derWikipedia, konkret also den Glossen, wird auf die GFDL
GFDL sowie die Autorenliste auf den betreffenden Wikipedia-Seiten verweisen.
dc:source gibt die Quelle der Thesaurusdaten an: das sind die Wikipedia-Projekte, aus denen
die Daten extrahiert wurden, repräsentiert durch ihre URL. Im Falle eines multilingualen
Thesaurus wird dieses Prädikat einmal für jede Sprache gesetzt.
dc:language gibt die Sprache der Thesaurusdaten an. Im Falle eines multilingualen Thesaurus
wird diese Eigenschaft nicht angegeben.
Bei einem multilingualen Thesaurus wird für jede enthaltene Sprache zusätzlich das
ConceptScheme für den betreffenden monolingualen Thesaurus deklariert: die URI des betreffenden
lokalen Datensatzes wird bestimmt und ihm werden die folgenden Prädikate
zugewiesen:
rdf:type wird auf skos:ConceptScheme gesetzt.
dc:language gibt die Sprache des lokalen Datensatzes an.
Die so deklarierten lokalen Thesauri werden später als ConceptScheme bei der Zuordnung von
sprachspezifischen Konzepten zu sprachunabhängigen Konzepten verwendet.
Für jedes Konzept im Datensatz wird nun eine URI bestimmt (nach einem geeigneten Verfahren, je
nachdem, ob es sich um einen multilingualen oder monolingualen Thesaurus handelt, siehe .10.1).
Den Konzepten werden dann die folgenden Eigenschaften zugewiesen:
rdf:type wird auf die Klasse skos:Concept gesetzt, um anzugeben, dass die URI ein SKOSKonzept
identifiziert.
skos:inScheme wird auf die URI des Thesaurus gesetzt, zu dem das Konzept gehört.
skos:definition wird die URL der Wiki-Seite zugewiesen, die dieses Konzept definiert —
diese Information wird dem Feld resource in der Tabelle concept entnommen (.C.2).
Im Falle eines multilingualen Thesaurus (und damit eines potentiell sprachübergreifenden
Konzeptes) wird für jede Sprache, in der das Konzept definiert ist, eineWiki-Seite zugewiesen;
die Zuordnung erfolgt dabei über die Tabelle origin (.C.2).
skos:definition wird noch einmal gesetzt, diesmal auf den Definitionssatz, der aus der
Wikipedia-Seite extrahiert wurde — der Text wird der Tabelle definition entnommen
(.C.2). Dabei wird die Sprache angegeben, in der die Definition verfasst ist. Im Falle eines
multilingualen Thesaurus würde für jede Sprache, in der das Konzept definiert ist, (potentiell)
eine Definition zugewiesen; die Zuordnung erfolgt dabei über die Tabelle origin.
10. Export 84
Für jedes Konzept werden außerdem verschiedene Bewertungen und Rankings angegeben, falls
diese in der Datenbank verfügbar sind (also falls sie mit BuildStatistics erzeugt wurden) und
nicht die skos-Option die Verwendung des WikiWord-Vokabulars verbietet oder die Ausgabe
dieser Eigenschaften mit der noscore-Option deaktiviert wurde. Es handelt sich im Einzelnen
um folgende Eigenschaften:
ww:idfScore und ww:idfRank sind die Inverse Document Frequency bzw. der Rang bezüglich
dieses Wertes.
ww:lhsScore und ww:lhsRank sind der Local Hierarchy Score bzw. der Rang bezüglich dieses
Wertes.
ww:inDegree und ww:inRank sind die Anzahl der eingehenden Hyperlinks bzw. der Rang bezüglich
dieses Wertes.
ww:outDegree und ww:outRank sind die Anzahl der ausgehenden Hyperlinks bzw. der Rang
bezüglich dieses Wertes.
ww:linkDegree und ww:linkRank sind die Summe der eingehenden und ausgehenden
Hyperlinks bzw. der Rang bezüglich dieses Wertes.
Diese Eigenschaften sind der Tabelle degree entnommen (.C.2). Für multilinguale Thesauri
wird außerdem für jedes sprachübergreifende Konzept seine Beziehung zu sprachspezifischen
Konzepten angegeben: über die Tabelle origin werden alle zugehörigen sprachspezifischen
Konzepte bestimmt. Diesen wird, nach dem Schema für den betreffenden lokalen Datensatz, eine
URI zugeordnet und dann die folgenden Eigenschaften definiert:
rdf:type wird auf skos:Concept gesetzt.
skos:inScheme wird auf die URI des lokalen Datensatzes gesetzt.
owl:sameAs wird auf die URI des sprachübergreifenden Konzeptes gesetzt; diese Relation ist
symmetrisch und wird auch explizit in beide Richtungen angegeben: auch das sprachübergreifende
Konzept bekommt über das Prädikat owl:sameAs das sprachspezifische Konzept
zugewiesen.
Diese Zuordnung drückt einen wichtigen Aspekt der Funktionsweise von WikiWord aus:
dasselbe Konzept kann in mehreren Korpora und unterschiedlichen Sprachen repräsentiert
sein. Die Eigenschaften des sprachübergreifenden Konzeptes ergeben sich aus der
Vereinigung der Eigenschaften einer Menge paarweise äquivalenter sprachspezifischer
Konzepte (.9.2.2). Jede der lokalen Repräsentationen und auch die sprachunabhängige, globale
Repräsentation des Konzeptes haben eine URI. Das OWL-Prädikat owl:sameAs wird
nun hier verwendet, um anzugeben, dass all diese URIs dasselbe Konzept bezeichnen.
Auf diese Weise ergibt sich auch eine Zuordnung von stabilen URIs für sprachspezifische
Konzepte zu einer instabilen URI eines sprachübergreifenden Konzeptes. So können die
URIs, die für dasselbe sprachübergreifende Konzept in unterschiedlichen multilingualen
Thesauri verwendet werden, gefunden und gleichgesetzt werden (Semantic Handshake).
10. Export 85
Terme im WikiWord-Modell, wie sie in der Tabelle meaning (.C.2) gespeichert sind, werden als
„Labels“ in SKOS interpretiert. Für alle Einträge der Bedeutungsrelation werden Statements mit
den folgenden Prädikaten erzeugt:
ww:displayLabel ist der Name des Konzeptes, der zur Anzeige verwendet werden kann, also
zur Repräsentation des Konzeptes in einer Benutzerschnittstelle. Der Wert wird dem Feld
name in der Tabelle concept entnommen — in einem lokalen Datensatz entspricht er auch
dem Namen der Wikipedia-Seite, die das Konzept definiert. Dieser Name muss nicht unbedingt
ein Wort oder ein Phrase aus der natürlichen Sprache sein, er kann künstlich erzeugt
werden3. Im Falle eines multilingualen Thesaurus wird der synthetische Name des globalen
Konzeptes verwendet (.9.2.2). Der Wert dieser Eigenschaft kann noch einmal als Wert
der Eigenschaft skos:altLabel vorkommen. ww:displayLabel wird nicht im skos-
Modus verwendet.
skos:prefLabel wird im skos-Modus als Alternative zu ww:displayLabel verwendet:
der Wert wird genau so wie oben beschrieben aus dem Namen des Konzeptes bestimmt.
Allerdings wird im Falle eines multilingualen Thesaurus dieser Wert für jede der betrachteten
Sprachen einzeln gesetzt (es werden also die Namen der einzelnen sprachspezifischen
Konzepte verwendet, nicht der Name des globalen Konzeptes). Auch hat skos:prefLabel,
nach der SKOS-Spezifikation, eine etwas andere Semantik als ww:displayLabel und ist
von allenWerten der Eigenschaft skos:altLabel in der betreffenden Sprache verschieden
(das heißt, die entsprechende Zuweisung des Wertes über das Prädikat skos:altLabel
wird übergangen).
skos:altLabel weist dem Konzept, für jede Sprache, eine Menge von Termen (Labels) zu.
Diese Terme sind alle Bezeichnungen, die für das Konzept über die Bedeutungsrelation der
Tabelle meaning definiert sind (mit Ausnahme desWerte von ww:displayLabel, falls diese
Eigenschaft gesetzt wurde). Im Falle eines multilingualen Thesaurus werden die Terme
für jede Sprache angegeben.
Bei diesem Export der Bedeutungsrelation geht eine wichtige Information verloren, die im lokalen
Datenmodell gespeichert ist: das Vertrauen (Confidence) in die Termzuordnung, wie sie
durch die Felder freq (Frequenz) und rule (Regel) der Tabelle meaning repräsentiert ist. Diese
Information kann nicht ohne weiteres in RDF ausgedrückt werden, da RDF nur binäre Relationen
kennt. Daher müssten die zusätzlichen Eigenschaften entweder als Prädikate einer Reifikation der
betreffenden Relation modelliert werden, oder das Objekt der Relation, also der Term, müsste als
komplexes Objekt definiert sein. Beide Wege sind mit einer deutlich höheren Komplexität des
Datenmodells und einem größeren Datenaufkommen verbunden. Diese Möglichkeiten auszuloten
geht über den Rahmen dieser Arbeit hinaus.
Allerdings kann die Information über das Vertrauen in die einzelnen Termzuordnungen dennoch
beim Export genutzt werden: Die Zuordnung von Terme an Konzept über das Prädikat
skos:altLabel kann danach gefiltert werden, wie verlässlich diese Zuordnung ist. Zuordnungen,
3insbesondere kommen häufig Klammerzusätze vor und Leerzeichen sind durch Unterstriche ersetzt.
10. Export 86
die nicht „sicher“ genug sind, werden dann übergangen („Cutoff “, siehe .10.4). Über diesen
Mechanismus lässt sich die Präzision der Termzuordnung auf Kosten der Abdeckung erhöhen.
Thesauri sind zumeist (poly-)hierarchisch entlang einer Subsumtionsrelation strukturiert, das
heißt, zu jedem Konzept werden allgemeinere und speziellere Konzepte angegeben. Zusätzlich
können Konzepte als „verwandt“ und/oder „ähnlich“ gekennzeichnet sein. Das drückt sich in den
folgenden RDF-Prädikaten aus:
skos:broader und skos:narrower sind reziproke Relationen, die Konzepte mit allgemeineren
bzw. spezielleren Konzepten verbinden und so die Subsumtionsrelation des Thesaurus
definieren. Diese Verbindungen werden direkt der Tabelle broader (.C.2) entnommen.
ww:similar verbindet zwei Konzepte, die zueinander semantisch „ähnlich“ sind; diese
Information wird während des Imports bestimmt (siehe .9.1.3) und dann beim Export den
Feldern langmatch und langref in der Tabelle relation (.C.2) entnommen, wobei mit
min-langmatch der Minimalwert für das langmatch angegeben werden kann. So kann
die Qualität der Ähnlichkeitsrelation bestimmt werden, siehe .12.3.
Paare von Konzepten, die bereits durch skos:broader oder skos:narrower verbunden
sind, werden nicht als ähnlich ausgegeben. Im skos-Modus wird skos:related statt
ww:similar verwendet.
skos:related verbindet zwei Konzepte, die miteinander semantisch „verwandt“ sind; diese
Information wird während des Imports bestimmt (siehe .9.1.3) und dann beim Export dem
Feld bilink in der Tabelle relation entnommen. Paare von Konzepten, die bereits durch
skos:broader, skos:narrower oder ww:similar verbunden sind, werden dabei übergangen.
Im skos-Modus werden „ähnliche“ Konzepte (siehe oben) einfach ebenfalls als
„verwandt“ behandelt.
ww:assoc repräsentiert eine „schwache“ Assoziation zwischen zwei Konzepten: sie spiegelt
die Verknüpfung durch Hyperlinks (Querverweise) wieder und wird der Tabelle link
entnommen. Per Default wird diese Relation nicht ausgegeben, sie kann aber über die
Option assoc aktiviert werden (falls nicht die Option skos gesetzt ist). Die Relation
ww:assoc wird nicht als symmetrisch betrachtet.
Im Ergebnis werden alle wesentlichen Informationen aus den internen Datenmodellen als RDFStrukturen
repräsentiert, die Ausgabe erfolgt serialisiert in Turtle-Notation BACKETT (2007). In
Anhang F.3 sind die RDF-Statements für einige Konzepte als Beispiele aufgeführt.
10.4. Cutoff
Obgleich Link-Texte eine gute Quelle für Bezeichnungen für Konzepte sind (vergleiche MIHALCEA
(2007)
sowie CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)), können sie doch
irreführend sein: es kommen Tippfehler vor, oder es wird irrtümlich auf das falsche Konzept
verwiesen. Eine Möglichkeit, solche Fehler zu vermeiden, ist das Gesetz der Großen Zahl: es
10. Export 87
werden einfach nur solche Terme als Bezeichnung für ein Konzept betrachtet, die oft genug als
Link-Text in Verknüpfungen zu diesem Konzept vorkamen — die verlangte minimale Zahl von
Wiederholungen (Frequenz) wird dann als Cutoff-Wert bezeichnet. Dabei ergibt sich ein Trade-
Off zwischen der Präzision (Precision) und der Abdeckung (Coverage)4 der Bedeutungsrelation:
ein hoher Cutoff-Wert liefert mit großer Wahrscheinlichkeit nur korrekte Bezeichnungen für ein
Konzept, schließt aber mit ebenfalls großerWahrscheinlichkeit auch korrekte Bezeichnungen aus,
die nützlich sein könnten.
Im dem von WikiWord verwendeten Datenmodell basiert die Bedeutungsrelation aber nicht
ausschließlich auf Link-Texten: Terme werden auch wegen anderer Informationen wie dem
Seitentitel, Weiterleitungen und Begriffsklärungen mit einem Konzept assoziiert (siehe .8.9 und
.9.1). Aufgrund welcher Regel die Termzuordnung erfolgt, wird bei der Analyse des Wiki-Textes
festgehalten und beim Aufbau der Bedeutungsrelation in der Tabelle meaning insoweit beibehalten,
dass aus dem Feld rule ersichtlich ist, ob die Zuordnung ausschließlich erfolgte, weil der
Term als Link-Text für dieses Konzept verwendet wurde (vergleiche .9.1.3 und .C.2).
Termzuweisungen, die nicht ausschließlich wegen einer Verwendung als Link-Text vorgenommen
wurden, können als explizite Zuweisung betrachtet werden – es ist anzunehmen, dass diese
Assoziationen eine höhere Qualität (also geringere Fehlerquote) haben als die Verwendungen als
Link-Text. Daher scheint es sinnvoll, den Cutoff-Wert nur für Termzuweisungen anzuwenden,
die nicht explizit vorgenommen wurden. Die im folgenden Kapitel beschriebenen Experimente
bestätigen diese Annahme (.12.5): werden explizite Zuordnungen unabhängig von der Frequenz
beibehalten, verschlechtert sich die Präzision nicht wesentlich, aber die Abdeckung steigt deutlich.
Dabei eignet sich, je nach Datenbasis und Präferenz für den Trade-Off zwischen Präzision
und Abdeckung, eine Mindestfrequenz von zwei oder drei als Cutoff-Wert.
In der Implementation durch ExportRdf wird der Cutoff durch die beiden folgenden Parameter
gesteuert:
cutoff N verlangt, dass eine Termzuordnung mindestens eine Frequenz von N haben muss, um
beim Export berücksichtigt zu werden.
force-cutoff erzwingt die Anwendung des Cutoff auch dann, wenn die Termzuweisung explizit
war.
Auf dieseWeise lässt sich der Qualitätsanspruch gegen die gewünschte Abdeckung abwägen. Der
Effekt der verschiedenen Cutoff-Modi wird in .12.5 evaluiert.
10.5. Topic Maps
Als Alternative zu RDF als Basis der Repräsentation des Thesaurus bieten sich Topic Maps an
REDMANN UND THOMAS (2007), GARSHOL (2004), ISO:13250 (2003). Topic Maps sind ein ISO-Standard für
4Im Gegensatz zum Recall, der sich auf das theoretisch zu erreichende Maximum bezieht, bezieht sich die Abdeckung
(Coverage) auf die Anzahl ohne Cutoff.
10. Export 88
die Darstellung von Wissensorganisationssystemen, beziehungsweise für die Repräsentation von
Konzepten (Topics) und ihren Beziehungen (Associations) und Bezeichnungen (Names). Sie haben
unter anderem die folgenden Eigenschaften, die für die Repräsentation der WikiWord-Daten
nützlich wären:
Scopes beschränken die Gültigkeit von Assoziationen und Namen auf bestimmte Kontexte —
über diesen Mechanismus lassen sich gut sprachspezifische Informationen integrieren.
Assoziationen unterstützen eine beliebige Anzahl von Akteuren, es ist also leicht, mehrstellige
Relationen zu repräsentieren.
Reifikation von Assoziationen wird direkt unterstützt und erlaubt damit eine einfache Integration
von Metadaten, zum Beispiel darüber, aus welcher Quelle eine Assoziation stammt oder
nach welcher Regel sie gebildet wurde.
Indicators vermeiden die Identitätskrise von URIs, da sie von Locators verschieden sind und es
so erlauben, dieselbe URI zu verwenden, um auf ein Dokument oder den Gegenstand eines
Dokuments zu verweisen, ohne Verwirrung zu stiften.
Andererseits ist die Semantik von Beziehungen in Topic Maps weitgehend unspezifiziert und es
gibt weniger standardisierte Vokabulare, die die Weiternutzung der Daten erleichtern würden.
Eine Abbildung der WikiWord-Daten auf Topic Maps und ein Vergleich des resultierenden
Modells mit dem RDF-Modell, das WikiWord generiert, konnte im Rahmen dieser Arbeit nicht
untersucht werden und verbleibt als Gegenstand künftiger Forschung.
Teil IV.
Evaluation


Upcoming Events

No records to display