History: DanielKinzler Chapter 10: Export

View page
Source of version: 1 (current)

10. Export 76
10.1. URIs
Ein wichtiger Aspekt der DatenreprÃ¤sentation auf der Basis von RDF ist es, gute URIs fÃ¼r die einzelnen
RDF-Ressourcen zu wÃ¤hlen. URIs sind universell eindeutige Bezeichner (Identifikatoren)
fÃ¼r eine beliebige Ressource (also irgend eine â€žSacheâ€œ), deren Syntax in [RFC:3986 (2005)] festgelegt
ist. URIs Ã¤hneln Ã¤uÃŸerlich stark URLs, unterscheiden sich aber insbesondere durch ihre Semantik
und Verwendung: URLs erlauben einen Zugriff auf eine elektronische Ressource, indem sie das
Zugriffsprotokoll sowie den Ort der Ressource angeben, wÃ¤hrend URIs die Ressource lediglich
eindeutig identifizieren [W3C:URI (2001)]. Dabei kann die URL eines Dokumentes gleichzeitig als
seine URI dienen, und umgekehrt kann die URI einer Ressource so gestaltet sein, dass sie als URL
der Ressource selbst, oder zumindest einer Beschreibung der Ressource fungieren kann.
Eine wichtige Eigenschaft von URIs (und idealerweise auch URLs) ist, dass die URI einer
Ressource mÃ¶glichst stabil bleibt, sich also nicht verÃ¤ndert, und dass sie mÃ¶glichst unabhÃ¤ngig
ist von rein technischen Aspekten wie dem physischen Speicherort und dem Datenformat [BERNERSLEE
(1998)]. Bei der Wahl von URIs ist daher auch entscheidend, wie aussagekrÃ¤ftig sie sind: beliebige
Bezeichner, die zum Beispiel auf automatisch zugewiesenen numerischen IDs in irgend
einer Datenbank basieren, sind weniger geeignet als URIs, die menschenlesbare Informationen
Ã¼ber die Ressource enthalten, fÃ¼r die sie stehen. Solche â€žlesbarenâ€œ URIs bleiben in der Regel Ã¼ber
die Zeit stabil, sind von technischen Gegebenheiten unabhÃ¤ngig und kÃ¶nnen hÃ¤ufig ohne zusÃ¤tzliches
Wissen aus einem Teil des Namens hergeleitet werden. Zum Beispiel kann die URL (und
URI) des Wikipedia-Artikels Wasser einfach durch Voranstellen eines PrÃ¤fix erzeugt werden:
<http://de.wikipedia.org/wiki/Wasser>.
Bei der Vergabe von URIs ist auÃŸerdem das Problem der IdentitÃ¤tskrise zu beachten [MILES (2005A),
PEPPER UND SCHWAB (2003), HALPIN (2006)], welches im Kontext von RDF hÃ¤ufig auftritt und oft nicht ausreichend
gelÃ¶st wird: Wenn ein Dokument gegeben ist, das ein bestimmtes Konzept beschreibt,
dann liegt es nahe, die URL des Dokuments als URI fÃ¼r dieses Konzept zu verwenden. Das
wÃ¤re aber ein Fehler, da dann nicht zwischen dem Dokument selbst und dem Gegenstand des
Dokuments unterschieden werden kann. Wenn wir zum Beispiel die URL der Wikipedia-Seite
http://de.wikipedia.org/wiki/Urfaust als URI fÃ¼r das Konzept URFAUST ansehen und
dementsprechend JOHANN_WOLFGANG_VON_GOETHE als Autor zuordnen, fÃ¼hrt das zu Verwirrung,
weil Goethe dann als Mitautor derWikipedia-Seite verstanden werden kÃ¶nnte. Es muss daher stets
zwischen der URI des Dokumentes (die meist gleich der URL ist) und der URI fÃ¼r das Konzept,
das das Dokument beschreibt, unterschieden werden â€” wobei die URI des Konzeptes durchaus
auch als URL fÃ¼r das betreffende Dokument dienen kann: die URLs dÃ¼rfen zu denselben Daten
fÃ¼hren, solange bei der Verwendung der URIs klar zwischen Dokument und Konzept unterschieden
wird.
Es ist auÃŸerdem der Unterschied zwischen RDF-Ressourcen und WikiWord-Ressourcen zu beachten:
eine RDF-Ressource ist irgendein durch eine URI identifiziertes Objekt, das Gegenstand
von Aussagen (RDF-Statements) sein kann; eine WikiWord-Ressource ist dagegen immer eine
Wikipedia-Seite. In dem hier beschriebenen RDF-basierten Datenmodell werden unter anderem
WikiWord-Konzepte, Wikipedia-Seiten (also WikiWord-Ressource), Korpora und Konzepttypen
durch RDF-Ressourcen modelliert â€” was nichts weiter heiÃŸt, als dass ihnen eine eindeutige URI
zugewiesen wird.
10. Export 77
ZusÃ¤tzlich zu den in .10.2 beschriebenen Standard-Vokabularen benutzt WikiWord die folgenden
URI-Schemata fÃ¼r die ReprÃ¤sentation der Thesaurusdaten:
http://Sprache.wikipedia.org/wiki/Seitentitel: Die URL einer Wikipedia-Seite reprÃ¤sentiert
die Seite selbst als Ressource.
http://brightbyte.de/vocab/wikiword#Element: Dieses URI-Schema dient als Basis fÃ¼r
das Vokabular, das zur ReprÃ¤sentation derWikiWord-Strukturen in RDF definiert ist. Es enthÃ¤lt
verschiedene Datentypen und PrÃ¤dikate, die weiter unten beschrieben und in der Datei
/WikiWord/WikiWord/src/main/wikiword.rdf auf der beiliegenden CD oder online
unter <http://brightbyte.de/DA/WikiWord/WikiWord/src/main/wikiword.
rdf> formal definiert werden. In Folgenden wird der URI-PrÃ¤fix desWikiWord-Vokabulars
entsprechend der QName-Notation mit ww abgekÃ¼rzt.
http://brightbyte.de/vocab/wikiword/concept-type#Konzepttyp: Dieses URISchema
wird fÃ¼r die Codes der Konzepttypen verwendet (siehe .8.6).
http://brightbyte.de/vocab/wikiword/resource-type#Seitentyp: Dieses URISchema
wird fÃ¼r die Codes der Ressourcetypen verwendet (siehe .8.5). Allerdings
werden Ressourcetypen in der hier beschriebenen ReprÃ¤sentation des Thesaurus nicht
wiedergegebenâ€” sie werden vor allem wÃ¤hrend des Imports benÃ¶tigt.
http://brightbyte.de/vocab/wikiword/dataset/Qualifier/Kollektion:Datensatz:
Dieses URI-Schema wird fÃ¼r die eindeutige Identifizierung von DatensÃ¤tzen benutzt: dabei
stehen Datensatz und Kollektion fÃ¼r den Namen des Datensatzes und die Datensatz-
Kollektion wie eingangs in .1.1 beschrieben. Qualifier reprÃ¤sentiert einen Bezeichner
(zum Beispiel einen Domain Name) der Organisation, die den Datensatz erstellt. Er
kann Ã¼ber den Tweak-Wert rdf.dataset.qualifier konfiguriert werden. Aus der
Kombination dieser Angaben ergibt sich idealerweise eine global eindeutige URI fÃ¼r den
Datensatz.
http://brightbyte.de/vocab/wikiword/concept/from/Korpus-URL/Seitentitel:
Dieses URI-Schema reprÃ¤sentiert Konzepte anhand eines eindeutigen Seitennamens in
einem Korpus. Korpus-URL ist dabei die URI (bzw. URL) des Korpus (typischerweise,
aber nicht unbedingt, eines Wikipedia-Projektes) und Seitentitel ist der Name der
Ressource in diesem Korpus, die das gewÃ¼nschte Konzept definiert oder beschreibt. Dieser
Weg der Identifikation von RDF-Ressourcen sollte bevorzugt werden, wenn das Konzept
eindeutig einem Dokument in einem Korpus zugeordnet werden kann. Solche URIs sind
relativ stabil gegenÃ¼ber Ã„nderungen an der Datenbasis2 und dem Modus der Verarbeitung.
http://brightbyte.de/vocab/wikiword/concept/in/Thesaurus-URI/Konzept-ID:
Dieses URI-Schema reprÃ¤sentiert Konzepte anhand ihrer eindeutigen, numerischen
ID innerhalb eines Datensatzes. Thesaurus-URI ist dabei die URI eines Datensatzes
2Es kommt vor, dass sich der in der Wikipedia fÃ¼r ein Konzept verwendete Seitentitel Ã¤ndert. Dabei wird aber nur
selten ein Titel gewÃ¤hlt, der vorher fÃ¼r ein anderes Konzept verwendet wurde. Meist wird auch der alte Titel als
Weiterleitung (Alias) behalten. Vergleiche [HEPP U. A. (2006)].
10. Export 78
(typischerweise, aber nicht unbedingt, wie oben beschrieben) und Konzept-ID ist die
numerische ID, in hexadezimaler Notation, mit einem vorangestellten â€žxâ€œ. Dieser Weg der
Identifikation von RDF-Ressourcen kann verwendet werden, wenn die direkte Adressierung
Ã¼ber einen Namen nicht mÃ¶glich ist. Solche URIs sind instabil insofern, als dass sie fÃ¼r
alternative oder zukÃ¼nftige Versionen des Thesaurus nutzlos sind.
Die zwei unterschiedlichen Wege, eine URI fÃ¼r ein Konzept zu bestimmen, werden auch in [VAN
ASSEM U. A. (2006)] diskutiert. WikiWord benutzt beide: Konzepte aus einem lokalen Datensatz werden
Ã¼ber das namensbasierte URI-Schema adressiert, weil sie direkt einem Dokument in einem
Korpus zugeordnet werden kÃ¶nnen, nÃ¤mlich dem Wikipedia-Artikel, der sie beschreibt. Eine solche
URI ist relativ stabil und unabhÃ¤ngig von dem Kontext, in dem das Konzept verarbeitet oder
betrachtet wird. Das Konzept wird dabei letztlich dadurch definiert, wie die Seite in derWikipedia
verwendet wird [BLACK (2006)].
Konzepte aus einem globalen Datensatz kÃ¶nnen auf diese Weise nicht adressiert werden: sie sind
nicht unbedingt einem, sondern mÃ¶glicherweise mehreren Dokumenten zugeordnet. AuÃŸerdem
kÃ¶nnte dasselbe Konzept unterschiedlichen Mengen von Dokumenten zugeordnet sein, je nachdem,
welche Sprachen bei der Erstellung des mehrsprachigen Thesaurus betrachtet werden, wie
sich die Language-Links in den einzelnen Artikeln entwickeln oder ob neue Artikel hinzukommen,
die dieses Konzept beschreiben.
Daher verwendetWikiWord fÃ¼r globale Konzepte das zweite URI-Schema, das auf der internen ID
des Konzeptes beruht: diese ID bezieht sich direkt auf den konkreten Datensatz, sie ist also â€žempfindlichâ€œ
gegen jede Ã„nderung an den Ausgangsdaten oder der Konfiguration von WikiWord. Um
nun URIs identifizieren zu kÃ¶nnen, die dasselbe Konzept in verschiedenen DatensÃ¤tzen reprÃ¤sentieren,
eignet sich die Methode des â€žsemantic Handshakeâ€œ: den sprachunabhÃ¤ngigen Konzepten
werden dazu Ã¼ber das PrÃ¤dikat owl:sameAs â€žihreâ€œ sprachspezifischen Konzepte zugeordnet. Zwei
sprachunabhÃ¤ngige Konzepte aus unterschiedlichen globalen DatensÃ¤tzen (also multilingualen
Thesauri) kÃ¶nnen dann als Ã¤quivalent angesehen werden, wenn sie beide mit dem selben sprachspezifischen
Konzept identifiziert sind (fÃ¼r das es ja eine stabile URI gibt).
Auf dieseWeise ergibt sich zwar keine eindeutige Zuordnung von Konzepten aus einem Thesaurus
zu Konzepten in dem anderen â€” eine solche Zuordnung existiert im allgemeinen gar nicht, da je
nach Konfiguration und Datenbasis lokale Konzepte unterschiedlich zu globalen gruppiert werden
kÃ¶nnen. Aber der semantic Handshake erlaubt doch in der Regel eine weitgehende semantische
Integration (vergleiche [MAICHER (2007)]).
10.2. Vokabulare
Basierend auf dem sehr einfachen Datenmodell von RDF sind eine Vielzahl von Standard-
Vokabularen definiert. Einige dieser Vokabulare werden auch von WikiWord eingesetzt:
RDF Schema (http://www.w3.org/2000/01/rdf-schema#, [W3C:RDFS (2000)], im
Folgenden rdfs) ist ein Vokabular, um RDF-Vokabulare zu beschreiben. Es definiert
10. Export 79
unter anderem PrÃ¤dikate zum Ausbau einer Ableitungshierarchie von Klassen und
Eigenschaften.
Web Ontology Language (http://www.w3.org/2002/07/owl#, [W3C:OWL (2004)], im
Folgenden owl) ist ein Vokabular zum Aufbau von Ontologien. Ã„hnlich wie RDFS definiert
es PrÃ¤dikate zur Beschreibung von Klassen und Eigenschaften sowie ihrer Beziehungen
untereinander, bietet dabei jedoch weit grÃ¶ÃŸere AusdrucksmÃ¤chtigkeit. Die Semantik von
OWL entspricht einer (gerade noch) entscheidbaren Untermenge der PrÃ¤dikatenlogik erster
Stufe, der sogenannten Beschreibungslogik.
XML Schema (http://www.w3.org/2001/XMLSchema#, [W3C:XSD (2004)], im Folgenden
xsd) ist ein Vokabular zur Spezifikation von XML-Formaten. Im Kontext von RDF werden
aus dem XSD Vokabular fast ausschlieÃŸlich die Datentypen verwendet, die es fÃ¼r Literale
definiert.
Dublin Core (http://purl.org/dc/elements/1.1/, [DCME (2008)], im Folgenden dc) ist ein
Vokabular zu Beschreibung von Medien. Es definiert unter anderem PrÃ¤dikate zur Angabe
von Autoren, Quellen, Publikationsdaten, etc. Dublin Core wird vor allem fÃ¼r dokumentbezogene
Metadaten verwendet, unter anderem auch oft in HTML-Dateien und, in diesem
Fall, Thesauri.
Simple Knowledge Organization System (http://www.w3.org/2004/02/skos/core#,
[W3C:SKOS (2004)], im Folgenden skos) ist ein Vokabular zur Beschreibung einfacher
Wissensstrukturen, insbesondere entworfen fÃ¼r Thesauri, Taxonomien und Ã¤hnliche
sprachorientierte Wissensbasen [MILES (2005B)]. Es definiert Relationen fÃ¼r den Aufbau
einer Subsumtionshierarchie von Konzepten, fÃ¼r die Angabe von Verwandtheit zwischen
Konzepten, sowie zur Zuweisung von Termen (Labels) zu Konzepten.
Das SKOS-Vokabular bietet sich zur ReprÃ¤sentation der WikiWord-Daten an, da das
Datenmodell dem Modell der WikiWord-DatensÃ¤tze bereits recht Ã¤hnlich ist (vergleiche
.4.2 und .C.1, siehe auch [GREGOROWICZ UND KRAMER (2006), VAN ASSEM U. A. (2006)]).
Zudem unterstÃ¼tzen zahlreicheWissensorganisationssysteme im Bereich der automatischen
Sprachverarbeitung und des Information Retrieval das SKOS-Vokabular zur ReprÃ¤sentation
von Term-Konzept-Graphen.
Aus den Standard-Vokabularen werden vor allem die folgenden Klassen und Eigenschaften benutzt:
rdf:type weist einer RDF-Ressource einen Typ, also eine Klasse zu.
owl:sameAs gibt an, dass zwei RDF-Ressourcen identisch sind, dass also zwei URIs dasselbe
Ding bezeichnen.
skos:Concept ist die Klasse fÃ¼r Konzepte im Thesaurus.
skos:ConceptScheme ist die Klasse fÃ¼r den Thesaurus selbst.
skos:inScheme gibt an, zu welchem Thesaurus ein Konzept gehÃ¶rt.
10. Export 80
skos:broader und skos:narrower verbinden allgemeinere mit spezielleren Konzepten.
skos:related verbindet Konzepte, die miteinander semantisch verwandt sind.
skos:prefLabel gibt den bevorzugten Label fÃ¼r ein Konzept an. Muss pro Sprache und
Thesaurus (Scheme) eindeutig sein.
skos:altLabel gibt alternative Labels fÃ¼r ein Konzept an.
skos:definition ist die Definition eines Konzeptes, als Literal oder URL eines Dokumentes.
WikiWord definiert auch ein eigenes RDF-Vokabular (.F.3), das die MÃ¶glichkeiten von SKOS
etwas erweitert, um mehr Informationen aus den Datenmodellen reprÃ¤sentieren zu kÃ¶nnen (vergleiche
[VAN ASSEM U. A. (2006)]). Das Programm ExportRdf (.10.3, .B.1) kann dieses Vokabular verwenden,
um einen Thesaurus zu beschreiben. Alternativ kann aber mit Hilfe der Option skos
aber auch die Ausgabe von â€žreinemâ€œ SKOS erwirkt werden, um so (auf Kosten der Aussagekraft)
die KompatibilitÃ¤t zu erhÃ¶hen.
Das WikiWord-Vokabular definiert die folgenden PrÃ¤dikate:
ww:similar ist eine Relation, die semantische Ã„hnlichkeit zwischen zwei Konzepten ausdrÃ¼ckt
(siehe .9.1.3 und .C.2). Diese Beziehung ist Spezialisierung von skos:related.
ww:assoc ist eine Relation, die eine unspezifizierte Assoziation von Konzepten reprÃ¤sentiert.
Diese Beziehung ist schwÃ¤cher als skos:related und muss nicht symmetrisch sein. Sie
wird vor allem zur ReprÃ¤sentation von Querverweisen (Hyperlinks) verwendet.
ww:concept-type ist die Klasse fÃ¼r Konzepttypen, wie in .8.6 beschrieben. Die Standard-
Konzepttypen sind im Namensraum http://brightbyte.de/vocab/wikiword/
concept-type# definiert.
ww:type bestimmt den Typ des Konzeptes, wie in .8.6 beschrieben. Die einzelnen Typen werden
als RDF-Ressourcen vom Typ ww:concept-type modelliert.
ww:displayLabel gibt (pro Sprache) einen Namen an, der zur Anzeige des Konzeptes verwendet
werden kann. Diese Eigenschaft ist Ã¤hnlich zu skos:prefLabel, mit einigen wichtigen
Unterschieden: ein Wert von ww:displayLabel kann auch gleichzeitig noch einmal als
Wert von skos:altLabel auftreten und ww:displayLabel impliziert auch nicht, dass der
Wert in natÃ¼rlicher Sprache fÃ¼r das Konzept verwendet wird.
Den Konzepten sind Bewertungen und RÃ¤nge bezÃ¼glich verschiedener MaÃŸe zugeordnet (.9.3,
.C.2). Diese Werte kÃ¶nnen auch in RDF reprÃ¤sentiert werden:
ww:score ist eine Relation, die einem Konzept eine Bewertung bezÃ¼glich irgend eines MaÃŸes
zuweist. Bewertungen sind beliebige reelle Zahlen. Diese Relation dient als Basis fÃ¼r die im
Folgenden definierten spezifischen Bewertungen.
10. Export 81
ww:idfScore ist die Inverse Document Frquency.
ww:lhsScore ist der Local Hierarchy Score.
ww:inDegree ist die Anzahl der eingehenden Hyperlinks.
ww:outDegree ist die Anzahl der ausgehenden Hyperlinks.
ww:linkDegree ist die Summe der eingehenden und ausgehenden Hyperlinks.
FÃ¼r die Bestimmung und Bedeutung der einzelnen Scores, siehe .9.3. BezÃ¼glich jeder dieser
Bewertungen ist jedem Konzept ein Rang zugeordnet:
ww:rank ist eine Relation, die einem Konzept einen Rang bezÃ¼glich irgend eines MaÃŸes zuweist.
RÃ¤nge sind natÃ¼rliche Zahlen und ihre Zuordnung ist eindeutig insofern, als dass keine zwei
Konzepte in einem Thesaurus bezÃ¼glich desselben MaÃŸes denselben Rang haben kÃ¶nnen.
Diese Relation dient als Basis fÃ¼r die im Folgenden definierten spezifischen RÃ¤nge.
ww:idfRank ist der Rang bezÃ¼glich der Inverse Document Frequency.
ww:lhsRank ist der Rang bezÃ¼glich des Local Hierarchy Score.
ww:inRank ist der Rang bezÃ¼glich der Anzahl der eingehenden Hyperlinks.
ww:outRank ist der Rang bezÃ¼glich der Anzahl der ausgehenden Hyperlinks.
ww:linkRank ist der Rang bezÃ¼glich der Summe der eingehenden und ausgehenden Hyperlinks.
10.3. Abbildung des Datenmodells auf RDF
Das in vorausgegangenen Kapiteln beschriebene Datenmodell (.4.2, .C.1) kann fast direkt auf
SKOS abgebildet werden, und zwar sowohl das lokale Datenmodell fÃ¼r einen monolingualen
als auch das globale Datenmodell fÃ¼r einen multilingualen Thesaurus. Diese Abbildung folgt
im Wesentlichen [W3C (2005), MATTHEWS (2003)] und [VAN ASSEM U. A. (2006)] sowie dem Vorgehen von
[GREGOROWICZ UND KRAMER (2006)]. Dabei sind die RDF-Daten des multilingualen Thesaurus, anders als
bei den internen DatensÃ¤tzen, unabhÃ¤ngig von den monolingualen Thesauri.
Der Export als RDF ist in der Klasse ExportRdf implementiert. Ausgehend von den internen
Datenmodellen werden RDF-Statements generiert, wobei verschiedene Optionen und Modi zu
berÃ¼cksichtigen sind:
Monolingualer Thesaurus: Die Relationen aus dem lokalen Datensatz werden direkt ausgegeben.
10. Export 82
Multilingualer Thesaurus: Die Relationen aus dem globalen Datensatz werden direkt ausgegeben.
FÃ¼r jede Sprache, auf die sich der globale Datensatz bezieht, werden die sprachspezifischen
Informationen aus dem entsprechenden lokalen Datensatz ausgelesen, mit den
globalen Konzepten verknÃ¼pft und ausgegeben. Alle Relationen beziehen sich auf globale
Konzepte.
skos-Option: Diese Option bewirkt, dass das WikiWord-Vokabular nicht verwendet und statt
dessen auf das SKOS-Vokabular zurÃ¼ckgegriffen wird. Das verbessert unter UmstÃ¤nden die
KompatibilitÃ¤t, es gehen aber mehr Informationen verloren.
assoc-Option: Diese Option bewirkt, dass zusÃ¤tzlich die ww:assoc-Relation ausgegeben
wird, die die Hyperlinks zwischen Wikipedia-Artikeln als â€žloseâ€œ Assoziation der entsprechenden
Konzepte interpretiert.
noscore-Option: Diese Option bewirkt, dass keine Bewertungen und Rankings fÃ¼r die einzelnen
Konzepte ausgegeben werden.
cutoff und force-cutoff: Diese Optionen steuern das Cutoff-Verhalten fÃ¼r die
Termzuordnung, siehe .10.4.
min-langmatch: Diese Optionen bestimmt den Cutoff-Wert fÃ¼r die Bestimmung Ã¤hnlicher
Konzepte: sie gibt an, wie viele Language-Links zwei Konzepte gemeinsam haben mÃ¼ssen,
um als Ã¤hnlich angesehen zu werden (vergleiche .12.3).
Als erstes wird dem Thesaurus an sich (also dem Datensatz) nach dem oben beschriebenen Muster
eine URI zugeteilt und Metadaten zugewiesen. DafÃ¼r wird vor allem das Dublin Core Vokabular
verwendet:
rdf:type wird auf skos:ConceptScheme gesetzt, um anzugeben, dass es sich bei der EntitÃ¤t,
die die URI bezeichnet, um ein ConceptScheme im Sinne von SKOS handelt, also um eine
Wissensstruktur oder Konzept-Term Netz, wie sie ein konzeptorientierter Thesaurus darstellt.
dc:identifier weist dem Thesaurus eine eindeutige ID zu. Hier wird die URI des Thesaurus
als Literal angegeben.
dc:creator wird immer mit â€žWikiWordâ€œ angegeben, da die Erzeugung ja vollautomatisch ist.
Wurde der Tweak-Wert rdf.dataset.qualifier definiert, so wird der angegebene Wert
hier mit ausgegeben, da der â€žQualifierâ€œ ja die Person oder Institution beschreiben soll, die
den Thesaurus generiert.
dc:created gibt den Zeitpunkt an, zu dem der Thesaurus exportiert wurde.
dc:title gibt den Titel des Thesaurus an, also den Namen des Datensatzes, inklusive der
Kollektion.
dc:description ist ein kurzer Text, der besagt, dass die Daten mittels WikiWord aus der
Wikipedia erzeugt wurden.
10. Export 83
dc:rights gibt Hinweise zum Urheberrecht an den Thesaurusdaten. Dieser Text besagt, dass der
Thesaurus automatisch erstellt wurde und daher nicht urheberrechtlich geschÃ¼tzt ist. FÃ¼r die
Rechte an zitierten Texten aus derWikipedia, konkret also den Glossen, wird auf die GFDL
[GFDL] sowie die Autorenliste auf den betreffenden Wikipedia-Seiten verweisen.
dc:source gibt die Quelle der Thesaurusdaten an: das sind die Wikipedia-Projekte, aus denen
die Daten extrahiert wurden, reprÃ¤sentiert durch ihre URL. Im Falle eines multilingualen
Thesaurus wird dieses PrÃ¤dikat einmal fÃ¼r jede Sprache gesetzt.
dc:language gibt die Sprache der Thesaurusdaten an. Im Falle eines multilingualen Thesaurus
wird diese Eigenschaft nicht angegeben.
Bei einem multilingualen Thesaurus wird fÃ¼r jede enthaltene Sprache zusÃ¤tzlich das
ConceptScheme fÃ¼r den betreffenden monolingualen Thesaurus deklariert: die URI des betreffenden
lokalen Datensatzes wird bestimmt und ihm werden die folgenden PrÃ¤dikate
zugewiesen:
rdf:type wird auf skos:ConceptScheme gesetzt.
dc:language gibt die Sprache des lokalen Datensatzes an.
Die so deklarierten lokalen Thesauri werden spÃ¤ter als ConceptScheme bei der Zuordnung von
sprachspezifischen Konzepten zu sprachunabhÃ¤ngigen Konzepten verwendet.
FÃ¼r jedes Konzept im Datensatz wird nun eine URI bestimmt (nach einem geeigneten Verfahren, je
nachdem, ob es sich um einen multilingualen oder monolingualen Thesaurus handelt, siehe .10.1).
Den Konzepten werden dann die folgenden Eigenschaften zugewiesen:
rdf:type wird auf die Klasse skos:Concept gesetzt, um anzugeben, dass die URI ein SKOSKonzept
identifiziert.
skos:inScheme wird auf die URI des Thesaurus gesetzt, zu dem das Konzept gehÃ¶rt.
skos:definition wird die URL der Wiki-Seite zugewiesen, die dieses Konzept definiert â€”
diese Information wird dem Feld resource in der Tabelle concept entnommen (.C.2).
Im Falle eines multilingualen Thesaurus (und damit eines potentiell sprachÃ¼bergreifenden
Konzeptes) wird fÃ¼r jede Sprache, in der das Konzept definiert ist, eineWiki-Seite zugewiesen;
die Zuordnung erfolgt dabei Ã¼ber die Tabelle origin (.C.2).
skos:definition wird noch einmal gesetzt, diesmal auf den Definitionssatz, der aus der
Wikipedia-Seite extrahiert wurde â€” der Text wird der Tabelle definition entnommen
(.C.2). Dabei wird die Sprache angegeben, in der die Definition verfasst ist. Im Falle eines
multilingualen Thesaurus wÃ¼rde fÃ¼r jede Sprache, in der das Konzept definiert ist, (potentiell)
eine Definition zugewiesen; die Zuordnung erfolgt dabei Ã¼ber die Tabelle origin.
10. Export 84
FÃ¼r jedes Konzept werden auÃŸerdem verschiedene Bewertungen und Rankings angegeben, falls
diese in der Datenbank verfÃ¼gbar sind (also falls sie mit BuildStatistics erzeugt wurden) und
nicht die skos-Option die Verwendung des WikiWord-Vokabulars verbietet oder die Ausgabe
dieser Eigenschaften mit der noscore-Option deaktiviert wurde. Es handelt sich im Einzelnen
um folgende Eigenschaften:
ww:idfScore und ww:idfRank sind die Inverse Document Frequency bzw. der Rang bezÃ¼glich
dieses Wertes.
ww:lhsScore und ww:lhsRank sind der Local Hierarchy Score bzw. der Rang bezÃ¼glich dieses
Wertes.
ww:inDegree und ww:inRank sind die Anzahl der eingehenden Hyperlinks bzw. der Rang bezÃ¼glich
dieses Wertes.
ww:outDegree und ww:outRank sind die Anzahl der ausgehenden Hyperlinks bzw. der Rang
bezÃ¼glich dieses Wertes.
ww:linkDegree und ww:linkRank sind die Summe der eingehenden und ausgehenden
Hyperlinks bzw. der Rang bezÃ¼glich dieses Wertes.
Diese Eigenschaften sind der Tabelle degree entnommen (.C.2). FÃ¼r multilinguale Thesauri
wird auÃŸerdem fÃ¼r jedes sprachÃ¼bergreifende Konzept seine Beziehung zu sprachspezifischen
Konzepten angegeben: Ã¼ber die Tabelle origin werden alle zugehÃ¶rigen sprachspezifischen
Konzepte bestimmt. Diesen wird, nach dem Schema fÃ¼r den betreffenden lokalen Datensatz, eine
URI zugeordnet und dann die folgenden Eigenschaften definiert:
rdf:type wird auf skos:Concept gesetzt.
skos:inScheme wird auf die URI des lokalen Datensatzes gesetzt.
owl:sameAs wird auf die URI des sprachÃ¼bergreifenden Konzeptes gesetzt; diese Relation ist
symmetrisch und wird auch explizit in beide Richtungen angegeben: auch das sprachÃ¼bergreifende
Konzept bekommt Ã¼ber das PrÃ¤dikat owl:sameAs das sprachspezifische Konzept
zugewiesen.
Diese Zuordnung drÃ¼ckt einen wichtigen Aspekt der Funktionsweise von WikiWord aus:
dasselbe Konzept kann in mehreren Korpora und unterschiedlichen Sprachen reprÃ¤sentiert
sein. Die Eigenschaften des sprachÃ¼bergreifenden Konzeptes ergeben sich aus der
Vereinigung der Eigenschaften einer Menge paarweise Ã¤quivalenter sprachspezifischer
Konzepte (.9.2.2). Jede der lokalen ReprÃ¤sentationen und auch die sprachunabhÃ¤ngige, globale
ReprÃ¤sentation des Konzeptes haben eine URI. Das OWL-PrÃ¤dikat owl:sameAs wird
nun hier verwendet, um anzugeben, dass all diese URIs dasselbe Konzept bezeichnen.
Auf diese Weise ergibt sich auch eine Zuordnung von stabilen URIs fÃ¼r sprachspezifische
Konzepte zu einer instabilen URI eines sprachÃ¼bergreifenden Konzeptes. So kÃ¶nnen die
URIs, die fÃ¼r dasselbe sprachÃ¼bergreifende Konzept in unterschiedlichen multilingualen
Thesauri verwendet werden, gefunden und gleichgesetzt werden (Semantic Handshake).
10. Export 85
Terme im WikiWord-Modell, wie sie in der Tabelle meaning (.C.2) gespeichert sind, werden als
â€žLabelsâ€œ in SKOS interpretiert. FÃ¼r alle EintrÃ¤ge der Bedeutungsrelation werden Statements mit
den folgenden PrÃ¤dikaten erzeugt:
ww:displayLabel ist der Name des Konzeptes, der zur Anzeige verwendet werden kann, also
zur ReprÃ¤sentation des Konzeptes in einer Benutzerschnittstelle. Der Wert wird dem Feld
name in der Tabelle concept entnommen â€” in einem lokalen Datensatz entspricht er auch
dem Namen der Wikipedia-Seite, die das Konzept definiert. Dieser Name muss nicht unbedingt
ein Wort oder ein Phrase aus der natÃ¼rlichen Sprache sein, er kann kÃ¼nstlich erzeugt
werden3. Im Falle eines multilingualen Thesaurus wird der synthetische Name des globalen
Konzeptes verwendet (.9.2.2). Der Wert dieser Eigenschaft kann noch einmal als Wert
der Eigenschaft skos:altLabel vorkommen. ww:displayLabel wird nicht im skos-
Modus verwendet.
skos:prefLabel wird im skos-Modus als Alternative zu ww:displayLabel verwendet:
der Wert wird genau so wie oben beschrieben aus dem Namen des Konzeptes bestimmt.
Allerdings wird im Falle eines multilingualen Thesaurus dieser Wert fÃ¼r jede der betrachteten
Sprachen einzeln gesetzt (es werden also die Namen der einzelnen sprachspezifischen
Konzepte verwendet, nicht der Name des globalen Konzeptes). Auch hat skos:prefLabel,
nach der SKOS-Spezifikation, eine etwas andere Semantik als ww:displayLabel und ist
von allenWerten der Eigenschaft skos:altLabel in der betreffenden Sprache verschieden
(das heiÃŸt, die entsprechende Zuweisung des Wertes Ã¼ber das PrÃ¤dikat skos:altLabel
wird Ã¼bergangen).
skos:altLabel weist dem Konzept, fÃ¼r jede Sprache, eine Menge von Termen (Labels) zu.
Diese Terme sind alle Bezeichnungen, die fÃ¼r das Konzept Ã¼ber die Bedeutungsrelation der
Tabelle meaning definiert sind (mit Ausnahme desWerte von ww:displayLabel, falls diese
Eigenschaft gesetzt wurde). Im Falle eines multilingualen Thesaurus werden die Terme
fÃ¼r jede Sprache angegeben.
Bei diesem Export der Bedeutungsrelation geht eine wichtige Information verloren, die im lokalen
Datenmodell gespeichert ist: das Vertrauen (Confidence) in die Termzuordnung, wie sie
durch die Felder freq (Frequenz) und rule (Regel) der Tabelle meaning reprÃ¤sentiert ist. Diese
Information kann nicht ohne weiteres in RDF ausgedrÃ¼ckt werden, da RDF nur binÃ¤re Relationen
kennt. Daher mÃ¼ssten die zusÃ¤tzlichen Eigenschaften entweder als PrÃ¤dikate einer Reifikation der
betreffenden Relation modelliert werden, oder das Objekt der Relation, also der Term, mÃ¼sste als
komplexes Objekt definiert sein. Beide Wege sind mit einer deutlich hÃ¶heren KomplexitÃ¤t des
Datenmodells und einem grÃ¶ÃŸeren Datenaufkommen verbunden. Diese MÃ¶glichkeiten auszuloten
geht Ã¼ber den Rahmen dieser Arbeit hinaus.
Allerdings kann die Information Ã¼ber das Vertrauen in die einzelnen Termzuordnungen dennoch
beim Export genutzt werden: Die Zuordnung von Terme an Konzept Ã¼ber das PrÃ¤dikat
skos:altLabel kann danach gefiltert werden, wie verlÃ¤sslich diese Zuordnung ist. Zuordnungen,
3insbesondere kommen hÃ¤ufig KlammerzusÃ¤tze vor und Leerzeichen sind durch Unterstriche ersetzt.
10. Export 86
die nicht â€žsicherâ€œ genug sind, werden dann Ã¼bergangen (â€žCutoff â€œ, siehe .10.4). Ãœber diesen
Mechanismus lÃ¤sst sich die PrÃ¤zision der Termzuordnung auf Kosten der Abdeckung erhÃ¶hen.
Thesauri sind zumeist (poly-)hierarchisch entlang einer Subsumtionsrelation strukturiert, das
heiÃŸt, zu jedem Konzept werden allgemeinere und speziellere Konzepte angegeben. ZusÃ¤tzlich
kÃ¶nnen Konzepte als â€žverwandtâ€œ und/oder â€žÃ¤hnlichâ€œ gekennzeichnet sein. Das drÃ¼ckt sich in den
folgenden RDF-PrÃ¤dikaten aus:
skos:broader und skos:narrower sind reziproke Relationen, die Konzepte mit allgemeineren
bzw. spezielleren Konzepten verbinden und so die Subsumtionsrelation des Thesaurus
definieren. Diese Verbindungen werden direkt der Tabelle broader (.C.2) entnommen.
ww:similar verbindet zwei Konzepte, die zueinander semantisch â€žÃ¤hnlichâ€œ sind; diese
Information wird wÃ¤hrend des Imports bestimmt (siehe .9.1.3) und dann beim Export den
Feldern langmatch und langref in der Tabelle relation (.C.2) entnommen, wobei mit
min-langmatch der Minimalwert fÃ¼r das langmatch angegeben werden kann. So kann
die QualitÃ¤t der Ã„hnlichkeitsrelation bestimmt werden, siehe .12.3.
Paare von Konzepten, die bereits durch skos:broader oder skos:narrower verbunden
sind, werden nicht als Ã¤hnlich ausgegeben. Im skos-Modus wird skos:related statt
ww:similar verwendet.
skos:related verbindet zwei Konzepte, die miteinander semantisch â€žverwandtâ€œ sind; diese
Information wird wÃ¤hrend des Imports bestimmt (siehe .9.1.3) und dann beim Export dem
Feld bilink in der Tabelle relation entnommen. Paare von Konzepten, die bereits durch
skos:broader, skos:narrower oder ww:similar verbunden sind, werden dabei Ã¼bergangen.
Im skos-Modus werden â€žÃ¤hnlicheâ€œ Konzepte (siehe oben) einfach ebenfalls als
â€žverwandtâ€œ behandelt.
ww:assoc reprÃ¤sentiert eine â€žschwacheâ€œ Assoziation zwischen zwei Konzepten: sie spiegelt
die VerknÃ¼pfung durch Hyperlinks (Querverweise) wieder und wird der Tabelle link
entnommen. Per Default wird diese Relation nicht ausgegeben, sie kann aber Ã¼ber die
Option assoc aktiviert werden (falls nicht die Option skos gesetzt ist). Die Relation
ww:assoc wird nicht als symmetrisch betrachtet.
Im Ergebnis werden alle wesentlichen Informationen aus den internen Datenmodellen als RDFStrukturen
reprÃ¤sentiert, die Ausgabe erfolgt serialisiert in Turtle-Notation [BACKETT (2007)]. In
Anhang F.3 sind die RDF-Statements fÃ¼r einige Konzepte als Beispiele aufgefÃ¼hrt.
10.4. Cutoff
Obgleich Link-Texte eine gute Quelle fÃ¼r Bezeichnungen fÃ¼r Konzepte sind (vergleiche [MIHALCEA
(2007)] sowie [CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)]), kÃ¶nnen sie doch
irrefÃ¼hrend sein: es kommen Tippfehler vor, oder es wird irrtÃ¼mlich auf das falsche Konzept
verwiesen. Eine MÃ¶glichkeit, solche Fehler zu vermeiden, ist das Gesetz der GroÃŸen Zahl: es
10. Export 87
werden einfach nur solche Terme als Bezeichnung fÃ¼r ein Konzept betrachtet, die oft genug als
Link-Text in VerknÃ¼pfungen zu diesem Konzept vorkamen â€” die verlangte minimale Zahl von
Wiederholungen (Frequenz) wird dann als Cutoff-Wert bezeichnet. Dabei ergibt sich ein Trade-
Off zwischen der PrÃ¤zision (Precision) und der Abdeckung (Coverage)4 der Bedeutungsrelation:
ein hoher Cutoff-Wert liefert mit groÃŸer Wahrscheinlichkeit nur korrekte Bezeichnungen fÃ¼r ein
Konzept, schlieÃŸt aber mit ebenfalls groÃŸerWahrscheinlichkeit auch korrekte Bezeichnungen aus,
die nÃ¼tzlich sein kÃ¶nnten.
Im dem von WikiWord verwendeten Datenmodell basiert die Bedeutungsrelation aber nicht
ausschlieÃŸlich auf Link-Texten: Terme werden auch wegen anderer Informationen wie dem
Seitentitel, Weiterleitungen und BegriffsklÃ¤rungen mit einem Konzept assoziiert (siehe .8.9 und
.9.1). Aufgrund welcher Regel die Termzuordnung erfolgt, wird bei der Analyse des Wiki-Textes
festgehalten und beim Aufbau der Bedeutungsrelation in der Tabelle meaning insoweit beibehalten,
dass aus dem Feld rule ersichtlich ist, ob die Zuordnung ausschlieÃŸlich erfolgte, weil der
Term als Link-Text fÃ¼r dieses Konzept verwendet wurde (vergleiche .9.1.3 und .C.2).
Termzuweisungen, die nicht ausschlieÃŸlich wegen einer Verwendung als Link-Text vorgenommen
wurden, kÃ¶nnen als explizite Zuweisung betrachtet werden â€“ es ist anzunehmen, dass diese
Assoziationen eine hÃ¶here QualitÃ¤t (also geringere Fehlerquote) haben als die Verwendungen als
Link-Text. Daher scheint es sinnvoll, den Cutoff-Wert nur fÃ¼r Termzuweisungen anzuwenden,
die nicht explizit vorgenommen wurden. Die im folgenden Kapitel beschriebenen Experimente
bestÃ¤tigen diese Annahme (.12.5): werden explizite Zuordnungen unabhÃ¤ngig von der Frequenz
beibehalten, verschlechtert sich die PrÃ¤zision nicht wesentlich, aber die Abdeckung steigt deutlich.
Dabei eignet sich, je nach Datenbasis und PrÃ¤ferenz fÃ¼r den Trade-Off zwischen PrÃ¤zision
und Abdeckung, eine Mindestfrequenz von zwei oder drei als Cutoff-Wert.
In der Implementation durch ExportRdf wird der Cutoff durch die beiden folgenden Parameter
gesteuert:
cutoff N verlangt, dass eine Termzuordnung mindestens eine Frequenz von N haben muss, um
beim Export berÃ¼cksichtigt zu werden.
force-cutoff erzwingt die Anwendung des Cutoff auch dann, wenn die Termzuweisung explizit
war.
Auf dieseWeise lÃ¤sst sich der QualitÃ¤tsanspruch gegen die gewÃ¼nschte Abdeckung abwÃ¤gen. Der
Effekt der verschiedenen Cutoff-Modi wird in .12.5 evaluiert.
10.5. Topic Maps
Als Alternative zu RDF als Basis der ReprÃ¤sentation des Thesaurus bieten sich Topic Maps an
[REDMANN UND THOMAS (2007), GARSHOL (2004), ISO:13250 (2003)]. Topic Maps sind ein ISO-Standard fÃ¼r
4Im Gegensatz zum Recall, der sich auf das theoretisch zu erreichende Maximum bezieht, bezieht sich die Abdeckung
(Coverage) auf die Anzahl ohne Cutoff.
10. Export 88
die Darstellung von Wissensorganisationssystemen, beziehungsweise fÃ¼r die ReprÃ¤sentation von
Konzepten (Topics) und ihren Beziehungen (Associations) und Bezeichnungen (Names). Sie haben
unter anderem die folgenden Eigenschaften, die fÃ¼r die ReprÃ¤sentation der WikiWord-Daten
nÃ¼tzlich wÃ¤ren:
Scopes beschrÃ¤nken die GÃ¼ltigkeit von Assoziationen und Namen auf bestimmte Kontexte â€”
Ã¼ber diesen Mechanismus lassen sich gut sprachspezifische Informationen integrieren.
Assoziationen unterstÃ¼tzen eine beliebige Anzahl von Akteuren, es ist also leicht, mehrstellige
Relationen zu reprÃ¤sentieren.
Reifikation von Assoziationen wird direkt unterstÃ¼tzt und erlaubt damit eine einfache Integration
von Metadaten, zum Beispiel darÃ¼ber, aus welcher Quelle eine Assoziation stammt oder
nach welcher Regel sie gebildet wurde.
Indicators vermeiden die IdentitÃ¤tskrise von URIs, da sie von Locators verschieden sind und es
so erlauben, dieselbe URI zu verwenden, um auf ein Dokument oder den Gegenstand eines
Dokuments zu verweisen, ohne Verwirrung zu stiften.
Andererseits ist die Semantik von Beziehungen in Topic Maps weitgehend unspezifiziert und es
gibt weniger standardisierte Vokabulare, die die Weiternutzung der Daten erleichtern wÃ¼rden.
Eine Abbildung der WikiWord-Daten auf Topic Maps und ein Vergleich des resultierenden
Modells mit dem RDF-Modell, das WikiWord generiert, konnte im Rahmen dieser Arbeit nicht
untersucht werden und verbleibt als Gegenstand kÃ¼nftiger Forschung.
Teil IV.
Evaluation