History: DanielKinzler Chapter 10: Export
View page
Source of version: 1
(current)
10. Export 76 10.1. URIs Ein wichtiger Aspekt der Datenrepräsentation auf der Basis von RDF ist es, gute URIs für die einzelnen RDF-Ressourcen zu wählen. URIs sind universell eindeutige Bezeichner (Identifikatoren) für eine beliebige Ressource (also irgend eine „Sache“), deren Syntax in [RFC:3986 (2005)] festgelegt ist. URIs ähneln äußerlich stark URLs, unterscheiden sich aber insbesondere durch ihre Semantik und Verwendung: URLs erlauben einen Zugriff auf eine elektronische Ressource, indem sie das Zugriffsprotokoll sowie den Ort der Ressource angeben, während URIs die Ressource lediglich eindeutig identifizieren [W3C:URI (2001)]. Dabei kann die URL eines Dokumentes gleichzeitig als seine URI dienen, und umgekehrt kann die URI einer Ressource so gestaltet sein, dass sie als URL der Ressource selbst, oder zumindest einer Beschreibung der Ressource fungieren kann. Eine wichtige Eigenschaft von URIs (und idealerweise auch URLs) ist, dass die URI einer Ressource möglichst stabil bleibt, sich also nicht verändert, und dass sie möglichst unabhängig ist von rein technischen Aspekten wie dem physischen Speicherort und dem Datenformat [BERNERSLEE (1998)]. Bei der Wahl von URIs ist daher auch entscheidend, wie aussagekräftig sie sind: beliebige Bezeichner, die zum Beispiel auf automatisch zugewiesenen numerischen IDs in irgend einer Datenbank basieren, sind weniger geeignet als URIs, die menschenlesbare Informationen über die Ressource enthalten, für die sie stehen. Solche „lesbaren“ URIs bleiben in der Regel über die Zeit stabil, sind von technischen Gegebenheiten unabhängig und können häufig ohne zusätzliches Wissen aus einem Teil des Namens hergeleitet werden. Zum Beispiel kann die URL (und URI) des Wikipedia-Artikels Wasser einfach durch Voranstellen eines Präfix erzeugt werden: <http://de.wikipedia.org/wiki/Wasser>. Bei der Vergabe von URIs ist außerdem das Problem der Identitätskrise zu beachten [MILES (2005A), PEPPER UND SCHWAB (2003), HALPIN (2006)], welches im Kontext von RDF häufig auftritt und oft nicht ausreichend gelöst wird: Wenn ein Dokument gegeben ist, das ein bestimmtes Konzept beschreibt, dann liegt es nahe, die URL des Dokuments als URI für dieses Konzept zu verwenden. Das wäre aber ein Fehler, da dann nicht zwischen dem Dokument selbst und dem Gegenstand des Dokuments unterschieden werden kann. Wenn wir zum Beispiel die URL der Wikipedia-Seite http://de.wikipedia.org/wiki/Urfaust als URI für das Konzept URFAUST ansehen und dementsprechend JOHANN_WOLFGANG_VON_GOETHE als Autor zuordnen, führt das zu Verwirrung, weil Goethe dann als Mitautor derWikipedia-Seite verstanden werden könnte. Es muss daher stets zwischen der URI des Dokumentes (die meist gleich der URL ist) und der URI für das Konzept, das das Dokument beschreibt, unterschieden werden — wobei die URI des Konzeptes durchaus auch als URL für das betreffende Dokument dienen kann: die URLs dürfen zu denselben Daten führen, solange bei der Verwendung der URIs klar zwischen Dokument und Konzept unterschieden wird. Es ist außerdem der Unterschied zwischen RDF-Ressourcen und WikiWord-Ressourcen zu beachten: eine RDF-Ressource ist irgendein durch eine URI identifiziertes Objekt, das Gegenstand von Aussagen (RDF-Statements) sein kann; eine WikiWord-Ressource ist dagegen immer eine Wikipedia-Seite. In dem hier beschriebenen RDF-basierten Datenmodell werden unter anderem WikiWord-Konzepte, Wikipedia-Seiten (also WikiWord-Ressource), Korpora und Konzepttypen durch RDF-Ressourcen modelliert — was nichts weiter heißt, als dass ihnen eine eindeutige URI zugewiesen wird. 10. Export 77 Zusätzlich zu den in .10.2 beschriebenen Standard-Vokabularen benutzt WikiWord die folgenden URI-Schemata für die Repräsentation der Thesaurusdaten: http://Sprache.wikipedia.org/wiki/Seitentitel: Die URL einer Wikipedia-Seite repräsentiert die Seite selbst als Ressource. http://brightbyte.de/vocab/wikiword#Element: Dieses URI-Schema dient als Basis für das Vokabular, das zur Repräsentation derWikiWord-Strukturen in RDF definiert ist. Es enthält verschiedene Datentypen und Prädikate, die weiter unten beschrieben und in der Datei /WikiWord/WikiWord/src/main/wikiword.rdf auf der beiliegenden CD oder online unter <http://brightbyte.de/DA/WikiWord/WikiWord/src/main/wikiword. rdf> formal definiert werden. In Folgenden wird der URI-Präfix desWikiWord-Vokabulars entsprechend der QName-Notation mit ww abgekürzt. http://brightbyte.de/vocab/wikiword/concept-type#Konzepttyp: Dieses URISchema wird für die Codes der Konzepttypen verwendet (siehe .8.6). http://brightbyte.de/vocab/wikiword/resource-type#Seitentyp: Dieses URISchema wird für die Codes der Ressourcetypen verwendet (siehe .8.5). Allerdings werden Ressourcetypen in der hier beschriebenen Repräsentation des Thesaurus nicht wiedergegeben— sie werden vor allem während des Imports benötigt. http://brightbyte.de/vocab/wikiword/dataset/Qualifier/Kollektion:Datensatz: Dieses URI-Schema wird für die eindeutige Identifizierung von Datensätzen benutzt: dabei stehen Datensatz und Kollektion für den Namen des Datensatzes und die Datensatz- Kollektion wie eingangs in .1.1 beschrieben. Qualifier repräsentiert einen Bezeichner (zum Beispiel einen Domain Name) der Organisation, die den Datensatz erstellt. Er kann über den Tweak-Wert rdf.dataset.qualifier konfiguriert werden. Aus der Kombination dieser Angaben ergibt sich idealerweise eine global eindeutige URI für den Datensatz. http://brightbyte.de/vocab/wikiword/concept/from/Korpus-URL/Seitentitel: Dieses URI-Schema repräsentiert Konzepte anhand eines eindeutigen Seitennamens in einem Korpus. Korpus-URL ist dabei die URI (bzw. URL) des Korpus (typischerweise, aber nicht unbedingt, eines Wikipedia-Projektes) und Seitentitel ist der Name der Ressource in diesem Korpus, die das gewünschte Konzept definiert oder beschreibt. Dieser Weg der Identifikation von RDF-Ressourcen sollte bevorzugt werden, wenn das Konzept eindeutig einem Dokument in einem Korpus zugeordnet werden kann. Solche URIs sind relativ stabil gegenüber Änderungen an der Datenbasis2 und dem Modus der Verarbeitung. http://brightbyte.de/vocab/wikiword/concept/in/Thesaurus-URI/Konzept-ID: Dieses URI-Schema repräsentiert Konzepte anhand ihrer eindeutigen, numerischen ID innerhalb eines Datensatzes. Thesaurus-URI ist dabei die URI eines Datensatzes 2Es kommt vor, dass sich der in der Wikipedia für ein Konzept verwendete Seitentitel ändert. Dabei wird aber nur selten ein Titel gewählt, der vorher für ein anderes Konzept verwendet wurde. Meist wird auch der alte Titel als Weiterleitung (Alias) behalten. Vergleiche [HEPP U. A. (2006)]. 10. Export 78 (typischerweise, aber nicht unbedingt, wie oben beschrieben) und Konzept-ID ist die numerische ID, in hexadezimaler Notation, mit einem vorangestellten „x“. Dieser Weg der Identifikation von RDF-Ressourcen kann verwendet werden, wenn die direkte Adressierung über einen Namen nicht möglich ist. Solche URIs sind instabil insofern, als dass sie für alternative oder zukünftige Versionen des Thesaurus nutzlos sind. Die zwei unterschiedlichen Wege, eine URI für ein Konzept zu bestimmen, werden auch in [VAN ASSEM U. A. (2006)] diskutiert. WikiWord benutzt beide: Konzepte aus einem lokalen Datensatz werden über das namensbasierte URI-Schema adressiert, weil sie direkt einem Dokument in einem Korpus zugeordnet werden können, nämlich dem Wikipedia-Artikel, der sie beschreibt. Eine solche URI ist relativ stabil und unabhängig von dem Kontext, in dem das Konzept verarbeitet oder betrachtet wird. Das Konzept wird dabei letztlich dadurch definiert, wie die Seite in derWikipedia verwendet wird [BLACK (2006)]. Konzepte aus einem globalen Datensatz können auf diese Weise nicht adressiert werden: sie sind nicht unbedingt einem, sondern möglicherweise mehreren Dokumenten zugeordnet. Außerdem könnte dasselbe Konzept unterschiedlichen Mengen von Dokumenten zugeordnet sein, je nachdem, welche Sprachen bei der Erstellung des mehrsprachigen Thesaurus betrachtet werden, wie sich die Language-Links in den einzelnen Artikeln entwickeln oder ob neue Artikel hinzukommen, die dieses Konzept beschreiben. Daher verwendetWikiWord für globale Konzepte das zweite URI-Schema, das auf der internen ID des Konzeptes beruht: diese ID bezieht sich direkt auf den konkreten Datensatz, sie ist also „empfindlich“ gegen jede Änderung an den Ausgangsdaten oder der Konfiguration von WikiWord. Um nun URIs identifizieren zu können, die dasselbe Konzept in verschiedenen Datensätzen repräsentieren, eignet sich die Methode des „semantic Handshake“: den sprachunabhängigen Konzepten werden dazu über das Prädikat owl:sameAs „ihre“ sprachspezifischen Konzepte zugeordnet. Zwei sprachunabhängige Konzepte aus unterschiedlichen globalen Datensätzen (also multilingualen Thesauri) können dann als äquivalent angesehen werden, wenn sie beide mit dem selben sprachspezifischen Konzept identifiziert sind (für das es ja eine stabile URI gibt). Auf dieseWeise ergibt sich zwar keine eindeutige Zuordnung von Konzepten aus einem Thesaurus zu Konzepten in dem anderen — eine solche Zuordnung existiert im allgemeinen gar nicht, da je nach Konfiguration und Datenbasis lokale Konzepte unterschiedlich zu globalen gruppiert werden können. Aber der semantic Handshake erlaubt doch in der Regel eine weitgehende semantische Integration (vergleiche [MAICHER (2007)]). 10.2. Vokabulare Basierend auf dem sehr einfachen Datenmodell von RDF sind eine Vielzahl von Standard- Vokabularen definiert. Einige dieser Vokabulare werden auch von WikiWord eingesetzt: RDF Schema (http://www.w3.org/2000/01/rdf-schema#, [W3C:RDFS (2000)], im Folgenden rdfs) ist ein Vokabular, um RDF-Vokabulare zu beschreiben. Es definiert 10. Export 79 unter anderem Prädikate zum Ausbau einer Ableitungshierarchie von Klassen und Eigenschaften. Web Ontology Language (http://www.w3.org/2002/07/owl#, [W3C:OWL (2004)], im Folgenden owl) ist ein Vokabular zum Aufbau von Ontologien. Ähnlich wie RDFS definiert es Prädikate zur Beschreibung von Klassen und Eigenschaften sowie ihrer Beziehungen untereinander, bietet dabei jedoch weit größere Ausdrucksmächtigkeit. Die Semantik von OWL entspricht einer (gerade noch) entscheidbaren Untermenge der Prädikatenlogik erster Stufe, der sogenannten Beschreibungslogik. XML Schema (http://www.w3.org/2001/XMLSchema#, [W3C:XSD (2004)], im Folgenden xsd) ist ein Vokabular zur Spezifikation von XML-Formaten. Im Kontext von RDF werden aus dem XSD Vokabular fast ausschließlich die Datentypen verwendet, die es für Literale definiert. Dublin Core (http://purl.org/dc/elements/1.1/, [DCME (2008)], im Folgenden dc) ist ein Vokabular zu Beschreibung von Medien. Es definiert unter anderem Prädikate zur Angabe von Autoren, Quellen, Publikationsdaten, etc. Dublin Core wird vor allem für dokumentbezogene Metadaten verwendet, unter anderem auch oft in HTML-Dateien und, in diesem Fall, Thesauri. Simple Knowledge Organization System (http://www.w3.org/2004/02/skos/core#, [W3C:SKOS (2004)], im Folgenden skos) ist ein Vokabular zur Beschreibung einfacher Wissensstrukturen, insbesondere entworfen für Thesauri, Taxonomien und ähnliche sprachorientierte Wissensbasen [MILES (2005B)]. Es definiert Relationen für den Aufbau einer Subsumtionshierarchie von Konzepten, für die Angabe von Verwandtheit zwischen Konzepten, sowie zur Zuweisung von Termen (Labels) zu Konzepten. Das SKOS-Vokabular bietet sich zur Repräsentation der WikiWord-Daten an, da das Datenmodell dem Modell der WikiWord-Datensätze bereits recht ähnlich ist (vergleiche .4.2 und .C.1, siehe auch [GREGOROWICZ UND KRAMER (2006), VAN ASSEM U. A. (2006)]). Zudem unterstützen zahlreicheWissensorganisationssysteme im Bereich der automatischen Sprachverarbeitung und des Information Retrieval das SKOS-Vokabular zur Repräsentation von Term-Konzept-Graphen. Aus den Standard-Vokabularen werden vor allem die folgenden Klassen und Eigenschaften benutzt: rdf:type weist einer RDF-Ressource einen Typ, also eine Klasse zu. owl:sameAs gibt an, dass zwei RDF-Ressourcen identisch sind, dass also zwei URIs dasselbe Ding bezeichnen. skos:Concept ist die Klasse für Konzepte im Thesaurus. skos:ConceptScheme ist die Klasse für den Thesaurus selbst. skos:inScheme gibt an, zu welchem Thesaurus ein Konzept gehört. 10. Export 80 skos:broader und skos:narrower verbinden allgemeinere mit spezielleren Konzepten. skos:related verbindet Konzepte, die miteinander semantisch verwandt sind. skos:prefLabel gibt den bevorzugten Label für ein Konzept an. Muss pro Sprache und Thesaurus (Scheme) eindeutig sein. skos:altLabel gibt alternative Labels für ein Konzept an. skos:definition ist die Definition eines Konzeptes, als Literal oder URL eines Dokumentes. WikiWord definiert auch ein eigenes RDF-Vokabular (.F.3), das die Möglichkeiten von SKOS etwas erweitert, um mehr Informationen aus den Datenmodellen repräsentieren zu können (vergleiche [VAN ASSEM U. A. (2006)]). Das Programm ExportRdf (.10.3, .B.1) kann dieses Vokabular verwenden, um einen Thesaurus zu beschreiben. Alternativ kann aber mit Hilfe der Option skos aber auch die Ausgabe von „reinem“ SKOS erwirkt werden, um so (auf Kosten der Aussagekraft) die Kompatibilität zu erhöhen. Das WikiWord-Vokabular definiert die folgenden Prädikate: ww:similar ist eine Relation, die semantische Ähnlichkeit zwischen zwei Konzepten ausdrückt (siehe .9.1.3 und .C.2). Diese Beziehung ist Spezialisierung von skos:related. ww:assoc ist eine Relation, die eine unspezifizierte Assoziation von Konzepten repräsentiert. Diese Beziehung ist schwächer als skos:related und muss nicht symmetrisch sein. Sie wird vor allem zur Repräsentation von Querverweisen (Hyperlinks) verwendet. ww:concept-type ist die Klasse für Konzepttypen, wie in .8.6 beschrieben. Die Standard- Konzepttypen sind im Namensraum http://brightbyte.de/vocab/wikiword/ concept-type# definiert. ww:type bestimmt den Typ des Konzeptes, wie in .8.6 beschrieben. Die einzelnen Typen werden als RDF-Ressourcen vom Typ ww:concept-type modelliert. ww:displayLabel gibt (pro Sprache) einen Namen an, der zur Anzeige des Konzeptes verwendet werden kann. Diese Eigenschaft ist ähnlich zu skos:prefLabel, mit einigen wichtigen Unterschieden: ein Wert von ww:displayLabel kann auch gleichzeitig noch einmal als Wert von skos:altLabel auftreten und ww:displayLabel impliziert auch nicht, dass der Wert in natürlicher Sprache für das Konzept verwendet wird. Den Konzepten sind Bewertungen und Ränge bezüglich verschiedener Maße zugeordnet (.9.3, .C.2). Diese Werte können auch in RDF repräsentiert werden: ww:score ist eine Relation, die einem Konzept eine Bewertung bezüglich irgend eines Maßes zuweist. Bewertungen sind beliebige reelle Zahlen. Diese Relation dient als Basis für die im Folgenden definierten spezifischen Bewertungen. 10. Export 81 ww:idfScore ist die Inverse Document Frquency. ww:lhsScore ist der Local Hierarchy Score. ww:inDegree ist die Anzahl der eingehenden Hyperlinks. ww:outDegree ist die Anzahl der ausgehenden Hyperlinks. ww:linkDegree ist die Summe der eingehenden und ausgehenden Hyperlinks. Für die Bestimmung und Bedeutung der einzelnen Scores, siehe .9.3. Bezüglich jeder dieser Bewertungen ist jedem Konzept ein Rang zugeordnet: ww:rank ist eine Relation, die einem Konzept einen Rang bezüglich irgend eines Maßes zuweist. Ränge sind natürliche Zahlen und ihre Zuordnung ist eindeutig insofern, als dass keine zwei Konzepte in einem Thesaurus bezüglich desselben Maßes denselben Rang haben können. Diese Relation dient als Basis für die im Folgenden definierten spezifischen Ränge. ww:idfRank ist der Rang bezüglich der Inverse Document Frequency. ww:lhsRank ist der Rang bezüglich des Local Hierarchy Score. ww:inRank ist der Rang bezüglich der Anzahl der eingehenden Hyperlinks. ww:outRank ist der Rang bezüglich der Anzahl der ausgehenden Hyperlinks. ww:linkRank ist der Rang bezüglich der Summe der eingehenden und ausgehenden Hyperlinks. 10.3. Abbildung des Datenmodells auf RDF Das in vorausgegangenen Kapiteln beschriebene Datenmodell (.4.2, .C.1) kann fast direkt auf SKOS abgebildet werden, und zwar sowohl das lokale Datenmodell für einen monolingualen als auch das globale Datenmodell für einen multilingualen Thesaurus. Diese Abbildung folgt im Wesentlichen [W3C (2005), MATTHEWS (2003)] und [VAN ASSEM U. A. (2006)] sowie dem Vorgehen von [GREGOROWICZ UND KRAMER (2006)]. Dabei sind die RDF-Daten des multilingualen Thesaurus, anders als bei den internen Datensätzen, unabhängig von den monolingualen Thesauri. Der Export als RDF ist in der Klasse ExportRdf implementiert. Ausgehend von den internen Datenmodellen werden RDF-Statements generiert, wobei verschiedene Optionen und Modi zu berücksichtigen sind: Monolingualer Thesaurus: Die Relationen aus dem lokalen Datensatz werden direkt ausgegeben. 10. Export 82 Multilingualer Thesaurus: Die Relationen aus dem globalen Datensatz werden direkt ausgegeben. Für jede Sprache, auf die sich der globale Datensatz bezieht, werden die sprachspezifischen Informationen aus dem entsprechenden lokalen Datensatz ausgelesen, mit den globalen Konzepten verknüpft und ausgegeben. Alle Relationen beziehen sich auf globale Konzepte. skos-Option: Diese Option bewirkt, dass das WikiWord-Vokabular nicht verwendet und statt dessen auf das SKOS-Vokabular zurückgegriffen wird. Das verbessert unter Umständen die Kompatibilität, es gehen aber mehr Informationen verloren. assoc-Option: Diese Option bewirkt, dass zusätzlich die ww:assoc-Relation ausgegeben wird, die die Hyperlinks zwischen Wikipedia-Artikeln als „lose“ Assoziation der entsprechenden Konzepte interpretiert. noscore-Option: Diese Option bewirkt, dass keine Bewertungen und Rankings für die einzelnen Konzepte ausgegeben werden. cutoff und force-cutoff: Diese Optionen steuern das Cutoff-Verhalten für die Termzuordnung, siehe .10.4. min-langmatch: Diese Optionen bestimmt den Cutoff-Wert für die Bestimmung ähnlicher Konzepte: sie gibt an, wie viele Language-Links zwei Konzepte gemeinsam haben müssen, um als ähnlich angesehen zu werden (vergleiche .12.3). Als erstes wird dem Thesaurus an sich (also dem Datensatz) nach dem oben beschriebenen Muster eine URI zugeteilt und Metadaten zugewiesen. Dafür wird vor allem das Dublin Core Vokabular verwendet: rdf:type wird auf skos:ConceptScheme gesetzt, um anzugeben, dass es sich bei der Entität, die die URI bezeichnet, um ein ConceptScheme im Sinne von SKOS handelt, also um eine Wissensstruktur oder Konzept-Term Netz, wie sie ein konzeptorientierter Thesaurus darstellt. dc:identifier weist dem Thesaurus eine eindeutige ID zu. Hier wird die URI des Thesaurus als Literal angegeben. dc:creator wird immer mit „WikiWord“ angegeben, da die Erzeugung ja vollautomatisch ist. Wurde der Tweak-Wert rdf.dataset.qualifier definiert, so wird der angegebene Wert hier mit ausgegeben, da der „Qualifier“ ja die Person oder Institution beschreiben soll, die den Thesaurus generiert. dc:created gibt den Zeitpunkt an, zu dem der Thesaurus exportiert wurde. dc:title gibt den Titel des Thesaurus an, also den Namen des Datensatzes, inklusive der Kollektion. dc:description ist ein kurzer Text, der besagt, dass die Daten mittels WikiWord aus der Wikipedia erzeugt wurden. 10. Export 83 dc:rights gibt Hinweise zum Urheberrecht an den Thesaurusdaten. Dieser Text besagt, dass der Thesaurus automatisch erstellt wurde und daher nicht urheberrechtlich geschützt ist. Für die Rechte an zitierten Texten aus derWikipedia, konkret also den Glossen, wird auf die GFDL [GFDL] sowie die Autorenliste auf den betreffenden Wikipedia-Seiten verweisen. dc:source gibt die Quelle der Thesaurusdaten an: das sind die Wikipedia-Projekte, aus denen die Daten extrahiert wurden, repräsentiert durch ihre URL. Im Falle eines multilingualen Thesaurus wird dieses Prädikat einmal für jede Sprache gesetzt. dc:language gibt die Sprache der Thesaurusdaten an. Im Falle eines multilingualen Thesaurus wird diese Eigenschaft nicht angegeben. Bei einem multilingualen Thesaurus wird für jede enthaltene Sprache zusätzlich das ConceptScheme für den betreffenden monolingualen Thesaurus deklariert: die URI des betreffenden lokalen Datensatzes wird bestimmt und ihm werden die folgenden Prädikate zugewiesen: rdf:type wird auf skos:ConceptScheme gesetzt. dc:language gibt die Sprache des lokalen Datensatzes an. Die so deklarierten lokalen Thesauri werden später als ConceptScheme bei der Zuordnung von sprachspezifischen Konzepten zu sprachunabhängigen Konzepten verwendet. Für jedes Konzept im Datensatz wird nun eine URI bestimmt (nach einem geeigneten Verfahren, je nachdem, ob es sich um einen multilingualen oder monolingualen Thesaurus handelt, siehe .10.1). Den Konzepten werden dann die folgenden Eigenschaften zugewiesen: rdf:type wird auf die Klasse skos:Concept gesetzt, um anzugeben, dass die URI ein SKOSKonzept identifiziert. skos:inScheme wird auf die URI des Thesaurus gesetzt, zu dem das Konzept gehört. skos:definition wird die URL der Wiki-Seite zugewiesen, die dieses Konzept definiert — diese Information wird dem Feld resource in der Tabelle concept entnommen (.C.2). Im Falle eines multilingualen Thesaurus (und damit eines potentiell sprachübergreifenden Konzeptes) wird für jede Sprache, in der das Konzept definiert ist, eineWiki-Seite zugewiesen; die Zuordnung erfolgt dabei über die Tabelle origin (.C.2). skos:definition wird noch einmal gesetzt, diesmal auf den Definitionssatz, der aus der Wikipedia-Seite extrahiert wurde — der Text wird der Tabelle definition entnommen (.C.2). Dabei wird die Sprache angegeben, in der die Definition verfasst ist. Im Falle eines multilingualen Thesaurus würde für jede Sprache, in der das Konzept definiert ist, (potentiell) eine Definition zugewiesen; die Zuordnung erfolgt dabei über die Tabelle origin. 10. Export 84 Für jedes Konzept werden außerdem verschiedene Bewertungen und Rankings angegeben, falls diese in der Datenbank verfügbar sind (also falls sie mit BuildStatistics erzeugt wurden) und nicht die skos-Option die Verwendung des WikiWord-Vokabulars verbietet oder die Ausgabe dieser Eigenschaften mit der noscore-Option deaktiviert wurde. Es handelt sich im Einzelnen um folgende Eigenschaften: ww:idfScore und ww:idfRank sind die Inverse Document Frequency bzw. der Rang bezüglich dieses Wertes. ww:lhsScore und ww:lhsRank sind der Local Hierarchy Score bzw. der Rang bezüglich dieses Wertes. ww:inDegree und ww:inRank sind die Anzahl der eingehenden Hyperlinks bzw. der Rang bezüglich dieses Wertes. ww:outDegree und ww:outRank sind die Anzahl der ausgehenden Hyperlinks bzw. der Rang bezüglich dieses Wertes. ww:linkDegree und ww:linkRank sind die Summe der eingehenden und ausgehenden Hyperlinks bzw. der Rang bezüglich dieses Wertes. Diese Eigenschaften sind der Tabelle degree entnommen (.C.2). Für multilinguale Thesauri wird außerdem für jedes sprachübergreifende Konzept seine Beziehung zu sprachspezifischen Konzepten angegeben: über die Tabelle origin werden alle zugehörigen sprachspezifischen Konzepte bestimmt. Diesen wird, nach dem Schema für den betreffenden lokalen Datensatz, eine URI zugeordnet und dann die folgenden Eigenschaften definiert: rdf:type wird auf skos:Concept gesetzt. skos:inScheme wird auf die URI des lokalen Datensatzes gesetzt. owl:sameAs wird auf die URI des sprachübergreifenden Konzeptes gesetzt; diese Relation ist symmetrisch und wird auch explizit in beide Richtungen angegeben: auch das sprachübergreifende Konzept bekommt über das Prädikat owl:sameAs das sprachspezifische Konzept zugewiesen. Diese Zuordnung drückt einen wichtigen Aspekt der Funktionsweise von WikiWord aus: dasselbe Konzept kann in mehreren Korpora und unterschiedlichen Sprachen repräsentiert sein. Die Eigenschaften des sprachübergreifenden Konzeptes ergeben sich aus der Vereinigung der Eigenschaften einer Menge paarweise äquivalenter sprachspezifischer Konzepte (.9.2.2). Jede der lokalen Repräsentationen und auch die sprachunabhängige, globale Repräsentation des Konzeptes haben eine URI. Das OWL-Prädikat owl:sameAs wird nun hier verwendet, um anzugeben, dass all diese URIs dasselbe Konzept bezeichnen. Auf diese Weise ergibt sich auch eine Zuordnung von stabilen URIs für sprachspezifische Konzepte zu einer instabilen URI eines sprachübergreifenden Konzeptes. So können die URIs, die für dasselbe sprachübergreifende Konzept in unterschiedlichen multilingualen Thesauri verwendet werden, gefunden und gleichgesetzt werden (Semantic Handshake). 10. Export 85 Terme im WikiWord-Modell, wie sie in der Tabelle meaning (.C.2) gespeichert sind, werden als „Labels“ in SKOS interpretiert. Für alle Einträge der Bedeutungsrelation werden Statements mit den folgenden Prädikaten erzeugt: ww:displayLabel ist der Name des Konzeptes, der zur Anzeige verwendet werden kann, also zur Repräsentation des Konzeptes in einer Benutzerschnittstelle. Der Wert wird dem Feld name in der Tabelle concept entnommen — in einem lokalen Datensatz entspricht er auch dem Namen der Wikipedia-Seite, die das Konzept definiert. Dieser Name muss nicht unbedingt ein Wort oder ein Phrase aus der natürlichen Sprache sein, er kann künstlich erzeugt werden3. Im Falle eines multilingualen Thesaurus wird der synthetische Name des globalen Konzeptes verwendet (.9.2.2). Der Wert dieser Eigenschaft kann noch einmal als Wert der Eigenschaft skos:altLabel vorkommen. ww:displayLabel wird nicht im skos- Modus verwendet. skos:prefLabel wird im skos-Modus als Alternative zu ww:displayLabel verwendet: der Wert wird genau so wie oben beschrieben aus dem Namen des Konzeptes bestimmt. Allerdings wird im Falle eines multilingualen Thesaurus dieser Wert für jede der betrachteten Sprachen einzeln gesetzt (es werden also die Namen der einzelnen sprachspezifischen Konzepte verwendet, nicht der Name des globalen Konzeptes). Auch hat skos:prefLabel, nach der SKOS-Spezifikation, eine etwas andere Semantik als ww:displayLabel und ist von allenWerten der Eigenschaft skos:altLabel in der betreffenden Sprache verschieden (das heißt, die entsprechende Zuweisung des Wertes über das Prädikat skos:altLabel wird übergangen). skos:altLabel weist dem Konzept, für jede Sprache, eine Menge von Termen (Labels) zu. Diese Terme sind alle Bezeichnungen, die für das Konzept über die Bedeutungsrelation der Tabelle meaning definiert sind (mit Ausnahme desWerte von ww:displayLabel, falls diese Eigenschaft gesetzt wurde). Im Falle eines multilingualen Thesaurus werden die Terme für jede Sprache angegeben. Bei diesem Export der Bedeutungsrelation geht eine wichtige Information verloren, die im lokalen Datenmodell gespeichert ist: das Vertrauen (Confidence) in die Termzuordnung, wie sie durch die Felder freq (Frequenz) und rule (Regel) der Tabelle meaning repräsentiert ist. Diese Information kann nicht ohne weiteres in RDF ausgedrückt werden, da RDF nur binäre Relationen kennt. Daher müssten die zusätzlichen Eigenschaften entweder als Prädikate einer Reifikation der betreffenden Relation modelliert werden, oder das Objekt der Relation, also der Term, müsste als komplexes Objekt definiert sein. Beide Wege sind mit einer deutlich höheren Komplexität des Datenmodells und einem größeren Datenaufkommen verbunden. Diese Möglichkeiten auszuloten geht über den Rahmen dieser Arbeit hinaus. Allerdings kann die Information über das Vertrauen in die einzelnen Termzuordnungen dennoch beim Export genutzt werden: Die Zuordnung von Terme an Konzept über das Prädikat skos:altLabel kann danach gefiltert werden, wie verlässlich diese Zuordnung ist. Zuordnungen, 3insbesondere kommen häufig Klammerzusätze vor und Leerzeichen sind durch Unterstriche ersetzt. 10. Export 86 die nicht „sicher“ genug sind, werden dann übergangen („Cutoff “, siehe .10.4). Über diesen Mechanismus lässt sich die Präzision der Termzuordnung auf Kosten der Abdeckung erhöhen. Thesauri sind zumeist (poly-)hierarchisch entlang einer Subsumtionsrelation strukturiert, das heißt, zu jedem Konzept werden allgemeinere und speziellere Konzepte angegeben. Zusätzlich können Konzepte als „verwandt“ und/oder „ähnlich“ gekennzeichnet sein. Das drückt sich in den folgenden RDF-Prädikaten aus: skos:broader und skos:narrower sind reziproke Relationen, die Konzepte mit allgemeineren bzw. spezielleren Konzepten verbinden und so die Subsumtionsrelation des Thesaurus definieren. Diese Verbindungen werden direkt der Tabelle broader (.C.2) entnommen. ww:similar verbindet zwei Konzepte, die zueinander semantisch „ähnlich“ sind; diese Information wird während des Imports bestimmt (siehe .9.1.3) und dann beim Export den Feldern langmatch und langref in der Tabelle relation (.C.2) entnommen, wobei mit min-langmatch der Minimalwert für das langmatch angegeben werden kann. So kann die Qualität der Ähnlichkeitsrelation bestimmt werden, siehe .12.3. Paare von Konzepten, die bereits durch skos:broader oder skos:narrower verbunden sind, werden nicht als ähnlich ausgegeben. Im skos-Modus wird skos:related statt ww:similar verwendet. skos:related verbindet zwei Konzepte, die miteinander semantisch „verwandt“ sind; diese Information wird während des Imports bestimmt (siehe .9.1.3) und dann beim Export dem Feld bilink in der Tabelle relation entnommen. Paare von Konzepten, die bereits durch skos:broader, skos:narrower oder ww:similar verbunden sind, werden dabei übergangen. Im skos-Modus werden „ähnliche“ Konzepte (siehe oben) einfach ebenfalls als „verwandt“ behandelt. ww:assoc repräsentiert eine „schwache“ Assoziation zwischen zwei Konzepten: sie spiegelt die Verknüpfung durch Hyperlinks (Querverweise) wieder und wird der Tabelle link entnommen. Per Default wird diese Relation nicht ausgegeben, sie kann aber über die Option assoc aktiviert werden (falls nicht die Option skos gesetzt ist). Die Relation ww:assoc wird nicht als symmetrisch betrachtet. Im Ergebnis werden alle wesentlichen Informationen aus den internen Datenmodellen als RDFStrukturen repräsentiert, die Ausgabe erfolgt serialisiert in Turtle-Notation [BACKETT (2007)]. In Anhang F.3 sind die RDF-Statements für einige Konzepte als Beispiele aufgeführt. 10.4. Cutoff Obgleich Link-Texte eine gute Quelle für Bezeichnungen für Konzepte sind (vergleiche [MIHALCEA (2007)] sowie [CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)]), können sie doch irreführend sein: es kommen Tippfehler vor, oder es wird irrtümlich auf das falsche Konzept verwiesen. Eine Möglichkeit, solche Fehler zu vermeiden, ist das Gesetz der Großen Zahl: es 10. Export 87 werden einfach nur solche Terme als Bezeichnung für ein Konzept betrachtet, die oft genug als Link-Text in Verknüpfungen zu diesem Konzept vorkamen — die verlangte minimale Zahl von Wiederholungen (Frequenz) wird dann als Cutoff-Wert bezeichnet. Dabei ergibt sich ein Trade- Off zwischen der Präzision (Precision) und der Abdeckung (Coverage)4 der Bedeutungsrelation: ein hoher Cutoff-Wert liefert mit großer Wahrscheinlichkeit nur korrekte Bezeichnungen für ein Konzept, schließt aber mit ebenfalls großerWahrscheinlichkeit auch korrekte Bezeichnungen aus, die nützlich sein könnten. Im dem von WikiWord verwendeten Datenmodell basiert die Bedeutungsrelation aber nicht ausschließlich auf Link-Texten: Terme werden auch wegen anderer Informationen wie dem Seitentitel, Weiterleitungen und Begriffsklärungen mit einem Konzept assoziiert (siehe .8.9 und .9.1). Aufgrund welcher Regel die Termzuordnung erfolgt, wird bei der Analyse des Wiki-Textes festgehalten und beim Aufbau der Bedeutungsrelation in der Tabelle meaning insoweit beibehalten, dass aus dem Feld rule ersichtlich ist, ob die Zuordnung ausschließlich erfolgte, weil der Term als Link-Text für dieses Konzept verwendet wurde (vergleiche .9.1.3 und .C.2). Termzuweisungen, die nicht ausschließlich wegen einer Verwendung als Link-Text vorgenommen wurden, können als explizite Zuweisung betrachtet werden – es ist anzunehmen, dass diese Assoziationen eine höhere Qualität (also geringere Fehlerquote) haben als die Verwendungen als Link-Text. Daher scheint es sinnvoll, den Cutoff-Wert nur für Termzuweisungen anzuwenden, die nicht explizit vorgenommen wurden. Die im folgenden Kapitel beschriebenen Experimente bestätigen diese Annahme (.12.5): werden explizite Zuordnungen unabhängig von der Frequenz beibehalten, verschlechtert sich die Präzision nicht wesentlich, aber die Abdeckung steigt deutlich. Dabei eignet sich, je nach Datenbasis und Präferenz für den Trade-Off zwischen Präzision und Abdeckung, eine Mindestfrequenz von zwei oder drei als Cutoff-Wert. In der Implementation durch ExportRdf wird der Cutoff durch die beiden folgenden Parameter gesteuert: cutoff N verlangt, dass eine Termzuordnung mindestens eine Frequenz von N haben muss, um beim Export berücksichtigt zu werden. force-cutoff erzwingt die Anwendung des Cutoff auch dann, wenn die Termzuweisung explizit war. Auf dieseWeise lässt sich der Qualitätsanspruch gegen die gewünschte Abdeckung abwägen. Der Effekt der verschiedenen Cutoff-Modi wird in .12.5 evaluiert. 10.5. Topic Maps Als Alternative zu RDF als Basis der Repräsentation des Thesaurus bieten sich Topic Maps an [REDMANN UND THOMAS (2007), GARSHOL (2004), ISO:13250 (2003)]. Topic Maps sind ein ISO-Standard für 4Im Gegensatz zum Recall, der sich auf das theoretisch zu erreichende Maximum bezieht, bezieht sich die Abdeckung (Coverage) auf die Anzahl ohne Cutoff. 10. Export 88 die Darstellung von Wissensorganisationssystemen, beziehungsweise für die Repräsentation von Konzepten (Topics) und ihren Beziehungen (Associations) und Bezeichnungen (Names). Sie haben unter anderem die folgenden Eigenschaften, die für die Repräsentation der WikiWord-Daten nützlich wären: Scopes beschränken die Gültigkeit von Assoziationen und Namen auf bestimmte Kontexte — über diesen Mechanismus lassen sich gut sprachspezifische Informationen integrieren. Assoziationen unterstützen eine beliebige Anzahl von Akteuren, es ist also leicht, mehrstellige Relationen zu repräsentieren. Reifikation von Assoziationen wird direkt unterstützt und erlaubt damit eine einfache Integration von Metadaten, zum Beispiel darüber, aus welcher Quelle eine Assoziation stammt oder nach welcher Regel sie gebildet wurde. Indicators vermeiden die Identitätskrise von URIs, da sie von Locators verschieden sind und es so erlauben, dieselbe URI zu verwenden, um auf ein Dokument oder den Gegenstand eines Dokuments zu verweisen, ohne Verwirrung zu stiften. Andererseits ist die Semantik von Beziehungen in Topic Maps weitgehend unspezifiziert und es gibt weniger standardisierte Vokabulare, die die Weiternutzung der Daten erleichtern würden. Eine Abbildung der WikiWord-Daten auf Topic Maps und ein Vergleich des resultierenden Modells mit dem RDF-Modell, das WikiWord generiert, konnte im Rahmen dieser Arbeit nicht untersucht werden und verbleibt als Gegenstand künftiger Forschung. Teil IV. Evaluation
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display