DanielKinzler Chapter 11: Statistischer Überblick

11. Statistischer Überblick
Dieses Kapitel bietet einen Überblick über die mit mit WikiWord gewonnenen Daten. Dabei werden
die Eingabedaten betrachtet, die Anzahl der extrahierten Elemente und Verknüpfungen, sowie
die Verteilungen einiger Eigenschaften.
11.1. Datenbasis und Import
Zur Erprobung von WikiWord und um eine Datenbasis für die in diesem Kapitel beschriebenen
Experimente zu schaffen, wurden Dumps von Wikipedia-Projekten in unterschiedlichen Sprachen
importiert und ausgewertet. Dabei wurden Projekte gewählt, die aus verschiedenen Bereichen des
Größenspektrums stammen. Allerdings wurde auf „exotische“ Sprachen verzichtet, da es dem
Autor an Möglichkeiten mangelt, Ergebnisse für solche Sprachen in irgendeiner Form zu überprüfen.
Konkret wurden die folgenden Dumps ausgewertet:
• Der Dump der englischsprachigen Wikipedia (en) vom 3. Januar 20081.
• Der Dump der deutschsprachigen Wikipedia (de) vom 20. März 2008.
• Der Dump der französischsprachigen Wikipedia (fr) vom 23. März 2008.
• Der Dump der niederländischsprachigen Wikipedia (nl) vom 10. März 2008.
• Der Dump norwegischsprachigen Wikipedia (no) vom 11. März 2008.
• Der Dump der Wikipedia in einfachem Englisch (simple) vom 16. März 2008.
• Der Dump der plattdeutschen Wikipedia (nds) vom 19. März 2008.
Die verwendeten Dumps sind in Anhang F.1 noch einmal genauer angegeben. Das Ergebnis des
Imports ist in Form von SQL-Datenbanken verfügbar, siehe .F.2.
Die Dumps wurden unter Verwendung der verschiedenen Programme der Anwenderschnittstelle
von WikiWord (.B.1) in eine Kollektion mit dem Namen full importiert. Konkret wurden zunächst
mit ImportConcepts die Konzepte aus den Dumps extrahiert (Schritte analyze und
process, siehe .9.1), dann mit BuildStatistics die statistischen Daten erhoben (statistics,
siehe .9.3) und dann mit BuildConceptInfo die Konzept-Informationen für den schnellen
Zugriff aufgebaut (info, siehe .9.4).
1Der Dump der englischsprachigen Wikipedia vom 12. März konnte aufgrund eines Fehlers im UTF-8-Decoder
der XML-Bibliothek Xerces nicht importiert werden (siehe <https://issues.apache.org/jira/browse/
XERCESJ-1257>). Das Problem kann gegebenenfalls umgangen werden, indem man die Xerces-Bibliothek nicht in
den Classpath aufnimmt und so dafür sorgt, dass Javas Standard-Implementation für das Parsen von XML verwendet
wird. Das ist allerdings etwas langsamer.
11. Statistischer Überblick 91
analyze process statistics info total
en 508 3 183 1 198 226 5 115
de 81 69 414 80 643
fr 63 59 83 14 218
nl 40 64 45 14 163
no 15 17 17 8 57
simple 4 4 3 2 14
nds 1 1 1 1 5
times-local.tsv, siehe .F.5
Tabelle 11.1.: Zeitaufwand für den Import
l
l
l l l
500000 1000000 1500000 2000000
0 1000 2000 3000 4000 5000
Artikel
Minuten
en
de
no nl fr
import-time-x-size.data, siehe .F.5
Abb. 11.1: Zeitaufwand für den Import (Minuten)
11. Statistischer Überblick 92
Der Import wurde auf einer Maschine mit vier Prozessorkernen (zwei Dual-Core AMD Opteron
Prozessoren) mit 32 GB Arbeitsspeicher durchgeführt — allerdings wurden zur selben Zeit noch
weitere Experimente auf diesem Computer durchgeführt. Sowohl der Prozessor als auch der
Arbeitsspeicher waren während des Imports meist voll ausgelastet. Der Zeitaufwand für die einzelnen
Schritte ist in Tabelle 11.1 angegeben, die Gesamtzeit ist in Abb. 11.1 dargestellt. Die benötigte
Zeit ist aber vermutlich stark beeinflusst von der Zahl und der Art von Tätigkeiten, die gleichzeitig
auf demselben Computer durchgeführt wurden. Um klare Aussagen über die Performanz machen
zu können, wären Experimente auf einer Maschine notwendig, die keine anderen Aufgaben
hat.
Dennoch lassen sich einige Beobachtungen machen: der Zeitaufwand scheint zwischen O(n)
und O(n2) zu liegen, wobei n die Anzahl der Artikel bezeichnet (siehe Tabelle 11.2). Dabei
fällt das Verhältnis im unteren Bereich eher linear aus, während die großen Projekte zum Teil
deutlich mehr Zeit benötigen. Insbesondere der Import der englischsprachigen Wikipedia dauert
sehr lang (etwa dreieinhalb Tage), die deutschsprachige Wikipedia benötigt bei einem Drittel
der Größe nur etwa ein Neuntel der Zeit. Das könnte darauf zurückzuführen sein, dass die englischsprachige
Wikipedia einen hardware- oder konfigurationsbedingten Schwellwert übersteigt:
zum Beispiel ist es möglich, dass für so große Projekte manche Datenbank-Indizes nicht mehr
im Arbeitsspeicher gehalten werden können und damit deutlich mehr Festplattenzugriffe nötig
werden. Um dies genauer zu untersuchen, wären weitere Experimente, insbesondere mit unterschiedlichen
Konfigurationen des MySQL-Servers, notwendig.
11.2. Eigenschaften
resource concept article link broader langlink meaning
en 4 936 730 6 319 639 2 007 044 58 707 859 6 888 843 3 587 574 12 932 545
de 1 316 554 2 127 028 656703 19 291 643 2 240 720 2 893 177 4 682 065
fr 1 446 357 2 108 017 508741 12 870 575 1 344 173 2 361 487 3 923 011
nl 640222 1 341 691 382550 8201706 667 251 2 595 570 2 187 664
no 267827 626982 156725 3610552 366 293 1 491 655 1 029 257
simple 46 050 196 372 25 217 558 408 46 920 656 398 294 936
nds 14 839 80 473 10 895 225 406 16 473 299 075 102 824
entries-local.tsv, siehe .F.5
Tabelle 11.2.: Anzahl von Einträgen in den lokalen Datensätzen
Der vorangegangene Abschnitt beschreibt, welche Daten verarbeitet wurden und wie viel Zeit
dafür benötigt wurde. Hier soll nun ein grober Überblick über die Ergebnisse gegeben werden.
Die Tabelle 11.2 zeigt, wie viele Einträge welcher Art in den lokalen Datensätzen erzeugt wurden.
Die Tabelle 11.3 zeigt einige weitere Eigenschaften, Tabelle 11.4 zeigt relevante Verknüpfungen
pro Artikel. Im Einzelnen sind folgende Werte aufgeführt:
resource ist die Anzahl der analysierten Seiten in dem Wikipedia-Projekt, also aller Seiten im
Hauptnamensraum und im Kategorie-Namensraum. Das entspricht genau den Einträgen in
der Tabelle resource (.C.2).
11. Statistischer Überblick 93
concepts articles aliases defs sections uncat nolang navcat
en 6 319 639 2 007 044 2 243 103 1 983 155 337 583 93 140 1 211 836 222 562
de 2 127 028 656703 507878 649 086 113 993 14 073 252 462 31 013
fr 2 108 017 508741 626909 491 256 55 154 6 378 177 745 52 608
nl 1 341 691 382550 179414 377 442 13 958 921 87 004 23 032
no 626982 156725 86893 153 501 5 423 5 635 44 427 16 322
simple 196 372 25 217 10 733 23 897 512 543 591 4 394
nds 80 473 10 895 1 558 9 742 31 3 230 438 746
figures-local.tsv, siehe .F.5
Tabelle 11.3.: Weitere Eigenschaften
links categories langlinks terms
en 29,25 3,43 1,79 2,05
de 29,38 3,41 4,41 2,20
fr 25,30 2,64 4,64 1,86
nl 21,44 1,74 6,78 1,63
no 23,04 2,34 9,52 1,64
simple 22,14 1,86 26,03 1,50
nds 20,69 1,51 27,45 1,28
ref-per-article-local.tsv, siehe .F.5
Tabelle 11.4.: Verknüpfungen pro Artikel
concept ist die Gesamtzahl von Konzepten, ohne Weiterleitungen und Begriffsklärungen, aber
mit allen Kategorien, Abschnitten und Konzepten, die zwar referenziert werden, aber keine
eigene Seite haben. Das entspricht genau den Einträgen in der Tabelle concept (.C.2).
Dabei ist zu beachten, dass die allermeisten Konzepte keinen eigenen Artikel haben: sie
stammen aus „roten“ Wiki-Links, also von Verweisen auf noch nicht existierende Seiten,
oder es handelt sich um Konzepte, die aus Verweisen auf Artikelabschnitte entstanden sind,
oder um Navigationskategorien (.9.1). Selbst in großen Projekten, in denen die meisten
Wiki-Links in Artikeln „blau“ erscheinen, also auf eine vorhandene Seite zeigen, gibt es
zu maximal 32% (en) der insgesamt referenzierten Konzepte einen Artikel. Für kleinere
Projekte liegt diese Zahl noch deutlich niedriger, z. B. bei 25% (no) oder gar nur 10% (nds).
Diese Zahl kann als Indikator für die „Reife“ eines Wiki-Projektes verstanden werden.
Insgesamt liefert WikiWord Informationen über mehrere Millionen Konzepte, für die englische
Sprache allein über sechs Millionen (davon noch etwa zwei Millionen mit zugehörigem
Artikel, also mit allen Relationen). Für jedes Konzept sind dabei im Schnitt zwei bis drei
Terme bekannt (vergleiche Tabelle 11.4). Zum Vergleich: WordNet MILLER (1995), FELLBAUM
(1998), WORDNET
enthält Anfang 2008 etwa 155 000 Wörter für 117 000 Konzepte (Synsets).
Dabei gibt es natürlich erhebliche inhaltliche Unterschiede: traditionelle Lexika,
Wörterbücher und Wortnetze wie WordNet decken vor allem den Alltagswortschatz
ab, mit Adjektiven, Verben und zum Teil auch Funktionswörtern; der von WikiWord
aufgebaute Thesaurus enthält dagegen die Arten von Konzepten, die von der Wikipedia
behandelt werden, nämlich vor allem Nomen: neben allgemeinen Konzepten wie HAUS oder
KULTUR sehr viele Named Entities, also Eigennamen von Personen, Orte, Gattungen von
Lebewesen, Organisationen, sowie eine große Zahl von Fachwörtern (vergleiche Tabelle
11. Statistischer Überblick 94
12.3). Insofern stellen die Konzepte, die Wikipedia behandelt, eine nützliche Ergänzung
dar zu den Konzepten des Alltagswortschatzes, den traditionelle Wörterbücher bieten
(vergleiche RUIZ-CASADO U. A. (2005), ZESCH U. A. (2007B), TORAL UND MUNOZ (2007)). Ein eingehender
Vergleich des von WikiWord erstellten Thesaurus mit WordNet verbleibt als Gegenstand
künftiger Forschung.
article ist die Zahl von Artikeln bzw. von Konzepten, die eine eigene Wiki-Seite haben. Das
sind diejenigen Einträge in der Tabelle concept, die nicht den Typ UNKNOWN haben. Artikel
sind in der Anzahl der Konzepte enthalten.
Diese Anzahl unterschiedet sich deutlich von dem, was MediaWiki als „Artikel“ zählt, und
somit auch von der Zahl, die zur Angabe der Größe eines Wiki-Projektes von Wikimedia
verwendet wird: MediaWiki zählt solche Seiten als Artikel, die im Hauptnamensraum liegen,
keine Weiterleitung sind, aber mindestens einen Wiki-Link enthalten. WikiWord zählt
Seiten im Hauptnamensraum, die keineWeiterleitung, keine Begriffsklärung und keine Liste
sind, es wird aber nicht verlangt, dass sie einen Wiki-Link enthalten. So ergeben sich zum
Teil erhebliche Unterschiede; Insbesondere die französischsprachige Wikipedia, die nach
der Zählweise von MediaWiki mit der deutschsprachigen fast gleich auf ist, wirkt hier deutlich
kleiner.
Zu beachten ist auch, dass für die norwegischsprachige Wikipedia (no) keine projektspezifischen
Analyseregeln definiert wurden. Insbesondere die Ressourcenklassifikation
schlägt daher fehl, Begriffsklärungsseiten werden nicht als solche erkannt. Das verzerrt die
Ergebnisse für dieses Projekt teilweise.
link ist die Anzahl von Querverweisen zwischen Konzepten, das heißt die Anzahl von Einträgen
in der Tabelle link (.C.2), deren anchor-Feld nicht NULL ist (also ohne diejenigen
Einträge, die nur eine Termzuordnung definieren).
Die Anzahl von Wiki-Links pro Artikel (also der durchschnittliche Knotengrad im
Hyperlink-Graphen) bewegt sich zwischen 20 (nds) und 30 (en) und ist grob mit der Größe
des Projektes, also der Anzahl der Artikel korreliert. Allerdings ist die deutschsprachige
Wikipedia gleichauf mit der englischsprachigen, obwohl sie nur ein Drittel der Artikel hat.
Und die norwegischsprachige Wikipedia hat mehr Links pro Seite als die niederländischsprachige,
obwohl letztere mehr als doppelt so groß ist. Es wäre zu untersuchen, ob sich die
Korrelation nicht vielmehr auf die Länge der Artikel oder das Alter der Seiten bezieht, wie
es das Modell des Preferential Attachment nahelegt BARABASI UND ALBERT (1999). Die Verteilung
der Knotengrade wird in .11.4 untersucht.
broader ist die Anzahl der Über- bzw. Unterordnungen, also die Anzahl der Einträge in der
Tabelle broader (.C.2). Die Anzahl von Kategorisierungen (Unterordnungen) pro Artikel
variiert zwischen 1,5 (nds) und 3,4 (en) und kann als Indikator für die Dimensionalität der
Kategoriestruktur interpretiert werden, also für die Anzahl der Kategorisierungskriterien.
Diese Zahl korrespondiert nur grob mit der Größe des Projektes, so hat zum Beispiel simple
mit 1,9 mehr Kategorien pro Artikel als nl mit 1,7, obwohl letzteres Projekt etwa fünfzehnmal
größer ist. Ein Grund dafür mag sein, dass simple seine Kategoriestruktur zu großen
Teilen aus der englischsprachigenWikipedia übernimmt, und dadurch eine für ein so kleines
Projekt untypisch hohe Granularität an Kategorien besitzt.
11. Statistischer Überblick 95
langlink ist die Anzahl der Language-Links, also die Anzahl der Einträge in der Tabelle
langlink (.C.2). Die durchschnittliche Anzahl von Language-Links pro Artikel variiert
stark zwischen nur 1,8 (en) und 27,5 (nds) — dies ist ein Indikator für die Granularität
der einzelnen Projekte: da die englische Wikipedia (en) eine sehr hohe Granularität hat,
enthält sie viele Seiten, für die es in keiner oder nur in wenigen anderen Sprachen eine
Entsprechung gibt; dagegen gibt es für die meisten Seiten in der plattdeutschen Wikipedia
(nds) eine Entsprechung in sehr vielen Sprachen.
Dabei ist zu beobachten, dass es zu gewissen Konzepten in so gut wie allen Wikipedias
Artikel gibt. Dazu zählen vor allem Jahreszahlen wie 1984 und Kalendertage wie 1. MAI,
aber auch die Kontinente sowie essentielle Konzepte des Alltags wie WASSER oder SONNE.
Zählt man in verschiedenen Projekten alle Seiten, die mehr als 100 Language-Links haben,
ergibt sich jedes Mal eine Zahl um 760.
meaning ist die Anzahl der Termzuordnungen (Paare von Bezeichnung und Bedeutung), also die
Anzahl der Einträge in der Tabelle meaning (.C.2). Die von WikiWord vorgenommene
Zuordnung von Termen zu Konzepten wird in .12.5 näher untersucht.
terms ist die Anzahl der Terme bzw. Termzuordnungen pro Konzept (inklusive der Konzepte
ohne Artikel), also die Anzahl von unterschiedlichen Bezeichnungen. Die Anzahl der
Terme pro Konzept scheint grob mit der Anzahl der Links pro Artikel zu korrespondieren
— da die Terme zu einem großen Teil aus Link-Texten gewonnen werden, und die
Anzahl unterschiedlicher Link-Texte mit der Gesamtzahl von Wiki-Links wächst, ist dieser
Zusammenhang naheliegend.
aliases ist die Anzahl von Aliasen, die auf die Konzepte angewendet wurden. Das entspricht
genau den Einträgen in der Tabelle alias (.C.2). Aliase sind in der Anzahl der Konzepte
und Artikel nicht enthalten. Der Anteil vonWeiterleitungen an der Gesamtzahl der verarbeiteten
Seiten liegt zwischen 10% (nds) und 45% (en). Die große Zahl von Weiterleitungen
in der englischsprachigen Wikipedia rührt unter anderem daher, dass dort Weiterleitungen
für Pluralformen und für alternative Groß-/Kleinschreibung und Durchkopplungen üblich
sind. Es lässt sich aber generell die Tendenz erkennen, dass größere Projekte einen höheren
Anteil von Weiterleitungen haben.
Auch diese Größe mag als Indikator für die „Reife“ eines Wiki-Projektes dienen, allerdings
haben sprach- oder projektspezifische Konventionen einen großen Einfluss auf diese Zahl.
Ein Beispiel ist die Berücksichtigung des „Title Case“ in der englischsprachigenWikipedia:
Principia_mathematica ist ein Alias für Principia_Mathematica, ähnliche Weiterleitungen
gibt es für eine große Zahl von Namen von Werken und Organisationen.
defs ist die Anzahl der extrahierten Definitionen. Das sind die Einträge in der Tabelle
definition (.C.2). Die Extraktion von Definitionssätzen gelingt für etwa 90% (nds)
– 99% (en) der Artikel. Das schlechte Abschneiden der plattdeutschen Wikipedia (nds)
ist unter anderem dadurch zu erklären, dass in diesem recht kleinen Projekt Artikel zu
Jahreszahlen und Kalendertagen einen großen Anteil ausmachen — solche Artikel haben
in der Regel keinen Definitionssatz.
11. Statistischer Überblick 96
sections ist die Anzahl von Konzepten, die aus Verweisen auf Abschnitte entstanden sind.
Bis zu 5% (en, de) der Konzepte entstehen auf diese Weise, wobei der Anteil für kleinere
Projekte geringer ist. Das ist vermutlich dadurch zu erklären, dass die Artikel in kleineren
Projekten auch kürzer sind und es daher weniger Abschnitte gibt, auf die verwiesen
werden kann. Ausserdem beschränken sich junge Projekte meist auf den Aufbau einer
Grundstruktur, „rote“ Wiki-Links auf noch nicht vorhandene Artikel kommen dabei sehr
häufig vor. In älteren, größeren Projekten ist die Wahrscheinlichkeit höher, dass Autoren
einen Abschnitt eines Artikels als Link-Ziel wählen, wenn es keinen eigenen Artikel zu
dem betreffenden Thema gibt.
uncat ist die Anzahl unkategorisierter Artikel. Der Anteil von Artikeln ohne Kategorien liegt
zwischen 0,2% (nl) und 4,6% (en), mit der Ausnahme von (nds), wo der Anteil bei
30% liegt. Der relative große Anteil unkategorisierter Artikel in der englischsprachigen
Wikipedia ist vermutlich darauf zurückzuführen, dass es dort viele sogenannte „Stubs“ gibt,
also sehr kurze „Artikelstummel“. Diese sind per Konvention mit einer Vorlage markiert,
die, im Falle der englischsprachigenWikipedia, auch automatisch eine Kategorisierung vornimmt
— diese wird, da sie implizit ist, von Wikiword nicht erfasst. Die sehr hohe Zahl
unkategorisierter Artikel in der plattdeutschen Wikipedia dagegen ist wohl dem Umstand
geschuldet, dass es sich um ein sehr kleines und recht junges Projekt mit einer geringen
Zahl an Mitarbeitern handelt. Sie kann als Indikator dafür verstanden werden, dass dieses
Wiki-Projekt noch recht „unreif“ ist.
nolang ist die Anzahl von Artikeln ohne Language-Links. Der Anteil von Artikeln, die keine
Language-Links auf entsprechende Artikel in anderen Sprachen haben, variiert sehr stark,
nämlich zwischen 2% (simple) und 60% (en). Das ist ein Indikator für die unterschiedliche
Granularität der einzelnen Projekte: die englischsprachige Wikipedia hat die mit Abstand
größte Zahl an Artikeln und damit die höchste Granularität—naturgemäß enthält sie daher
viele Artikel, die keine Entsprechung in anderen Sprachen haben. Der Anteil von 60% entspricht
dabei gut dem Umstand, dass die englischsprachige Wikipedia dreimal so groß ist
wie die nächstkleinere, nämlich die deutschsprachige—allerdings heißt das nicht, dass ein
Drittel der Artikel einen Language-Link auf die deutschsprachigeWikipedia enthalten müssen.
Die von den einzelnen Projekten abgedeckten Konzepte überlappen sich ja nicht völlig,
so hat auch die deutschsprachige Wikipedia noch 40% Artikel ganz ohne Language-Links.
Viele davon werden sich auf Personen, Orte und Organisationen beziehen, die vorrangig von
lokaler Bedeutung sind— dies wäre noch näher zu untersuchen.
navcat ist die Anzahl von Navigationskategorien, also von Konzepten, die keinen Artikel haben,
denen aber andere Konzepte untergeordnet sind. Navigationskategorien machen zwischen
1% (nds) und 3,5% (en) der Konzepte aus.
11.3. Multilinguale Thesauri
Nachdem alle monolingualen Thesauri aufgebaut waren (.11.1), wurden auf dieser Basis mittels
des Programms BuildThesaurus multilinguale Thesauri aufgebaut (.9.2): einmal auf Basis
11. Statistischer Überblick 97
copy prepare merge process statistics info total
compl. 98 38 467 525 462 265 1 855
top5 121 33 207 176 550 303 1 391
top3 155 28 122 361 446 264 1 377
times-global.tsv, siehe .F.5
Tabelle 11.5.: Zeitaufwand für das Zusammenführen
concept article link broader langlink orig.article
compl. 11 835 474 2 783 147 75 650 558 11 565 395 5 086 084 3 747 875
top5 11 589 229 2 777 635 75 192 652 11 500 968 5 042 949 3 711 763
top3 9 979 450 2 597 254 68 623 989 10 469 641 4 725 484 3 172 488
entries-global.tsv, siehe .F.5
Tabelle 11.6.: Anzahl von Einträgen in den globalen Datensätzen
aller Sprachen (compl.), einmal aus den größten drei, also Englisch, Deutsch und Französisch
(top3), und einmal aus den größten fünf, also Englisch, Deutsch, Französisch, Niederländisch
und Norwegisch (top5). Der Aufbau ist in vier Schritte aufgeteilt: copy, prepare, merge und
process.
Der Zeitaufwand für das Zusammenführen der Konzepte fällt mit etwa einem Drittel der Zeit,
die für den Import der einzelnen Dumps benötigt wurde, relativ gering aus (Tabelle 11.5). Auch
scheint er kaum von der Anzahl der zu betrachtenden Sprachen abzuhängen, sondern vor allem von
der Gesamtzahl der Artikel: die drei multilingualen Thesauri mit sieben, fünf und drei Sprachen
brauchen jeweils etwas weniger als einen Tag. Darüber hinaus lassen sich kaum Aussagen treffen,
da die Werte stark fluktuieren und davon auszugehen ist, dass sie vor allem durch die Systemlast
zur Zeit der Verarbeitung beeinflusst sind. Zum Beispiel werden im Schritt copy nur Daten aus
den lokalen Datensätzen in den globalen Datensatz kopiert, um dann verarbeitet zu werden. Der
Zeitaufwand sollte also nur davon abhängig sein, wie viel zu kopieren ist. Die Tabelle 11.5 zeigt
aber das Gegenteil: das Kopieren von Daten aus drei Datensätzen (top3) dauert deutlich länger als
das Kopieren aus sieben Datensätzen (compl.). Das lässt sich nur durch eine deutlich schlechtere
Performanz bzw. höhere Last des Gesamtsystems zu dem fraglichen Zeitpunkt erklären.
Die Tabelle 11.6 zeigt, wie viele Einträge welcher Art in den globalen Datensätzen erzeugt wurden,
Tabelle 11.7 zeigt die Anzahl von Verknüpfungen zwischen den Konzepten bzw. Artikeln.
Die dargestellten Eigenschaften entsprechen den in .11.2 beschriebenen, mit dem Zusatz des
orig.article-Feldes:
links categories langlinks
compl. 27,18 4,16 1,83
top5 27,07 4,14 1,82
top3 26,42 4,03 1,82
re-per-article-global.tsv, siehe .F.5
Tabelle 11.7.: Verknüpfungen pro Artikel
11. Statistischer Überblick 98
orig.article ist die Anzahl von lokalen Artikeln, die in einem globalen Datensatz berücksichtigt
sind. Das entspricht genau den Einträgen in der Tabelle origin (.C.2),die auf ein Konzept
verweisen, dessen Typ nicht UNKNOWN ist.
Es handelt sich also um die Anzahl der Artikel vor dem Zusammenfassen äquivalenter Konzepte.
Vergleicht man diese Zahl mit der Zahl der Artikel, die nach dem Zusammenfassen übrig bleiben,
ergibt sich ein Maß dafür, wie effektiv der Zusammenführungsalgorithmus arbeitet: für die globalen
Datensätze compl. und top5 ergibt sich eine Reduktion um 25%, für den Datensatz top3
um 20%. Wenn man bedenkt, dass gut die Hälfte der Artikel gar keine Language-Links hat, also
auch mit nichts zusammengeführt werden können, scheint dieses Ergebnis recht gut. In der Tat
verbleiben nur für weniger als 10% der Konzepte direkte Language-Links im Feld langref der
Tabelle relation (.C.2), also potentielle Äquivalenzen, die nicht verwendet wurden (so genannte
Konflikte). Insgesamt sind 15% – 20% der verbleibenden Artikel aus mehr als einem lokalen
Konzept zusammengesetzt — in Anbetracht der Tatsache, dass über 60% nur in der englischsprachigen
Wikipedia existieren, ist das ein ermutigendes Ergebnis.
Insgesamt liefert WikiWord Übersetzungen für etwa eine halbe Million Konzepte, eine viertel
Million davon mit mehr als zwei Sprachen und immer noch eine achtel Million mit mehr als
drei. Für jedes Konzept sind dabei im Schnitt zwei bis drei Terme pro Sprache bekannt. Zum
Vergleich: das PONS Großwörterbuch Englisch2 hat in der aktuellen Ausgabe 390 000 Stichwörter
und 530 000 Übersetzungen. Auch hier ist natürlich, wie schon im Vergleich mit WordNet, zu
berücksichtigen, dass ein traditionelles Übersetzungswörterbuch ganz andere Konzepte abdeckt,
als die, die WikiWord aus der Wikipedia extrahiert.
In .9.2 ist beschrieben, wie jeweils (höchstens) ein Konzept aus jedem monolingualen Thesaurus
(also aus jeder Sprache) zu einem sprachübergreifenden Konzept zusammengeführt wird. Ein globales
Konzept in einem multilingualen Thesaurus ist also eine Gruppierung von äquivalenten lokalen
Konzepten, wobei in jeder Gruppe höchstens ein Repräsentant jeder Sprache vertreten ist.
Eine direkte Evaluation des Algorithmus, der in .9.2 verwendet wird, um solche Gruppen von
Konzepten zu finden, gestaltet sich schwierig: aufgrund der unterschiedlichen Granularität der
Projekte gibt es oft mehrere Möglichkeiten, Konzepte zusammenzufassen, und es ist kaum möglich,
anzugeben, welche Gruppierung optimal wäre. Unmittelbar gezählt werden können nur Fälle,
in denen sich offensichtlich ein Konzept in der Gruppe befindet, das dort nicht hineingehört und
umgekehrt, wenn in der Gruppe ein Konzept fehlt. Letzteres kommt ab und zu vor (in einer
Stichprobe von 250 Konzepten insgesamt 6 mal, siehe Anhang F.4), der Grund ist in der Regel
ein fehlender Language-Link in einem der betreffenden Artikel.
Der Fall, dass ein „falsches“ Konzept aufgenommen wurde, kommt dagegen kaum vor (in
der Stichproben gar nicht, siehe Anhang F.4). Im direkten Vergleich zwischen multilingualen
Thesauri auf unterschiedlicher Datenbasis lassen sich aber die Auswirkungen der unterschiedlichen
Granularität beobachten: die „Trennschärfe“ der impliziten Ähnlichkeitsbeziehung, die durch
die Language-Links ausgedrückt wird, ist bei kleinen Projekten deutlich schlechter (vergleiche
.12.3). Sie fassen häufig mehr Konzepte in einem Artikel zusammen. Werden sie für den Aufbau
des multilingualen Thesaurus verwendet, so besteht die Gefahr, dass Konzepte, die nicht völlig
äquivalent sind, zu einem sprachübergreifenden Konzept zusammengeführt werden, weil sie
2ISBN: 978-3-12-517192-3, <http://www.pons.de/produkte/3-12-517192-X/>
11. Statistischer Überblick 99
eben über Language-Links miteinander verbunden sind. So wurde zum Beispiel SIMPLE:HEIGHT mit
EN:ELEVATION zusammengefasst, obwohl SIMPLE:ELEVATION korrekt gewesen wäre.
Zusätzlich zu dem Vergleich von Thesauri auf der Basis von drei, fünf und sieben Sprachen wäre
es interessant, alternative Algorithmen für das Finden und Zusammenfassen von „äquivalenten“
Konzepten zu vergleichen. Eine alternative Methode, die die Language-Links der Seiten als
Featurevektoren interpretiert, wurde in .9.2.2 bereits kurz beschrieben. Als Baseline könnte desweiteren
ein naiver Algorithmus dienen, der die englischsprachige Wikipedia als Ausgangspunkt
nimmt und jedes Konzept aus diesem Projekt mit allen Konzepten aus anderen Sprachen vereinigt,
mit denen es über Language-Links verknüpft ist. Ein Vergleich dieser unterschiedlichen Methoden
konnte im Rahmen dieser Arbeit nicht umgesetzt werden und verbleibt als Gegenstand zukünftiger
Forschung.
11.4. Verteilung von Termfrequenzen
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm EVm
WikiWord
Zipf-Mandelbrot
(a) en.wikipedia.org
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm EVm
WikiWord
Zipf-Mandelbrot
(b) de.wikipedia.org
dewiki-terms-zipf.data, siehe .F.5 bzw. enwiki-terms-zipf.data, siehe .F.5
Abb. 11.2: Verteilung der Termfrequenzen
In diesem Abschnitt wird untersucht, wie die von WikiWord gefundenen Terme bezüglich ihrer
Häufigkeit (Frequenz) verteilt sind. Es wird erwartet, dass diese Verteilung derjenigen ähnelt, die
sich für dieWortfrequenzen in natürlichen Texten ergibt. Die Verteilung vonWortfrequenzen folgt
typischerweise dem Zipfschen Gesetz ZIPF (1935), und Abb. 11.2 zeigt, dass das in der Tat auch für
die von WikiWord gefundenen Terme gilt3. Die beobachtete Verteilung passt sogar noch besser
zu der Vorhersage, als das häufig für Wortfrequenzen aus Volltext der Fall ist: Die Verteilung von
3Die Statistiken wurden mit dem ZipfR-Paket ZIPFR für GNU R GNU-R ausgewertet und geplottet, für die
Regressionsanalyse wurde ein Zipf-Mandelbrot-Modell verwendet EVERT (2004).
11. Statistischer Überblick 100
Stoppwörtern (typischerweise etwa die obersten 100 Ränge) folgen häufig nicht der Vorhersage
des Zipfschen Gesetzes (was durch die Verfeinerung von Mandelbrot teilweise ausgeglichen wird).
Die Menge von Termen, die WikiWord liefert, enthält aber keine Stoppwörter (oder wenn, dann
nur als „Fehler“ und daher mit niedriger Frequenz): die Terme stammen vor allem aus Seitentiteln
und aus Wiki-Links (.8.9) und sind daher in der Regel stark sinntragend KRAFT UND ZIEN (2004),
EIRON UND MCCURLEY (2003)
. Ihre Verteilung folgt daher sehr genau den Voraussagen des Zipfschen
Gesetzes.
11.5. Verteilung von Knotengraden
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm EVm
WikiWord
Zipf-Mandelbrot
(a) en.wikipedia.org
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm EVm
WikiWord
Zipf-Mandelbrot
(b) de.wikipedia.org
enwiki-degree-zipf.data, siehe .F.5 bzw. dewiki-degree-zipf.data, siehe .F.5
Abb. 11.3: Verteilung der Knotengrade
Die graphentheoretischen Eigenschaften der Wikipedia als Hyperlink-Netzwerk wurden schon
verschiedentlich untersucht VOSS (2005B), CAPOCCI U. A. (2006), BELLOMI UND BONATO (2005B). Ein wichtiges,
aber kaum überraschendes Ergebnis dieser Untersuchungen war, dass es sich bei dem Hyperlink-
Netzwerk in Wikipedia um einen skalenfreien Small-Word-Graphen handelt CAPOCCI U. A. (2006),
so wie das bei den meisten Hypertext-Korpora der Fall ist BARABASI UND ALBERT (1999), STEYVERS
UND TENENBAUM (2005)
. Die Skalenfreiheit ergibt sich dabei aus dem „natürlichen“ Wachstum des
Netzwerkes, das dem Gesetz des Preferential Attachment folgt.
Der Nachweis dieser Eigenschaften soll hier nicht wiederholt werden. Lediglich die Skalenfreiheit
des Hyperlink-Netzwerk wird in Abb. 11.3 demonstriert: hier ist zu erkennen, dass die Verteilung
der Knotengrade dem Power Law folgt4.
4Auch hier wurde mittels ZipfR eine Regressionsanalyse mit dem Zipf-Mandelbrot-Modell verwendet.
11. Statistischer Überblick 101
11.6. Auswertung des Exports
Datensatz WikiWord SKOS
en 120 300 556 60 720 983
de 41 965 891 20 798 761
fr 37 141 654 16 840 521
nl 23 332 076 10 146 600
no 11 199 935 4 692 075
simple 3 010 005 1 204 964
nds 1 299 067 463 783
top3 232 616 737 138 375 761
top5 269 441 309 159 703 396
comp. 274 464 220 162 442 796
export-size.tsv, siehe .F.5
Tabelle 11.8.: Anzahl von RDF-Tripeln
Der Export von WikiWord-Daten nach RDF bzw. SKOS, wie er in Kapitel .10 beschrieben
ist, kann für sich genommen kaum evaluiert werden. Hier wären Integrationstests notwendig,
die die Kompatibilität und Nützlichkeit dieser Daten gezielt in Bezug auf andere Systeme wie
DBpedia AUER U. A. (2007), AUER UND LEHMANN (2007), DBPEDIA, OmegaWiki (ehemals WiktionaryZ)
VAN MULLIGEN U. A. (2006), OMEGAWIKI oder Wortschatz QUASTHOFF (1998), WORTSCHATZ untersuchen.
Solche Untersuchungen würden über den Rahmen dieser Arbeit hinausgehen und verbleiben als
Gegenstand künftiger Forschung.
Um die Exportfunktion zu testen und einen Eindruck von der zu erwartenden Datenmenge zu
erhalten, wurden die aus den Wikipedias extrahierten Daten unter Verwendung verschiedener
Optionen als RDF exportiert (für Zugang zu den resultierenden Daten, siehe .F.3).
Die Tabelle 11.8 zeigt die Anzahl von RDF-Statements (Tripeln), die zur Beschreibung der monound
multilingualen Thesauri benötigt werden. Bei Nutzung des WikiWord-Vokabulars ergibt sich
ein Durchschnitt von etwa 23 Statements pro Konzept, bei einer Beschränkung auf SKOS sind
es mit etwa 14 deutlich weniger. Die Gesamtgröße eines multilingualen Thesaurus mit den oben
angegebenen sieben Sprachen, in exportierter Form, unter Verwendung desWikiWord-Vokabulars
und mit bzip2 komprimiert, beläuft sich auf 1,3 Gigabyte. Zum Vergleich: die zugrunde liegenden
Wikipedia-Dumps für die entsprechenden sieben Projekte haben zusammen eine Größe von knapp
6 Gigabyte, ebenfalls unter Verwendung von bzip2.

Upcoming Events

No records to display