History: DanielKinzler Chapter 11: Statistischer Ãœberblick

Source of version: 1 (current)

11. Statistischer Ãœberblick
Dieses Kapitel bietet einen Ãœberblick Ã¼ber die mit mit WikiWord gewonnenen Daten. Dabei werden
die Eingabedaten betrachtet, die Anzahl der extrahierten Elemente und VerknÃ¼pfungen, sowie
die Verteilungen einiger Eigenschaften.
11.1. Datenbasis und Import
Zur Erprobung von WikiWord und um eine Datenbasis fÃ¼r die in diesem Kapitel beschriebenen
Experimente zu schaffen, wurden Dumps von Wikipedia-Projekten in unterschiedlichen Sprachen
importiert und ausgewertet. Dabei wurden Projekte gewÃ¤hlt, die aus verschiedenen Bereichen des
GrÃ¶ÃŸenspektrums stammen. Allerdings wurde auf â€žexotischeâ€œ Sprachen verzichtet, da es dem
Autor an MÃ¶glichkeiten mangelt, Ergebnisse fÃ¼r solche Sprachen in irgendeiner Form zu Ã¼berprÃ¼fen.
Konkret wurden die folgenden Dumps ausgewertet:
â€¢ Der Dump der englischsprachigen Wikipedia (en) vom 3. Januar 20081.
â€¢ Der Dump der deutschsprachigen Wikipedia (de) vom 20. MÃ¤rz 2008.
â€¢ Der Dump der franzÃ¶sischsprachigen Wikipedia (fr) vom 23. MÃ¤rz 2008.
â€¢ Der Dump der niederlÃ¤ndischsprachigen Wikipedia (nl) vom 10. MÃ¤rz 2008.
â€¢ Der Dump norwegischsprachigen Wikipedia (no) vom 11. MÃ¤rz 2008.
â€¢ Der Dump der Wikipedia in einfachem Englisch (simple) vom 16. MÃ¤rz 2008.
â€¢ Der Dump der plattdeutschen Wikipedia (nds) vom 19. MÃ¤rz 2008.
Die verwendeten Dumps sind in Anhang F.1 noch einmal genauer angegeben. Das Ergebnis des
Imports ist in Form von SQL-Datenbanken verfÃ¼gbar, siehe .F.2.
Die Dumps wurden unter Verwendung der verschiedenen Programme der Anwenderschnittstelle
von WikiWord (.B.1) in eine Kollektion mit dem Namen full importiert. Konkret wurden zunÃ¤chst
mit ImportConcepts die Konzepte aus den Dumps extrahiert (Schritte analyze und
process, siehe .9.1), dann mit BuildStatistics die statistischen Daten erhoben (statistics,
siehe .9.3) und dann mit BuildConceptInfo die Konzept-Informationen fÃ¼r den schnellen
Zugriff aufgebaut (info, siehe .9.4).
1Der Dump der englischsprachigen Wikipedia vom 12. MÃ¤rz konnte aufgrund eines Fehlers im UTF-8-Decoder
der XML-Bibliothek Xerces nicht importiert werden (siehe <https://issues.apache.org/jira/browse/
XERCESJ-1257>). Das Problem kann gegebenenfalls umgangen werden, indem man die Xerces-Bibliothek nicht in
den Classpath aufnimmt und so dafÃ¼r sorgt, dass Javas Standard-Implementation fÃ¼r das Parsen von XML verwendet
wird. Das ist allerdings etwas langsamer.
11. Statistischer Ãœberblick 91
analyze process statistics info total
en 508 3 183 1 198 226 5 115
de 81 69 414 80 643
fr 63 59 83 14 218
nl 40 64 45 14 163
no 15 17 17 8 57
simple 4 4 3 2 14
nds 1 1 1 1 5
times-local.tsv, siehe .F.5
Tabelle 11.1.: Zeitaufwand fÃ¼r den Import
l
l
l l l
500000 1000000 1500000 2000000
0 1000 2000 3000 4000 5000
Artikel
Minuten
en
de
no nl fr
import-time-x-size.data, siehe .F.5
Abb. 11.1: Zeitaufwand fÃ¼r den Import (Minuten)
11. Statistischer Ãœberblick 92
Der Import wurde auf einer Maschine mit vier Prozessorkernen (zwei Dual-Core AMD Opteron
Prozessoren) mit 32 GB Arbeitsspeicher durchgefÃ¼hrt â€” allerdings wurden zur selben Zeit noch
weitere Experimente auf diesem Computer durchgefÃ¼hrt. Sowohl der Prozessor als auch der
Arbeitsspeicher waren wÃ¤hrend des Imports meist voll ausgelastet. Der Zeitaufwand fÃ¼r die einzelnen
Schritte ist in Tabelle 11.1 angegeben, die Gesamtzeit ist in Abb. 11.1 dargestellt. Die benÃ¶tigte
Zeit ist aber vermutlich stark beeinflusst von der Zahl und der Art von TÃ¤tigkeiten, die gleichzeitig
auf demselben Computer durchgefÃ¼hrt wurden. Um klare Aussagen Ã¼ber die Performanz machen
zu kÃ¶nnen, wÃ¤ren Experimente auf einer Maschine notwendig, die keine anderen Aufgaben
hat.
Dennoch lassen sich einige Beobachtungen machen: der Zeitaufwand scheint zwischen O(n)
und O(n2) zu liegen, wobei n die Anzahl der Artikel bezeichnet (siehe Tabelle 11.2). Dabei
fÃ¤llt das VerhÃ¤ltnis im unteren Bereich eher linear aus, wÃ¤hrend die groÃŸen Projekte zum Teil
deutlich mehr Zeit benÃ¶tigen. Insbesondere der Import der englischsprachigen Wikipedia dauert
sehr lang (etwa dreieinhalb Tage), die deutschsprachige Wikipedia benÃ¶tigt bei einem Drittel
der GrÃ¶ÃŸe nur etwa ein Neuntel der Zeit. Das kÃ¶nnte darauf zurÃ¼ckzufÃ¼hren sein, dass die englischsprachige
Wikipedia einen hardware- oder konfigurationsbedingten Schwellwert Ã¼bersteigt:
zum Beispiel ist es mÃ¶glich, dass fÃ¼r so groÃŸe Projekte manche Datenbank-Indizes nicht mehr
im Arbeitsspeicher gehalten werden kÃ¶nnen und damit deutlich mehr Festplattenzugriffe nÃ¶tig
werden. Um dies genauer zu untersuchen, wÃ¤ren weitere Experimente, insbesondere mit unterschiedlichen
Konfigurationen des MySQL-Servers, notwendig.
11.2. Eigenschaften
resource concept article link broader langlink meaning
en 4 936 730 6 319 639 2 007 044 58 707 859 6 888 843 3 587 574 12 932 545
de 1 316 554 2 127 028 656703 19 291 643 2 240 720 2 893 177 4 682 065
fr 1 446 357 2 108 017 508741 12 870 575 1 344 173 2 361 487 3 923 011
nl 640222 1 341 691 382550 8201706 667 251 2 595 570 2 187 664
no 267827 626982 156725 3610552 366 293 1 491 655 1 029 257
simple 46 050 196 372 25 217 558 408 46 920 656 398 294 936
nds 14 839 80 473 10 895 225 406 16 473 299 075 102 824
entries-local.tsv, siehe .F.5
Tabelle 11.2.: Anzahl von EintrÃ¤gen in den lokalen DatensÃ¤tzen
Der vorangegangene Abschnitt beschreibt, welche Daten verarbeitet wurden und wie viel Zeit
dafÃ¼r benÃ¶tigt wurde. Hier soll nun ein grober Ãœberblick Ã¼ber die Ergebnisse gegeben werden.
Die Tabelle 11.2 zeigt, wie viele EintrÃ¤ge welcher Art in den lokalen DatensÃ¤tzen erzeugt wurden.
Die Tabelle 11.3 zeigt einige weitere Eigenschaften, Tabelle 11.4 zeigt relevante VerknÃ¼pfungen
pro Artikel. Im Einzelnen sind folgende Werte aufgefÃ¼hrt:
resource ist die Anzahl der analysierten Seiten in dem Wikipedia-Projekt, also aller Seiten im
Hauptnamensraum und im Kategorie-Namensraum. Das entspricht genau den EintrÃ¤gen in
der Tabelle resource (.C.2).
11. Statistischer Ãœberblick 93
concepts articles aliases defs sections uncat nolang navcat
en 6 319 639 2 007 044 2 243 103 1 983 155 337 583 93 140 1 211 836 222 562
de 2 127 028 656703 507878 649 086 113 993 14 073 252 462 31 013
fr 2 108 017 508741 626909 491 256 55 154 6 378 177 745 52 608
nl 1 341 691 382550 179414 377 442 13 958 921 87 004 23 032
no 626982 156725 86893 153 501 5 423 5 635 44 427 16 322
simple 196 372 25 217 10 733 23 897 512 543 591 4 394
nds 80 473 10 895 1 558 9 742 31 3 230 438 746
figures-local.tsv, siehe .F.5
Tabelle 11.3.: Weitere Eigenschaften
links categories langlinks terms
en 29,25 3,43 1,79 2,05
de 29,38 3,41 4,41 2,20
fr 25,30 2,64 4,64 1,86
nl 21,44 1,74 6,78 1,63
no 23,04 2,34 9,52 1,64
simple 22,14 1,86 26,03 1,50
nds 20,69 1,51 27,45 1,28
ref-per-article-local.tsv, siehe .F.5
Tabelle 11.4.: VerknÃ¼pfungen pro Artikel
concept ist die Gesamtzahl von Konzepten, ohne Weiterleitungen und BegriffsklÃ¤rungen, aber
mit allen Kategorien, Abschnitten und Konzepten, die zwar referenziert werden, aber keine
eigene Seite haben. Das entspricht genau den EintrÃ¤gen in der Tabelle concept (.C.2).
Dabei ist zu beachten, dass die allermeisten Konzepte keinen eigenen Artikel haben: sie
stammen aus â€žrotenâ€œ Wiki-Links, also von Verweisen auf noch nicht existierende Seiten,
oder es handelt sich um Konzepte, die aus Verweisen auf Artikelabschnitte entstanden sind,
oder um Navigationskategorien (.9.1). Selbst in groÃŸen Projekten, in denen die meisten
Wiki-Links in Artikeln â€žblauâ€œ erscheinen, also auf eine vorhandene Seite zeigen, gibt es
zu maximal 32% (en) der insgesamt referenzierten Konzepte einen Artikel. FÃ¼r kleinere
Projekte liegt diese Zahl noch deutlich niedriger, z. B. bei 25% (no) oder gar nur 10% (nds).
Diese Zahl kann als Indikator fÃ¼r die â€žReifeâ€œ eines Wiki-Projektes verstanden werden.
Insgesamt liefert WikiWord Informationen Ã¼ber mehrere Millionen Konzepte, fÃ¼r die englische
Sprache allein Ã¼ber sechs Millionen (davon noch etwa zwei Millionen mit zugehÃ¶rigem
Artikel, also mit allen Relationen). FÃ¼r jedes Konzept sind dabei im Schnitt zwei bis drei
Terme bekannt (vergleiche Tabelle 11.4). Zum Vergleich: WordNet [MILLER (1995), FELLBAUM
(1998), WORDNET] enthÃ¤lt Anfang 2008 etwa 155 000 WÃ¶rter fÃ¼r 117 000 Konzepte (Synsets).
Dabei gibt es natÃ¼rlich erhebliche inhaltliche Unterschiede: traditionelle Lexika,
WÃ¶rterbÃ¼cher und Wortnetze wie WordNet decken vor allem den Alltagswortschatz
ab, mit Adjektiven, Verben und zum Teil auch FunktionswÃ¶rtern; der von WikiWord
aufgebaute Thesaurus enthÃ¤lt dagegen die Arten von Konzepten, die von der Wikipedia
behandelt werden, nÃ¤mlich vor allem Nomen: neben allgemeinen Konzepten wie HAUS oder
KULTUR sehr viele Named Entities, also Eigennamen von Personen, Orte, Gattungen von
Lebewesen, Organisationen, sowie eine groÃŸe Zahl von FachwÃ¶rtern (vergleiche Tabelle
11. Statistischer Ãœberblick 94
12.3). Insofern stellen die Konzepte, die Wikipedia behandelt, eine nÃ¼tzliche ErgÃ¤nzung
dar zu den Konzepten des Alltagswortschatzes, den traditionelle WÃ¶rterbÃ¼cher bieten
(vergleiche [RUIZ-CASADO U. A. (2005), ZESCH U. A. (2007B), TORAL UND MUNOZ (2007)]). Ein eingehender
Vergleich des von WikiWord erstellten Thesaurus mit WordNet verbleibt als Gegenstand
kÃ¼nftiger Forschung.
article ist die Zahl von Artikeln bzw. von Konzepten, die eine eigene Wiki-Seite haben. Das
sind diejenigen EintrÃ¤ge in der Tabelle concept, die nicht den Typ UNKNOWN haben. Artikel
sind in der Anzahl der Konzepte enthalten.
Diese Anzahl unterschiedet sich deutlich von dem, was MediaWiki als â€žArtikelâ€œ zÃ¤hlt, und
somit auch von der Zahl, die zur Angabe der GrÃ¶ÃŸe eines Wiki-Projektes von Wikimedia
verwendet wird: MediaWiki zÃ¤hlt solche Seiten als Artikel, die im Hauptnamensraum liegen,
keine Weiterleitung sind, aber mindestens einen Wiki-Link enthalten. WikiWord zÃ¤hlt
Seiten im Hauptnamensraum, die keineWeiterleitung, keine BegriffsklÃ¤rung und keine Liste
sind, es wird aber nicht verlangt, dass sie einen Wiki-Link enthalten. So ergeben sich zum
Teil erhebliche Unterschiede; Insbesondere die franzÃ¶sischsprachige Wikipedia, die nach
der ZÃ¤hlweise von MediaWiki mit der deutschsprachigen fast gleich auf ist, wirkt hier deutlich
kleiner.
Zu beachten ist auch, dass fÃ¼r die norwegischsprachige Wikipedia (no) keine projektspezifischen
Analyseregeln definiert wurden. Insbesondere die Ressourcenklassifikation
schlÃ¤gt daher fehl, BegriffsklÃ¤rungsseiten werden nicht als solche erkannt. Das verzerrt die
Ergebnisse fÃ¼r dieses Projekt teilweise.
link ist die Anzahl von Querverweisen zwischen Konzepten, das heiÃŸt die Anzahl von EintrÃ¤gen
in der Tabelle link (.C.2), deren anchor-Feld nicht NULL ist (also ohne diejenigen
EintrÃ¤ge, die nur eine Termzuordnung definieren).
Die Anzahl von Wiki-Links pro Artikel (also der durchschnittliche Knotengrad im
Hyperlink-Graphen) bewegt sich zwischen 20 (nds) und 30 (en) und ist grob mit der GrÃ¶ÃŸe
des Projektes, also der Anzahl der Artikel korreliert. Allerdings ist die deutschsprachige
Wikipedia gleichauf mit der englischsprachigen, obwohl sie nur ein Drittel der Artikel hat.
Und die norwegischsprachige Wikipedia hat mehr Links pro Seite als die niederlÃ¤ndischsprachige,
obwohl letztere mehr als doppelt so groÃŸ ist. Es wÃ¤re zu untersuchen, ob sich die
Korrelation nicht vielmehr auf die LÃ¤nge der Artikel oder das Alter der Seiten bezieht, wie
es das Modell des Preferential Attachment nahelegt [BARABASI UND ALBERT (1999)]. Die Verteilung
der Knotengrade wird in .11.4 untersucht.
broader ist die Anzahl der Ãœber- bzw. Unterordnungen, also die Anzahl der EintrÃ¤ge in der
Tabelle broader (.C.2). Die Anzahl von Kategorisierungen (Unterordnungen) pro Artikel
variiert zwischen 1,5 (nds) und 3,4 (en) und kann als Indikator fÃ¼r die DimensionalitÃ¤t der
Kategoriestruktur interpretiert werden, also fÃ¼r die Anzahl der Kategorisierungskriterien.
Diese Zahl korrespondiert nur grob mit der GrÃ¶ÃŸe des Projektes, so hat zum Beispiel simple
mit 1,9 mehr Kategorien pro Artikel als nl mit 1,7, obwohl letzteres Projekt etwa fÃ¼nfzehnmal
grÃ¶ÃŸer ist. Ein Grund dafÃ¼r mag sein, dass simple seine Kategoriestruktur zu groÃŸen
Teilen aus der englischsprachigenWikipedia Ã¼bernimmt, und dadurch eine fÃ¼r ein so kleines
Projekt untypisch hohe GranularitÃ¤t an Kategorien besitzt.
11. Statistischer Ãœberblick 95
langlink ist die Anzahl der Language-Links, also die Anzahl der EintrÃ¤ge in der Tabelle
langlink (.C.2). Die durchschnittliche Anzahl von Language-Links pro Artikel variiert
stark zwischen nur 1,8 (en) und 27,5 (nds) â€” dies ist ein Indikator fÃ¼r die GranularitÃ¤t
der einzelnen Projekte: da die englische Wikipedia (en) eine sehr hohe GranularitÃ¤t hat,
enthÃ¤lt sie viele Seiten, fÃ¼r die es in keiner oder nur in wenigen anderen Sprachen eine
Entsprechung gibt; dagegen gibt es fÃ¼r die meisten Seiten in der plattdeutschen Wikipedia
(nds) eine Entsprechung in sehr vielen Sprachen.
Dabei ist zu beobachten, dass es zu gewissen Konzepten in so gut wie allen Wikipedias
Artikel gibt. Dazu zÃ¤hlen vor allem Jahreszahlen wie 1984 und Kalendertage wie 1. MAI,
aber auch die Kontinente sowie essentielle Konzepte des Alltags wie WASSER oder SONNE.
ZÃ¤hlt man in verschiedenen Projekten alle Seiten, die mehr als 100 Language-Links haben,
ergibt sich jedes Mal eine Zahl um 760.
meaning ist die Anzahl der Termzuordnungen (Paare von Bezeichnung und Bedeutung), also die
Anzahl der EintrÃ¤ge in der Tabelle meaning (.C.2). Die von WikiWord vorgenommene
Zuordnung von Termen zu Konzepten wird in .12.5 nÃ¤her untersucht.
terms ist die Anzahl der Terme bzw. Termzuordnungen pro Konzept (inklusive der Konzepte
ohne Artikel), also die Anzahl von unterschiedlichen Bezeichnungen. Die Anzahl der
Terme pro Konzept scheint grob mit der Anzahl der Links pro Artikel zu korrespondieren
â€” da die Terme zu einem groÃŸen Teil aus Link-Texten gewonnen werden, und die
Anzahl unterschiedlicher Link-Texte mit der Gesamtzahl von Wiki-Links wÃ¤chst, ist dieser
Zusammenhang naheliegend.
aliases ist die Anzahl von Aliasen, die auf die Konzepte angewendet wurden. Das entspricht
genau den EintrÃ¤gen in der Tabelle alias (.C.2). Aliase sind in der Anzahl der Konzepte
und Artikel nicht enthalten. Der Anteil vonWeiterleitungen an der Gesamtzahl der verarbeiteten
Seiten liegt zwischen 10% (nds) und 45% (en). Die groÃŸe Zahl von Weiterleitungen
in der englischsprachigen Wikipedia rÃ¼hrt unter anderem daher, dass dort Weiterleitungen
fÃ¼r Pluralformen und fÃ¼r alternative GroÃŸ-/Kleinschreibung und Durchkopplungen Ã¼blich
sind. Es lÃ¤sst sich aber generell die Tendenz erkennen, dass grÃ¶ÃŸere Projekte einen hÃ¶heren
Anteil von Weiterleitungen haben.
Auch diese GrÃ¶ÃŸe mag als Indikator fÃ¼r die â€žReifeâ€œ eines Wiki-Projektes dienen, allerdings
haben sprach- oder projektspezifische Konventionen einen groÃŸen Einfluss auf diese Zahl.
Ein Beispiel ist die BerÃ¼cksichtigung des â€žTitle Caseâ€œ in der englischsprachigenWikipedia:
Principia_mathematica ist ein Alias fÃ¼r Principia_Mathematica, Ã¤hnliche Weiterleitungen
gibt es fÃ¼r eine groÃŸe Zahl von Namen von Werken und Organisationen.
defs ist die Anzahl der extrahierten Definitionen. Das sind die EintrÃ¤ge in der Tabelle
definition (.C.2). Die Extraktion von DefinitionssÃ¤tzen gelingt fÃ¼r etwa 90% (nds)
â€“ 99% (en) der Artikel. Das schlechte Abschneiden der plattdeutschen Wikipedia (nds)
ist unter anderem dadurch zu erklÃ¤ren, dass in diesem recht kleinen Projekt Artikel zu
Jahreszahlen und Kalendertagen einen groÃŸen Anteil ausmachen â€” solche Artikel haben
in der Regel keinen Definitionssatz.
11. Statistischer Ãœberblick 96
sections ist die Anzahl von Konzepten, die aus Verweisen auf Abschnitte entstanden sind.
Bis zu 5% (en, de) der Konzepte entstehen auf diese Weise, wobei der Anteil fÃ¼r kleinere
Projekte geringer ist. Das ist vermutlich dadurch zu erklÃ¤ren, dass die Artikel in kleineren
Projekten auch kÃ¼rzer sind und es daher weniger Abschnitte gibt, auf die verwiesen
werden kann. Ausserdem beschrÃ¤nken sich junge Projekte meist auf den Aufbau einer
Grundstruktur, â€žroteâ€œ Wiki-Links auf noch nicht vorhandene Artikel kommen dabei sehr
hÃ¤ufig vor. In Ã¤lteren, grÃ¶ÃŸeren Projekten ist die Wahrscheinlichkeit hÃ¶her, dass Autoren
einen Abschnitt eines Artikels als Link-Ziel wÃ¤hlen, wenn es keinen eigenen Artikel zu
dem betreffenden Thema gibt.
uncat ist die Anzahl unkategorisierter Artikel. Der Anteil von Artikeln ohne Kategorien liegt
zwischen 0,2% (nl) und 4,6% (en), mit der Ausnahme von (nds), wo der Anteil bei
30% liegt. Der relative groÃŸe Anteil unkategorisierter Artikel in der englischsprachigen
Wikipedia ist vermutlich darauf zurÃ¼ckzufÃ¼hren, dass es dort viele sogenannte â€žStubsâ€œ gibt,
also sehr kurze â€žArtikelstummelâ€œ. Diese sind per Konvention mit einer Vorlage markiert,
die, im Falle der englischsprachigenWikipedia, auch automatisch eine Kategorisierung vornimmt
â€” diese wird, da sie implizit ist, von Wikiword nicht erfasst. Die sehr hohe Zahl
unkategorisierter Artikel in der plattdeutschen Wikipedia dagegen ist wohl dem Umstand
geschuldet, dass es sich um ein sehr kleines und recht junges Projekt mit einer geringen
Zahl an Mitarbeitern handelt. Sie kann als Indikator dafÃ¼r verstanden werden, dass dieses
Wiki-Projekt noch recht â€žunreifâ€œ ist.
nolang ist die Anzahl von Artikeln ohne Language-Links. Der Anteil von Artikeln, die keine
Language-Links auf entsprechende Artikel in anderen Sprachen haben, variiert sehr stark,
nÃ¤mlich zwischen 2% (simple) und 60% (en). Das ist ein Indikator fÃ¼r die unterschiedliche
GranularitÃ¤t der einzelnen Projekte: die englischsprachige Wikipedia hat die mit Abstand
grÃ¶ÃŸte Zahl an Artikeln und damit die hÃ¶chste GranularitÃ¤tâ€”naturgemÃ¤ÃŸ enthÃ¤lt sie daher
viele Artikel, die keine Entsprechung in anderen Sprachen haben. Der Anteil von 60% entspricht
dabei gut dem Umstand, dass die englischsprachige Wikipedia dreimal so groÃŸ ist
wie die nÃ¤chstkleinere, nÃ¤mlich die deutschsprachigeâ€”allerdings heiÃŸt das nicht, dass ein
Drittel der Artikel einen Language-Link auf die deutschsprachigeWikipedia enthalten mÃ¼ssen.
Die von den einzelnen Projekten abgedeckten Konzepte Ã¼berlappen sich ja nicht vÃ¶llig,
so hat auch die deutschsprachige Wikipedia noch 40% Artikel ganz ohne Language-Links.
Viele davon werden sich auf Personen, Orte und Organisationen beziehen, die vorrangig von
lokaler Bedeutung sindâ€” dies wÃ¤re noch nÃ¤her zu untersuchen.
navcat ist die Anzahl von Navigationskategorien, also von Konzepten, die keinen Artikel haben,
denen aber andere Konzepte untergeordnet sind. Navigationskategorien machen zwischen
1% (nds) und 3,5% (en) der Konzepte aus.
11.3. Multilinguale Thesauri
Nachdem alle monolingualen Thesauri aufgebaut waren (.11.1), wurden auf dieser Basis mittels
des Programms BuildThesaurus multilinguale Thesauri aufgebaut (.9.2): einmal auf Basis
11. Statistischer Ãœberblick 97
copy prepare merge process statistics info total
compl. 98 38 467 525 462 265 1 855
top5 121 33 207 176 550 303 1 391
top3 155 28 122 361 446 264 1 377
times-global.tsv, siehe .F.5
Tabelle 11.5.: Zeitaufwand fÃ¼r das ZusammenfÃ¼hren
concept article link broader langlink orig.article
compl. 11 835 474 2 783 147 75 650 558 11 565 395 5 086 084 3 747 875
top5 11 589 229 2 777 635 75 192 652 11 500 968 5 042 949 3 711 763
top3 9 979 450 2 597 254 68 623 989 10 469 641 4 725 484 3 172 488
entries-global.tsv, siehe .F.5
Tabelle 11.6.: Anzahl von EintrÃ¤gen in den globalen DatensÃ¤tzen
aller Sprachen (compl.), einmal aus den grÃ¶ÃŸten drei, also Englisch, Deutsch und FranzÃ¶sisch
(top3), und einmal aus den grÃ¶ÃŸten fÃ¼nf, also Englisch, Deutsch, FranzÃ¶sisch, NiederlÃ¤ndisch
und Norwegisch (top5). Der Aufbau ist in vier Schritte aufgeteilt: copy, prepare, merge und
process.
Der Zeitaufwand fÃ¼r das ZusammenfÃ¼hren der Konzepte fÃ¤llt mit etwa einem Drittel der Zeit,
die fÃ¼r den Import der einzelnen Dumps benÃ¶tigt wurde, relativ gering aus (Tabelle 11.5). Auch
scheint er kaum von der Anzahl der zu betrachtenden Sprachen abzuhÃ¤ngen, sondern vor allem von
der Gesamtzahl der Artikel: die drei multilingualen Thesauri mit sieben, fÃ¼nf und drei Sprachen
brauchen jeweils etwas weniger als einen Tag. DarÃ¼ber hinaus lassen sich kaum Aussagen treffen,
da die Werte stark fluktuieren und davon auszugehen ist, dass sie vor allem durch die Systemlast
zur Zeit der Verarbeitung beeinflusst sind. Zum Beispiel werden im Schritt copy nur Daten aus
den lokalen DatensÃ¤tzen in den globalen Datensatz kopiert, um dann verarbeitet zu werden. Der
Zeitaufwand sollte also nur davon abhÃ¤ngig sein, wie viel zu kopieren ist. Die Tabelle 11.5 zeigt
aber das Gegenteil: das Kopieren von Daten aus drei DatensÃ¤tzen (top3) dauert deutlich lÃ¤nger als
das Kopieren aus sieben DatensÃ¤tzen (compl.). Das lÃ¤sst sich nur durch eine deutlich schlechtere
Performanz bzw. hÃ¶here Last des Gesamtsystems zu dem fraglichen Zeitpunkt erklÃ¤ren.
Die Tabelle 11.6 zeigt, wie viele EintrÃ¤ge welcher Art in den globalen DatensÃ¤tzen erzeugt wurden,
Tabelle 11.7 zeigt die Anzahl von VerknÃ¼pfungen zwischen den Konzepten bzw. Artikeln.
Die dargestellten Eigenschaften entsprechen den in .11.2 beschriebenen, mit dem Zusatz des
orig.article-Feldes:
links categories langlinks
compl. 27,18 4,16 1,83
top5 27,07 4,14 1,82
top3 26,42 4,03 1,82
re-per-article-global.tsv, siehe .F.5
Tabelle 11.7.: VerknÃ¼pfungen pro Artikel
11. Statistischer Ãœberblick 98
orig.article ist die Anzahl von lokalen Artikeln, die in einem globalen Datensatz berÃ¼cksichtigt
sind. Das entspricht genau den EintrÃ¤gen in der Tabelle origin (.C.2),die auf ein Konzept
verweisen, dessen Typ nicht UNKNOWN ist.
Es handelt sich also um die Anzahl der Artikel vor dem Zusammenfassen Ã¤quivalenter Konzepte.
Vergleicht man diese Zahl mit der Zahl der Artikel, die nach dem Zusammenfassen Ã¼brig bleiben,
ergibt sich ein MaÃŸ dafÃ¼r, wie effektiv der ZusammenfÃ¼hrungsalgorithmus arbeitet: fÃ¼r die globalen
DatensÃ¤tze compl. und top5 ergibt sich eine Reduktion um 25%, fÃ¼r den Datensatz top3
um 20%. Wenn man bedenkt, dass gut die HÃ¤lfte der Artikel gar keine Language-Links hat, also
auch mit nichts zusammengefÃ¼hrt werden kÃ¶nnen, scheint dieses Ergebnis recht gut. In der Tat
verbleiben nur fÃ¼r weniger als 10% der Konzepte direkte Language-Links im Feld langref der
Tabelle relation (.C.2), also potentielle Ã„quivalenzen, die nicht verwendet wurden (so genannte
Konflikte). Insgesamt sind 15% â€“ 20% der verbleibenden Artikel aus mehr als einem lokalen
Konzept zusammengesetzt â€” in Anbetracht der Tatsache, dass Ã¼ber 60% nur in der englischsprachigen
Wikipedia existieren, ist das ein ermutigendes Ergebnis.
Insgesamt liefert WikiWord Ãœbersetzungen fÃ¼r etwa eine halbe Million Konzepte, eine viertel
Million davon mit mehr als zwei Sprachen und immer noch eine achtel Million mit mehr als
drei. FÃ¼r jedes Konzept sind dabei im Schnitt zwei bis drei Terme pro Sprache bekannt. Zum
Vergleich: das PONS GroÃŸwÃ¶rterbuch Englisch2 hat in der aktuellen Ausgabe 390 000 StichwÃ¶rter
und 530 000 Ãœbersetzungen. Auch hier ist natÃ¼rlich, wie schon im Vergleich mit WordNet, zu
berÃ¼cksichtigen, dass ein traditionelles ÃœbersetzungswÃ¶rterbuch ganz andere Konzepte abdeckt,
als die, die WikiWord aus der Wikipedia extrahiert.
In .9.2 ist beschrieben, wie jeweils (hÃ¶chstens) ein Konzept aus jedem monolingualen Thesaurus
(also aus jeder Sprache) zu einem sprachÃ¼bergreifenden Konzept zusammengefÃ¼hrt wird. Ein globales
Konzept in einem multilingualen Thesaurus ist also eine Gruppierung von Ã¤quivalenten lokalen
Konzepten, wobei in jeder Gruppe hÃ¶chstens ein ReprÃ¤sentant jeder Sprache vertreten ist.
Eine direkte Evaluation des Algorithmus, der in .9.2 verwendet wird, um solche Gruppen von
Konzepten zu finden, gestaltet sich schwierig: aufgrund der unterschiedlichen GranularitÃ¤t der
Projekte gibt es oft mehrere MÃ¶glichkeiten, Konzepte zusammenzufassen, und es ist kaum mÃ¶glich,
anzugeben, welche Gruppierung optimal wÃ¤re. Unmittelbar gezÃ¤hlt werden kÃ¶nnen nur FÃ¤lle,
in denen sich offensichtlich ein Konzept in der Gruppe befindet, das dort nicht hineingehÃ¶rt und
umgekehrt, wenn in der Gruppe ein Konzept fehlt. Letzteres kommt ab und zu vor (in einer
Stichprobe von 250 Konzepten insgesamt 6 mal, siehe Anhang F.4), der Grund ist in der Regel
ein fehlender Language-Link in einem der betreffenden Artikel.
Der Fall, dass ein â€žfalschesâ€œ Konzept aufgenommen wurde, kommt dagegen kaum vor (in
der Stichproben gar nicht, siehe Anhang F.4). Im direkten Vergleich zwischen multilingualen
Thesauri auf unterschiedlicher Datenbasis lassen sich aber die Auswirkungen der unterschiedlichen
GranularitÃ¤t beobachten: die â€žTrennschÃ¤rfeâ€œ der impliziten Ã„hnlichkeitsbeziehung, die durch
die Language-Links ausgedrÃ¼ckt wird, ist bei kleinen Projekten deutlich schlechter (vergleiche
.12.3). Sie fassen hÃ¤ufig mehr Konzepte in einem Artikel zusammen. Werden sie fÃ¼r den Aufbau
des multilingualen Thesaurus verwendet, so besteht die Gefahr, dass Konzepte, die nicht vÃ¶llig
Ã¤quivalent sind, zu einem sprachÃ¼bergreifenden Konzept zusammengefÃ¼hrt werden, weil sie
2ISBN: 978-3-12-517192-3, <http://www.pons.de/produkte/3-12-517192-X/>
11. Statistischer Ãœberblick 99
eben Ã¼ber Language-Links miteinander verbunden sind. So wurde zum Beispiel SIMPLE:HEIGHT mit
EN:ELEVATION zusammengefasst, obwohl SIMPLE:ELEVATION korrekt gewesen wÃ¤re.
ZusÃ¤tzlich zu dem Vergleich von Thesauri auf der Basis von drei, fÃ¼nf und sieben Sprachen wÃ¤re
es interessant, alternative Algorithmen fÃ¼r das Finden und Zusammenfassen von â€žÃ¤quivalentenâ€œ
Konzepten zu vergleichen. Eine alternative Methode, die die Language-Links der Seiten als
Featurevektoren interpretiert, wurde in .9.2.2 bereits kurz beschrieben. Als Baseline kÃ¶nnte desweiteren
ein naiver Algorithmus dienen, der die englischsprachige Wikipedia als Ausgangspunkt
nimmt und jedes Konzept aus diesem Projekt mit allen Konzepten aus anderen Sprachen vereinigt,
mit denen es Ã¼ber Language-Links verknÃ¼pft ist. Ein Vergleich dieser unterschiedlichen Methoden
konnte im Rahmen dieser Arbeit nicht umgesetzt werden und verbleibt als Gegenstand zukÃ¼nftiger
Forschung.
11.4. Verteilung von Termfrequenzen
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm E[Vm]
WikiWord
Zipf-Mandelbrot
(a) en.wikipedia.org
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm E[Vm]
WikiWord
Zipf-Mandelbrot
(b) de.wikipedia.org
dewiki-terms-zipf.data, siehe .F.5 bzw. enwiki-terms-zipf.data, siehe .F.5
Abb. 11.2: Verteilung der Termfrequenzen
In diesem Abschnitt wird untersucht, wie die von WikiWord gefundenen Terme bezÃ¼glich ihrer
HÃ¤ufigkeit (Frequenz) verteilt sind. Es wird erwartet, dass diese Verteilung derjenigen Ã¤hnelt, die
sich fÃ¼r dieWortfrequenzen in natÃ¼rlichen Texten ergibt. Die Verteilung vonWortfrequenzen folgt
typischerweise dem Zipfschen Gesetz [ZIPF (1935)], und Abb. 11.2 zeigt, dass das in der Tat auch fÃ¼r
die von WikiWord gefundenen Terme gilt3. Die beobachtete Verteilung passt sogar noch besser
zu der Vorhersage, als das hÃ¤ufig fÃ¼r Wortfrequenzen aus Volltext der Fall ist: Die Verteilung von
3Die Statistiken wurden mit dem ZipfR-Paket [ZIPFR] fÃ¼r GNU R [GNU-R] ausgewertet und geplottet, fÃ¼r die
Regressionsanalyse wurde ein Zipf-Mandelbrot-Modell verwendet [EVERT (2004)].
11. Statistischer Ãœberblick 100
StoppwÃ¶rtern (typischerweise etwa die obersten 100 RÃ¤nge) folgen hÃ¤ufig nicht der Vorhersage
des Zipfschen Gesetzes (was durch die Verfeinerung von Mandelbrot teilweise ausgeglichen wird).
Die Menge von Termen, die WikiWord liefert, enthÃ¤lt aber keine StoppwÃ¶rter (oder wenn, dann
nur als â€žFehlerâ€œ und daher mit niedriger Frequenz): die Terme stammen vor allem aus Seitentiteln
und aus Wiki-Links (.8.9) und sind daher in der Regel stark sinntragend [KRAFT UND ZIEN (2004),
EIRON UND MCCURLEY (2003)]. Ihre Verteilung folgt daher sehr genau den Voraussagen des Zipfschen
Gesetzes.
11.5. Verteilung von Knotengraden
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm E[Vm]
WikiWord
Zipf-Mandelbrot
(a) en.wikipedia.org
1 5 10 50 100 500
1e-01 1e+00 1e+01 1e+02 1e+03
m
Vm E[Vm]
WikiWord
Zipf-Mandelbrot
(b) de.wikipedia.org
enwiki-degree-zipf.data, siehe .F.5 bzw. dewiki-degree-zipf.data, siehe .F.5
Abb. 11.3: Verteilung der Knotengrade
Die graphentheoretischen Eigenschaften der Wikipedia als Hyperlink-Netzwerk wurden schon
verschiedentlich untersucht [VOSS (2005B), CAPOCCI U. A. (2006), BELLOMI UND BONATO (2005B)]. Ein wichtiges,
aber kaum Ã¼berraschendes Ergebnis dieser Untersuchungen war, dass es sich bei dem Hyperlink-
Netzwerk in Wikipedia um einen skalenfreien Small-Word-Graphen handelt [CAPOCCI U. A. (2006)],
so wie das bei den meisten Hypertext-Korpora der Fall ist [BARABASI UND ALBERT (1999), STEYVERS
UND TENENBAUM (2005)]. Die Skalenfreiheit ergibt sich dabei aus dem â€žnatÃ¼rlichenâ€œ Wachstum des
Netzwerkes, das dem Gesetz des Preferential Attachment folgt.
Der Nachweis dieser Eigenschaften soll hier nicht wiederholt werden. Lediglich die Skalenfreiheit
des Hyperlink-Netzwerk wird in Abb. 11.3 demonstriert: hier ist zu erkennen, dass die Verteilung
der Knotengrade dem Power Law folgt4.
4Auch hier wurde mittels ZipfR eine Regressionsanalyse mit dem Zipf-Mandelbrot-Modell verwendet.
11. Statistischer Ãœberblick 101
11.6. Auswertung des Exports
Datensatz WikiWord SKOS
en 120 300 556 60 720 983
de 41 965 891 20 798 761
fr 37 141 654 16 840 521
nl 23 332 076 10 146 600
no 11 199 935 4 692 075
simple 3 010 005 1 204 964
nds 1 299 067 463 783
top3 232 616 737 138 375 761
top5 269 441 309 159 703 396
comp. 274 464 220 162 442 796
export-size.tsv, siehe .F.5
Tabelle 11.8.: Anzahl von RDF-Tripeln
Der Export von WikiWord-Daten nach RDF bzw. SKOS, wie er in Kapitel .10 beschrieben
ist, kann fÃ¼r sich genommen kaum evaluiert werden. Hier wÃ¤ren Integrationstests notwendig,
die die KompatibilitÃ¤t und NÃ¼tzlichkeit dieser Daten gezielt in Bezug auf andere Systeme wie
DBpedia [AUER U. A. (2007), AUER UND LEHMANN (2007), DBPEDIA], OmegaWiki (ehemals WiktionaryZ)
[VAN MULLIGEN U. A. (2006), OMEGAWIKI] oder Wortschatz [QUASTHOFF (1998), WORTSCHATZ] untersuchen.
Solche Untersuchungen wÃ¼rden Ã¼ber den Rahmen dieser Arbeit hinausgehen und verbleiben als
Gegenstand kÃ¼nftiger Forschung.
Um die Exportfunktion zu testen und einen Eindruck von der zu erwartenden Datenmenge zu
erhalten, wurden die aus den Wikipedias extrahierten Daten unter Verwendung verschiedener
Optionen als RDF exportiert (fÃ¼r Zugang zu den resultierenden Daten, siehe .F.3).
Die Tabelle 11.8 zeigt die Anzahl von RDF-Statements (Tripeln), die zur Beschreibung der monound
multilingualen Thesauri benÃ¶tigt werden. Bei Nutzung des WikiWord-Vokabulars ergibt sich
ein Durchschnitt von etwa 23 Statements pro Konzept, bei einer BeschrÃ¤nkung auf SKOS sind
es mit etwa 14 deutlich weniger. Die GesamtgrÃ¶ÃŸe eines multilingualen Thesaurus mit den oben
angegebenen sieben Sprachen, in exportierter Form, unter Verwendung desWikiWord-Vokabulars
und mit bzip2 komprimiert, belÃ¤uft sich auf 1,3 Gigabyte. Zum Vergleich: die zugrunde liegenden
Wikipedia-Dumps fÃ¼r die entsprechenden sieben Projekte haben zusammen eine GrÃ¶ÃŸe von knapp
6 Gigabyte, ebenfalls unter Verwendung von bzip2.