History: DanielKinzler Chapter 11: Statistischer Überblick
View page
Collapse Into Edit Sessions
Source of version: 1
(current)
«
»
11. Statistischer Überblick Dieses Kapitel bietet einen Überblick über die mit mit WikiWord gewonnenen Daten. Dabei werden die Eingabedaten betrachtet, die Anzahl der extrahierten Elemente und Verknüpfungen, sowie die Verteilungen einiger Eigenschaften. 11.1. Datenbasis und Import Zur Erprobung von WikiWord und um eine Datenbasis für die in diesem Kapitel beschriebenen Experimente zu schaffen, wurden Dumps von Wikipedia-Projekten in unterschiedlichen Sprachen importiert und ausgewertet. Dabei wurden Projekte gewählt, die aus verschiedenen Bereichen des Größenspektrums stammen. Allerdings wurde auf „exotische“ Sprachen verzichtet, da es dem Autor an Möglichkeiten mangelt, Ergebnisse für solche Sprachen in irgendeiner Form zu überprüfen. Konkret wurden die folgenden Dumps ausgewertet: • Der Dump der englischsprachigen Wikipedia (en) vom 3. Januar 20081. • Der Dump der deutschsprachigen Wikipedia (de) vom 20. März 2008. • Der Dump der französischsprachigen Wikipedia (fr) vom 23. März 2008. • Der Dump der niederländischsprachigen Wikipedia (nl) vom 10. März 2008. • Der Dump norwegischsprachigen Wikipedia (no) vom 11. März 2008. • Der Dump der Wikipedia in einfachem Englisch (simple) vom 16. März 2008. • Der Dump der plattdeutschen Wikipedia (nds) vom 19. März 2008. Die verwendeten Dumps sind in Anhang F.1 noch einmal genauer angegeben. Das Ergebnis des Imports ist in Form von SQL-Datenbanken verfügbar, siehe .F.2. Die Dumps wurden unter Verwendung der verschiedenen Programme der Anwenderschnittstelle von WikiWord (.B.1) in eine Kollektion mit dem Namen full importiert. Konkret wurden zunächst mit ImportConcepts die Konzepte aus den Dumps extrahiert (Schritte analyze und process, siehe .9.1), dann mit BuildStatistics die statistischen Daten erhoben (statistics, siehe .9.3) und dann mit BuildConceptInfo die Konzept-Informationen für den schnellen Zugriff aufgebaut (info, siehe .9.4). 1Der Dump der englischsprachigen Wikipedia vom 12. März konnte aufgrund eines Fehlers im UTF-8-Decoder der XML-Bibliothek Xerces nicht importiert werden (siehe <https://issues.apache.org/jira/browse/ XERCESJ-1257>). Das Problem kann gegebenenfalls umgangen werden, indem man die Xerces-Bibliothek nicht in den Classpath aufnimmt und so dafür sorgt, dass Javas Standard-Implementation für das Parsen von XML verwendet wird. Das ist allerdings etwas langsamer. 11. Statistischer Überblick 91 analyze process statistics info total en 508 3 183 1 198 226 5 115 de 81 69 414 80 643 fr 63 59 83 14 218 nl 40 64 45 14 163 no 15 17 17 8 57 simple 4 4 3 2 14 nds 1 1 1 1 5 times-local.tsv, siehe .F.5 Tabelle 11.1.: Zeitaufwand für den Import l l l l l 500000 1000000 1500000 2000000 0 1000 2000 3000 4000 5000 Artikel Minuten en de no nl fr import-time-x-size.data, siehe .F.5 Abb. 11.1: Zeitaufwand für den Import (Minuten) 11. Statistischer Überblick 92 Der Import wurde auf einer Maschine mit vier Prozessorkernen (zwei Dual-Core AMD Opteron Prozessoren) mit 32 GB Arbeitsspeicher durchgeführt — allerdings wurden zur selben Zeit noch weitere Experimente auf diesem Computer durchgeführt. Sowohl der Prozessor als auch der Arbeitsspeicher waren während des Imports meist voll ausgelastet. Der Zeitaufwand für die einzelnen Schritte ist in Tabelle 11.1 angegeben, die Gesamtzeit ist in Abb. 11.1 dargestellt. Die benötigte Zeit ist aber vermutlich stark beeinflusst von der Zahl und der Art von Tätigkeiten, die gleichzeitig auf demselben Computer durchgeführt wurden. Um klare Aussagen über die Performanz machen zu können, wären Experimente auf einer Maschine notwendig, die keine anderen Aufgaben hat. Dennoch lassen sich einige Beobachtungen machen: der Zeitaufwand scheint zwischen O(n) und O(n2) zu liegen, wobei n die Anzahl der Artikel bezeichnet (siehe Tabelle 11.2). Dabei fällt das Verhältnis im unteren Bereich eher linear aus, während die großen Projekte zum Teil deutlich mehr Zeit benötigen. Insbesondere der Import der englischsprachigen Wikipedia dauert sehr lang (etwa dreieinhalb Tage), die deutschsprachige Wikipedia benötigt bei einem Drittel der Größe nur etwa ein Neuntel der Zeit. Das könnte darauf zurückzuführen sein, dass die englischsprachige Wikipedia einen hardware- oder konfigurationsbedingten Schwellwert übersteigt: zum Beispiel ist es möglich, dass für so große Projekte manche Datenbank-Indizes nicht mehr im Arbeitsspeicher gehalten werden können und damit deutlich mehr Festplattenzugriffe nötig werden. Um dies genauer zu untersuchen, wären weitere Experimente, insbesondere mit unterschiedlichen Konfigurationen des MySQL-Servers, notwendig. 11.2. Eigenschaften resource concept article link broader langlink meaning en 4 936 730 6 319 639 2 007 044 58 707 859 6 888 843 3 587 574 12 932 545 de 1 316 554 2 127 028 656703 19 291 643 2 240 720 2 893 177 4 682 065 fr 1 446 357 2 108 017 508741 12 870 575 1 344 173 2 361 487 3 923 011 nl 640222 1 341 691 382550 8201706 667 251 2 595 570 2 187 664 no 267827 626982 156725 3610552 366 293 1 491 655 1 029 257 simple 46 050 196 372 25 217 558 408 46 920 656 398 294 936 nds 14 839 80 473 10 895 225 406 16 473 299 075 102 824 entries-local.tsv, siehe .F.5 Tabelle 11.2.: Anzahl von Einträgen in den lokalen Datensätzen Der vorangegangene Abschnitt beschreibt, welche Daten verarbeitet wurden und wie viel Zeit dafür benötigt wurde. Hier soll nun ein grober Überblick über die Ergebnisse gegeben werden. Die Tabelle 11.2 zeigt, wie viele Einträge welcher Art in den lokalen Datensätzen erzeugt wurden. Die Tabelle 11.3 zeigt einige weitere Eigenschaften, Tabelle 11.4 zeigt relevante Verknüpfungen pro Artikel. Im Einzelnen sind folgende Werte aufgeführt: resource ist die Anzahl der analysierten Seiten in dem Wikipedia-Projekt, also aller Seiten im Hauptnamensraum und im Kategorie-Namensraum. Das entspricht genau den Einträgen in der Tabelle resource (.C.2). 11. Statistischer Überblick 93 concepts articles aliases defs sections uncat nolang navcat en 6 319 639 2 007 044 2 243 103 1 983 155 337 583 93 140 1 211 836 222 562 de 2 127 028 656703 507878 649 086 113 993 14 073 252 462 31 013 fr 2 108 017 508741 626909 491 256 55 154 6 378 177 745 52 608 nl 1 341 691 382550 179414 377 442 13 958 921 87 004 23 032 no 626982 156725 86893 153 501 5 423 5 635 44 427 16 322 simple 196 372 25 217 10 733 23 897 512 543 591 4 394 nds 80 473 10 895 1 558 9 742 31 3 230 438 746 figures-local.tsv, siehe .F.5 Tabelle 11.3.: Weitere Eigenschaften links categories langlinks terms en 29,25 3,43 1,79 2,05 de 29,38 3,41 4,41 2,20 fr 25,30 2,64 4,64 1,86 nl 21,44 1,74 6,78 1,63 no 23,04 2,34 9,52 1,64 simple 22,14 1,86 26,03 1,50 nds 20,69 1,51 27,45 1,28 ref-per-article-local.tsv, siehe .F.5 Tabelle 11.4.: Verknüpfungen pro Artikel concept ist die Gesamtzahl von Konzepten, ohne Weiterleitungen und Begriffsklärungen, aber mit allen Kategorien, Abschnitten und Konzepten, die zwar referenziert werden, aber keine eigene Seite haben. Das entspricht genau den Einträgen in der Tabelle concept (.C.2). Dabei ist zu beachten, dass die allermeisten Konzepte keinen eigenen Artikel haben: sie stammen aus „roten“ Wiki-Links, also von Verweisen auf noch nicht existierende Seiten, oder es handelt sich um Konzepte, die aus Verweisen auf Artikelabschnitte entstanden sind, oder um Navigationskategorien (.9.1). Selbst in großen Projekten, in denen die meisten Wiki-Links in Artikeln „blau“ erscheinen, also auf eine vorhandene Seite zeigen, gibt es zu maximal 32% (en) der insgesamt referenzierten Konzepte einen Artikel. Für kleinere Projekte liegt diese Zahl noch deutlich niedriger, z. B. bei 25% (no) oder gar nur 10% (nds). Diese Zahl kann als Indikator für die „Reife“ eines Wiki-Projektes verstanden werden. Insgesamt liefert WikiWord Informationen über mehrere Millionen Konzepte, für die englische Sprache allein über sechs Millionen (davon noch etwa zwei Millionen mit zugehörigem Artikel, also mit allen Relationen). Für jedes Konzept sind dabei im Schnitt zwei bis drei Terme bekannt (vergleiche Tabelle 11.4). Zum Vergleich: WordNet [MILLER (1995), FELLBAUM (1998), WORDNET] enthält Anfang 2008 etwa 155 000 Wörter für 117 000 Konzepte (Synsets). Dabei gibt es natürlich erhebliche inhaltliche Unterschiede: traditionelle Lexika, Wörterbücher und Wortnetze wie WordNet decken vor allem den Alltagswortschatz ab, mit Adjektiven, Verben und zum Teil auch Funktionswörtern; der von WikiWord aufgebaute Thesaurus enthält dagegen die Arten von Konzepten, die von der Wikipedia behandelt werden, nämlich vor allem Nomen: neben allgemeinen Konzepten wie HAUS oder KULTUR sehr viele Named Entities, also Eigennamen von Personen, Orte, Gattungen von Lebewesen, Organisationen, sowie eine große Zahl von Fachwörtern (vergleiche Tabelle 11. Statistischer Überblick 94 12.3). Insofern stellen die Konzepte, die Wikipedia behandelt, eine nützliche Ergänzung dar zu den Konzepten des Alltagswortschatzes, den traditionelle Wörterbücher bieten (vergleiche [RUIZ-CASADO U. A. (2005), ZESCH U. A. (2007B), TORAL UND MUNOZ (2007)]). Ein eingehender Vergleich des von WikiWord erstellten Thesaurus mit WordNet verbleibt als Gegenstand künftiger Forschung. article ist die Zahl von Artikeln bzw. von Konzepten, die eine eigene Wiki-Seite haben. Das sind diejenigen Einträge in der Tabelle concept, die nicht den Typ UNKNOWN haben. Artikel sind in der Anzahl der Konzepte enthalten. Diese Anzahl unterschiedet sich deutlich von dem, was MediaWiki als „Artikel“ zählt, und somit auch von der Zahl, die zur Angabe der Größe eines Wiki-Projektes von Wikimedia verwendet wird: MediaWiki zählt solche Seiten als Artikel, die im Hauptnamensraum liegen, keine Weiterleitung sind, aber mindestens einen Wiki-Link enthalten. WikiWord zählt Seiten im Hauptnamensraum, die keineWeiterleitung, keine Begriffsklärung und keine Liste sind, es wird aber nicht verlangt, dass sie einen Wiki-Link enthalten. So ergeben sich zum Teil erhebliche Unterschiede; Insbesondere die französischsprachige Wikipedia, die nach der Zählweise von MediaWiki mit der deutschsprachigen fast gleich auf ist, wirkt hier deutlich kleiner. Zu beachten ist auch, dass für die norwegischsprachige Wikipedia (no) keine projektspezifischen Analyseregeln definiert wurden. Insbesondere die Ressourcenklassifikation schlägt daher fehl, Begriffsklärungsseiten werden nicht als solche erkannt. Das verzerrt die Ergebnisse für dieses Projekt teilweise. link ist die Anzahl von Querverweisen zwischen Konzepten, das heißt die Anzahl von Einträgen in der Tabelle link (.C.2), deren anchor-Feld nicht NULL ist (also ohne diejenigen Einträge, die nur eine Termzuordnung definieren). Die Anzahl von Wiki-Links pro Artikel (also der durchschnittliche Knotengrad im Hyperlink-Graphen) bewegt sich zwischen 20 (nds) und 30 (en) und ist grob mit der Größe des Projektes, also der Anzahl der Artikel korreliert. Allerdings ist die deutschsprachige Wikipedia gleichauf mit der englischsprachigen, obwohl sie nur ein Drittel der Artikel hat. Und die norwegischsprachige Wikipedia hat mehr Links pro Seite als die niederländischsprachige, obwohl letztere mehr als doppelt so groß ist. Es wäre zu untersuchen, ob sich die Korrelation nicht vielmehr auf die Länge der Artikel oder das Alter der Seiten bezieht, wie es das Modell des Preferential Attachment nahelegt [BARABASI UND ALBERT (1999)]. Die Verteilung der Knotengrade wird in .11.4 untersucht. broader ist die Anzahl der Über- bzw. Unterordnungen, also die Anzahl der Einträge in der Tabelle broader (.C.2). Die Anzahl von Kategorisierungen (Unterordnungen) pro Artikel variiert zwischen 1,5 (nds) und 3,4 (en) und kann als Indikator für die Dimensionalität der Kategoriestruktur interpretiert werden, also für die Anzahl der Kategorisierungskriterien. Diese Zahl korrespondiert nur grob mit der Größe des Projektes, so hat zum Beispiel simple mit 1,9 mehr Kategorien pro Artikel als nl mit 1,7, obwohl letzteres Projekt etwa fünfzehnmal größer ist. Ein Grund dafür mag sein, dass simple seine Kategoriestruktur zu großen Teilen aus der englischsprachigenWikipedia übernimmt, und dadurch eine für ein so kleines Projekt untypisch hohe Granularität an Kategorien besitzt. 11. Statistischer Überblick 95 langlink ist die Anzahl der Language-Links, also die Anzahl der Einträge in der Tabelle langlink (.C.2). Die durchschnittliche Anzahl von Language-Links pro Artikel variiert stark zwischen nur 1,8 (en) und 27,5 (nds) — dies ist ein Indikator für die Granularität der einzelnen Projekte: da die englische Wikipedia (en) eine sehr hohe Granularität hat, enthält sie viele Seiten, für die es in keiner oder nur in wenigen anderen Sprachen eine Entsprechung gibt; dagegen gibt es für die meisten Seiten in der plattdeutschen Wikipedia (nds) eine Entsprechung in sehr vielen Sprachen. Dabei ist zu beobachten, dass es zu gewissen Konzepten in so gut wie allen Wikipedias Artikel gibt. Dazu zählen vor allem Jahreszahlen wie 1984 und Kalendertage wie 1. MAI, aber auch die Kontinente sowie essentielle Konzepte des Alltags wie WASSER oder SONNE. Zählt man in verschiedenen Projekten alle Seiten, die mehr als 100 Language-Links haben, ergibt sich jedes Mal eine Zahl um 760. meaning ist die Anzahl der Termzuordnungen (Paare von Bezeichnung und Bedeutung), also die Anzahl der Einträge in der Tabelle meaning (.C.2). Die von WikiWord vorgenommene Zuordnung von Termen zu Konzepten wird in .12.5 näher untersucht. terms ist die Anzahl der Terme bzw. Termzuordnungen pro Konzept (inklusive der Konzepte ohne Artikel), also die Anzahl von unterschiedlichen Bezeichnungen. Die Anzahl der Terme pro Konzept scheint grob mit der Anzahl der Links pro Artikel zu korrespondieren — da die Terme zu einem großen Teil aus Link-Texten gewonnen werden, und die Anzahl unterschiedlicher Link-Texte mit der Gesamtzahl von Wiki-Links wächst, ist dieser Zusammenhang naheliegend. aliases ist die Anzahl von Aliasen, die auf die Konzepte angewendet wurden. Das entspricht genau den Einträgen in der Tabelle alias (.C.2). Aliase sind in der Anzahl der Konzepte und Artikel nicht enthalten. Der Anteil vonWeiterleitungen an der Gesamtzahl der verarbeiteten Seiten liegt zwischen 10% (nds) und 45% (en). Die große Zahl von Weiterleitungen in der englischsprachigen Wikipedia rührt unter anderem daher, dass dort Weiterleitungen für Pluralformen und für alternative Groß-/Kleinschreibung und Durchkopplungen üblich sind. Es lässt sich aber generell die Tendenz erkennen, dass größere Projekte einen höheren Anteil von Weiterleitungen haben. Auch diese Größe mag als Indikator für die „Reife“ eines Wiki-Projektes dienen, allerdings haben sprach- oder projektspezifische Konventionen einen großen Einfluss auf diese Zahl. Ein Beispiel ist die Berücksichtigung des „Title Case“ in der englischsprachigenWikipedia: Principia_mathematica ist ein Alias für Principia_Mathematica, ähnliche Weiterleitungen gibt es für eine große Zahl von Namen von Werken und Organisationen. defs ist die Anzahl der extrahierten Definitionen. Das sind die Einträge in der Tabelle definition (.C.2). Die Extraktion von Definitionssätzen gelingt für etwa 90% (nds) – 99% (en) der Artikel. Das schlechte Abschneiden der plattdeutschen Wikipedia (nds) ist unter anderem dadurch zu erklären, dass in diesem recht kleinen Projekt Artikel zu Jahreszahlen und Kalendertagen einen großen Anteil ausmachen — solche Artikel haben in der Regel keinen Definitionssatz. 11. Statistischer Überblick 96 sections ist die Anzahl von Konzepten, die aus Verweisen auf Abschnitte entstanden sind. Bis zu 5% (en, de) der Konzepte entstehen auf diese Weise, wobei der Anteil für kleinere Projekte geringer ist. Das ist vermutlich dadurch zu erklären, dass die Artikel in kleineren Projekten auch kürzer sind und es daher weniger Abschnitte gibt, auf die verwiesen werden kann. Ausserdem beschränken sich junge Projekte meist auf den Aufbau einer Grundstruktur, „rote“ Wiki-Links auf noch nicht vorhandene Artikel kommen dabei sehr häufig vor. In älteren, größeren Projekten ist die Wahrscheinlichkeit höher, dass Autoren einen Abschnitt eines Artikels als Link-Ziel wählen, wenn es keinen eigenen Artikel zu dem betreffenden Thema gibt. uncat ist die Anzahl unkategorisierter Artikel. Der Anteil von Artikeln ohne Kategorien liegt zwischen 0,2% (nl) und 4,6% (en), mit der Ausnahme von (nds), wo der Anteil bei 30% liegt. Der relative große Anteil unkategorisierter Artikel in der englischsprachigen Wikipedia ist vermutlich darauf zurückzuführen, dass es dort viele sogenannte „Stubs“ gibt, also sehr kurze „Artikelstummel“. Diese sind per Konvention mit einer Vorlage markiert, die, im Falle der englischsprachigenWikipedia, auch automatisch eine Kategorisierung vornimmt — diese wird, da sie implizit ist, von Wikiword nicht erfasst. Die sehr hohe Zahl unkategorisierter Artikel in der plattdeutschen Wikipedia dagegen ist wohl dem Umstand geschuldet, dass es sich um ein sehr kleines und recht junges Projekt mit einer geringen Zahl an Mitarbeitern handelt. Sie kann als Indikator dafür verstanden werden, dass dieses Wiki-Projekt noch recht „unreif“ ist. nolang ist die Anzahl von Artikeln ohne Language-Links. Der Anteil von Artikeln, die keine Language-Links auf entsprechende Artikel in anderen Sprachen haben, variiert sehr stark, nämlich zwischen 2% (simple) und 60% (en). Das ist ein Indikator für die unterschiedliche Granularität der einzelnen Projekte: die englischsprachige Wikipedia hat die mit Abstand größte Zahl an Artikeln und damit die höchste Granularität—naturgemäß enthält sie daher viele Artikel, die keine Entsprechung in anderen Sprachen haben. Der Anteil von 60% entspricht dabei gut dem Umstand, dass die englischsprachige Wikipedia dreimal so groß ist wie die nächstkleinere, nämlich die deutschsprachige—allerdings heißt das nicht, dass ein Drittel der Artikel einen Language-Link auf die deutschsprachigeWikipedia enthalten müssen. Die von den einzelnen Projekten abgedeckten Konzepte überlappen sich ja nicht völlig, so hat auch die deutschsprachige Wikipedia noch 40% Artikel ganz ohne Language-Links. Viele davon werden sich auf Personen, Orte und Organisationen beziehen, die vorrangig von lokaler Bedeutung sind— dies wäre noch näher zu untersuchen. navcat ist die Anzahl von Navigationskategorien, also von Konzepten, die keinen Artikel haben, denen aber andere Konzepte untergeordnet sind. Navigationskategorien machen zwischen 1% (nds) und 3,5% (en) der Konzepte aus. 11.3. Multilinguale Thesauri Nachdem alle monolingualen Thesauri aufgebaut waren (.11.1), wurden auf dieser Basis mittels des Programms BuildThesaurus multilinguale Thesauri aufgebaut (.9.2): einmal auf Basis 11. Statistischer Überblick 97 copy prepare merge process statistics info total compl. 98 38 467 525 462 265 1 855 top5 121 33 207 176 550 303 1 391 top3 155 28 122 361 446 264 1 377 times-global.tsv, siehe .F.5 Tabelle 11.5.: Zeitaufwand für das Zusammenführen concept article link broader langlink orig.article compl. 11 835 474 2 783 147 75 650 558 11 565 395 5 086 084 3 747 875 top5 11 589 229 2 777 635 75 192 652 11 500 968 5 042 949 3 711 763 top3 9 979 450 2 597 254 68 623 989 10 469 641 4 725 484 3 172 488 entries-global.tsv, siehe .F.5 Tabelle 11.6.: Anzahl von Einträgen in den globalen Datensätzen aller Sprachen (compl.), einmal aus den größten drei, also Englisch, Deutsch und Französisch (top3), und einmal aus den größten fünf, also Englisch, Deutsch, Französisch, Niederländisch und Norwegisch (top5). Der Aufbau ist in vier Schritte aufgeteilt: copy, prepare, merge und process. Der Zeitaufwand für das Zusammenführen der Konzepte fällt mit etwa einem Drittel der Zeit, die für den Import der einzelnen Dumps benötigt wurde, relativ gering aus (Tabelle 11.5). Auch scheint er kaum von der Anzahl der zu betrachtenden Sprachen abzuhängen, sondern vor allem von der Gesamtzahl der Artikel: die drei multilingualen Thesauri mit sieben, fünf und drei Sprachen brauchen jeweils etwas weniger als einen Tag. Darüber hinaus lassen sich kaum Aussagen treffen, da die Werte stark fluktuieren und davon auszugehen ist, dass sie vor allem durch die Systemlast zur Zeit der Verarbeitung beeinflusst sind. Zum Beispiel werden im Schritt copy nur Daten aus den lokalen Datensätzen in den globalen Datensatz kopiert, um dann verarbeitet zu werden. Der Zeitaufwand sollte also nur davon abhängig sein, wie viel zu kopieren ist. Die Tabelle 11.5 zeigt aber das Gegenteil: das Kopieren von Daten aus drei Datensätzen (top3) dauert deutlich länger als das Kopieren aus sieben Datensätzen (compl.). Das lässt sich nur durch eine deutlich schlechtere Performanz bzw. höhere Last des Gesamtsystems zu dem fraglichen Zeitpunkt erklären. Die Tabelle 11.6 zeigt, wie viele Einträge welcher Art in den globalen Datensätzen erzeugt wurden, Tabelle 11.7 zeigt die Anzahl von Verknüpfungen zwischen den Konzepten bzw. Artikeln. Die dargestellten Eigenschaften entsprechen den in .11.2 beschriebenen, mit dem Zusatz des orig.article-Feldes: links categories langlinks compl. 27,18 4,16 1,83 top5 27,07 4,14 1,82 top3 26,42 4,03 1,82 re-per-article-global.tsv, siehe .F.5 Tabelle 11.7.: Verknüpfungen pro Artikel 11. Statistischer Überblick 98 orig.article ist die Anzahl von lokalen Artikeln, die in einem globalen Datensatz berücksichtigt sind. Das entspricht genau den Einträgen in der Tabelle origin (.C.2),die auf ein Konzept verweisen, dessen Typ nicht UNKNOWN ist. Es handelt sich also um die Anzahl der Artikel vor dem Zusammenfassen äquivalenter Konzepte. Vergleicht man diese Zahl mit der Zahl der Artikel, die nach dem Zusammenfassen übrig bleiben, ergibt sich ein Maß dafür, wie effektiv der Zusammenführungsalgorithmus arbeitet: für die globalen Datensätze compl. und top5 ergibt sich eine Reduktion um 25%, für den Datensatz top3 um 20%. Wenn man bedenkt, dass gut die Hälfte der Artikel gar keine Language-Links hat, also auch mit nichts zusammengeführt werden können, scheint dieses Ergebnis recht gut. In der Tat verbleiben nur für weniger als 10% der Konzepte direkte Language-Links im Feld langref der Tabelle relation (.C.2), also potentielle Äquivalenzen, die nicht verwendet wurden (so genannte Konflikte). Insgesamt sind 15% – 20% der verbleibenden Artikel aus mehr als einem lokalen Konzept zusammengesetzt — in Anbetracht der Tatsache, dass über 60% nur in der englischsprachigen Wikipedia existieren, ist das ein ermutigendes Ergebnis. Insgesamt liefert WikiWord Übersetzungen für etwa eine halbe Million Konzepte, eine viertel Million davon mit mehr als zwei Sprachen und immer noch eine achtel Million mit mehr als drei. Für jedes Konzept sind dabei im Schnitt zwei bis drei Terme pro Sprache bekannt. Zum Vergleich: das PONS Großwörterbuch Englisch2 hat in der aktuellen Ausgabe 390 000 Stichwörter und 530 000 Übersetzungen. Auch hier ist natürlich, wie schon im Vergleich mit WordNet, zu berücksichtigen, dass ein traditionelles Übersetzungswörterbuch ganz andere Konzepte abdeckt, als die, die WikiWord aus der Wikipedia extrahiert. In .9.2 ist beschrieben, wie jeweils (höchstens) ein Konzept aus jedem monolingualen Thesaurus (also aus jeder Sprache) zu einem sprachübergreifenden Konzept zusammengeführt wird. Ein globales Konzept in einem multilingualen Thesaurus ist also eine Gruppierung von äquivalenten lokalen Konzepten, wobei in jeder Gruppe höchstens ein Repräsentant jeder Sprache vertreten ist. Eine direkte Evaluation des Algorithmus, der in .9.2 verwendet wird, um solche Gruppen von Konzepten zu finden, gestaltet sich schwierig: aufgrund der unterschiedlichen Granularität der Projekte gibt es oft mehrere Möglichkeiten, Konzepte zusammenzufassen, und es ist kaum möglich, anzugeben, welche Gruppierung optimal wäre. Unmittelbar gezählt werden können nur Fälle, in denen sich offensichtlich ein Konzept in der Gruppe befindet, das dort nicht hineingehört und umgekehrt, wenn in der Gruppe ein Konzept fehlt. Letzteres kommt ab und zu vor (in einer Stichprobe von 250 Konzepten insgesamt 6 mal, siehe Anhang F.4), der Grund ist in der Regel ein fehlender Language-Link in einem der betreffenden Artikel. Der Fall, dass ein „falsches“ Konzept aufgenommen wurde, kommt dagegen kaum vor (in der Stichproben gar nicht, siehe Anhang F.4). Im direkten Vergleich zwischen multilingualen Thesauri auf unterschiedlicher Datenbasis lassen sich aber die Auswirkungen der unterschiedlichen Granularität beobachten: die „Trennschärfe“ der impliziten Ähnlichkeitsbeziehung, die durch die Language-Links ausgedrückt wird, ist bei kleinen Projekten deutlich schlechter (vergleiche .12.3). Sie fassen häufig mehr Konzepte in einem Artikel zusammen. Werden sie für den Aufbau des multilingualen Thesaurus verwendet, so besteht die Gefahr, dass Konzepte, die nicht völlig äquivalent sind, zu einem sprachübergreifenden Konzept zusammengeführt werden, weil sie 2ISBN: 978-3-12-517192-3, <http://www.pons.de/produkte/3-12-517192-X/> 11. Statistischer Überblick 99 eben über Language-Links miteinander verbunden sind. So wurde zum Beispiel SIMPLE:HEIGHT mit EN:ELEVATION zusammengefasst, obwohl SIMPLE:ELEVATION korrekt gewesen wäre. Zusätzlich zu dem Vergleich von Thesauri auf der Basis von drei, fünf und sieben Sprachen wäre es interessant, alternative Algorithmen für das Finden und Zusammenfassen von „äquivalenten“ Konzepten zu vergleichen. Eine alternative Methode, die die Language-Links der Seiten als Featurevektoren interpretiert, wurde in .9.2.2 bereits kurz beschrieben. Als Baseline könnte desweiteren ein naiver Algorithmus dienen, der die englischsprachige Wikipedia als Ausgangspunkt nimmt und jedes Konzept aus diesem Projekt mit allen Konzepten aus anderen Sprachen vereinigt, mit denen es über Language-Links verknüpft ist. Ein Vergleich dieser unterschiedlichen Methoden konnte im Rahmen dieser Arbeit nicht umgesetzt werden und verbleibt als Gegenstand zukünftiger Forschung. 11.4. Verteilung von Termfrequenzen 1 5 10 50 100 500 1e-01 1e+00 1e+01 1e+02 1e+03 m Vm E[Vm] WikiWord Zipf-Mandelbrot (a) en.wikipedia.org 1 5 10 50 100 500 1e-01 1e+00 1e+01 1e+02 1e+03 m Vm E[Vm] WikiWord Zipf-Mandelbrot (b) de.wikipedia.org dewiki-terms-zipf.data, siehe .F.5 bzw. enwiki-terms-zipf.data, siehe .F.5 Abb. 11.2: Verteilung der Termfrequenzen In diesem Abschnitt wird untersucht, wie die von WikiWord gefundenen Terme bezüglich ihrer Häufigkeit (Frequenz) verteilt sind. Es wird erwartet, dass diese Verteilung derjenigen ähnelt, die sich für dieWortfrequenzen in natürlichen Texten ergibt. Die Verteilung vonWortfrequenzen folgt typischerweise dem Zipfschen Gesetz [ZIPF (1935)], und Abb. 11.2 zeigt, dass das in der Tat auch für die von WikiWord gefundenen Terme gilt3. Die beobachtete Verteilung passt sogar noch besser zu der Vorhersage, als das häufig für Wortfrequenzen aus Volltext der Fall ist: Die Verteilung von 3Die Statistiken wurden mit dem ZipfR-Paket [ZIPFR] für GNU R [GNU-R] ausgewertet und geplottet, für die Regressionsanalyse wurde ein Zipf-Mandelbrot-Modell verwendet [EVERT (2004)]. 11. Statistischer Überblick 100 Stoppwörtern (typischerweise etwa die obersten 100 Ränge) folgen häufig nicht der Vorhersage des Zipfschen Gesetzes (was durch die Verfeinerung von Mandelbrot teilweise ausgeglichen wird). Die Menge von Termen, die WikiWord liefert, enthält aber keine Stoppwörter (oder wenn, dann nur als „Fehler“ und daher mit niedriger Frequenz): die Terme stammen vor allem aus Seitentiteln und aus Wiki-Links (.8.9) und sind daher in der Regel stark sinntragend [KRAFT UND ZIEN (2004), EIRON UND MCCURLEY (2003)]. Ihre Verteilung folgt daher sehr genau den Voraussagen des Zipfschen Gesetzes. 11.5. Verteilung von Knotengraden 1 5 10 50 100 500 1e-01 1e+00 1e+01 1e+02 1e+03 m Vm E[Vm] WikiWord Zipf-Mandelbrot (a) en.wikipedia.org 1 5 10 50 100 500 1e-01 1e+00 1e+01 1e+02 1e+03 m Vm E[Vm] WikiWord Zipf-Mandelbrot (b) de.wikipedia.org enwiki-degree-zipf.data, siehe .F.5 bzw. dewiki-degree-zipf.data, siehe .F.5 Abb. 11.3: Verteilung der Knotengrade Die graphentheoretischen Eigenschaften der Wikipedia als Hyperlink-Netzwerk wurden schon verschiedentlich untersucht [VOSS (2005B), CAPOCCI U. A. (2006), BELLOMI UND BONATO (2005B)]. Ein wichtiges, aber kaum überraschendes Ergebnis dieser Untersuchungen war, dass es sich bei dem Hyperlink- Netzwerk in Wikipedia um einen skalenfreien Small-Word-Graphen handelt [CAPOCCI U. A. (2006)], so wie das bei den meisten Hypertext-Korpora der Fall ist [BARABASI UND ALBERT (1999), STEYVERS UND TENENBAUM (2005)]. Die Skalenfreiheit ergibt sich dabei aus dem „natürlichen“ Wachstum des Netzwerkes, das dem Gesetz des Preferential Attachment folgt. Der Nachweis dieser Eigenschaften soll hier nicht wiederholt werden. Lediglich die Skalenfreiheit des Hyperlink-Netzwerk wird in Abb. 11.3 demonstriert: hier ist zu erkennen, dass die Verteilung der Knotengrade dem Power Law folgt4. 4Auch hier wurde mittels ZipfR eine Regressionsanalyse mit dem Zipf-Mandelbrot-Modell verwendet. 11. Statistischer Überblick 101 11.6. Auswertung des Exports Datensatz WikiWord SKOS en 120 300 556 60 720 983 de 41 965 891 20 798 761 fr 37 141 654 16 840 521 nl 23 332 076 10 146 600 no 11 199 935 4 692 075 simple 3 010 005 1 204 964 nds 1 299 067 463 783 top3 232 616 737 138 375 761 top5 269 441 309 159 703 396 comp. 274 464 220 162 442 796 export-size.tsv, siehe .F.5 Tabelle 11.8.: Anzahl von RDF-Tripeln Der Export von WikiWord-Daten nach RDF bzw. SKOS, wie er in Kapitel .10 beschrieben ist, kann für sich genommen kaum evaluiert werden. Hier wären Integrationstests notwendig, die die Kompatibilität und Nützlichkeit dieser Daten gezielt in Bezug auf andere Systeme wie DBpedia [AUER U. A. (2007), AUER UND LEHMANN (2007), DBPEDIA], OmegaWiki (ehemals WiktionaryZ) [VAN MULLIGEN U. A. (2006), OMEGAWIKI] oder Wortschatz [QUASTHOFF (1998), WORTSCHATZ] untersuchen. Solche Untersuchungen würden über den Rahmen dieser Arbeit hinausgehen und verbleiben als Gegenstand künftiger Forschung. Um die Exportfunktion zu testen und einen Eindruck von der zu erwartenden Datenmenge zu erhalten, wurden die aus den Wikipedias extrahierten Daten unter Verwendung verschiedener Optionen als RDF exportiert (für Zugang zu den resultierenden Daten, siehe .F.3). Die Tabelle 11.8 zeigt die Anzahl von RDF-Statements (Tripeln), die zur Beschreibung der monound multilingualen Thesauri benötigt werden. Bei Nutzung des WikiWord-Vokabulars ergibt sich ein Durchschnitt von etwa 23 Statements pro Konzept, bei einer Beschränkung auf SKOS sind es mit etwa 14 deutlich weniger. Die Gesamtgröße eines multilingualen Thesaurus mit den oben angegebenen sieben Sprachen, in exportierter Form, unter Verwendung desWikiWord-Vokabulars und mit bzip2 komprimiert, beläuft sich auf 1,3 Gigabyte. Zum Vergleich: die zugrunde liegenden Wikipedia-Dumps für die entsprechenden sieben Projekte haben zusammen eine Größe von knapp 6 Gigabyte, ebenfalls unter Verwendung von bzip2.
History
Enable pagination
rows per page
HTML diff
Side-by-side diff
Side-by-side diff by characters
Inline diff
Inline diff by characters
Full side-by-side diff
Full side-by-side diff by characters
Full inline diff
Full inline diff by characters
Unified diff
Side-by-side view
Information
Version
Fri 30 of May, 2008 21:26 GMT
alain_desilets
1
Actions
View
Source
Select action to perform with checked...
Remove
OK
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display