12. Akkuratheit der Konzepte
Dieses Kapitel untersucht die Eigenschaften und Beziehungen von Konzepten. Dazu werden aus
zwei Thesauri, dem deutschsprachigen und dem englischsprachigen, jeweils zwei Stichproben
entnommen: eine mit zufälligen Konzepten aus der Gesamtmenge der Konzepte (enall mit 102
Konzepten bzw. deall mit 101), und eine mit zufälligen Konzepten aus den „Top 10%“, den am
häufigsten verwendeten zehn Prozent der Konzepte (entop bzw. detop, jeweils mit 51 Konzepten)
unter Verwendung des in_rank-Wertes. Dabei ist zu bedenken, dass die Stichprobe über alle
Konzepte auch viele Konzepte aus den 70% enthält, die gar keinen Artikel haben — einige der
hier untersuchten Eigenschaften treten bei solchen artikellosen Konzepten gar nicht auf.
Es wird erwartet, dass die Stichprobe über die „Top 10%“ gebräuchliche, allgemeine Konzepte
enthält und dass die betreffenden Artikel von guter Qualität sind, das heißt, den Richtlinien der
Wikipedia und der Syntax von MediaWiki folgen. Insbesondere ist zu erwarten, dass sich die
70% der Konzepte ohne Artikel am Ende der Rangliste nach in_rank befinden (meist werden sie
nur ein- oder höchstens zweimal direkt referenziert, zum Teil, z. B. bei Navigationskategorien, gar
nicht)—das bedeutet, dass die meisteverwendeten 10% der Konzepte größtenteils in die meistverwendeten
33% der Artikel fallen, da die Artikel mehr oder weniger die oberen 30% der Konzepte
ausmachen.
Die Evaluation der Konzepte ist in ConceptSurvey implementiert und basiert auf den folgenden
Schritten:
1. In der Tabelle degree wird für das Feld in_rank das gewünschte Intervall bestimmt, also
1 . . . n für die Stichprobe über alle Konzepte und 1 . . . n/10 für die Stichprobe aus den
Top 10%.
2. Eine Zahl aus diesem Intervall wird zufällig gewählt und das Konzept, das diese Zahl als in_
rank hat, wird geladen. Dabei werden die Informationen aus concept_info verwendet, um
effizient Zugang zu allen Eigenschaften und Beziehungen zu erhalten.
3. Für jedes Konzept wird eine Anzahl von Eigenschaften (Properties) untersucht, wobei manche
Eigenschaften mehr als einenWert haben können. Die untersuchten Eigenschaften sind:
terms: Die Terme (.8.9), die dem Konzept über die Bedeutungsrelation zugeordnet sind
(aus der Tabelle meaning .C.2).
type: Der Konzepttyp (.8.6), der dem Konzept zugeordnet ist (aus der Tabelle concept
.C.2).
definition: Die Definition (.8.8), die dem Konzept zugeordnet ist (aus der Tabelle
definition .C.2).
broader: Übergeordnete Konzepte (.9.1), die dem Konzept über die
Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader .C.2).
narrower: Untergeordnete Konzepte (.9.1), die dem Konzept über die
Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader).
12. Akkuratheit der Konzepte 103
related: Verwandte Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle
relation .C.2).
similar: Ähnliche Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle
relation).
Diese Eigenschaften entsprechen denen, die im Datenmodell festgelegt sind (.D.2, .C.1).
4. Jedem Wert jeder Eigenschaft von jedem Konzept wurde nun manuell eine Bewertung zugewiesen,
die besagt, ob und inwieweit der gegebene Wert korrekt ist (siehe Anhang F.4
für die Rohdaten der Erhebung). Welche Bewertungen möglich sind, hängt dabei von der
betreffenden Eigenschaft ab.
Im Folgenden wird die Qualität der Werte für die einzelnen Eigenschaften analysiert.
12.1. Auswertung der Klassifikation
Bei der Konzeptklassifikation (.8.6) wird jedem Konzept ein Typ aus einer fest vorgegebenen
Menge von Typen wie PERSON oder PLACE zugewiesen. Sie bietet also eine grobe, korpusunabhängige
Aufteilung der Konzepte, die verwendet werden kann, um Konzepte für eine bestimmte
Anwendung zu filtern. Zum Beispiel können für die Erstellung eines Wörterbuches
Personen ignoriert werden, oder es können für die Erstellung eines Gazetteer gezielt Orte verwendet
werden. Konzepte, die zu keiner der vorgegebenen Klassen passen, erhalten den Typ OTHER,
solche, zu denen es keinen eigenen Artikel gibt und eine Klassifikation daher nicht möglich ist,
erhalten den Typ UNKNOWN.
(a) gesamt
Typ en de
UNKNOWN 68% 60%
PLACE 2% 3%
PERSON 8% 10%
ORGANISATION >1% >1%
NAME >1% >1%
TIME >1% >1%
NUMBER >1% >1%
LIFEFORM 1% >1%
OTHER 21% 17%
(b) ohne UNKNOWN
Typ en de
UNKNOWN
PLACE 7% 11%
PERSON 24% 31%
ORGANISATION >1% 1%
NAME >1% >1%
TIME >1% >1%
NUMBER >1% >1%
LIFEFORM 4% 2%
OTHER 65% 54%
Tabelle 12.1.: Häufigkeit der Konzepttypen
Zur Evaluation der Konzeptklassifikation stehen vier Werte als mögliche Beurteilungen zur
Verfügung:
UNKNOWN wird immer automatisch für den Typ UNKNOWN gewählt—wenn der Typ nicht bestimmt
werden kann, weil es zu dem Konzept keinen Artikel gibt, dann ist die Beurteilung gegenstandslos.
12. Akkuratheit der Konzepte 104
(a) gesamt
Typ enall entop deall detop
UNKNOWN 58% 2% 72% 2%
OK 36% 92% 28% 92%
MISSING 6% 4% 0% 6%
WRONG 0% 2% 0% 0%
(b) ohne UNKNOWN
Typ enall entop deall detop
UNKNOWN
OK 86% 92% 100% 92%
MISSING 14% 4% 0% 6%
WRONG 0% 2% 0% 0%
Tabelle concept_survey, siehe .F.4
Tabelle 12.2.: Bewertung der Konzeptklassifikation
OK wird benutzt, wenn der Typ korrekt erkannt wurde.
MISSING gibt an, dass kein konkreter Typ zugewiesen wurde (also der Typ OTHER ist), obwohl
das Konzept eindeutig zu einer der vorgegebenen Klassen gehört.
WRONG gibt an, dass der erkannte Typ falsch ist.
Bei der Auswertung zeigt sich zunächst, dass die allermeisten Konzepte korrekt und fast gar keine
irrtümlich zugeordnet werden. Allerdings wird der Typ einiger Konzepte, die eigentlich klassifiziert
werden sollten, nicht erkannt — daraus wird sichtbar, dass es sich bei der Klassifikation um
eine Heuristik handelt, die nach dem Best-Effort-Prinzip arbeitet: in der betreffenden Unterklasse
von WikiConfiguration sind in dem Feld conceptTypeSensors „Sensoren“ registriert (.8.2),
die sichere Hinweise für die einzelnen Konzepttypen erkennen, zumeist die Verwendung bestimmter
Kategorien oder Vorlagen. Die Erkennung basiert also auf Konventionen bezüglich der
Kategorisierung und Gestaltung von Artikeln über Konzepte einer bestimmten Art — wie effektiv
die Heuristiken arbeiten, hängt also davon ab, wie konsistent die betreffenden Konventionen in
den Artikeln derWikipedia befolgt werden, und wie gut sie durch die angegebenen Muster erkannt
werden.
Auch prinzipiell ist das Zuweisen der Konzepttypen nicht trivial, weil sie oft nicht eindeutig abzugrenzen
sind. Zum Beispiel ist unklar, was als Ort zu klassifizieren ist: Länder und Städte sicher,
aber Flüsse, Flughäfen, bestimmte Gebäude? Ähnlich verhält es sich mit Organisationen. Personen
sind dagegen relativ leicht abzugrenzen, es kann höchstens passieren, dass eine fiktive Person mit
aufgenommen wird. Artikel über Zeitabschnitte (Jahre, Jahrzehnte und so weiter) sowie biologische
Taxa sind im allgemeinen leicht zu erkennen, da sie in den meisten Wikipedias durchgehend
typische Vorlagen verwenden: Taxoboxen bei Taxa und Vorlagen zur Kalendernavigation in
Artikeln über Zeitabschnitte. Problematisch wird es wieder bei Namen: in manchen Wikipedias
dienen Artikel über Vor- oder Nachnamen gleichzeitig als Begriffsklärung oder Liste aller (bekannter)
Namensträger. Es kann also sein, dass sie gar nicht erst als Artikel erkannt sondern als
Begriffsklärung oder Liste behandelt werden (.8.5).
12. Akkuratheit der Konzepte 105
12.2. Auswertung der Subsumtion
Die Subsumtionsbeziehung ist ein wichtiger Bestandteil eines Thesaurus: sie ist das strukturierende
Element, das es erlaubt, ein Konzept durch Eingrenzung zu finden, also durch Navigation einer
Hierarchie von Konzepten, ausgehend von den allgemeineren zu den spezielleren. Außerdem ermöglicht
sie bei Bedarf ein automatisches Fallback auf allgemeinere Konzepte, zum Beispiel bei
einer Query Expansion.
Zur Bewertung der Subsumtionsbeziehungen eines Konzeptes, also seiner Verknüpfung mit überbzw.
untergeordneten Konzepten, stehen nur zwei Alternativen zur Verfügung: RIGHT und WRONG.
Es wird also nur festgestellt, ob die Unterordnung eines Konzeptes unter ein anderes berechtigt
scheint. Dabei werden die Bewertungen für die Eigenschaften narrower und broader zusammengefasst.
Typ enall entop deall detop
RIGHT gesamt 99% 99% 96% 98%
RIGHT ohne UNKNOWN 99% 99% 96% 98%
Tabelle concept_survey, siehe .F.4
Tabelle 12.3.: Bewertung der Konzeptklassifikation
Die Tabelle 12.3 zeigt, dass fast alle Unterordnungen korrekt sind. Fälschliche Unterordnungen
basieren zum einen auf falschen Angaben in Wikipedia-Artikeln (die meist daher rühren, dass
die Bedeutung der zugeordneten Kategorie missverstanden wurde), zum andern aber auch an
falsch zugeordneten Kategorisierungs-Aliasen .9.1.2. Zum Beispiel wurden für die deutschsprachige
Wikipedia die Zuweisung der Kategorie Kategorie:US-Amerikaner interpretiert als
Unterordnung unter das Konzept DEUTSCHAMERIKANER, weil die Seite Deutschamerikaner fälschlich
als Hauptartikel der Kategorie Kategorie:US-Amerikaner erkannt wurde. Das liegt daran,
dass es keinen „richtigen“ Hauptartikel US-Amerikaner gibt, und Deutschamerikaner die einzige
Seite der Kategorie war, die als Hauptartikel infrage kam. Dieser eine Fehler hat, da es viele
Personen und darunter viele Amerikaner in der Stichprobe gibt, sichtbare Auswirkungen auf das
Ergebnis der Evaluation.
Im allgemeinen liefern die Kategorisierungs-Aliase allerdings sehr gute Ergebnisse: etwa 99%
sind korrekt.
Die Subsumtionsrelation wurde hier allerdings nur auf lokale Plausibilität untersucht. Interpretiert
man sie gemäß ihrer Semantik als transitiv, so können unerwünschte Ergebnisse auftreten:
Durch Querverbindungen entstehen unter Umständen sehr lange Pfade, die dann als „abwegige“
Subsumtionen interpretiert werden müssten (siehe dazu auch HAMMW¨OHNER (2007)).
WikiWord übernimmt die Subsumtionsrelation direkt so, wie sie in der Wikipedia angegeben
sind. Ein „Säubern“ dieser Daten, die über das einfache Entfernen von Zyklen (.E.5) hinausgeht,
verbleibt als Gegenstand künftiger Forschung (vergleiche PONZETTO UND STRUBE (2007B),
HAMMW¨OHNER (2007B)). In diesem Rahmen könnte auch untersucht werden, ob sich durch geeignete
statistische oder heuristische Verfahren aus der unspezifischen Subsumtionsrelation spezifische
semantische Beziehungen extrahieren lassen, ob es also möglich ist, zu erkennen, ob es
12. Akkuratheit der Konzepte 106
sich bei einer Unterordnung um eine Instanzbeziehung (is-a), Abstraktionsbeziehung (subtype),
eine Aggregationsbeziehung (part-of ) oder eine andere Beziehung handelt (vergleiche PONZETTO
UND STRUBE (2007B)).
12.3. Auswertung der Ähnlichkeit
Die Zuordnung semantisch ähnlicher Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen
wird (.9.1.3), basiert auf gemeinsamen Language-Links. Wenn zwei Artikel denselben
Artikel in einer anderen Sprache als Äquivalent haben, dann werden sie als „ähnlich“ angesehen
und entsprechend im Feld langmatch in der Tabelle relation markiert. Dieses Vorgehen ist allerdings
stark von der Granularität der anderenWikipedias abhängig: werden bei der Bestimmung
der Ähnlichkeit alle Projekte berücksichtigt, dann ist ihre „Trennschärfe“ beschränkt durch die
Granularität der kleinsten, also am wenigsten granularen Wikipedia. Ein Beispiel: in der deutschsprachigen
Wikipedia werden die Konzepte für die Jahre 1980, 1981, 1982 usw. bis 1989 alle als
„ähnlich“ angesehen, weil sie alle als Übersetzungsäquivalent ALS:1980ER haben, also das Konzept
in der alemannischenWikipedia, das die achtziger Jahre insgesamt behandelt. Dieses Problem tritt
sehr häufig auf, so zum Beispiel auch für METALLE und EISEN, TAG und SONNTAG und viele mehr.
Solche Paare als „ähnlich“ zu bezeichnen ist nicht völlig falsch, aber kann, je nach Kontext,
doch zu weit gefasst sein. Dieses Problem wirkt sich entsprechend auch auf die Ergebnisse der
Vereinigung zu einem multilingualen Thesaurus aus.
langmatch en de f r
>0 77108 30982 42146
>1 14962 6320 15432
>2 9550 4072 12212
>3 6226 3076 10962
>4 5010 2370 6840
>5 4060 1744 6492
>6 3366 1400 6104
Tabelle concept_survey, siehe .F.4
Tabelle 12.4.: Paare von ähnlichen Konzepten
Um dieses Problem zu umgehen, kann verlangt werden, dass zwei Konzepte, um als ähnlich angesehen
zu werden, in mehr als einem Language-Link übereinstimmen müssen—die Anzahl der
Übereinstimmungen ist in dem Feld langmatch in der Tabelle relation gespeichert und kann so
direkt zum Filtern der Relation verwendet werden. Die Tabelle 12.4 zeigt, wie viele Paare dann jeweils
übrig bleiben (wobei interessant ist, zu sehen, dass die französischsprachigeWikipedia deutlich
mehr Language-Links hat als die deutschsprachige, obwohl sie etwas kleiner ist). Die stärkste
Filterung ist der Schritt von mindestens einer Übereinstimmung zu mindestens zwei: Dabei entfallen
viele fehlerhafte Zuordnungen sowie „Ausreißer“, die durch Verweise in sehr kleine Projekte
mit geringer Granularität entstehen. Wird ein noch höherer Grad an Übereinstimmung gefordert,
verbessert sich die Qualität der Ähnlichkeit sukzessive — so lässt sich der gewünschte Trade-Off
zwischen Qualität und Abdeckung steuern. Für den Export nach RDF ist dies durch die Option
12. Akkuratheit der Konzepte 107
min-langmatch möglich. Dabei ist allerdings zu bedenken, dass, wenn man mindestens drei
übereinstimmende Language-Links verlangt, nur Konzepte überhaupt als ähnlich erkannt werden
können, die es noch in mindestens drei weiteren Wikipedias gibt. Wegen der großen Unterschiede
in Umfang und Abdeckung der Wikipedias ist das eine recht starke Einschränkung.
Eine Alternative wäre es, Language-Links auf sehr kleine Projekte von der Betrachtung auszuschließen.
Vermutlich ließen sich dadurch ebenfalls eine Vielzahl von „unscharfen“ Ähnlichkeiten
vermeiden, die entstehen, wenn das Projekt, das Ziel eines Language-Links ist, eine zu geringe
Granularität hat. Es wird erwartet, dass dabei weniger Verknüpfungen verloren gingen, als das
der Fall ist, wenn man eine Übereinstimmung in mindestens zwei oder mehr Language-Links verlangt.
Diese Möglichkeit wurde hier nicht weiter verfolgt und verbleibt als Gegenstand künftiger
Forschung.
12.4. Auswertung der Verwandtheit
Die Zuordnung semantisch verwandter Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen
wird (.9.1.3), ist schwer zu evaluieren, da die Semantik dieser Beziehungen nicht klar
definiert ist—das heißt, es ist nicht einfach, zu bestimmen, welche Zuordnung „falsch“ wäre. Die
Stärke und Art der subjektiv empfundenen Verwandtheit der Konzeptpaare variiert aber stark. Hier
ein paar Beispiele:
ERDMASSE ist verwandt mit PLANET, GRAVITATIONSKONSTANTE und SONNENMASSE.
EARL_BROWDER (amerikanischer Kommunist) ist verwandt mit 1891
(Geburtsjahr), 1973 (Sterbejahr), KOMMUNISTISCHE_PARTEI_DER_USA (Vorsitz),
PR¨ASIDENTSCHAFTSWAHL_IN_DEN_VEREINIGTEN_STAATEN_1936 (Kandidatur), WILLIAM_Z._FOSTER
(Vorgänger).
LUKE_DONALD (englischer Golfer) ist verwandt mit NORTHWESTERN_UNIVERSITY
(Absolvent), WORLD_CUP_(GOLF,_M¨ANNER) (Sieger), HEMEL_HEMPSTEAD (Geburtsort),
PAUL_CASEY_(GOLFER) (Partner), OMEGA_EUROPEA_MASTERS (Sieger).
VERWEILDAUER (im Versicherungsjargon) ist verwandt mit KRANKENHAUS, DIAGNOSIS_RELATED_GROUPS.
Die Qualität der Verknüpfungen über ihre Frequenz zu approximieren, wie das bei der Ähnlichkeit
möglich war (.12.3), führt hier nicht zum Erfolg: die Verwandtheit ergibt sich ja daraus, ob sich
zwei Artikel gegenseitig per Wiki-Link referenzieren. Wie oft sie das tun, ist dabei kein Indikator
für die Stärke der Verbindung—per Konvention sollte die Anzahl der Verknüpfungen in der Regel
sogar immer nur 1 sein: WP:V besagt, dass in einem Artikel normalerweise nur einmal auf einen
bestimmten anderen Artikel verwiesen werden soll.
Aussichtsreicher ist es, den Typ der Konzepte zu betrachten (.8.6): Personen zum Beispiel sind
oft „verwandt“ mit ihrem Geburts- und Sterbejahr, und eventuell auch mit ihrem Geburtsort—der
Grund ist, dass die Artikel über die Jahre Listen von Personen enthalten, die in den betreffenden
12. Akkuratheit der Konzepte 108
Jahren geboren wurden und gestorben sind. Ähnlich wird in Artikeln über Städte häufig angegeben,
welche Persönlichkeiten dort geboren wurden oder gewirkt haben. Diese Verknüpfungen
sind aber, je nach Nutzung, wenig hilfreich als Indikator für semantische Verwandtschaft. So bietet
es sich an, die Verwandtschaftsbeziehung nach Typ zu filtern: zum Beispiel können aus der
Verwandtschaft von Personen (Typ PERSON) Zeiten entfernt werden (Konzepte vom Typ TIME) und
eventuell auch Orte (Konzepte vom Typ PLACE). Oder man verlangt, dass die Verwandtschaften
eines Konzeptes immer vom selben Typ sein müssen, wie das Konzept selbst (wobei OTHER auch
zulässig sein kann): so findet man zu einer Person weitere Personen, zu einem Ort weitere Orte,
zu einem Jahr weitere Jahre und so weiter.
Die Qualität der Verwandtheit ist also schwer festzustellen, der Typ Konzepte bietet einen besseren
Anhaltspunkt für die Filterung passend zum Anwendungsfall. Noch besser wäre es natürlich,
die konkrete Semantik der Beziehung zwischen den Konzepten zu kennen (etwa geborenin
oder hauptstadt-von). Um solche Relationen aus Wikipedia-Artikeln zu extrahieren, gibt es
im wesentlichen zwei Möglichkeiten: entweder man analysiert die Parameter von bestimmten
Vorlagen (Infoboxen), um strukturierte Datensätze zu erhalten WP:IB, AUER U. A. (2007), AUER
UND LEHMANN (2007). Oder man analysiert den Satz, in dem die Verknüpfung in den jeweiligen
Artikeln auftritt, mit einfachem Pattern Matching, oder mit aufwändigeren Methoden der automatischen
Sprachverarbeitung NGUYEN U. A. (2007), NGUYEN UND ISHIZUKA (2007), WU UND WELD (2007).
Diese Möglichkeiten der Datenextraktion sind nicht Gegenstand dieser Arbeit und damit nicht
Aufgabe von WikiWord — sie sind vielmehr komplementär zu den hier vorgestellten Methoden:
ihre Ergebnisse können die von WikiWord ergänzen.
DesWeiteren ist anzumerken, dass die hier betrachtete Verwandtheitsbeziehung relativ grob ist: sie
betrachtet nur explizite direkte Verwandtheit, die sich vorab für alle Konzepte in einem Thesaurus
bestimmen lässt. Sie verbindet also solche Konzepte, die „sehr“ verwandt sind: eine graduelle
Abstufung oder ein Vergleich der „Verwandtheit“ ist nicht möglich. In Kapitel .14 werden
Techniken betrachtet, mit denen einWert für die semantische Verwandtheit eines gegebenen Paars
von Konzepten oder Termen berechnet werden kann.
12.5. Auswertung der Termzuordnung
Die Bedeutungsrelation, also die Zuordnung von Termen (Bezeichnungen) zu Konzepten
(Bedeutungen), ist ein Kernstück eines konzeptorientierten Thesaurus: sie vermittelt zwischen
reinem Text und inhaltlichen Beziehungen. Daher ist es besonders wichtig, dass diese Relation
korrekt ist, dass heißt, dass sie keine fehlerhaften Zuordnungen liefert. Dieser Abschnitt untersucht
die Qualität der Bedeutungsrelation auf der Basis der oben beschriebenen Stichproben.
Die Tabellen 12.5 und 12.6 zeigen die Bewertung der Terme, die den einzelnen Konzepten zugeordnet
sind — die Erhebung kann im Einzelnen in Anhang F.4 nachvollzogen werden. Für jeden
Term, der einem Konzept zugeordnet ist, wurde eine der folgenden Bewertungen abgegben, die
die Zeilen der Tabellen bilden:
GOOD: der Term ist eine korrekte Bezeichnung für das Konzept.
12. Akkuratheit der Konzepte 109
en.wikipedia %tall %nall %ttop %ntop
GOOD 87,1 95,9 76,4 91,4
DIRTY 3,0 0,8 2,2 0,3
VARIANT 1,0 0,2 3,8 4,2
DERIVED 1,0 0,4 4,1 1,2
BROADER 3,0 0,6 4,1 1,6
NARROWER 4,0 1,9 6,9 1,0
BAD 1,0 0,2 2,5 0,2
Tabelle concept_survey, siehe .F.4
Tabelle 12.5.: Bewertung der Termzuordnungen für die englischsprachige Wikipedia
de.wikipedia %tall %nall %ttop %ntop
GOOD 87,2 95,8 49,5 83,3
DIRTY 0,0 0,0 0,3 0,0
VARIANT 1,2 0,3 14,8 9,1
DERIVED 9,3 3,3 10,3 3,4
BROADER 2,3 0,7 7,7 1,3
NARROWER 0,0 0,0 15,4 2,5
BAD 0,0 0,0 1,9 0,2
Tabelle concept_survey, siehe .F.4
Tabelle 12.6.: Bewertung der Termzuordnungen für die deutschsprachige Wikipedia
VARIANT: der Term ist eine Form einer korrekten Bezeichnung für das Konzept, also zum Beispiel
ein Plural oder Genitiv, oder das Wort ist groß geschrieben, weil es am Satzanfang steht.
DERIVED: der Term ist von dem Konzept abgeleitet, bezeichnet es aber nicht direkt: zum Beispiel
„Physiker“ für PHYSIK oder „deutsch“ für DEUTSCHLAND.
DIRTY: der Term ist nicht ganz richtig verwendet, zum Beispiel ist die Großschreibung falsch,
oder die Verwendung von Bindestrichen oder Apostrophen ist nicht ganz korrekt.
BROADER: der Term bezeichnet eigentlich etwas, das dem Konzept übergeordnet ist — dies tritt
relativ häufig auf, und zwar vor allem immer dann, wem ein Term totem pro parte (oder
in ähnlicher Weise synekdotisch) verwendet wird. Beispiele sind „Amerika“ für USA oder
„griechisch“ für GRIECHISCHE MYTOLOGIE. Zum Teil handelt es sich dabei um ungenaue, aber
umgangssprachlich gebräuchliche Bezeichnungen, zum Teil aber auch um Terme, die nur
in einem ganz bestimmten Kontext auf das gegebene Konzept verweisen: „Vergrößerung“
kann zum Beispiel für HEPATOMEGALIE stehen, wenn der Kontext sich mit Krankeiten der Leber
beschäftigt. Diese Bedeutungszuweisung ist dann zwar stark kontextabhängig, aber dennoch
valid.
NARROWER: der Term bezeichnet etwas, das dem Konzept untergeordnet ist — dies tritt vor allem
dann auf, wenn es für das konkretere Konzept keinen eigenen Artikel in der Wikipedia
gibt. Sehr häufig zum Beispiel verweist der Name eines Stadteils auf den Artikel über die
12. Akkuratheit der Konzepte 110
ganze Stadt. Dieses Vorgehen ist zwar im Rahmen der Wikipedia pragmatisch, führt aber
für WikiWord zu fehlerhaften Bedeutungszuweisungen — besser ist es, wenn in einem solchen
Fall auf einen Abschnitt des entsprechenden Artikels verwiesen wird. Dann erzeugt
WikiWord für den Abschnitt ein eigenes Konzept (.9.1.1).
Zu beachten ist auch, dass Terme in derWikipedia fast nie aus rethorischen Gründen auf ein
allgemeineres Konzept verweisen — das heißt, sie werden nicht pars pro toto verwendet,
bzw. wird, wenn diese Stilfigur verwendet wird, kein Wiki-Link gesetzt.
BAD: der Term bezeichnet das Konzept nicht, die Verwendung als Link-Text ist falsch oder zumindest
irreführend. Zum Teil handelt es sich hier um Tippfehler oder eine fehlerhafteWahl des
Link-Zieles, zum Teil aber auch um „navigatorische“ Link-Texte, wie „das gleichnamige
Buch“ oder „im folgenden Jahr“. Diese sind für die Bedeutungsrelation unbrauchbar.
Die Übergänge zwischen den einzelnen Bewertungen sind bisweilen fließend. Einige Beispiele:
• Die Bezeichnung „Amerika“ für das Konzept USA kann als Kurzform des Namens gesehen
werden (GOOD) oder als Synekdoche, also eine Verwendung totem pro parte (BROADER).
• Das Adjektiv „physikalisch“ für das Konzept PHYSIK kann als Wortform (VARIANT) oder als
abgeleitetes Wort (DERIVED) betrachtet werden.
• Die Schreibweise „Lodz“ für £´OD´Z kann als valide deutsche Transkription (GOOD) oder als
typographischer Fehler (DIRTY) angesehen werden.
Aus diesem Grund wird die Unterscheidung im Folgenden auf „gute“ und „schlechte“
Zuordnungen reduziert, wobei nur die Bewertungen NARROW und BAD als „schlecht“ betrachtet
werden:
Die Interpretation von BROADER als „gut“ und NARROWER als „schlecht“ ist dadurch begründet,
dass, wie oben schon bemerkt, die Bewertung BROADER häufig aus einer Verwendung des Terms als
Synekdoche stammt, während die Bewertung NARROW meist von „Verlegenheitsverknüpfungen“
herrührt, die entstehen, wenn kein Artikel zu dem konkreten Konzept existiert, und deshalb ein
Wiki-Link auf ein übergeordnetes Thema gesetzt wird. Aus Sicht von WikiWord wäre es in solchen
Fällen vorzuziehen, entweder einen Link auf eine noch nicht existierende Seite zu setzen
(was unter Umständen durchaus erwünscht ist WP:RL, WP:V) oder auf einen konkreten Abschnitt
in einem übergeordneten Artikel zu verweisen. Aus diesem Grund wird hier BROADER noch als
„gut“, aber NARROW als „schlecht“ bewertet.
Die Bewertungen VARIANT und DERIVED sind aus der Perspektive des Information Retrieval sicherlich
als valid anzusehen, da sich im Kontext einer Dokumentensuche oder Indexierung der
entsprechenden Text korrekt dem fraglichen Konzept zuordnen lässt. Dasselbe gilt auch für die
Bewertung DIRTY, da für die Effektivität der Suche ja nicht entscheidend ist, ob eine Bezeichnung
„korrekt“ ist, sondern nur, wie sie pragmatisch verwendet wird.
Die Spalten der Tabellen 12.5 und 12.6 teilen sich in zwei Gruppen: die ersten beiden Spalten
geben die Werte für die Stichprobe über den Gesamtkorpus an (all), die letzten beiden Spalten
12. Akkuratheit der Konzepte 111
die Werte für die Stichprobe aus den 10% meistgenutzer Konzepte (top). Die jeweils erste Spalte
gibt direkt den Anteil von Termen wieder, auf die die der Zeile entsprechende Bewertung zutrifft
(%t), die jeweils zweite Spalte ist nach Termfrequenz gewichtet, das heißt, sie gibt den Anteil der
Verwendungen von Termen an, auf die die Bewertung zutrifft (%n).
Vergleicht man die Bewertungen innerhalb einer Spalte, so ist zunächst offensichtlich, dass die
allermeisten Terme als GOOD markiert sind, also als völlig korrekte Bezeichungen für das Konzept.
Der Anteil liegt bei etwa 50No value assigned der Terme, aber etwa 83No value assigned der Verwendungen — was
besagt, dass die „guten“, primären Bezeichnungen für ein Konzept häufiger verwendet werden
als irgendwelche Varianten, abgeleitete oder gar falsche Bezeichnungen. Der Anteil der „guten“
Bezeichnungen ist ausserdem bei der Stichprobe aus den meistgenutzten 10% kleiner als bei der
Stichprobe über den Gesamtkorpus — der Grund dafür ist vermutlich, dass abgeleitete Formen
oder alternative Bezeichnungen bevorzugt für gebräuchliche Konzepte verwendet werden, während
ungebräuchliche Konzepte meist über ihren primären Namen referenziert werden.
Bei einem Vergleich zwischen den Ergebnissen für die englischsprachige und die deutschsprachige
Wikipedia fällt auf, dass in der deutschsprachigen Wikipedia deutlich mehr Terme als
VARIANT (Wortform) oder DERIVED (Abgeleitet) markiert sind. Das ist vermutlich durch die
reichere Morphologie der deutschen Sprache sowie die Verwendung von Komposita zu erklären.
Diese Vermutung durch Untersuchungen an weiteren Sprachen zu erhärten verbleibt als
Gegenstand künftiger Forschung. Eine weitere Auffälligkeit ist, dass in der englischsprachigen
Wikipedia mehr Einträge als DIRTY markiert sind—das ist insbesondere auf fehlende Apostrophe
bei Genitiv-Formen sowie auf fälschliche Kleinschreibung bei Namen und Abkürzungen zurückzuführen.
LINK DISAMBIG SORTKEY REDIRECT TITLE
GOOD 96,5 76,5 100,0 57,7 99,0
VARIANT 0,2 – – 3,8 –
DERIVED 0,8 – – 11,5 –
DIRTY 0,2 – – 15,4 –
BROADER 1,1 11,8 – – 1,0
NARROWER 1,1 – – 11,5 –
BAD 0,2 11,8 – – –
eval-rules-en.tsv, siehe .F.5
Tabelle 12.7.: Evaluation der Termzuordnung, nach Extraktionsregel (englischsprachige Wikipedia, all-
Stichprobe)
Um nun den Anteil der „schlechten“ Termzuordnungen zu reduzieren, können die Zuordnungen
gefiltert werden (Cutoff, siehe .10.4). Dabei kommen die beiden folgenden Kriterien in Betracht:
die Häufigkeit, mit der die Zuordnung beobachtet wurde (vergleiche Tabelle 12.8) sowie die
Regeln, über die die Zuordnung extrahiert wurde (vergleiche Tabelle 12.7), wie sie in den Feldern
freq bzw. rule in der Tabelle meaning (.C.2) gespeichert sind. Die Bedeutungsrelation wird
dabei also um Zuordnungen beschnitten, die zu selten und/oder zu schwach sind. Die Erwartung
12. Akkuratheit der Konzepte 112
>=1 >=2 >=3 >=4
GOOD 84,8 94,5 94,8 97,5
VARIANT 1,1 0,0 0,0 0,0
DERIVED 2,7 1,8 1,7 0,0
DIRTY 2,2 0,9 0,0 0,0
BROADER 5,4 0,0 0,0 0,0
NARROWER 2,2 2,7 3,4 2,5
BAD 1,6 0,0 0,0 0,0
eval-freq-en.tsv, siehe .F.5
Tabelle 12.8.: Evaluation der Termzuordnung, nach Frequenz (englischsprachige Wikipedia, all-
Stichprobe)
%tcall %tall %ncall %nall %tctop %ttop %nctop %ntop
Alle 100,0 91,3 100,0 96,7 100,0 84,3 100,0 97,3
Min. 2×od. Exp. 82,6 91,4 96,0 97,0 79,9 86,6 98,2 97,7
Min. 3×od. Exp. 80,4 91,2 94,9 96,9 75,2 87,9 97,3 97,9
Min. 2× 59,8 94,5 90,7 97,8 50,3 90,0 95,5 98,1
Min. 3× 31,5 94,8 77,5 98,4 38,7 94,3 93,4 98,6
Nur Explizite 77,2 91,5 87,4 97,1 65,7 88,5 77,8 98,7
eval-cutoff-en.tsv, siehe .F.5
Tabelle 12.9.: Auswirkung verschiedener Cutoff-Modi, für die englischsprachige Wikipedia
%tcall %tall %ncall %nall %tctop %ttop %nctop %ntop
Alle 100,0 94,4 100,0 98,1 100,0 72,0 100,0 93,8
Min. 2×od. Exp.: 81,4 96,5 94,7 98,8 61,4 80,1 96,0 95,2
Min. 3×od. Exp. 78,5 97,8 93,1 99,5 54,3 80,5 94,6 95,5
Min. 2× 59,3 98,1 88,4 99,3 48,2 80,7 94,7 95,5
Min. 3× 26,0 100,0 69,3 100,0 35,4 86,4 92,1 96,3
Nur Explizite 76,3 97,8 90,1 99,5 46,3 79,2 89,2 95,7
eval-cutoff-de.tsv, siehe .F.5
Tabelle 12.10.: Auswirkung verschiedener Cutoff-Modi, für die deutschsprachige Wikipedia
12. Akkuratheit der Konzepte 113
ist, dass sich dadurch der Anteil der „guten“ Termzuordnung (also die Precision) vergößern lässt,
wobei in Kauf genommen wird, dass sich die Abdeckung (Coverage) verschlechtert1.
Die Tabellen 12.9 und 12.10 zeigen die Auswirkungen unterschiedlicher Cutoff-Methoden auf
die Stichproben aus dem englischsprachigen bzw. deutschsprachigen Thesaurus. Sie geben die
Abdeckung und den Anteil als „gut“ bewerteter Termzuordnungen wieder, jeweils für einen bestimmten
Cutoff-Modus und eine bestimmte Stichprobe. Die ersten vier Spalten beziehen sich auf
die Stichprobe über alle Konzepte (all), die letzten vier auf die Stichprobe aus den oberen 10% der
am häufigsten verwendeten Konzepte (top). Für beide Stichproben beziehen sich die ersten beiden
Spalten jeweils auf den Anteil an unterschiedlichen Termen (t) und die beiden verbleibenden
auf den Anteil bezüglich aller Verwendungen der Terme, also skaliert nach Termfrequenz (n). So
ergeben sich vier Paare von Spalten, in jedem dieser Paare gibt die erste Spalte (tc bzw. nc) die
Abdeckung an, also den Anteil von Termzuweisungen, die nach dem Cutoff verblieben sind, und
die zweite Spalte (t bzw. n) gibt den Anteil der als „gut“ bewerteten Terme an (also alle mit den
Bewertungen GOOD, DIRTY, DERIVED, VARIANT und BROADER).
Die Spalten der Tabelle geben die Ergebnisse für unterschiedliche Cutoff-Modi an, grob sortiert
nach zunehmender „Strenge“ der Kriterien. Im Einzelnen:
Alle: Werte ohne Cutoff, also für alle gefundenen Termzuordnungen.
Min. 2×od. Exp.: Die Zuordnung muss mindestens zweimal vorkommen, oder sie muss mindestens
einmal explizit vorgenommen worden sein, also nicht ausschließlich aus einer
Verwendung des Termes als Link-Text folgen.
Min. 3×od. Exp.: Die Zuordnung muss mindestens dreimal vorkommen, oder sie muss explizit
vorgenommen worden sein.
Min. 2×: Die Zuordnung muss mindestens zweimal vorkommen, egal ob sie explizit vorgenommen
wurde oder nicht.
Min. 3×: Die Zuordnung muss mindestens dreimal vorkommen.
Nur Explizite: Die Zuordnung muss mindestens einmal explizit vorgenommen worden sein, also
nicht ausschließlich aus einer Verwendung des Termes als Link-Text folgen.
Dabei ist es im Allgemeinen so, dass sowohl die Vorgabe einer Mindestfrequenz als auch das
Verlangen einer expliziten Zuordnung die Abdeckung stark reduziert, um die Präzision um einige
Prozentpunkte zu erhöhen. Dabei sind die Auswirkungen auf die skaliertenWerte, also die Anteile
an der Verwendung der Terme, deutlich geringer als an den absoluten Werten. Das ist konsistent
mit der vorher beschriebenen Beobachtung, dass „gute“ Terme für ein Konzept weit häufiger verwendet
werden als „schlechte“; auch ist der Zusammenhang natürlich darin begründet, dass es ja
gerade die wenig verwendeten Termzuordnungen sind, die ausgefiltert werden.
1Die Abdeckung bezieht sich auf die Anzahl von Zuordnungen bzw. Termen ohne Cutoff; der Recall würde sich auf
die Anzahl aller Bezeichnungen für die gegebenen Konzepte beziehen, diese ist jedoch unbekannt, und selbst mit
Hilfe eines „Gold-Standards“ auf der Basis von Standard-Wörterbüchern nur schlecht anzunähern.
12. Akkuratheit der Konzepte 114
Wird kein Cutoff angewendet, ergibt sich (bei, per Definition, 100% Abdeckung) die schlechteste
Präzision, die aber für den Anteil der Termverwendungen immer noch durchweg bei 97% liegt.
Bezogen auf unterschiedliche Terme liegt die Präzision immer noch zwischen 84% und 94% (mit
der Ausnahme von 72% für die Top10%-Stichprobe aus der deutschsprachigenWikipedia, die vor
allem auf das oben erwähnten Problem mit Stadtteilen zurückzuführen ist). Das zeigt, dass die
Bedeutungsrelation von WikiWord schon recht hohe Qualität hat. Etwas überraschend ist, dass
eine Beschränkung auf explizite Termzuweisungen, die mit großen Einbußen in der Abdeckung
verbunden ist, in keinem Fall besser ist als alle anderen Möglichkeiten des Cutoffs, und zumeist
sogar deutlich hinter anderen Möglichkeiten zurückbleibt. Das ist insbesondere auch deshalb interessant,
weil dieser Modus den Ergebnissen entspricht, die zu erwarten wären, wenn der Link-Text
gar nicht als Quelle von Termzuordnungen berücksichtigt würde — wie es die meisten anderen
Ansätze zur Extraktion eines Thesaurus aus der Wikipedia tun. Die Verwendung des Link-Textes
bringt also nicht nur einen quantitativen, sondern im Allgemeinen auch einen qualitativen Vorteil
—zum Teil sogar ohne Filterung, spätestens aber nach Anwendung geeigneter Cutoff-Regeln. Das
bestätigt die Ergebnisse von CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004).
Die Anwendung eines „naiven“ Cutoffs, der eine minimale Anzahl von Beobachtungen einer
Termzuordnung verlangt, liefert eine Verbesserung der Präzision um ein bis zwei Prozentpunkte
auf über 99% (in einer Stichprobe sogar auf 100% für eine Mindestfrequenz von 3), allerdings auf
Kosten der Abdeckung, insbesondere in Bezug auf die Anzahl der bekannten unterschiedlichen
Terme: sie sinkt für eine Mindestfrequenz von 2 auf 50% und für eine Mindestfrequenz von 3 auf
circa 30%—das entspricht grob der Erwartung, dass, nach dem Zipfschen Gesetz ZIPF (1935), die
Häfte der Zuordnungen nur einmal vorkommt, und drei Viertel nur höchstens zweimal.
Die Kombination der Kriterien Mindestfrequenz und explizite Zuordnung ist als Kompromiss
zwischen Abdeckung und Präzision gedacht: wird eine explizite Zuweisung nur für Terme verlangt,
die selten vorkommen, so ergibt sich ein deutlich geringerer Verlust an Abdeckung, während
der Gewinn an Präzision fast gleich bleibt: Die Verschlechterung der Präzision beträgt etwa
0,5 Prozentpunkt bezüglich der Termverwendungen und bis zu 5 Prozentpunkte bezüglich unterschiedlicher
Terme. Dem steht eine Verbesserung der Abeckung um circa 5 Prozentpunkte bezüglich
der Termverwendungen und bis zu 50 Prozentpunkte bezüglich der Anzahl unterschiedlicher
Terme gegenüber.
Über die beiden Cutoff-Kriterien lässt sich der Trade-Off zwischen Abdeckung und Präzision
steuern, insbesondere auch in Bezug darauf, ob in der gegebenen Anwendung die Präzision in
Bezug auf die zu erwartende natürliche Häufigkeit der Verwendung relevant ist, oder ob die
Wahrscheinlichkeit der Nutzung jedes Terms in etwa gleich ist: ist die Präzision wichtig und die
Terme treten in ihrer natürlichen (Zipfschen) Verteilung auf, so empfielt sich ein „strikter“ Cutoff.
Ist jedoch die Abdeckung wichtig, sollte ein kombinierter Cutoff verwendet werden, insbesondere
dann, wenn die Terme gleichverteilt auftreten, da sonst die Abdeckung zu stark reduziert würde.
Es wäre interessant, weiter zu untersuchen, wie sich unterschiedliche Definitionen für explizite
Zuweisung auswirken, also welche Extraktionsregeln unter den Cutoff fallen. In obigem
Experiment wurde die Regel TERM_FROM_LINK als implizit angesehen, die anderen als
explizit. Aufgrund der hohen Fehlerraten der Regeln TERM_FROM_DISAMBIG sowie TERM_
FROM_REDIRECT (vergleiche Tabelle 12.7) scheint es sinnvoll, verschiedene Kombinationen von
Extraktionsregeln für den Cutoff näher zu betrachten.
12. Akkuratheit der Konzepte 115
12.6. Auswertung der Glossen
Die Extraktion von Definitionssätzen (Glossen, .8.8) aus den Artikeln wurde in Bezug darauf
evaluiert, ob sie in der Tat einen Definitionssatz liefert. Dabei wurde nicht die faktische Richtigkeit
bewertet (die der Autor in vielen Fällen gar nicht beurteilen kann), sondern lediglich, ob es sich
um einen wohlgeformten, vollständigen Definitionssatz handelt, der eine nicht-triviale Aussage
über das Konzept macht. Im einzelnen waren die folgenden Bewertungen möglich:
UNKNOWN: Zu dem betreffenden Konzept gibt es keinen Artikel, daher konnte keine Definition
extrahiert werden, die Bewertung ist also gegenstandslos.
OK: Der Definitionssatz wurde korrekt extrahiert und macht eine nicht-triviale Aussage über das
Konzept.
MISSING: Es wurde kein Definitionssatz extrahiert. Das bedeutet entweder, dass der Artikel nicht
der Standard-Form für Wikipedia-Artikel folgt WP:ARTIKEL, WP:WSIGA und nicht mit einem
Definitionssatz beginnt, oder, dass die Muster und Heuristiken zum Auffinden des ersten
Satzes fehlgeschlagen sind.
TRIVIAL: Der Definitionssatz wurde korrekt extrahiert, enthält aber keine sinnvolle Aussage.
Relativ häufig kommen Sätze wie der folgende vor: „Weltoffenheit ist ein Begriff aus der
philosophischen Anthropologie.“ (.8.8).
TRUNCATED: Der Definitionssatz wurde nur teilweise extrahiert, ist abgeschnitten oder sonstwie
verstümmelt. Der Grund ist meist eine fehlerhafte Erkennung des Satzendes (etwa fälschlich
nach einer unbekannten Abkürzung), Verwirrung durch verschachtelte Strukturen wie
Klammersätze oder wörtliche Rede, oder aber die Verwendung von unbekannten Vorlagen
für die Formatierung von Text.
RUNAWAY: Der Definitionssatz wurde korrekt extrahiert, aber es wurde noch weiterer Text mitgeliefert.
Meistens wird noch ein zweiter Satz angehängt, weil der erste mit einer Abkürzung
wie „etc.“ endete und daher das Satzende nicht als solches erkannt wurde.
CLUTTERED: Der Definitionssatz wurde korrekt extrahiert, enthält aber Überbleibsel von Wiki-
Markup oder ähnlichem. Das ist meist auf eine fehlerhafte Verwendung von Wiki-Markup
zurückzuführen, oder aber auf Fehler in den Mustern, die zur Bereinigung des Textes verwendet
werden (.8.3).
WRONG: Es wurde etwas extrahiert, was kein Definitionssatz für das betreffende Konzept ist.
Entweder der erste Satz ist kein Definitionssatz, weil der Artikel nicht der Standard-Form
für Wikipedia-Artikel folgt (WP:WSIGA, WP:ARTIKEL), oder die Muster und Heuristiken
zum Auffinden des ersten Satzes sind fehlgeschlagen.
Die Tabelle 12.11 zeigt, dass die Definitionssätze in den allermeisten Fällen korrekt extrahiert
werden (OK) oder nur kleinere Probleme aufweisen (RUNAWAY, CLUTTERED).
12. Akkuratheit der Konzepte 116
(a) gesamt
Typ enall entop deall detop
UNKNOWN 58% 2% 72% 2%
OK 40% 86% 28% 88%
CLUTTERED – 2% – –
RUNAWAY – 2% – 2%
TRUNCATED 2% 4% – 4%
TRIVIAL – – – 4%
MISSING – 2% – –
WRONG – 2% – –
(b) ohne UNKNOWN
Typ enall entop deall detop
UNKNOWN
OK 95% 88% 100% 90%
CLUTTERED – 2% – –
RUNAWAY – 2% – 2%
TRUNCATED 5% 4% – 4%
TRIVIAL – – – 4%
MISSING – 2% – –
WRONG – 2% – –
Tabelle concept_survey, siehe .F.4
Tabelle 12.11.: Evaluation der Glossen
Die Fälle, in denen der Satz abgeschnitten wurde (TRUNCATED) sind meist auf eine zu strenge
Heuristik zurückzuführen, nämlich die, dass ein einzelner Zeilenumbruch einen Satz beendet —
das ist gemäß der Wiki-Syntax nicht notwendig (.A) und kann in LanguageConfiguration.
sentencePattern angepasst werden. Das würde aber vermutlich zu einer Vermehrung der
RUNAWAY-Fälle führen.
Gegen triviale Glossen (TRIVIAL), die der Form nach, aber nicht dem Inhalt nach eine Definition
darstellen, ist mit algorithmischen Mitteln wenig zu machen. Es wäre höchstens möglich, immer
den ganzen ersten Absatz als Glosse zu nehmen, das würde aber in den meisten Fällen Text mit
einbeziehen, der nicht zur Definition gehört, und laut Anforderung (.5.1) hier nicht erwünscht ist
(vergleiche .8.8).
Wenn gar keine Glosse gefunden wird (MISSING), liegt das meist daran, dass auch keine vorhanden
ist—in vielenWikis ist das zum Beispiel für Jahresartikel der Fall, die imWesentlichen als Listen
von Ereignissen strukturiert sind. Es fällt auch schwer, sich für eine Jahreszahl eine sinnvolle
Definition vorzustellen.
Wird ein falscher Satz als Glosse gefunden (WRONG), so liegt das oft daran, dass vor dem
Definitionssatz eine Bemerkung steht — einleitende Hinweise (Tags) in Artikeln kommen recht
oft vor, zum Beispiel alsoWarnung vor schlechter Qualität des Artikels, oder als Hinweis auf eine
Begriffsklärungsseite. Aber normalerweise sind solche tags Vorlagen, oder sie sind zumindest mit
<center> oder <div> formatiert und können damit leicht erkannt und herausgefiltert werden.
In einigen Fällen jedoch ist das nicht der Fall: in der englischsprachigen Wikipedia zum Beispiel
stehen Verweise auf alternative Bedeutungen häufig direkt vor dem eigentlichen Artikelinhalt,
und sind nur dadurch abgesetzt, dass sie eingerückt sind. Wird diese Einrückung vergessen, was
durchaus vorkommt, so findet der Algorithmus diesen vorangestellten Kommentar als ersten Satz,
der dann fälschlich als Glosse interpretiert wird. Es ist zu hoffen, dass auch die englischsprachige
Wikipedia zur Nutzung von Vorlagen für diesen Zweck übergeht, so dass dieses Problem in
Zukunft vermieden wird.
Dieses Kapitel untersucht die Eigenschaften und Beziehungen von Konzepten. Dazu werden aus
zwei Thesauri, dem deutschsprachigen und dem englischsprachigen, jeweils zwei Stichproben
entnommen: eine mit zufälligen Konzepten aus der Gesamtmenge der Konzepte (enall mit 102
Konzepten bzw. deall mit 101), und eine mit zufälligen Konzepten aus den „Top 10%“, den am
häufigsten verwendeten zehn Prozent der Konzepte (entop bzw. detop, jeweils mit 51 Konzepten)
unter Verwendung des in_rank-Wertes. Dabei ist zu bedenken, dass die Stichprobe über alle
Konzepte auch viele Konzepte aus den 70% enthält, die gar keinen Artikel haben — einige der
hier untersuchten Eigenschaften treten bei solchen artikellosen Konzepten gar nicht auf.
Es wird erwartet, dass die Stichprobe über die „Top 10%“ gebräuchliche, allgemeine Konzepte
enthält und dass die betreffenden Artikel von guter Qualität sind, das heißt, den Richtlinien der
Wikipedia und der Syntax von MediaWiki folgen. Insbesondere ist zu erwarten, dass sich die
70% der Konzepte ohne Artikel am Ende der Rangliste nach in_rank befinden (meist werden sie
nur ein- oder höchstens zweimal direkt referenziert, zum Teil, z. B. bei Navigationskategorien, gar
nicht)—das bedeutet, dass die meisteverwendeten 10% der Konzepte größtenteils in die meistverwendeten
33% der Artikel fallen, da die Artikel mehr oder weniger die oberen 30% der Konzepte
ausmachen.
Die Evaluation der Konzepte ist in ConceptSurvey implementiert und basiert auf den folgenden
Schritten:
1. In der Tabelle degree wird für das Feld in_rank das gewünschte Intervall bestimmt, also
1 . . . n für die Stichprobe über alle Konzepte und 1 . . . n/10 für die Stichprobe aus den
Top 10%.
2. Eine Zahl aus diesem Intervall wird zufällig gewählt und das Konzept, das diese Zahl als in_
rank hat, wird geladen. Dabei werden die Informationen aus concept_info verwendet, um
effizient Zugang zu allen Eigenschaften und Beziehungen zu erhalten.
3. Für jedes Konzept wird eine Anzahl von Eigenschaften (Properties) untersucht, wobei manche
Eigenschaften mehr als einenWert haben können. Die untersuchten Eigenschaften sind:
terms: Die Terme (.8.9), die dem Konzept über die Bedeutungsrelation zugeordnet sind
(aus der Tabelle meaning .C.2).
type: Der Konzepttyp (.8.6), der dem Konzept zugeordnet ist (aus der Tabelle concept
.C.2).
definition: Die Definition (.8.8), die dem Konzept zugeordnet ist (aus der Tabelle
definition .C.2).
broader: Übergeordnete Konzepte (.9.1), die dem Konzept über die
Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader .C.2).
narrower: Untergeordnete Konzepte (.9.1), die dem Konzept über die
Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader).
12. Akkuratheit der Konzepte 103
related: Verwandte Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle
relation .C.2).
similar: Ähnliche Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle
relation).
Diese Eigenschaften entsprechen denen, die im Datenmodell festgelegt sind (.D.2, .C.1).
4. Jedem Wert jeder Eigenschaft von jedem Konzept wurde nun manuell eine Bewertung zugewiesen,
die besagt, ob und inwieweit der gegebene Wert korrekt ist (siehe Anhang F.4
für die Rohdaten der Erhebung). Welche Bewertungen möglich sind, hängt dabei von der
betreffenden Eigenschaft ab.
Im Folgenden wird die Qualität der Werte für die einzelnen Eigenschaften analysiert.
12.1. Auswertung der Klassifikation
Bei der Konzeptklassifikation (.8.6) wird jedem Konzept ein Typ aus einer fest vorgegebenen
Menge von Typen wie PERSON oder PLACE zugewiesen. Sie bietet also eine grobe, korpusunabhängige
Aufteilung der Konzepte, die verwendet werden kann, um Konzepte für eine bestimmte
Anwendung zu filtern. Zum Beispiel können für die Erstellung eines Wörterbuches
Personen ignoriert werden, oder es können für die Erstellung eines Gazetteer gezielt Orte verwendet
werden. Konzepte, die zu keiner der vorgegebenen Klassen passen, erhalten den Typ OTHER,
solche, zu denen es keinen eigenen Artikel gibt und eine Klassifikation daher nicht möglich ist,
erhalten den Typ UNKNOWN.
(a) gesamt
Typ en de
UNKNOWN 68% 60%
PLACE 2% 3%
PERSON 8% 10%
ORGANISATION >1% >1%
NAME >1% >1%
TIME >1% >1%
NUMBER >1% >1%
LIFEFORM 1% >1%
OTHER 21% 17%
(b) ohne UNKNOWN
Typ en de
UNKNOWN
PLACE 7% 11%
PERSON 24% 31%
ORGANISATION >1% 1%
NAME >1% >1%
TIME >1% >1%
NUMBER >1% >1%
LIFEFORM 4% 2%
OTHER 65% 54%
Tabelle 12.1.: Häufigkeit der Konzepttypen
Zur Evaluation der Konzeptklassifikation stehen vier Werte als mögliche Beurteilungen zur
Verfügung:
UNKNOWN wird immer automatisch für den Typ UNKNOWN gewählt—wenn der Typ nicht bestimmt
werden kann, weil es zu dem Konzept keinen Artikel gibt, dann ist die Beurteilung gegenstandslos.
12. Akkuratheit der Konzepte 104
(a) gesamt
Typ enall entop deall detop
UNKNOWN 58% 2% 72% 2%
OK 36% 92% 28% 92%
MISSING 6% 4% 0% 6%
WRONG 0% 2% 0% 0%
(b) ohne UNKNOWN
Typ enall entop deall detop
UNKNOWN
OK 86% 92% 100% 92%
MISSING 14% 4% 0% 6%
WRONG 0% 2% 0% 0%
Tabelle concept_survey, siehe .F.4
Tabelle 12.2.: Bewertung der Konzeptklassifikation
OK wird benutzt, wenn der Typ korrekt erkannt wurde.
MISSING gibt an, dass kein konkreter Typ zugewiesen wurde (also der Typ OTHER ist), obwohl
das Konzept eindeutig zu einer der vorgegebenen Klassen gehört.
WRONG gibt an, dass der erkannte Typ falsch ist.
Bei der Auswertung zeigt sich zunächst, dass die allermeisten Konzepte korrekt und fast gar keine
irrtümlich zugeordnet werden. Allerdings wird der Typ einiger Konzepte, die eigentlich klassifiziert
werden sollten, nicht erkannt — daraus wird sichtbar, dass es sich bei der Klassifikation um
eine Heuristik handelt, die nach dem Best-Effort-Prinzip arbeitet: in der betreffenden Unterklasse
von WikiConfiguration sind in dem Feld conceptTypeSensors „Sensoren“ registriert (.8.2),
die sichere Hinweise für die einzelnen Konzepttypen erkennen, zumeist die Verwendung bestimmter
Kategorien oder Vorlagen. Die Erkennung basiert also auf Konventionen bezüglich der
Kategorisierung und Gestaltung von Artikeln über Konzepte einer bestimmten Art — wie effektiv
die Heuristiken arbeiten, hängt also davon ab, wie konsistent die betreffenden Konventionen in
den Artikeln derWikipedia befolgt werden, und wie gut sie durch die angegebenen Muster erkannt
werden.
Auch prinzipiell ist das Zuweisen der Konzepttypen nicht trivial, weil sie oft nicht eindeutig abzugrenzen
sind. Zum Beispiel ist unklar, was als Ort zu klassifizieren ist: Länder und Städte sicher,
aber Flüsse, Flughäfen, bestimmte Gebäude? Ähnlich verhält es sich mit Organisationen. Personen
sind dagegen relativ leicht abzugrenzen, es kann höchstens passieren, dass eine fiktive Person mit
aufgenommen wird. Artikel über Zeitabschnitte (Jahre, Jahrzehnte und so weiter) sowie biologische
Taxa sind im allgemeinen leicht zu erkennen, da sie in den meisten Wikipedias durchgehend
typische Vorlagen verwenden: Taxoboxen bei Taxa und Vorlagen zur Kalendernavigation in
Artikeln über Zeitabschnitte. Problematisch wird es wieder bei Namen: in manchen Wikipedias
dienen Artikel über Vor- oder Nachnamen gleichzeitig als Begriffsklärung oder Liste aller (bekannter)
Namensträger. Es kann also sein, dass sie gar nicht erst als Artikel erkannt sondern als
Begriffsklärung oder Liste behandelt werden (.8.5).
12. Akkuratheit der Konzepte 105
12.2. Auswertung der Subsumtion
Die Subsumtionsbeziehung ist ein wichtiger Bestandteil eines Thesaurus: sie ist das strukturierende
Element, das es erlaubt, ein Konzept durch Eingrenzung zu finden, also durch Navigation einer
Hierarchie von Konzepten, ausgehend von den allgemeineren zu den spezielleren. Außerdem ermöglicht
sie bei Bedarf ein automatisches Fallback auf allgemeinere Konzepte, zum Beispiel bei
einer Query Expansion.
Zur Bewertung der Subsumtionsbeziehungen eines Konzeptes, also seiner Verknüpfung mit überbzw.
untergeordneten Konzepten, stehen nur zwei Alternativen zur Verfügung: RIGHT und WRONG.
Es wird also nur festgestellt, ob die Unterordnung eines Konzeptes unter ein anderes berechtigt
scheint. Dabei werden die Bewertungen für die Eigenschaften narrower und broader zusammengefasst.
Typ enall entop deall detop
RIGHT gesamt 99% 99% 96% 98%
RIGHT ohne UNKNOWN 99% 99% 96% 98%
Tabelle concept_survey, siehe .F.4
Tabelle 12.3.: Bewertung der Konzeptklassifikation
Die Tabelle 12.3 zeigt, dass fast alle Unterordnungen korrekt sind. Fälschliche Unterordnungen
basieren zum einen auf falschen Angaben in Wikipedia-Artikeln (die meist daher rühren, dass
die Bedeutung der zugeordneten Kategorie missverstanden wurde), zum andern aber auch an
falsch zugeordneten Kategorisierungs-Aliasen .9.1.2. Zum Beispiel wurden für die deutschsprachige
Wikipedia die Zuweisung der Kategorie Kategorie:US-Amerikaner interpretiert als
Unterordnung unter das Konzept DEUTSCHAMERIKANER, weil die Seite Deutschamerikaner fälschlich
als Hauptartikel der Kategorie Kategorie:US-Amerikaner erkannt wurde. Das liegt daran,
dass es keinen „richtigen“ Hauptartikel US-Amerikaner gibt, und Deutschamerikaner die einzige
Seite der Kategorie war, die als Hauptartikel infrage kam. Dieser eine Fehler hat, da es viele
Personen und darunter viele Amerikaner in der Stichprobe gibt, sichtbare Auswirkungen auf das
Ergebnis der Evaluation.
Im allgemeinen liefern die Kategorisierungs-Aliase allerdings sehr gute Ergebnisse: etwa 99%
sind korrekt.
Die Subsumtionsrelation wurde hier allerdings nur auf lokale Plausibilität untersucht. Interpretiert
man sie gemäß ihrer Semantik als transitiv, so können unerwünschte Ergebnisse auftreten:
Durch Querverbindungen entstehen unter Umständen sehr lange Pfade, die dann als „abwegige“
Subsumtionen interpretiert werden müssten (siehe dazu auch HAMMW¨OHNER (2007)).
WikiWord übernimmt die Subsumtionsrelation direkt so, wie sie in der Wikipedia angegeben
sind. Ein „Säubern“ dieser Daten, die über das einfache Entfernen von Zyklen (.E.5) hinausgeht,
verbleibt als Gegenstand künftiger Forschung (vergleiche PONZETTO UND STRUBE (2007B),
HAMMW¨OHNER (2007B)). In diesem Rahmen könnte auch untersucht werden, ob sich durch geeignete
statistische oder heuristische Verfahren aus der unspezifischen Subsumtionsrelation spezifische
semantische Beziehungen extrahieren lassen, ob es also möglich ist, zu erkennen, ob es
12. Akkuratheit der Konzepte 106
sich bei einer Unterordnung um eine Instanzbeziehung (is-a), Abstraktionsbeziehung (subtype),
eine Aggregationsbeziehung (part-of ) oder eine andere Beziehung handelt (vergleiche PONZETTO
UND STRUBE (2007B)).
12.3. Auswertung der Ähnlichkeit
Die Zuordnung semantisch ähnlicher Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen
wird (.9.1.3), basiert auf gemeinsamen Language-Links. Wenn zwei Artikel denselben
Artikel in einer anderen Sprache als Äquivalent haben, dann werden sie als „ähnlich“ angesehen
und entsprechend im Feld langmatch in der Tabelle relation markiert. Dieses Vorgehen ist allerdings
stark von der Granularität der anderenWikipedias abhängig: werden bei der Bestimmung
der Ähnlichkeit alle Projekte berücksichtigt, dann ist ihre „Trennschärfe“ beschränkt durch die
Granularität der kleinsten, also am wenigsten granularen Wikipedia. Ein Beispiel: in der deutschsprachigen
Wikipedia werden die Konzepte für die Jahre 1980, 1981, 1982 usw. bis 1989 alle als
„ähnlich“ angesehen, weil sie alle als Übersetzungsäquivalent ALS:1980ER haben, also das Konzept
in der alemannischenWikipedia, das die achtziger Jahre insgesamt behandelt. Dieses Problem tritt
sehr häufig auf, so zum Beispiel auch für METALLE und EISEN, TAG und SONNTAG und viele mehr.
Solche Paare als „ähnlich“ zu bezeichnen ist nicht völlig falsch, aber kann, je nach Kontext,
doch zu weit gefasst sein. Dieses Problem wirkt sich entsprechend auch auf die Ergebnisse der
Vereinigung zu einem multilingualen Thesaurus aus.
langmatch en de f r
>0 77108 30982 42146
>1 14962 6320 15432
>2 9550 4072 12212
>3 6226 3076 10962
>4 5010 2370 6840
>5 4060 1744 6492
>6 3366 1400 6104
Tabelle concept_survey, siehe .F.4
Tabelle 12.4.: Paare von ähnlichen Konzepten
Um dieses Problem zu umgehen, kann verlangt werden, dass zwei Konzepte, um als ähnlich angesehen
zu werden, in mehr als einem Language-Link übereinstimmen müssen—die Anzahl der
Übereinstimmungen ist in dem Feld langmatch in der Tabelle relation gespeichert und kann so
direkt zum Filtern der Relation verwendet werden. Die Tabelle 12.4 zeigt, wie viele Paare dann jeweils
übrig bleiben (wobei interessant ist, zu sehen, dass die französischsprachigeWikipedia deutlich
mehr Language-Links hat als die deutschsprachige, obwohl sie etwas kleiner ist). Die stärkste
Filterung ist der Schritt von mindestens einer Übereinstimmung zu mindestens zwei: Dabei entfallen
viele fehlerhafte Zuordnungen sowie „Ausreißer“, die durch Verweise in sehr kleine Projekte
mit geringer Granularität entstehen. Wird ein noch höherer Grad an Übereinstimmung gefordert,
verbessert sich die Qualität der Ähnlichkeit sukzessive — so lässt sich der gewünschte Trade-Off
zwischen Qualität und Abdeckung steuern. Für den Export nach RDF ist dies durch die Option
12. Akkuratheit der Konzepte 107
min-langmatch möglich. Dabei ist allerdings zu bedenken, dass, wenn man mindestens drei
übereinstimmende Language-Links verlangt, nur Konzepte überhaupt als ähnlich erkannt werden
können, die es noch in mindestens drei weiteren Wikipedias gibt. Wegen der großen Unterschiede
in Umfang und Abdeckung der Wikipedias ist das eine recht starke Einschränkung.
Eine Alternative wäre es, Language-Links auf sehr kleine Projekte von der Betrachtung auszuschließen.
Vermutlich ließen sich dadurch ebenfalls eine Vielzahl von „unscharfen“ Ähnlichkeiten
vermeiden, die entstehen, wenn das Projekt, das Ziel eines Language-Links ist, eine zu geringe
Granularität hat. Es wird erwartet, dass dabei weniger Verknüpfungen verloren gingen, als das
der Fall ist, wenn man eine Übereinstimmung in mindestens zwei oder mehr Language-Links verlangt.
Diese Möglichkeit wurde hier nicht weiter verfolgt und verbleibt als Gegenstand künftiger
Forschung.
12.4. Auswertung der Verwandtheit
Die Zuordnung semantisch verwandter Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen
wird (.9.1.3), ist schwer zu evaluieren, da die Semantik dieser Beziehungen nicht klar
definiert ist—das heißt, es ist nicht einfach, zu bestimmen, welche Zuordnung „falsch“ wäre. Die
Stärke und Art der subjektiv empfundenen Verwandtheit der Konzeptpaare variiert aber stark. Hier
ein paar Beispiele:
ERDMASSE ist verwandt mit PLANET, GRAVITATIONSKONSTANTE und SONNENMASSE.
EARL_BROWDER (amerikanischer Kommunist) ist verwandt mit 1891
(Geburtsjahr), 1973 (Sterbejahr), KOMMUNISTISCHE_PARTEI_DER_USA (Vorsitz),
PR¨ASIDENTSCHAFTSWAHL_IN_DEN_VEREINIGTEN_STAATEN_1936 (Kandidatur), WILLIAM_Z._FOSTER
(Vorgänger).
LUKE_DONALD (englischer Golfer) ist verwandt mit NORTHWESTERN_UNIVERSITY
(Absolvent), WORLD_CUP_(GOLF,_M¨ANNER) (Sieger), HEMEL_HEMPSTEAD (Geburtsort),
PAUL_CASEY_(GOLFER) (Partner), OMEGA_EUROPEA_MASTERS (Sieger).
VERWEILDAUER (im Versicherungsjargon) ist verwandt mit KRANKENHAUS, DIAGNOSIS_RELATED_GROUPS.
Die Qualität der Verknüpfungen über ihre Frequenz zu approximieren, wie das bei der Ähnlichkeit
möglich war (.12.3), führt hier nicht zum Erfolg: die Verwandtheit ergibt sich ja daraus, ob sich
zwei Artikel gegenseitig per Wiki-Link referenzieren. Wie oft sie das tun, ist dabei kein Indikator
für die Stärke der Verbindung—per Konvention sollte die Anzahl der Verknüpfungen in der Regel
sogar immer nur 1 sein: WP:V besagt, dass in einem Artikel normalerweise nur einmal auf einen
bestimmten anderen Artikel verwiesen werden soll.
Aussichtsreicher ist es, den Typ der Konzepte zu betrachten (.8.6): Personen zum Beispiel sind
oft „verwandt“ mit ihrem Geburts- und Sterbejahr, und eventuell auch mit ihrem Geburtsort—der
Grund ist, dass die Artikel über die Jahre Listen von Personen enthalten, die in den betreffenden
12. Akkuratheit der Konzepte 108
Jahren geboren wurden und gestorben sind. Ähnlich wird in Artikeln über Städte häufig angegeben,
welche Persönlichkeiten dort geboren wurden oder gewirkt haben. Diese Verknüpfungen
sind aber, je nach Nutzung, wenig hilfreich als Indikator für semantische Verwandtschaft. So bietet
es sich an, die Verwandtschaftsbeziehung nach Typ zu filtern: zum Beispiel können aus der
Verwandtschaft von Personen (Typ PERSON) Zeiten entfernt werden (Konzepte vom Typ TIME) und
eventuell auch Orte (Konzepte vom Typ PLACE). Oder man verlangt, dass die Verwandtschaften
eines Konzeptes immer vom selben Typ sein müssen, wie das Konzept selbst (wobei OTHER auch
zulässig sein kann): so findet man zu einer Person weitere Personen, zu einem Ort weitere Orte,
zu einem Jahr weitere Jahre und so weiter.
Die Qualität der Verwandtheit ist also schwer festzustellen, der Typ Konzepte bietet einen besseren
Anhaltspunkt für die Filterung passend zum Anwendungsfall. Noch besser wäre es natürlich,
die konkrete Semantik der Beziehung zwischen den Konzepten zu kennen (etwa geborenin
oder hauptstadt-von). Um solche Relationen aus Wikipedia-Artikeln zu extrahieren, gibt es
im wesentlichen zwei Möglichkeiten: entweder man analysiert die Parameter von bestimmten
Vorlagen (Infoboxen), um strukturierte Datensätze zu erhalten WP:IB, AUER U. A. (2007), AUER
UND LEHMANN (2007). Oder man analysiert den Satz, in dem die Verknüpfung in den jeweiligen
Artikeln auftritt, mit einfachem Pattern Matching, oder mit aufwändigeren Methoden der automatischen
Sprachverarbeitung NGUYEN U. A. (2007), NGUYEN UND ISHIZUKA (2007), WU UND WELD (2007).
Diese Möglichkeiten der Datenextraktion sind nicht Gegenstand dieser Arbeit und damit nicht
Aufgabe von WikiWord — sie sind vielmehr komplementär zu den hier vorgestellten Methoden:
ihre Ergebnisse können die von WikiWord ergänzen.
DesWeiteren ist anzumerken, dass die hier betrachtete Verwandtheitsbeziehung relativ grob ist: sie
betrachtet nur explizite direkte Verwandtheit, die sich vorab für alle Konzepte in einem Thesaurus
bestimmen lässt. Sie verbindet also solche Konzepte, die „sehr“ verwandt sind: eine graduelle
Abstufung oder ein Vergleich der „Verwandtheit“ ist nicht möglich. In Kapitel .14 werden
Techniken betrachtet, mit denen einWert für die semantische Verwandtheit eines gegebenen Paars
von Konzepten oder Termen berechnet werden kann.
12.5. Auswertung der Termzuordnung
Die Bedeutungsrelation, also die Zuordnung von Termen (Bezeichnungen) zu Konzepten
(Bedeutungen), ist ein Kernstück eines konzeptorientierten Thesaurus: sie vermittelt zwischen
reinem Text und inhaltlichen Beziehungen. Daher ist es besonders wichtig, dass diese Relation
korrekt ist, dass heißt, dass sie keine fehlerhaften Zuordnungen liefert. Dieser Abschnitt untersucht
die Qualität der Bedeutungsrelation auf der Basis der oben beschriebenen Stichproben.
Die Tabellen 12.5 und 12.6 zeigen die Bewertung der Terme, die den einzelnen Konzepten zugeordnet
sind — die Erhebung kann im Einzelnen in Anhang F.4 nachvollzogen werden. Für jeden
Term, der einem Konzept zugeordnet ist, wurde eine der folgenden Bewertungen abgegben, die
die Zeilen der Tabellen bilden:
GOOD: der Term ist eine korrekte Bezeichnung für das Konzept.
12. Akkuratheit der Konzepte 109
en.wikipedia %tall %nall %ttop %ntop
GOOD 87,1 95,9 76,4 91,4
DIRTY 3,0 0,8 2,2 0,3
VARIANT 1,0 0,2 3,8 4,2
DERIVED 1,0 0,4 4,1 1,2
BROADER 3,0 0,6 4,1 1,6
NARROWER 4,0 1,9 6,9 1,0
BAD 1,0 0,2 2,5 0,2
Tabelle concept_survey, siehe .F.4
Tabelle 12.5.: Bewertung der Termzuordnungen für die englischsprachige Wikipedia
de.wikipedia %tall %nall %ttop %ntop
GOOD 87,2 95,8 49,5 83,3
DIRTY 0,0 0,0 0,3 0,0
VARIANT 1,2 0,3 14,8 9,1
DERIVED 9,3 3,3 10,3 3,4
BROADER 2,3 0,7 7,7 1,3
NARROWER 0,0 0,0 15,4 2,5
BAD 0,0 0,0 1,9 0,2
Tabelle concept_survey, siehe .F.4
Tabelle 12.6.: Bewertung der Termzuordnungen für die deutschsprachige Wikipedia
VARIANT: der Term ist eine Form einer korrekten Bezeichnung für das Konzept, also zum Beispiel
ein Plural oder Genitiv, oder das Wort ist groß geschrieben, weil es am Satzanfang steht.
DERIVED: der Term ist von dem Konzept abgeleitet, bezeichnet es aber nicht direkt: zum Beispiel
„Physiker“ für PHYSIK oder „deutsch“ für DEUTSCHLAND.
DIRTY: der Term ist nicht ganz richtig verwendet, zum Beispiel ist die Großschreibung falsch,
oder die Verwendung von Bindestrichen oder Apostrophen ist nicht ganz korrekt.
BROADER: der Term bezeichnet eigentlich etwas, das dem Konzept übergeordnet ist — dies tritt
relativ häufig auf, und zwar vor allem immer dann, wem ein Term totem pro parte (oder
in ähnlicher Weise synekdotisch) verwendet wird. Beispiele sind „Amerika“ für USA oder
„griechisch“ für GRIECHISCHE MYTOLOGIE. Zum Teil handelt es sich dabei um ungenaue, aber
umgangssprachlich gebräuchliche Bezeichnungen, zum Teil aber auch um Terme, die nur
in einem ganz bestimmten Kontext auf das gegebene Konzept verweisen: „Vergrößerung“
kann zum Beispiel für HEPATOMEGALIE stehen, wenn der Kontext sich mit Krankeiten der Leber
beschäftigt. Diese Bedeutungszuweisung ist dann zwar stark kontextabhängig, aber dennoch
valid.
NARROWER: der Term bezeichnet etwas, das dem Konzept untergeordnet ist — dies tritt vor allem
dann auf, wenn es für das konkretere Konzept keinen eigenen Artikel in der Wikipedia
gibt. Sehr häufig zum Beispiel verweist der Name eines Stadteils auf den Artikel über die
12. Akkuratheit der Konzepte 110
ganze Stadt. Dieses Vorgehen ist zwar im Rahmen der Wikipedia pragmatisch, führt aber
für WikiWord zu fehlerhaften Bedeutungszuweisungen — besser ist es, wenn in einem solchen
Fall auf einen Abschnitt des entsprechenden Artikels verwiesen wird. Dann erzeugt
WikiWord für den Abschnitt ein eigenes Konzept (.9.1.1).
Zu beachten ist auch, dass Terme in derWikipedia fast nie aus rethorischen Gründen auf ein
allgemeineres Konzept verweisen — das heißt, sie werden nicht pars pro toto verwendet,
bzw. wird, wenn diese Stilfigur verwendet wird, kein Wiki-Link gesetzt.
BAD: der Term bezeichnet das Konzept nicht, die Verwendung als Link-Text ist falsch oder zumindest
irreführend. Zum Teil handelt es sich hier um Tippfehler oder eine fehlerhafteWahl des
Link-Zieles, zum Teil aber auch um „navigatorische“ Link-Texte, wie „das gleichnamige
Buch“ oder „im folgenden Jahr“. Diese sind für die Bedeutungsrelation unbrauchbar.
Die Übergänge zwischen den einzelnen Bewertungen sind bisweilen fließend. Einige Beispiele:
• Die Bezeichnung „Amerika“ für das Konzept USA kann als Kurzform des Namens gesehen
werden (GOOD) oder als Synekdoche, also eine Verwendung totem pro parte (BROADER).
• Das Adjektiv „physikalisch“ für das Konzept PHYSIK kann als Wortform (VARIANT) oder als
abgeleitetes Wort (DERIVED) betrachtet werden.
• Die Schreibweise „Lodz“ für £´OD´Z kann als valide deutsche Transkription (GOOD) oder als
typographischer Fehler (DIRTY) angesehen werden.
Aus diesem Grund wird die Unterscheidung im Folgenden auf „gute“ und „schlechte“
Zuordnungen reduziert, wobei nur die Bewertungen NARROW und BAD als „schlecht“ betrachtet
werden:
Die Interpretation von BROADER als „gut“ und NARROWER als „schlecht“ ist dadurch begründet,
dass, wie oben schon bemerkt, die Bewertung BROADER häufig aus einer Verwendung des Terms als
Synekdoche stammt, während die Bewertung NARROW meist von „Verlegenheitsverknüpfungen“
herrührt, die entstehen, wenn kein Artikel zu dem konkreten Konzept existiert, und deshalb ein
Wiki-Link auf ein übergeordnetes Thema gesetzt wird. Aus Sicht von WikiWord wäre es in solchen
Fällen vorzuziehen, entweder einen Link auf eine noch nicht existierende Seite zu setzen
(was unter Umständen durchaus erwünscht ist WP:RL, WP:V) oder auf einen konkreten Abschnitt
in einem übergeordneten Artikel zu verweisen. Aus diesem Grund wird hier BROADER noch als
„gut“, aber NARROW als „schlecht“ bewertet.
Die Bewertungen VARIANT und DERIVED sind aus der Perspektive des Information Retrieval sicherlich
als valid anzusehen, da sich im Kontext einer Dokumentensuche oder Indexierung der
entsprechenden Text korrekt dem fraglichen Konzept zuordnen lässt. Dasselbe gilt auch für die
Bewertung DIRTY, da für die Effektivität der Suche ja nicht entscheidend ist, ob eine Bezeichnung
„korrekt“ ist, sondern nur, wie sie pragmatisch verwendet wird.
Die Spalten der Tabellen 12.5 und 12.6 teilen sich in zwei Gruppen: die ersten beiden Spalten
geben die Werte für die Stichprobe über den Gesamtkorpus an (all), die letzten beiden Spalten
12. Akkuratheit der Konzepte 111
die Werte für die Stichprobe aus den 10% meistgenutzer Konzepte (top). Die jeweils erste Spalte
gibt direkt den Anteil von Termen wieder, auf die die der Zeile entsprechende Bewertung zutrifft
(%t), die jeweils zweite Spalte ist nach Termfrequenz gewichtet, das heißt, sie gibt den Anteil der
Verwendungen von Termen an, auf die die Bewertung zutrifft (%n).
Vergleicht man die Bewertungen innerhalb einer Spalte, so ist zunächst offensichtlich, dass die
allermeisten Terme als GOOD markiert sind, also als völlig korrekte Bezeichungen für das Konzept.
Der Anteil liegt bei etwa 50No value assigned der Terme, aber etwa 83No value assigned der Verwendungen — was
besagt, dass die „guten“, primären Bezeichnungen für ein Konzept häufiger verwendet werden
als irgendwelche Varianten, abgeleitete oder gar falsche Bezeichnungen. Der Anteil der „guten“
Bezeichnungen ist ausserdem bei der Stichprobe aus den meistgenutzten 10% kleiner als bei der
Stichprobe über den Gesamtkorpus — der Grund dafür ist vermutlich, dass abgeleitete Formen
oder alternative Bezeichnungen bevorzugt für gebräuchliche Konzepte verwendet werden, während
ungebräuchliche Konzepte meist über ihren primären Namen referenziert werden.
Bei einem Vergleich zwischen den Ergebnissen für die englischsprachige und die deutschsprachige
Wikipedia fällt auf, dass in der deutschsprachigen Wikipedia deutlich mehr Terme als
VARIANT (Wortform) oder DERIVED (Abgeleitet) markiert sind. Das ist vermutlich durch die
reichere Morphologie der deutschen Sprache sowie die Verwendung von Komposita zu erklären.
Diese Vermutung durch Untersuchungen an weiteren Sprachen zu erhärten verbleibt als
Gegenstand künftiger Forschung. Eine weitere Auffälligkeit ist, dass in der englischsprachigen
Wikipedia mehr Einträge als DIRTY markiert sind—das ist insbesondere auf fehlende Apostrophe
bei Genitiv-Formen sowie auf fälschliche Kleinschreibung bei Namen und Abkürzungen zurückzuführen.
LINK DISAMBIG SORTKEY REDIRECT TITLE
GOOD 96,5 76,5 100,0 57,7 99,0
VARIANT 0,2 – – 3,8 –
DERIVED 0,8 – – 11,5 –
DIRTY 0,2 – – 15,4 –
BROADER 1,1 11,8 – – 1,0
NARROWER 1,1 – – 11,5 –
BAD 0,2 11,8 – – –
eval-rules-en.tsv, siehe .F.5
Tabelle 12.7.: Evaluation der Termzuordnung, nach Extraktionsregel (englischsprachige Wikipedia, all-
Stichprobe)
Um nun den Anteil der „schlechten“ Termzuordnungen zu reduzieren, können die Zuordnungen
gefiltert werden (Cutoff, siehe .10.4). Dabei kommen die beiden folgenden Kriterien in Betracht:
die Häufigkeit, mit der die Zuordnung beobachtet wurde (vergleiche Tabelle 12.8) sowie die
Regeln, über die die Zuordnung extrahiert wurde (vergleiche Tabelle 12.7), wie sie in den Feldern
freq bzw. rule in der Tabelle meaning (.C.2) gespeichert sind. Die Bedeutungsrelation wird
dabei also um Zuordnungen beschnitten, die zu selten und/oder zu schwach sind. Die Erwartung
12. Akkuratheit der Konzepte 112
>=1 >=2 >=3 >=4
GOOD 84,8 94,5 94,8 97,5
VARIANT 1,1 0,0 0,0 0,0
DERIVED 2,7 1,8 1,7 0,0
DIRTY 2,2 0,9 0,0 0,0
BROADER 5,4 0,0 0,0 0,0
NARROWER 2,2 2,7 3,4 2,5
BAD 1,6 0,0 0,0 0,0
eval-freq-en.tsv, siehe .F.5
Tabelle 12.8.: Evaluation der Termzuordnung, nach Frequenz (englischsprachige Wikipedia, all-
Stichprobe)
%tcall %tall %ncall %nall %tctop %ttop %nctop %ntop
Alle 100,0 91,3 100,0 96,7 100,0 84,3 100,0 97,3
Min. 2×od. Exp. 82,6 91,4 96,0 97,0 79,9 86,6 98,2 97,7
Min. 3×od. Exp. 80,4 91,2 94,9 96,9 75,2 87,9 97,3 97,9
Min. 2× 59,8 94,5 90,7 97,8 50,3 90,0 95,5 98,1
Min. 3× 31,5 94,8 77,5 98,4 38,7 94,3 93,4 98,6
Nur Explizite 77,2 91,5 87,4 97,1 65,7 88,5 77,8 98,7
eval-cutoff-en.tsv, siehe .F.5
Tabelle 12.9.: Auswirkung verschiedener Cutoff-Modi, für die englischsprachige Wikipedia
%tcall %tall %ncall %nall %tctop %ttop %nctop %ntop
Alle 100,0 94,4 100,0 98,1 100,0 72,0 100,0 93,8
Min. 2×od. Exp.: 81,4 96,5 94,7 98,8 61,4 80,1 96,0 95,2
Min. 3×od. Exp. 78,5 97,8 93,1 99,5 54,3 80,5 94,6 95,5
Min. 2× 59,3 98,1 88,4 99,3 48,2 80,7 94,7 95,5
Min. 3× 26,0 100,0 69,3 100,0 35,4 86,4 92,1 96,3
Nur Explizite 76,3 97,8 90,1 99,5 46,3 79,2 89,2 95,7
eval-cutoff-de.tsv, siehe .F.5
Tabelle 12.10.: Auswirkung verschiedener Cutoff-Modi, für die deutschsprachige Wikipedia
12. Akkuratheit der Konzepte 113
ist, dass sich dadurch der Anteil der „guten“ Termzuordnung (also die Precision) vergößern lässt,
wobei in Kauf genommen wird, dass sich die Abdeckung (Coverage) verschlechtert1.
Die Tabellen 12.9 und 12.10 zeigen die Auswirkungen unterschiedlicher Cutoff-Methoden auf
die Stichproben aus dem englischsprachigen bzw. deutschsprachigen Thesaurus. Sie geben die
Abdeckung und den Anteil als „gut“ bewerteter Termzuordnungen wieder, jeweils für einen bestimmten
Cutoff-Modus und eine bestimmte Stichprobe. Die ersten vier Spalten beziehen sich auf
die Stichprobe über alle Konzepte (all), die letzten vier auf die Stichprobe aus den oberen 10% der
am häufigsten verwendeten Konzepte (top). Für beide Stichproben beziehen sich die ersten beiden
Spalten jeweils auf den Anteil an unterschiedlichen Termen (t) und die beiden verbleibenden
auf den Anteil bezüglich aller Verwendungen der Terme, also skaliert nach Termfrequenz (n). So
ergeben sich vier Paare von Spalten, in jedem dieser Paare gibt die erste Spalte (tc bzw. nc) die
Abdeckung an, also den Anteil von Termzuweisungen, die nach dem Cutoff verblieben sind, und
die zweite Spalte (t bzw. n) gibt den Anteil der als „gut“ bewerteten Terme an (also alle mit den
Bewertungen GOOD, DIRTY, DERIVED, VARIANT und BROADER).
Die Spalten der Tabelle geben die Ergebnisse für unterschiedliche Cutoff-Modi an, grob sortiert
nach zunehmender „Strenge“ der Kriterien. Im Einzelnen:
Alle: Werte ohne Cutoff, also für alle gefundenen Termzuordnungen.
Min. 2×od. Exp.: Die Zuordnung muss mindestens zweimal vorkommen, oder sie muss mindestens
einmal explizit vorgenommen worden sein, also nicht ausschließlich aus einer
Verwendung des Termes als Link-Text folgen.
Min. 3×od. Exp.: Die Zuordnung muss mindestens dreimal vorkommen, oder sie muss explizit
vorgenommen worden sein.
Min. 2×: Die Zuordnung muss mindestens zweimal vorkommen, egal ob sie explizit vorgenommen
wurde oder nicht.
Min. 3×: Die Zuordnung muss mindestens dreimal vorkommen.
Nur Explizite: Die Zuordnung muss mindestens einmal explizit vorgenommen worden sein, also
nicht ausschließlich aus einer Verwendung des Termes als Link-Text folgen.
Dabei ist es im Allgemeinen so, dass sowohl die Vorgabe einer Mindestfrequenz als auch das
Verlangen einer expliziten Zuordnung die Abdeckung stark reduziert, um die Präzision um einige
Prozentpunkte zu erhöhen. Dabei sind die Auswirkungen auf die skaliertenWerte, also die Anteile
an der Verwendung der Terme, deutlich geringer als an den absoluten Werten. Das ist konsistent
mit der vorher beschriebenen Beobachtung, dass „gute“ Terme für ein Konzept weit häufiger verwendet
werden als „schlechte“; auch ist der Zusammenhang natürlich darin begründet, dass es ja
gerade die wenig verwendeten Termzuordnungen sind, die ausgefiltert werden.
1Die Abdeckung bezieht sich auf die Anzahl von Zuordnungen bzw. Termen ohne Cutoff; der Recall würde sich auf
die Anzahl aller Bezeichnungen für die gegebenen Konzepte beziehen, diese ist jedoch unbekannt, und selbst mit
Hilfe eines „Gold-Standards“ auf der Basis von Standard-Wörterbüchern nur schlecht anzunähern.
12. Akkuratheit der Konzepte 114
Wird kein Cutoff angewendet, ergibt sich (bei, per Definition, 100% Abdeckung) die schlechteste
Präzision, die aber für den Anteil der Termverwendungen immer noch durchweg bei 97% liegt.
Bezogen auf unterschiedliche Terme liegt die Präzision immer noch zwischen 84% und 94% (mit
der Ausnahme von 72% für die Top10%-Stichprobe aus der deutschsprachigenWikipedia, die vor
allem auf das oben erwähnten Problem mit Stadtteilen zurückzuführen ist). Das zeigt, dass die
Bedeutungsrelation von WikiWord schon recht hohe Qualität hat. Etwas überraschend ist, dass
eine Beschränkung auf explizite Termzuweisungen, die mit großen Einbußen in der Abdeckung
verbunden ist, in keinem Fall besser ist als alle anderen Möglichkeiten des Cutoffs, und zumeist
sogar deutlich hinter anderen Möglichkeiten zurückbleibt. Das ist insbesondere auch deshalb interessant,
weil dieser Modus den Ergebnissen entspricht, die zu erwarten wären, wenn der Link-Text
gar nicht als Quelle von Termzuordnungen berücksichtigt würde — wie es die meisten anderen
Ansätze zur Extraktion eines Thesaurus aus der Wikipedia tun. Die Verwendung des Link-Textes
bringt also nicht nur einen quantitativen, sondern im Allgemeinen auch einen qualitativen Vorteil
—zum Teil sogar ohne Filterung, spätestens aber nach Anwendung geeigneter Cutoff-Regeln. Das
bestätigt die Ergebnisse von CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004).
Die Anwendung eines „naiven“ Cutoffs, der eine minimale Anzahl von Beobachtungen einer
Termzuordnung verlangt, liefert eine Verbesserung der Präzision um ein bis zwei Prozentpunkte
auf über 99% (in einer Stichprobe sogar auf 100% für eine Mindestfrequenz von 3), allerdings auf
Kosten der Abdeckung, insbesondere in Bezug auf die Anzahl der bekannten unterschiedlichen
Terme: sie sinkt für eine Mindestfrequenz von 2 auf 50% und für eine Mindestfrequenz von 3 auf
circa 30%—das entspricht grob der Erwartung, dass, nach dem Zipfschen Gesetz ZIPF (1935), die
Häfte der Zuordnungen nur einmal vorkommt, und drei Viertel nur höchstens zweimal.
Die Kombination der Kriterien Mindestfrequenz und explizite Zuordnung ist als Kompromiss
zwischen Abdeckung und Präzision gedacht: wird eine explizite Zuweisung nur für Terme verlangt,
die selten vorkommen, so ergibt sich ein deutlich geringerer Verlust an Abdeckung, während
der Gewinn an Präzision fast gleich bleibt: Die Verschlechterung der Präzision beträgt etwa
0,5 Prozentpunkt bezüglich der Termverwendungen und bis zu 5 Prozentpunkte bezüglich unterschiedlicher
Terme. Dem steht eine Verbesserung der Abeckung um circa 5 Prozentpunkte bezüglich
der Termverwendungen und bis zu 50 Prozentpunkte bezüglich der Anzahl unterschiedlicher
Terme gegenüber.
Über die beiden Cutoff-Kriterien lässt sich der Trade-Off zwischen Abdeckung und Präzision
steuern, insbesondere auch in Bezug darauf, ob in der gegebenen Anwendung die Präzision in
Bezug auf die zu erwartende natürliche Häufigkeit der Verwendung relevant ist, oder ob die
Wahrscheinlichkeit der Nutzung jedes Terms in etwa gleich ist: ist die Präzision wichtig und die
Terme treten in ihrer natürlichen (Zipfschen) Verteilung auf, so empfielt sich ein „strikter“ Cutoff.
Ist jedoch die Abdeckung wichtig, sollte ein kombinierter Cutoff verwendet werden, insbesondere
dann, wenn die Terme gleichverteilt auftreten, da sonst die Abdeckung zu stark reduziert würde.
Es wäre interessant, weiter zu untersuchen, wie sich unterschiedliche Definitionen für explizite
Zuweisung auswirken, also welche Extraktionsregeln unter den Cutoff fallen. In obigem
Experiment wurde die Regel TERM_FROM_LINK als implizit angesehen, die anderen als
explizit. Aufgrund der hohen Fehlerraten der Regeln TERM_FROM_DISAMBIG sowie TERM_
FROM_REDIRECT (vergleiche Tabelle 12.7) scheint es sinnvoll, verschiedene Kombinationen von
Extraktionsregeln für den Cutoff näher zu betrachten.
12. Akkuratheit der Konzepte 115
12.6. Auswertung der Glossen
Die Extraktion von Definitionssätzen (Glossen, .8.8) aus den Artikeln wurde in Bezug darauf
evaluiert, ob sie in der Tat einen Definitionssatz liefert. Dabei wurde nicht die faktische Richtigkeit
bewertet (die der Autor in vielen Fällen gar nicht beurteilen kann), sondern lediglich, ob es sich
um einen wohlgeformten, vollständigen Definitionssatz handelt, der eine nicht-triviale Aussage
über das Konzept macht. Im einzelnen waren die folgenden Bewertungen möglich:
UNKNOWN: Zu dem betreffenden Konzept gibt es keinen Artikel, daher konnte keine Definition
extrahiert werden, die Bewertung ist also gegenstandslos.
OK: Der Definitionssatz wurde korrekt extrahiert und macht eine nicht-triviale Aussage über das
Konzept.
MISSING: Es wurde kein Definitionssatz extrahiert. Das bedeutet entweder, dass der Artikel nicht
der Standard-Form für Wikipedia-Artikel folgt WP:ARTIKEL, WP:WSIGA und nicht mit einem
Definitionssatz beginnt, oder, dass die Muster und Heuristiken zum Auffinden des ersten
Satzes fehlgeschlagen sind.
TRIVIAL: Der Definitionssatz wurde korrekt extrahiert, enthält aber keine sinnvolle Aussage.
Relativ häufig kommen Sätze wie der folgende vor: „Weltoffenheit ist ein Begriff aus der
philosophischen Anthropologie.“ (.8.8).
TRUNCATED: Der Definitionssatz wurde nur teilweise extrahiert, ist abgeschnitten oder sonstwie
verstümmelt. Der Grund ist meist eine fehlerhafte Erkennung des Satzendes (etwa fälschlich
nach einer unbekannten Abkürzung), Verwirrung durch verschachtelte Strukturen wie
Klammersätze oder wörtliche Rede, oder aber die Verwendung von unbekannten Vorlagen
für die Formatierung von Text.
RUNAWAY: Der Definitionssatz wurde korrekt extrahiert, aber es wurde noch weiterer Text mitgeliefert.
Meistens wird noch ein zweiter Satz angehängt, weil der erste mit einer Abkürzung
wie „etc.“ endete und daher das Satzende nicht als solches erkannt wurde.
CLUTTERED: Der Definitionssatz wurde korrekt extrahiert, enthält aber Überbleibsel von Wiki-
Markup oder ähnlichem. Das ist meist auf eine fehlerhafte Verwendung von Wiki-Markup
zurückzuführen, oder aber auf Fehler in den Mustern, die zur Bereinigung des Textes verwendet
werden (.8.3).
WRONG: Es wurde etwas extrahiert, was kein Definitionssatz für das betreffende Konzept ist.
Entweder der erste Satz ist kein Definitionssatz, weil der Artikel nicht der Standard-Form
für Wikipedia-Artikel folgt (WP:WSIGA, WP:ARTIKEL), oder die Muster und Heuristiken
zum Auffinden des ersten Satzes sind fehlgeschlagen.
Die Tabelle 12.11 zeigt, dass die Definitionssätze in den allermeisten Fällen korrekt extrahiert
werden (OK) oder nur kleinere Probleme aufweisen (RUNAWAY, CLUTTERED).
12. Akkuratheit der Konzepte 116
(a) gesamt
Typ enall entop deall detop
UNKNOWN 58% 2% 72% 2%
OK 40% 86% 28% 88%
CLUTTERED – 2% – –
RUNAWAY – 2% – 2%
TRUNCATED 2% 4% – 4%
TRIVIAL – – – 4%
MISSING – 2% – –
WRONG – 2% – –
(b) ohne UNKNOWN
Typ enall entop deall detop
UNKNOWN
OK 95% 88% 100% 90%
CLUTTERED – 2% – –
RUNAWAY – 2% – 2%
TRUNCATED 5% 4% – 4%
TRIVIAL – – – 4%
MISSING – 2% – –
WRONG – 2% – –
Tabelle concept_survey, siehe .F.4
Tabelle 12.11.: Evaluation der Glossen
Die Fälle, in denen der Satz abgeschnitten wurde (TRUNCATED) sind meist auf eine zu strenge
Heuristik zurückzuführen, nämlich die, dass ein einzelner Zeilenumbruch einen Satz beendet —
das ist gemäß der Wiki-Syntax nicht notwendig (.A) und kann in LanguageConfiguration.
sentencePattern angepasst werden. Das würde aber vermutlich zu einer Vermehrung der
RUNAWAY-Fälle führen.
Gegen triviale Glossen (TRIVIAL), die der Form nach, aber nicht dem Inhalt nach eine Definition
darstellen, ist mit algorithmischen Mitteln wenig zu machen. Es wäre höchstens möglich, immer
den ganzen ersten Absatz als Glosse zu nehmen, das würde aber in den meisten Fällen Text mit
einbeziehen, der nicht zur Definition gehört, und laut Anforderung (.5.1) hier nicht erwünscht ist
(vergleiche .8.8).
Wenn gar keine Glosse gefunden wird (MISSING), liegt das meist daran, dass auch keine vorhanden
ist—in vielenWikis ist das zum Beispiel für Jahresartikel der Fall, die imWesentlichen als Listen
von Ereignissen strukturiert sind. Es fällt auch schwer, sich für eine Jahreszahl eine sinnvolle
Definition vorzustellen.
Wird ein falscher Satz als Glosse gefunden (WRONG), so liegt das oft daran, dass vor dem
Definitionssatz eine Bemerkung steht — einleitende Hinweise (Tags) in Artikeln kommen recht
oft vor, zum Beispiel alsoWarnung vor schlechter Qualität des Artikels, oder als Hinweis auf eine
Begriffsklärungsseite. Aber normalerweise sind solche tags Vorlagen, oder sie sind zumindest mit
<center> oder <div> formatiert und können damit leicht erkannt und herausgefiltert werden.
In einigen Fällen jedoch ist das nicht der Fall: in der englischsprachigen Wikipedia zum Beispiel
stehen Verweise auf alternative Bedeutungen häufig direkt vor dem eigentlichen Artikelinhalt,
und sind nur dadurch abgesetzt, dass sie eingerückt sind. Wird diese Einrückung vergessen, was
durchaus vorkommt, so findet der Algorithmus diesen vorangestellten Kommentar als ersten Satz,
der dann fälschlich als Glosse interpretiert wird. Es ist zu hoffen, dass auch die englischsprachige
Wikipedia zur Nutzung von Vorlagen für diesen Zweck übergeht, so dass dieses Problem in
Zukunft vermieden wird.