History: DanielKinzler Chapter 12: Akkuratheit der Konzepte

Source of version: 1 (current)

12. Akkuratheit der Konzepte
Dieses Kapitel untersucht die Eigenschaften und Beziehungen von Konzepten. Dazu werden aus
zwei Thesauri, dem deutschsprachigen und dem englischsprachigen, jeweils zwei Stichproben
entnommen: eine mit zufÃ¤lligen Konzepten aus der Gesamtmenge der Konzepte (enall mit 102
Konzepten bzw. deall mit 101), und eine mit zufÃ¤lligen Konzepten aus den â€žTop 10%â€œ, den am
hÃ¤ufigsten verwendeten zehn Prozent der Konzepte (entop bzw. detop, jeweils mit 51 Konzepten)
unter Verwendung des in_rank-Wertes. Dabei ist zu bedenken, dass die Stichprobe Ã¼ber alle
Konzepte auch viele Konzepte aus den 70% enthÃ¤lt, die gar keinen Artikel haben â€” einige der
hier untersuchten Eigenschaften treten bei solchen artikellosen Konzepten gar nicht auf.
Es wird erwartet, dass die Stichprobe Ã¼ber die â€žTop 10%â€œ gebrÃ¤uchliche, allgemeine Konzepte
enthÃ¤lt und dass die betreffenden Artikel von guter QualitÃ¤t sind, das heiÃŸt, den Richtlinien der
Wikipedia und der Syntax von MediaWiki folgen. Insbesondere ist zu erwarten, dass sich die
70% der Konzepte ohne Artikel am Ende der Rangliste nach in_rank befinden (meist werden sie
nur ein- oder hÃ¶chstens zweimal direkt referenziert, zum Teil, z. B. bei Navigationskategorien, gar
nicht)â€”das bedeutet, dass die meisteverwendeten 10% der Konzepte grÃ¶ÃŸtenteils in die meistverwendeten
33% der Artikel fallen, da die Artikel mehr oder weniger die oberen 30% der Konzepte
ausmachen.
Die Evaluation der Konzepte ist in ConceptSurvey implementiert und basiert auf den folgenden
Schritten:
1. In der Tabelle degree wird fÃ¼r das Feld in_rank das gewÃ¼nschte Intervall bestimmt, also
[1 . . . n] fÃ¼r die Stichprobe Ã¼ber alle Konzepte und [1 . . . n/10] fÃ¼r die Stichprobe aus den
Top 10%.
2. Eine Zahl aus diesem Intervall wird zufÃ¤llig gewÃ¤hlt und das Konzept, das diese Zahl als in_
rank hat, wird geladen. Dabei werden die Informationen aus concept_info verwendet, um
effizient Zugang zu allen Eigenschaften und Beziehungen zu erhalten.
3. FÃ¼r jedes Konzept wird eine Anzahl von Eigenschaften (Properties) untersucht, wobei manche
Eigenschaften mehr als einenWert haben kÃ¶nnen. Die untersuchten Eigenschaften sind:
terms: Die Terme (.8.9), die dem Konzept Ã¼ber die Bedeutungsrelation zugeordnet sind
(aus der Tabelle meaning .C.2).
type: Der Konzepttyp (.8.6), der dem Konzept zugeordnet ist (aus der Tabelle concept
.C.2).
definition: Die Definition (.8.8), die dem Konzept zugeordnet ist (aus der Tabelle
definition .C.2).
broader: Ãœbergeordnete Konzepte (.9.1), die dem Konzept Ã¼ber die
Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader .C.2).
narrower: Untergeordnete Konzepte (.9.1), die dem Konzept Ã¼ber die
Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader).
12. Akkuratheit der Konzepte 103
related: Verwandte Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle
relation .C.2).
similar: Ã„hnliche Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle
relation).
Diese Eigenschaften entsprechen denen, die im Datenmodell festgelegt sind (.D.2, .C.1).
4. Jedem Wert jeder Eigenschaft von jedem Konzept wurde nun manuell eine Bewertung zugewiesen,
die besagt, ob und inwieweit der gegebene Wert korrekt ist (siehe Anhang F.4
fÃ¼r die Rohdaten der Erhebung). Welche Bewertungen mÃ¶glich sind, hÃ¤ngt dabei von der
betreffenden Eigenschaft ab.
Im Folgenden wird die QualitÃ¤t der Werte fÃ¼r die einzelnen Eigenschaften analysiert.
12.1. Auswertung der Klassifikation
Bei der Konzeptklassifikation (.8.6) wird jedem Konzept ein Typ aus einer fest vorgegebenen
Menge von Typen wie PERSON oder PLACE zugewiesen. Sie bietet also eine grobe, korpusunabhÃ¤ngige
Aufteilung der Konzepte, die verwendet werden kann, um Konzepte fÃ¼r eine bestimmte
Anwendung zu filtern. Zum Beispiel kÃ¶nnen fÃ¼r die Erstellung eines WÃ¶rterbuches
Personen ignoriert werden, oder es kÃ¶nnen fÃ¼r die Erstellung eines Gazetteer gezielt Orte verwendet
werden. Konzepte, die zu keiner der vorgegebenen Klassen passen, erhalten den Typ OTHER,
solche, zu denen es keinen eigenen Artikel gibt und eine Klassifikation daher nicht mÃ¶glich ist,
erhalten den Typ UNKNOWN.
(a) gesamt
Typ en de
UNKNOWN 68% 60%
PLACE 2% 3%
PERSON 8% 10%
ORGANISATION >1% >1%
NAME >1% >1%
TIME >1% >1%
NUMBER >1% >1%
LIFEFORM 1% >1%
OTHER 21% 17%
(b) ohne UNKNOWN
Typ en de
UNKNOWN
PLACE 7% 11%
PERSON 24% 31%
ORGANISATION >1% 1%
NAME >1% >1%
TIME >1% >1%
NUMBER >1% >1%
LIFEFORM 4% 2%
OTHER 65% 54%
Tabelle 12.1.: HÃ¤ufigkeit der Konzepttypen
Zur Evaluation der Konzeptklassifikation stehen vier Werte als mÃ¶gliche Beurteilungen zur
VerfÃ¼gung:
UNKNOWN wird immer automatisch fÃ¼r den Typ UNKNOWN gewÃ¤hltâ€”wenn der Typ nicht bestimmt
werden kann, weil es zu dem Konzept keinen Artikel gibt, dann ist die Beurteilung gegenstandslos.
12. Akkuratheit der Konzepte 104
(a) gesamt
Typ enall entop deall detop
UNKNOWN 58% 2% 72% 2%
OK 36% 92% 28% 92%
MISSING 6% 4% 0% 6%
WRONG 0% 2% 0% 0%
(b) ohne UNKNOWN
Typ enall entop deall detop
UNKNOWN
OK 86% 92% 100% 92%
MISSING 14% 4% 0% 6%
WRONG 0% 2% 0% 0%
Tabelle concept_survey, siehe .F.4
Tabelle 12.2.: Bewertung der Konzeptklassifikation
OK wird benutzt, wenn der Typ korrekt erkannt wurde.
MISSING gibt an, dass kein konkreter Typ zugewiesen wurde (also der Typ OTHER ist), obwohl
das Konzept eindeutig zu einer der vorgegebenen Klassen gehÃ¶rt.
WRONG gibt an, dass der erkannte Typ falsch ist.
Bei der Auswertung zeigt sich zunÃ¤chst, dass die allermeisten Konzepte korrekt und fast gar keine
irrtÃ¼mlich zugeordnet werden. Allerdings wird der Typ einiger Konzepte, die eigentlich klassifiziert
werden sollten, nicht erkannt â€” daraus wird sichtbar, dass es sich bei der Klassifikation um
eine Heuristik handelt, die nach dem Best-Effort-Prinzip arbeitet: in der betreffenden Unterklasse
von WikiConfiguration sind in dem Feld conceptTypeSensors â€žSensorenâ€œ registriert (.8.2),
die sichere Hinweise fÃ¼r die einzelnen Konzepttypen erkennen, zumeist die Verwendung bestimmter
Kategorien oder Vorlagen. Die Erkennung basiert also auf Konventionen bezÃ¼glich der
Kategorisierung und Gestaltung von Artikeln Ã¼ber Konzepte einer bestimmten Art â€” wie effektiv
die Heuristiken arbeiten, hÃ¤ngt also davon ab, wie konsistent die betreffenden Konventionen in
den Artikeln derWikipedia befolgt werden, und wie gut sie durch die angegebenen Muster erkannt
werden.
Auch prinzipiell ist das Zuweisen der Konzepttypen nicht trivial, weil sie oft nicht eindeutig abzugrenzen
sind. Zum Beispiel ist unklar, was als Ort zu klassifizieren ist: LÃ¤nder und StÃ¤dte sicher,
aber FlÃ¼sse, FlughÃ¤fen, bestimmte GebÃ¤ude? Ã„hnlich verhÃ¤lt es sich mit Organisationen. Personen
sind dagegen relativ leicht abzugrenzen, es kann hÃ¶chstens passieren, dass eine fiktive Person mit
aufgenommen wird. Artikel Ã¼ber Zeitabschnitte (Jahre, Jahrzehnte und so weiter) sowie biologische
Taxa sind im allgemeinen leicht zu erkennen, da sie in den meisten Wikipedias durchgehend
typische Vorlagen verwenden: Taxoboxen bei Taxa und Vorlagen zur Kalendernavigation in
Artikeln Ã¼ber Zeitabschnitte. Problematisch wird es wieder bei Namen: in manchen Wikipedias
dienen Artikel Ã¼ber Vor- oder Nachnamen gleichzeitig als BegriffsklÃ¤rung oder Liste aller (bekannter)
NamenstrÃ¤ger. Es kann also sein, dass sie gar nicht erst als Artikel erkannt sondern als
BegriffsklÃ¤rung oder Liste behandelt werden (.8.5).
12. Akkuratheit der Konzepte 105
12.2. Auswertung der Subsumtion
Die Subsumtionsbeziehung ist ein wichtiger Bestandteil eines Thesaurus: sie ist das strukturierende
Element, das es erlaubt, ein Konzept durch Eingrenzung zu finden, also durch Navigation einer
Hierarchie von Konzepten, ausgehend von den allgemeineren zu den spezielleren. AuÃŸerdem ermÃ¶glicht
sie bei Bedarf ein automatisches Fallback auf allgemeinere Konzepte, zum Beispiel bei
einer Query Expansion.
Zur Bewertung der Subsumtionsbeziehungen eines Konzeptes, also seiner VerknÃ¼pfung mit Ã¼berbzw.
untergeordneten Konzepten, stehen nur zwei Alternativen zur VerfÃ¼gung: RIGHT und WRONG.
Es wird also nur festgestellt, ob die Unterordnung eines Konzeptes unter ein anderes berechtigt
scheint. Dabei werden die Bewertungen fÃ¼r die Eigenschaften narrower und broader zusammengefasst.
Typ enall entop deall detop
RIGHT gesamt 99% 99% 96% 98%
RIGHT ohne UNKNOWN 99% 99% 96% 98%
Tabelle concept_survey, siehe .F.4
Tabelle 12.3.: Bewertung der Konzeptklassifikation
Die Tabelle 12.3 zeigt, dass fast alle Unterordnungen korrekt sind. FÃ¤lschliche Unterordnungen
basieren zum einen auf falschen Angaben in Wikipedia-Artikeln (die meist daher rÃ¼hren, dass
die Bedeutung der zugeordneten Kategorie missverstanden wurde), zum andern aber auch an
falsch zugeordneten Kategorisierungs-Aliasen .9.1.2. Zum Beispiel wurden fÃ¼r die deutschsprachige
Wikipedia die Zuweisung der Kategorie Kategorie:US-Amerikaner interpretiert als
Unterordnung unter das Konzept DEUTSCHAMERIKANER, weil die Seite Deutschamerikaner fÃ¤lschlich
als Hauptartikel der Kategorie Kategorie:US-Amerikaner erkannt wurde. Das liegt daran,
dass es keinen â€žrichtigenâ€œ Hauptartikel US-Amerikaner gibt, und Deutschamerikaner die einzige
Seite der Kategorie war, die als Hauptartikel infrage kam. Dieser eine Fehler hat, da es viele
Personen und darunter viele Amerikaner in der Stichprobe gibt, sichtbare Auswirkungen auf das
Ergebnis der Evaluation.
Im allgemeinen liefern die Kategorisierungs-Aliase allerdings sehr gute Ergebnisse: etwa 99%
sind korrekt.
Die Subsumtionsrelation wurde hier allerdings nur auf lokale PlausibilitÃ¤t untersucht. Interpretiert
man sie gemÃ¤ÃŸ ihrer Semantik als transitiv, so kÃ¶nnen unerwÃ¼nschte Ergebnisse auftreten:
Durch Querverbindungen entstehen unter UmstÃ¤nden sehr lange Pfade, die dann als â€žabwegigeâ€œ
Subsumtionen interpretiert werden mÃ¼ssten (siehe dazu auch [HAMMWÂ¨OHNER (2007)]).
WikiWord Ã¼bernimmt die Subsumtionsrelation direkt so, wie sie in der Wikipedia angegeben
sind. Ein â€žSÃ¤ubernâ€œ dieser Daten, die Ã¼ber das einfache Entfernen von Zyklen (.E.5) hinausgeht,
verbleibt als Gegenstand kÃ¼nftiger Forschung (vergleiche [PONZETTO UND STRUBE (2007B),
HAMMWÂ¨OHNER (2007B)]). In diesem Rahmen kÃ¶nnte auch untersucht werden, ob sich durch geeignete
statistische oder heuristische Verfahren aus der unspezifischen Subsumtionsrelation spezifische
semantische Beziehungen extrahieren lassen, ob es also mÃ¶glich ist, zu erkennen, ob es
12. Akkuratheit der Konzepte 106
sich bei einer Unterordnung um eine Instanzbeziehung (is-a), Abstraktionsbeziehung (subtype),
eine Aggregationsbeziehung (part-of ) oder eine andere Beziehung handelt (vergleiche [PONZETTO
UND STRUBE (2007B)]).
12.3. Auswertung der Ã„hnlichkeit
Die Zuordnung semantisch Ã¤hnlicher Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen
wird (.9.1.3), basiert auf gemeinsamen Language-Links. Wenn zwei Artikel denselben
Artikel in einer anderen Sprache als Ã„quivalent haben, dann werden sie als â€žÃ¤hnlichâ€œ angesehen
und entsprechend im Feld langmatch in der Tabelle relation markiert. Dieses Vorgehen ist allerdings
stark von der GranularitÃ¤t der anderenWikipedias abhÃ¤ngig: werden bei der Bestimmung
der Ã„hnlichkeit alle Projekte berÃ¼cksichtigt, dann ist ihre â€žTrennschÃ¤rfeâ€œ beschrÃ¤nkt durch die
GranularitÃ¤t der kleinsten, also am wenigsten granularen Wikipedia. Ein Beispiel: in der deutschsprachigen
Wikipedia werden die Konzepte fÃ¼r die Jahre 1980, 1981, 1982 usw. bis 1989 alle als
â€žÃ¤hnlichâ€œ angesehen, weil sie alle als ÃœbersetzungsÃ¤quivalent ALS:1980ER haben, also das Konzept
in der alemannischenWikipedia, das die achtziger Jahre insgesamt behandelt. Dieses Problem tritt
sehr hÃ¤ufig auf, so zum Beispiel auch fÃ¼r METALLE und EISEN, TAG und SONNTAG und viele mehr.
Solche Paare als â€žÃ¤hnlichâ€œ zu bezeichnen ist nicht vÃ¶llig falsch, aber kann, je nach Kontext,
doch zu weit gefasst sein. Dieses Problem wirkt sich entsprechend auch auf die Ergebnisse der
Vereinigung zu einem multilingualen Thesaurus aus.
langmatch en de f r
>0 77108 30982 42146
>1 14962 6320 15432
>2 9550 4072 12212
>3 6226 3076 10962
>4 5010 2370 6840
>5 4060 1744 6492
>6 3366 1400 6104
Tabelle concept_survey, siehe .F.4
Tabelle 12.4.: Paare von Ã¤hnlichen Konzepten
Um dieses Problem zu umgehen, kann verlangt werden, dass zwei Konzepte, um als Ã¤hnlich angesehen
zu werden, in mehr als einem Language-Link Ã¼bereinstimmen mÃ¼ssenâ€”die Anzahl der
Ãœbereinstimmungen ist in dem Feld langmatch in der Tabelle relation gespeichert und kann so
direkt zum Filtern der Relation verwendet werden. Die Tabelle 12.4 zeigt, wie viele Paare dann jeweils
Ã¼brig bleiben (wobei interessant ist, zu sehen, dass die franzÃ¶sischsprachigeWikipedia deutlich
mehr Language-Links hat als die deutschsprachige, obwohl sie etwas kleiner ist). Die stÃ¤rkste
Filterung ist der Schritt von mindestens einer Ãœbereinstimmung zu mindestens zwei: Dabei entfallen
viele fehlerhafte Zuordnungen sowie â€žAusreiÃŸerâ€œ, die durch Verweise in sehr kleine Projekte
mit geringer GranularitÃ¤t entstehen. Wird ein noch hÃ¶herer Grad an Ãœbereinstimmung gefordert,
verbessert sich die QualitÃ¤t der Ã„hnlichkeit sukzessive â€” so lÃ¤sst sich der gewÃ¼nschte Trade-Off
zwischen QualitÃ¤t und Abdeckung steuern. FÃ¼r den Export nach RDF ist dies durch die Option
12. Akkuratheit der Konzepte 107
min-langmatch mÃ¶glich. Dabei ist allerdings zu bedenken, dass, wenn man mindestens drei
Ã¼bereinstimmende Language-Links verlangt, nur Konzepte Ã¼berhaupt als Ã¤hnlich erkannt werden
kÃ¶nnen, die es noch in mindestens drei weiteren Wikipedias gibt. Wegen der groÃŸen Unterschiede
in Umfang und Abdeckung der Wikipedias ist das eine recht starke EinschrÃ¤nkung.
Eine Alternative wÃ¤re es, Language-Links auf sehr kleine Projekte von der Betrachtung auszuschlieÃŸen.
Vermutlich lieÃŸen sich dadurch ebenfalls eine Vielzahl von â€žunscharfenâ€œ Ã„hnlichkeiten
vermeiden, die entstehen, wenn das Projekt, das Ziel eines Language-Links ist, eine zu geringe
GranularitÃ¤t hat. Es wird erwartet, dass dabei weniger VerknÃ¼pfungen verloren gingen, als das
der Fall ist, wenn man eine Ãœbereinstimmung in mindestens zwei oder mehr Language-Links verlangt.
Diese MÃ¶glichkeit wurde hier nicht weiter verfolgt und verbleibt als Gegenstand kÃ¼nftiger
Forschung.
12.4. Auswertung der Verwandtheit
Die Zuordnung semantisch verwandter Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen
wird (.9.1.3), ist schwer zu evaluieren, da die Semantik dieser Beziehungen nicht klar
definiert istâ€”das heiÃŸt, es ist nicht einfach, zu bestimmen, welche Zuordnung â€žfalschâ€œ wÃ¤re. Die
StÃ¤rke und Art der subjektiv empfundenen Verwandtheit der Konzeptpaare variiert aber stark. Hier
ein paar Beispiele:
ERDMASSE ist verwandt mit PLANET, GRAVITATIONSKONSTANTE und SONNENMASSE.
EARL_BROWDER (amerikanischer Kommunist) ist verwandt mit 1891
(Geburtsjahr), 1973 (Sterbejahr), KOMMUNISTISCHE_PARTEI_DER_USA (Vorsitz),
PRÂ¨ASIDENTSCHAFTSWAHL_IN_DEN_VEREINIGTEN_STAATEN_1936 (Kandidatur), WILLIAM_Z._FOSTER
(VorgÃ¤nger).
LUKE_DONALD (englischer Golfer) ist verwandt mit NORTHWESTERN_UNIVERSITY
(Absolvent), WORLD_CUP_(GOLF,_MÂ¨ANNER) (Sieger), HEMEL_HEMPSTEAD (Geburtsort),
PAUL_CASEY_(GOLFER) (Partner), OMEGA_EUROPEA_MASTERS (Sieger).
VERWEILDAUER (im Versicherungsjargon) ist verwandt mit KRANKENHAUS, DIAGNOSIS_RELATED_GROUPS.
Die QualitÃ¤t der VerknÃ¼pfungen Ã¼ber ihre Frequenz zu approximieren, wie das bei der Ã„hnlichkeit
mÃ¶glich war (.12.3), fÃ¼hrt hier nicht zum Erfolg: die Verwandtheit ergibt sich ja daraus, ob sich
zwei Artikel gegenseitig per Wiki-Link referenzieren. Wie oft sie das tun, ist dabei kein Indikator
fÃ¼r die StÃ¤rke der Verbindungâ€”per Konvention sollte die Anzahl der VerknÃ¼pfungen in der Regel
sogar immer nur 1 sein: [WP:V] besagt, dass in einem Artikel normalerweise nur einmal auf einen
bestimmten anderen Artikel verwiesen werden soll.
Aussichtsreicher ist es, den Typ der Konzepte zu betrachten (.8.6): Personen zum Beispiel sind
oft â€žverwandtâ€œ mit ihrem Geburts- und Sterbejahr, und eventuell auch mit ihrem Geburtsortâ€”der
Grund ist, dass die Artikel Ã¼ber die Jahre Listen von Personen enthalten, die in den betreffenden
12. Akkuratheit der Konzepte 108
Jahren geboren wurden und gestorben sind. Ã„hnlich wird in Artikeln Ã¼ber StÃ¤dte hÃ¤ufig angegeben,
welche PersÃ¶nlichkeiten dort geboren wurden oder gewirkt haben. Diese VerknÃ¼pfungen
sind aber, je nach Nutzung, wenig hilfreich als Indikator fÃ¼r semantische Verwandtschaft. So bietet
es sich an, die Verwandtschaftsbeziehung nach Typ zu filtern: zum Beispiel kÃ¶nnen aus der
Verwandtschaft von Personen (Typ PERSON) Zeiten entfernt werden (Konzepte vom Typ TIME) und
eventuell auch Orte (Konzepte vom Typ PLACE). Oder man verlangt, dass die Verwandtschaften
eines Konzeptes immer vom selben Typ sein mÃ¼ssen, wie das Konzept selbst (wobei OTHER auch
zulÃ¤ssig sein kann): so findet man zu einer Person weitere Personen, zu einem Ort weitere Orte,
zu einem Jahr weitere Jahre und so weiter.
Die QualitÃ¤t der Verwandtheit ist also schwer festzustellen, der Typ Konzepte bietet einen besseren
Anhaltspunkt fÃ¼r die Filterung passend zum Anwendungsfall. Noch besser wÃ¤re es natÃ¼rlich,
die konkrete Semantik der Beziehung zwischen den Konzepten zu kennen (etwa geborenin
oder hauptstadt-von). Um solche Relationen aus Wikipedia-Artikeln zu extrahieren, gibt es
im wesentlichen zwei MÃ¶glichkeiten: entweder man analysiert die Parameter von bestimmten
Vorlagen (Infoboxen), um strukturierte DatensÃ¤tze zu erhalten [WP:IB, AUER U. A. (2007), AUER
UND LEHMANN (2007)]. Oder man analysiert den Satz, in dem die VerknÃ¼pfung in den jeweiligen
Artikeln auftritt, mit einfachem Pattern Matching, oder mit aufwÃ¤ndigeren Methoden der automatischen
Sprachverarbeitung [NGUYEN U. A. (2007), NGUYEN UND ISHIZUKA (2007), WU UND WELD (2007)].
Diese MÃ¶glichkeiten der Datenextraktion sind nicht Gegenstand dieser Arbeit und damit nicht
Aufgabe von WikiWord â€” sie sind vielmehr komplementÃ¤r zu den hier vorgestellten Methoden:
ihre Ergebnisse kÃ¶nnen die von WikiWord ergÃ¤nzen.
DesWeiteren ist anzumerken, dass die hier betrachtete Verwandtheitsbeziehung relativ grob ist: sie
betrachtet nur explizite direkte Verwandtheit, die sich vorab fÃ¼r alle Konzepte in einem Thesaurus
bestimmen lÃ¤sst. Sie verbindet also solche Konzepte, die â€žsehrâ€œ verwandt sind: eine graduelle
Abstufung oder ein Vergleich der â€žVerwandtheitâ€œ ist nicht mÃ¶glich. In Kapitel .14 werden
Techniken betrachtet, mit denen einWert fÃ¼r die semantische Verwandtheit eines gegebenen Paars
von Konzepten oder Termen berechnet werden kann.
12.5. Auswertung der Termzuordnung
Die Bedeutungsrelation, also die Zuordnung von Termen (Bezeichnungen) zu Konzepten
(Bedeutungen), ist ein KernstÃ¼ck eines konzeptorientierten Thesaurus: sie vermittelt zwischen
reinem Text und inhaltlichen Beziehungen. Daher ist es besonders wichtig, dass diese Relation
korrekt ist, dass heiÃŸt, dass sie keine fehlerhaften Zuordnungen liefert. Dieser Abschnitt untersucht
die QualitÃ¤t der Bedeutungsrelation auf der Basis der oben beschriebenen Stichproben.
Die Tabellen 12.5 und 12.6 zeigen die Bewertung der Terme, die den einzelnen Konzepten zugeordnet
sind â€” die Erhebung kann im Einzelnen in Anhang F.4 nachvollzogen werden. FÃ¼r jeden
Term, der einem Konzept zugeordnet ist, wurde eine der folgenden Bewertungen abgegben, die
die Zeilen der Tabellen bilden:
GOOD: der Term ist eine korrekte Bezeichnung fÃ¼r das Konzept.
12. Akkuratheit der Konzepte 109
en.wikipedia %tall %nall %ttop %ntop
GOOD 87,1 95,9 76,4 91,4
DIRTY 3,0 0,8 2,2 0,3
VARIANT 1,0 0,2 3,8 4,2
DERIVED 1,0 0,4 4,1 1,2
BROADER 3,0 0,6 4,1 1,6
NARROWER 4,0 1,9 6,9 1,0
BAD 1,0 0,2 2,5 0,2
Tabelle concept_survey, siehe .F.4
Tabelle 12.5.: Bewertung der Termzuordnungen fÃ¼r die englischsprachige Wikipedia
de.wikipedia %tall %nall %ttop %ntop
GOOD 87,2 95,8 49,5 83,3
DIRTY 0,0 0,0 0,3 0,0
VARIANT 1,2 0,3 14,8 9,1
DERIVED 9,3 3,3 10,3 3,4
BROADER 2,3 0,7 7,7 1,3
NARROWER 0,0 0,0 15,4 2,5
BAD 0,0 0,0 1,9 0,2
Tabelle concept_survey, siehe .F.4
Tabelle 12.6.: Bewertung der Termzuordnungen fÃ¼r die deutschsprachige Wikipedia
VARIANT: der Term ist eine Form einer korrekten Bezeichnung fÃ¼r das Konzept, also zum Beispiel
ein Plural oder Genitiv, oder das Wort ist groÃŸ geschrieben, weil es am Satzanfang steht.
DERIVED: der Term ist von dem Konzept abgeleitet, bezeichnet es aber nicht direkt: zum Beispiel
â€žPhysikerâ€œ fÃ¼r PHYSIK oder â€ždeutschâ€œ fÃ¼r DEUTSCHLAND.
DIRTY: der Term ist nicht ganz richtig verwendet, zum Beispiel ist die GroÃŸschreibung falsch,
oder die Verwendung von Bindestrichen oder Apostrophen ist nicht ganz korrekt.
BROADER: der Term bezeichnet eigentlich etwas, das dem Konzept Ã¼bergeordnet ist â€” dies tritt
relativ hÃ¤ufig auf, und zwar vor allem immer dann, wem ein Term totem pro parte (oder
in Ã¤hnlicher Weise synekdotisch) verwendet wird. Beispiele sind â€žAmerikaâ€œ fÃ¼r USA oder
â€žgriechischâ€œ fÃ¼r GRIECHISCHE MYTOLOGIE. Zum Teil handelt es sich dabei um ungenaue, aber
umgangssprachlich gebrÃ¤uchliche Bezeichnungen, zum Teil aber auch um Terme, die nur
in einem ganz bestimmten Kontext auf das gegebene Konzept verweisen: â€žVergrÃ¶ÃŸerungâ€œ
kann zum Beispiel fÃ¼r HEPATOMEGALIE stehen, wenn der Kontext sich mit Krankeiten der Leber
beschÃ¤ftigt. Diese Bedeutungszuweisung ist dann zwar stark kontextabhÃ¤ngig, aber dennoch
valid.
NARROWER: der Term bezeichnet etwas, das dem Konzept untergeordnet ist â€” dies tritt vor allem
dann auf, wenn es fÃ¼r das konkretere Konzept keinen eigenen Artikel in der Wikipedia
gibt. Sehr hÃ¤ufig zum Beispiel verweist der Name eines Stadteils auf den Artikel Ã¼ber die
12. Akkuratheit der Konzepte 110
ganze Stadt. Dieses Vorgehen ist zwar im Rahmen der Wikipedia pragmatisch, fÃ¼hrt aber
fÃ¼r WikiWord zu fehlerhaften Bedeutungszuweisungen â€” besser ist es, wenn in einem solchen
Fall auf einen Abschnitt des entsprechenden Artikels verwiesen wird. Dann erzeugt
WikiWord fÃ¼r den Abschnitt ein eigenes Konzept (.9.1.1).
Zu beachten ist auch, dass Terme in derWikipedia fast nie aus rethorischen GrÃ¼nden auf ein
allgemeineres Konzept verweisen â€” das heiÃŸt, sie werden nicht pars pro toto verwendet,
bzw. wird, wenn diese Stilfigur verwendet wird, kein Wiki-Link gesetzt.
BAD: der Term bezeichnet das Konzept nicht, die Verwendung als Link-Text ist falsch oder zumindest
irrefÃ¼hrend. Zum Teil handelt es sich hier um Tippfehler oder eine fehlerhafteWahl des
Link-Zieles, zum Teil aber auch um â€žnavigatorischeâ€œ Link-Texte, wie â€ždas gleichnamige
Buchâ€œ oder â€žim folgenden Jahrâ€œ. Diese sind fÃ¼r die Bedeutungsrelation unbrauchbar.
Die ÃœbergÃ¤nge zwischen den einzelnen Bewertungen sind bisweilen flieÃŸend. Einige Beispiele:
â€¢ Die Bezeichnung â€žAmerikaâ€œ fÃ¼r das Konzept USA kann als Kurzform des Namens gesehen
werden (GOOD) oder als Synekdoche, also eine Verwendung totem pro parte (BROADER).
â€¢ Das Adjektiv â€žphysikalischâ€œ fÃ¼r das Konzept PHYSIK kann als Wortform (VARIANT) oder als
abgeleitetes Wort (DERIVED) betrachtet werden.
â€¢ Die Schreibweise â€žLodzâ€œ fÃ¼r Â£Â´ODÂ´Z kann als valide deutsche Transkription (GOOD) oder als
typographischer Fehler (DIRTY) angesehen werden.
Aus diesem Grund wird die Unterscheidung im Folgenden auf â€žguteâ€œ und â€žschlechteâ€œ
Zuordnungen reduziert, wobei nur die Bewertungen NARROW und BAD als â€žschlechtâ€œ betrachtet
werden:
Die Interpretation von BROADER als â€žgutâ€œ und NARROWER als â€žschlechtâ€œ ist dadurch begrÃ¼ndet,
dass, wie oben schon bemerkt, die Bewertung BROADER hÃ¤ufig aus einer Verwendung des Terms als
Synekdoche stammt, wÃ¤hrend die Bewertung NARROW meist von â€žVerlegenheitsverknÃ¼pfungenâ€œ
herrÃ¼hrt, die entstehen, wenn kein Artikel zu dem konkreten Konzept existiert, und deshalb ein
Wiki-Link auf ein Ã¼bergeordnetes Thema gesetzt wird. Aus Sicht von WikiWord wÃ¤re es in solchen
FÃ¤llen vorzuziehen, entweder einen Link auf eine noch nicht existierende Seite zu setzen
(was unter UmstÃ¤nden durchaus erwÃ¼nscht ist [WP:RL, WP:V]) oder auf einen konkreten Abschnitt
in einem Ã¼bergeordneten Artikel zu verweisen. Aus diesem Grund wird hier BROADER noch als
â€žgutâ€œ, aber NARROW als â€žschlechtâ€œ bewertet.
Die Bewertungen VARIANT und DERIVED sind aus der Perspektive des Information Retrieval sicherlich
als valid anzusehen, da sich im Kontext einer Dokumentensuche oder Indexierung der
entsprechenden Text korrekt dem fraglichen Konzept zuordnen lÃ¤sst. Dasselbe gilt auch fÃ¼r die
Bewertung DIRTY, da fÃ¼r die EffektivitÃ¤t der Suche ja nicht entscheidend ist, ob eine Bezeichnung
â€žkorrektâ€œ ist, sondern nur, wie sie pragmatisch verwendet wird.
Die Spalten der Tabellen 12.5 und 12.6 teilen sich in zwei Gruppen: die ersten beiden Spalten
geben die Werte fÃ¼r die Stichprobe Ã¼ber den Gesamtkorpus an (all), die letzten beiden Spalten
12. Akkuratheit der Konzepte 111
die Werte fÃ¼r die Stichprobe aus den 10% meistgenutzer Konzepte (top). Die jeweils erste Spalte
gibt direkt den Anteil von Termen wieder, auf die die der Zeile entsprechende Bewertung zutrifft
(%t), die jeweils zweite Spalte ist nach Termfrequenz gewichtet, das heiÃŸt, sie gibt den Anteil der
Verwendungen von Termen an, auf die die Bewertung zutrifft (%n).
Vergleicht man die Bewertungen innerhalb einer Spalte, so ist zunÃ¤chst offensichtlich, dass die
allermeisten Terme als GOOD markiert sind, also als vÃ¶llig korrekte Bezeichungen fÃ¼r das Konzept.
Der Anteil liegt bei etwa 50%â€“87% der Terme, aber etwa 83%â€“97% der Verwendungen â€” was
besagt, dass die â€žgutenâ€œ, primÃ¤ren Bezeichnungen fÃ¼r ein Konzept hÃ¤ufiger verwendet werden
als irgendwelche Varianten, abgeleitete oder gar falsche Bezeichnungen. Der Anteil der â€žgutenâ€œ
Bezeichnungen ist ausserdem bei der Stichprobe aus den meistgenutzten 10% kleiner als bei der
Stichprobe Ã¼ber den Gesamtkorpus â€” der Grund dafÃ¼r ist vermutlich, dass abgeleitete Formen
oder alternative Bezeichnungen bevorzugt fÃ¼r gebrÃ¤uchliche Konzepte verwendet werden, wÃ¤hrend
ungebrÃ¤uchliche Konzepte meist Ã¼ber ihren primÃ¤ren Namen referenziert werden.
Bei einem Vergleich zwischen den Ergebnissen fÃ¼r die englischsprachige und die deutschsprachige
Wikipedia fÃ¤llt auf, dass in der deutschsprachigen Wikipedia deutlich mehr Terme als
VARIANT (Wortform) oder DERIVED (Abgeleitet) markiert sind. Das ist vermutlich durch die
reichere Morphologie der deutschen Sprache sowie die Verwendung von Komposita zu erklÃ¤ren.
Diese Vermutung durch Untersuchungen an weiteren Sprachen zu erhÃ¤rten verbleibt als
Gegenstand kÃ¼nftiger Forschung. Eine weitere AuffÃ¤lligkeit ist, dass in der englischsprachigen
Wikipedia mehr EintrÃ¤ge als DIRTY markiert sindâ€”das ist insbesondere auf fehlende Apostrophe
bei Genitiv-Formen sowie auf fÃ¤lschliche Kleinschreibung bei Namen und AbkÃ¼rzungen zurÃ¼ckzufÃ¼hren.
LINK DISAMBIG SORTKEY REDIRECT TITLE
GOOD 96,5 76,5 100,0 57,7 99,0
VARIANT 0,2 â€“ â€“ 3,8 â€“
DERIVED 0,8 â€“ â€“ 11,5 â€“
DIRTY 0,2 â€“ â€“ 15,4 â€“
BROADER 1,1 11,8 â€“ â€“ 1,0
NARROWER 1,1 â€“ â€“ 11,5 â€“
BAD 0,2 11,8 â€“ â€“ â€“
eval-rules-en.tsv, siehe .F.5
Tabelle 12.7.: Evaluation der Termzuordnung, nach Extraktionsregel (englischsprachige Wikipedia, all-
Stichprobe)
Um nun den Anteil der â€žschlechtenâ€œ Termzuordnungen zu reduzieren, kÃ¶nnen die Zuordnungen
gefiltert werden (Cutoff, siehe .10.4). Dabei kommen die beiden folgenden Kriterien in Betracht:
die HÃ¤ufigkeit, mit der die Zuordnung beobachtet wurde (vergleiche Tabelle 12.8) sowie die
Regeln, Ã¼ber die die Zuordnung extrahiert wurde (vergleiche Tabelle 12.7), wie sie in den Feldern
freq bzw. rule in der Tabelle meaning (.C.2) gespeichert sind. Die Bedeutungsrelation wird
dabei also um Zuordnungen beschnitten, die zu selten und/oder zu schwach sind. Die Erwartung
12. Akkuratheit der Konzepte 112
>=1 >=2 >=3 >=4
GOOD 84,8 94,5 94,8 97,5
VARIANT 1,1 0,0 0,0 0,0
DERIVED 2,7 1,8 1,7 0,0
DIRTY 2,2 0,9 0,0 0,0
BROADER 5,4 0,0 0,0 0,0
NARROWER 2,2 2,7 3,4 2,5
BAD 1,6 0,0 0,0 0,0
eval-freq-en.tsv, siehe .F.5
Tabelle 12.8.: Evaluation der Termzuordnung, nach Frequenz (englischsprachige Wikipedia, all-
Stichprobe)
%tcall %tall %ncall %nall %tctop %ttop %nctop %ntop
Alle 100,0 91,3 100,0 96,7 100,0 84,3 100,0 97,3
Min. 2Ã—od. Exp. 82,6 91,4 96,0 97,0 79,9 86,6 98,2 97,7
Min. 3Ã—od. Exp. 80,4 91,2 94,9 96,9 75,2 87,9 97,3 97,9
Min. 2Ã— 59,8 94,5 90,7 97,8 50,3 90,0 95,5 98,1
Min. 3Ã— 31,5 94,8 77,5 98,4 38,7 94,3 93,4 98,6
Nur Explizite 77,2 91,5 87,4 97,1 65,7 88,5 77,8 98,7
eval-cutoff-en.tsv, siehe .F.5
Tabelle 12.9.: Auswirkung verschiedener Cutoff-Modi, fÃ¼r die englischsprachige Wikipedia
%tcall %tall %ncall %nall %tctop %ttop %nctop %ntop
Alle 100,0 94,4 100,0 98,1 100,0 72,0 100,0 93,8
Min. 2Ã—od. Exp.: 81,4 96,5 94,7 98,8 61,4 80,1 96,0 95,2
Min. 3Ã—od. Exp. 78,5 97,8 93,1 99,5 54,3 80,5 94,6 95,5
Min. 2Ã— 59,3 98,1 88,4 99,3 48,2 80,7 94,7 95,5
Min. 3Ã— 26,0 100,0 69,3 100,0 35,4 86,4 92,1 96,3
Nur Explizite 76,3 97,8 90,1 99,5 46,3 79,2 89,2 95,7
eval-cutoff-de.tsv, siehe .F.5
Tabelle 12.10.: Auswirkung verschiedener Cutoff-Modi, fÃ¼r die deutschsprachige Wikipedia
12. Akkuratheit der Konzepte 113
ist, dass sich dadurch der Anteil der â€žgutenâ€œ Termzuordnung (also die Precision) vergÃ¶ÃŸern lÃ¤sst,
wobei in Kauf genommen wird, dass sich die Abdeckung (Coverage) verschlechtert1.
Die Tabellen 12.9 und 12.10 zeigen die Auswirkungen unterschiedlicher Cutoff-Methoden auf
die Stichproben aus dem englischsprachigen bzw. deutschsprachigen Thesaurus. Sie geben die
Abdeckung und den Anteil als â€žgutâ€œ bewerteter Termzuordnungen wieder, jeweils fÃ¼r einen bestimmten
Cutoff-Modus und eine bestimmte Stichprobe. Die ersten vier Spalten beziehen sich auf
die Stichprobe Ã¼ber alle Konzepte (all), die letzten vier auf die Stichprobe aus den oberen 10% der
am hÃ¤ufigsten verwendeten Konzepte (top). FÃ¼r beide Stichproben beziehen sich die ersten beiden
Spalten jeweils auf den Anteil an unterschiedlichen Termen (t) und die beiden verbleibenden
auf den Anteil bezÃ¼glich aller Verwendungen der Terme, also skaliert nach Termfrequenz (n). So
ergeben sich vier Paare von Spalten, in jedem dieser Paare gibt die erste Spalte (tc bzw. nc) die
Abdeckung an, also den Anteil von Termzuweisungen, die nach dem Cutoff verblieben sind, und
die zweite Spalte (t bzw. n) gibt den Anteil der als â€žgutâ€œ bewerteten Terme an (also alle mit den
Bewertungen GOOD, DIRTY, DERIVED, VARIANT und BROADER).
Die Spalten der Tabelle geben die Ergebnisse fÃ¼r unterschiedliche Cutoff-Modi an, grob sortiert
nach zunehmender â€žStrengeâ€œ der Kriterien. Im Einzelnen:
Alle: Werte ohne Cutoff, also fÃ¼r alle gefundenen Termzuordnungen.
Min. 2Ã—od. Exp.: Die Zuordnung muss mindestens zweimal vorkommen, oder sie muss mindestens
einmal explizit vorgenommen worden sein, also nicht ausschlieÃŸlich aus einer
Verwendung des Termes als Link-Text folgen.
Min. 3Ã—od. Exp.: Die Zuordnung muss mindestens dreimal vorkommen, oder sie muss explizit
vorgenommen worden sein.
Min. 2Ã—: Die Zuordnung muss mindestens zweimal vorkommen, egal ob sie explizit vorgenommen
wurde oder nicht.
Min. 3Ã—: Die Zuordnung muss mindestens dreimal vorkommen.
Nur Explizite: Die Zuordnung muss mindestens einmal explizit vorgenommen worden sein, also
nicht ausschlieÃŸlich aus einer Verwendung des Termes als Link-Text folgen.
Dabei ist es im Allgemeinen so, dass sowohl die Vorgabe einer Mindestfrequenz als auch das
Verlangen einer expliziten Zuordnung die Abdeckung stark reduziert, um die PrÃ¤zision um einige
Prozentpunkte zu erhÃ¶hen. Dabei sind die Auswirkungen auf die skaliertenWerte, also die Anteile
an der Verwendung der Terme, deutlich geringer als an den absoluten Werten. Das ist konsistent
mit der vorher beschriebenen Beobachtung, dass â€žguteâ€œ Terme fÃ¼r ein Konzept weit hÃ¤ufiger verwendet
werden als â€žschlechteâ€œ; auch ist der Zusammenhang natÃ¼rlich darin begrÃ¼ndet, dass es ja
gerade die wenig verwendeten Termzuordnungen sind, die ausgefiltert werden.
1Die Abdeckung bezieht sich auf die Anzahl von Zuordnungen bzw. Termen ohne Cutoff; der Recall wÃ¼rde sich auf
die Anzahl aller Bezeichnungen fÃ¼r die gegebenen Konzepte beziehen, diese ist jedoch unbekannt, und selbst mit
Hilfe eines â€žGold-Standardsâ€œ auf der Basis von Standard-WÃ¶rterbÃ¼chern nur schlecht anzunÃ¤hern.
12. Akkuratheit der Konzepte 114
Wird kein Cutoff angewendet, ergibt sich (bei, per Definition, 100% Abdeckung) die schlechteste
PrÃ¤zision, die aber fÃ¼r den Anteil der Termverwendungen immer noch durchweg bei 97% liegt.
Bezogen auf unterschiedliche Terme liegt die PrÃ¤zision immer noch zwischen 84% und 94% (mit
der Ausnahme von 72% fÃ¼r die Top10%-Stichprobe aus der deutschsprachigenWikipedia, die vor
allem auf das oben erwÃ¤hnten Problem mit Stadtteilen zurÃ¼ckzufÃ¼hren ist). Das zeigt, dass die
Bedeutungsrelation von WikiWord schon recht hohe QualitÃ¤t hat. Etwas Ã¼berraschend ist, dass
eine BeschrÃ¤nkung auf explizite Termzuweisungen, die mit groÃŸen EinbuÃŸen in der Abdeckung
verbunden ist, in keinem Fall besser ist als alle anderen MÃ¶glichkeiten des Cutoffs, und zumeist
sogar deutlich hinter anderen MÃ¶glichkeiten zurÃ¼ckbleibt. Das ist insbesondere auch deshalb interessant,
weil dieser Modus den Ergebnissen entspricht, die zu erwarten wÃ¤ren, wenn der Link-Text
gar nicht als Quelle von Termzuordnungen berÃ¼cksichtigt wÃ¼rde â€” wie es die meisten anderen
AnsÃ¤tze zur Extraktion eines Thesaurus aus der Wikipedia tun. Die Verwendung des Link-Textes
bringt also nicht nur einen quantitativen, sondern im Allgemeinen auch einen qualitativen Vorteil
â€”zum Teil sogar ohne Filterung, spÃ¤testens aber nach Anwendung geeigneter Cutoff-Regeln. Das
bestÃ¤tigt die Ergebnisse von [CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)].
Die Anwendung eines â€žnaivenâ€œ Cutoffs, der eine minimale Anzahl von Beobachtungen einer
Termzuordnung verlangt, liefert eine Verbesserung der PrÃ¤zision um ein bis zwei Prozentpunkte
auf Ã¼ber 99% (in einer Stichprobe sogar auf 100% fÃ¼r eine Mindestfrequenz von 3), allerdings auf
Kosten der Abdeckung, insbesondere in Bezug auf die Anzahl der bekannten unterschiedlichen
Terme: sie sinkt fÃ¼r eine Mindestfrequenz von 2 auf 50% und fÃ¼r eine Mindestfrequenz von 3 auf
circa 30%â€”das entspricht grob der Erwartung, dass, nach dem Zipfschen Gesetz [ZIPF (1935)], die
HÃ¤fte der Zuordnungen nur einmal vorkommt, und drei Viertel nur hÃ¶chstens zweimal.
Die Kombination der Kriterien Mindestfrequenz und explizite Zuordnung ist als Kompromiss
zwischen Abdeckung und PrÃ¤zision gedacht: wird eine explizite Zuweisung nur fÃ¼r Terme verlangt,
die selten vorkommen, so ergibt sich ein deutlich geringerer Verlust an Abdeckung, wÃ¤hrend
der Gewinn an PrÃ¤zision fast gleich bleibt: Die Verschlechterung der PrÃ¤zision betrÃ¤gt etwa
0,5 Prozentpunkt bezÃ¼glich der Termverwendungen und bis zu 5 Prozentpunkte bezÃ¼glich unterschiedlicher
Terme. Dem steht eine Verbesserung der Abeckung um circa 5 Prozentpunkte bezÃ¼glich
der Termverwendungen und bis zu 50 Prozentpunkte bezÃ¼glich der Anzahl unterschiedlicher
Terme gegenÃ¼ber.
Ãœber die beiden Cutoff-Kriterien lÃ¤sst sich der Trade-Off zwischen Abdeckung und PrÃ¤zision
steuern, insbesondere auch in Bezug darauf, ob in der gegebenen Anwendung die PrÃ¤zision in
Bezug auf die zu erwartende natÃ¼rliche HÃ¤ufigkeit der Verwendung relevant ist, oder ob die
Wahrscheinlichkeit der Nutzung jedes Terms in etwa gleich ist: ist die PrÃ¤zision wichtig und die
Terme treten in ihrer natÃ¼rlichen (Zipfschen) Verteilung auf, so empfielt sich ein â€žstrikterâ€œ Cutoff.
Ist jedoch die Abdeckung wichtig, sollte ein kombinierter Cutoff verwendet werden, insbesondere
dann, wenn die Terme gleichverteilt auftreten, da sonst die Abdeckung zu stark reduziert wÃ¼rde.
Es wÃ¤re interessant, weiter zu untersuchen, wie sich unterschiedliche Definitionen fÃ¼r explizite
Zuweisung auswirken, also welche Extraktionsregeln unter den Cutoff fallen. In obigem
Experiment wurde die Regel TERM_FROM_LINK als implizit angesehen, die anderen als
explizit. Aufgrund der hohen Fehlerraten der Regeln TERM_FROM_DISAMBIG sowie TERM_
FROM_REDIRECT (vergleiche Tabelle 12.7) scheint es sinnvoll, verschiedene Kombinationen von
Extraktionsregeln fÃ¼r den Cutoff nÃ¤her zu betrachten.
12. Akkuratheit der Konzepte 115
12.6. Auswertung der Glossen
Die Extraktion von DefinitionssÃ¤tzen (Glossen, .8.8) aus den Artikeln wurde in Bezug darauf
evaluiert, ob sie in der Tat einen Definitionssatz liefert. Dabei wurde nicht die faktische Richtigkeit
bewertet (die der Autor in vielen FÃ¤llen gar nicht beurteilen kann), sondern lediglich, ob es sich
um einen wohlgeformten, vollstÃ¤ndigen Definitionssatz handelt, der eine nicht-triviale Aussage
Ã¼ber das Konzept macht. Im einzelnen waren die folgenden Bewertungen mÃ¶glich:
UNKNOWN: Zu dem betreffenden Konzept gibt es keinen Artikel, daher konnte keine Definition
extrahiert werden, die Bewertung ist also gegenstandslos.
OK: Der Definitionssatz wurde korrekt extrahiert und macht eine nicht-triviale Aussage Ã¼ber das
Konzept.
MISSING: Es wurde kein Definitionssatz extrahiert. Das bedeutet entweder, dass der Artikel nicht
der Standard-Form fÃ¼r Wikipedia-Artikel folgt [WP:ARTIKEL, WP:WSIGA] und nicht mit einem
Definitionssatz beginnt, oder, dass die Muster und Heuristiken zum Auffinden des ersten
Satzes fehlgeschlagen sind.
TRIVIAL: Der Definitionssatz wurde korrekt extrahiert, enthÃ¤lt aber keine sinnvolle Aussage.
Relativ hÃ¤ufig kommen SÃ¤tze wie der folgende vor: â€žWeltoffenheit ist ein Begriff aus der
philosophischen Anthropologie.â€œ (.8.8).
TRUNCATED: Der Definitionssatz wurde nur teilweise extrahiert, ist abgeschnitten oder sonstwie
verstÃ¼mmelt. Der Grund ist meist eine fehlerhafte Erkennung des Satzendes (etwa fÃ¤lschlich
nach einer unbekannten AbkÃ¼rzung), Verwirrung durch verschachtelte Strukturen wie
KlammersÃ¤tze oder wÃ¶rtliche Rede, oder aber die Verwendung von unbekannten Vorlagen
fÃ¼r die Formatierung von Text.
RUNAWAY: Der Definitionssatz wurde korrekt extrahiert, aber es wurde noch weiterer Text mitgeliefert.
Meistens wird noch ein zweiter Satz angehÃ¤ngt, weil der erste mit einer AbkÃ¼rzung
wie â€žetc.â€œ endete und daher das Satzende nicht als solches erkannt wurde.
CLUTTERED: Der Definitionssatz wurde korrekt extrahiert, enthÃ¤lt aber Ãœberbleibsel von Wiki-
Markup oder Ã¤hnlichem. Das ist meist auf eine fehlerhafte Verwendung von Wiki-Markup
zurÃ¼ckzufÃ¼hren, oder aber auf Fehler in den Mustern, die zur Bereinigung des Textes verwendet
werden (.8.3).
WRONG: Es wurde etwas extrahiert, was kein Definitionssatz fÃ¼r das betreffende Konzept ist.
Entweder der erste Satz ist kein Definitionssatz, weil der Artikel nicht der Standard-Form
fÃ¼r Wikipedia-Artikel folgt ([WP:WSIGA, WP:ARTIKEL]), oder die Muster und Heuristiken
zum Auffinden des ersten Satzes sind fehlgeschlagen.
Die Tabelle 12.11 zeigt, dass die DefinitionssÃ¤tze in den allermeisten FÃ¤llen korrekt extrahiert
werden (OK) oder nur kleinere Probleme aufweisen (RUNAWAY, CLUTTERED).
12. Akkuratheit der Konzepte 116
(a) gesamt
Typ enall entop deall detop
UNKNOWN 58% 2% 72% 2%
OK 40% 86% 28% 88%
CLUTTERED â€“ 2% â€“ â€“
RUNAWAY â€“ 2% â€“ 2%
TRUNCATED 2% 4% â€“ 4%
TRIVIAL â€“ â€“ â€“ 4%
MISSING â€“ 2% â€“ â€“
WRONG â€“ 2% â€“ â€“
(b) ohne UNKNOWN
Typ enall entop deall detop
UNKNOWN
OK 95% 88% 100% 90%
CLUTTERED â€“ 2% â€“ â€“
RUNAWAY â€“ 2% â€“ 2%
TRUNCATED 5% 4% â€“ 4%
TRIVIAL â€“ â€“ â€“ 4%
MISSING â€“ 2% â€“ â€“
WRONG â€“ 2% â€“ â€“
Tabelle concept_survey, siehe .F.4
Tabelle 12.11.: Evaluation der Glossen
Die FÃ¤lle, in denen der Satz abgeschnitten wurde (TRUNCATED) sind meist auf eine zu strenge
Heuristik zurÃ¼ckzufÃ¼hren, nÃ¤mlich die, dass ein einzelner Zeilenumbruch einen Satz beendet â€”
das ist gemÃ¤ÃŸ der Wiki-Syntax nicht notwendig (.A) und kann in LanguageConfiguration.
sentencePattern angepasst werden. Das wÃ¼rde aber vermutlich zu einer Vermehrung der
RUNAWAY-FÃ¤lle fÃ¼hren.
Gegen triviale Glossen (TRIVIAL), die der Form nach, aber nicht dem Inhalt nach eine Definition
darstellen, ist mit algorithmischen Mitteln wenig zu machen. Es wÃ¤re hÃ¶chstens mÃ¶glich, immer
den ganzen ersten Absatz als Glosse zu nehmen, das wÃ¼rde aber in den meisten FÃ¤llen Text mit
einbeziehen, der nicht zur Definition gehÃ¶rt, und laut Anforderung (.5.1) hier nicht erwÃ¼nscht ist
(vergleiche .8.8).
Wenn gar keine Glosse gefunden wird (MISSING), liegt das meist daran, dass auch keine vorhanden
istâ€”in vielenWikis ist das zum Beispiel fÃ¼r Jahresartikel der Fall, die imWesentlichen als Listen
von Ereignissen strukturiert sind. Es fÃ¤llt auch schwer, sich fÃ¼r eine Jahreszahl eine sinnvolle
Definition vorzustellen.
Wird ein falscher Satz als Glosse gefunden (WRONG), so liegt das oft daran, dass vor dem
Definitionssatz eine Bemerkung steht â€” einleitende Hinweise (Tags) in Artikeln kommen recht
oft vor, zum Beispiel alsoWarnung vor schlechter QualitÃ¤t des Artikels, oder als Hinweis auf eine
BegriffsklÃ¤rungsseite. Aber normalerweise sind solche tags Vorlagen, oder sie sind zumindest mit
<center> oder <div> formatiert und kÃ¶nnen damit leicht erkannt und herausgefiltert werden.
In einigen FÃ¤llen jedoch ist das nicht der Fall: in der englischsprachigen Wikipedia zum Beispiel
stehen Verweise auf alternative Bedeutungen hÃ¤ufig direkt vor dem eigentlichen Artikelinhalt,
und sind nur dadurch abgesetzt, dass sie eingerÃ¼ckt sind. Wird diese EinrÃ¼ckung vergessen, was
durchaus vorkommt, so findet der Algorithmus diesen vorangestellten Kommentar als ersten Satz,
der dann fÃ¤lschlich als Glosse interpretiert wird. Es ist zu hoffen, dass auch die englischsprachige
Wikipedia zur Nutzung von Vorlagen fÃ¼r diesen Zweck Ã¼bergeht, so dass dieses Problem in
Zukunft vermieden wird.