DanielKinzler Chapter 14: Verwandtheit und Disambiguierung

14. Verwandtheit und Disambiguierung
Zwei wichtige Aufgaben im Kontext der Automatischen Sprachverarbeitung und des Information
Retrieval sind die Disambiguierung, also die Bedeutungszuweisung für Wörter abhängig von
dem Kontext in dem sie auftreten, sowie die Bestimmung der semantischen Verwandtheit von
Konzepten. Diese beiden Aufgaben sind an sich sehr unterschiedlich, sie sind jedoch in der Praxis
dadurch verknüpft, dass häufig die Verwandtheit von Termen bestimmt werden soll; diese Aufgabe
kann dadurch gelöst werden, dass den Termen zunächst eine Bedeutung (also ein Konzept) zugewiesen
und dann die Verwandtheit zwischen den Konzepten bestimmt wird. Andersherum ist die
Verwandtheit von Konzepten eine nützliche Information bei der Aufgabe der Disambiguierung.
Dieses Kapitel beschreibt, wie die von WikiWord gesammelten Daten zur Bestimmung der
Verwandtheit von Termen verwendet werden können. Das Ziel ist, zu zeigen, dass sich die von
Wikiword gesammelten Daten grundsätzlich zur Bestimmung von semantischer Verwandtheit von
Termen und Konzepten sowie zur automatischen Disambiguierung (Bedeutungszuweisung) eignen.
Es soll hier nicht versucht werden, Verfahren für die Bestimmung der Verwandtheit und zur
Disambiguierung zu optimieren oder auf ihre Tauglichkeit zu testen — solche Verfahren werden
nur insofern untersucht, als sie Aussagen über Eigenschaften der vonWikiWord beschafften Daten
ermöglichen. Für einen Vergleich verschiedener Methoden zur Bestimmung der semantischen
Verwandheit, siehe STRUBE UND PONZETTO (2006), GABRILOVICH UND MARKOVITCH (2007), ZESCH U. A. (2007B).
Zunächst werden hierfür Verfahren beschrieben, mit denen die Verwandtheit von Konzepten bestimmt
und Termen im Kontext ein Sinn zugewiesen werden kann. Diese Verfahren werden dann
verwendet, um die Eignung der von WikiWord gewonnenen Daten zur Lösung der oben genannten
Aufgaben zu evaluieren. Die Verfahren selbst sind dabei möglichst einfach gehalten und es
wird erwartet, dass durch die Verwendung anspruchsvollerer Verfahren zur Disambiguierung und
Bestimmung der Verwandtheit die Ergebnisse noch zu verbessern wären.
14.1. Semantische Verwandtheit zwischen Konzepten
Die semantische Verwandtheit von Konzepten kann auf unterschiedliche Weise bestimmt werden,
wobei sich die Ansätze grob in drei Kategorien gliedern lassen:
1. Die Verwandtheit wird aufgrund des Abstandes der Konzepte in einem Graphen bestimmt,
zum Beispiel in einem Hyperlink-Netzwerk oder einer Taxonomie.
2. Die Verwandtheit wird aufgrund der Ähnlichkeit einer textuellen Beschreibung bestimmt,
zum Beispiel auf Basis von Glossen. Die Beschreibungen werden dabei in der Regel
als Featurevektor repräsentiert und die Verwandtheit als Abstand oder Winkel in einem
Merkmalsraum angesehen (das entspricht dem Vector Space Model, SALTON U. A. (1975)).
3. Die Verwandtheit wird aufgrund der Gemeinsamkeiten in ihrer Verwendung bestimmt.
Dieser Ansatz kann weiter unterteilt werden in stochastische bzw. informationstheoretische
Verfahren, die die Verwandtheit zum Beispiel auf der Mutual Information begründen
14. Verwandtheit und Disambiguierung 120
NAKAYAMA U. A. (2007B), PONZETTO UND STRUBE (2007B), und solche, die den Kontext der Verwendung
als Featurevektor repräsentieren und die Verwandtheit als Abstand oder Winkel in einem
Merkmalsraum ansehen.
Das WikiWord-Modell beinhaltet bereits eine Beziehung von „Verwandtheit“, die vorab ermittelt
wurde und direkt im Modell gespeichert ist (.C.2, .9.1.3, .12.4). Diese ist für die Zwecke dieser
Evaluation nicht ausreichend, schon weil sie viel zu wenige Paare von Konzepten abdeckt (nämlich
nur die explizit verknüpften). Deshalb wird diese explizite Verwandtheit nur als einer von mehreren
Faktoren bei der Berechnung der effektiven Verwandtheit verwendet.
Für die Evaluation von WikiWord wurde ein einfaches Verfahren gewählt, das sich auf Basis
der vorliegenden Daten leicht implementieren und effizient anwenden lässt. Die semantische
Verwandtheit zweier Konzepte wird als derWert einer Ähnlichkeitsfunktion definiert, die auf zwei
Featurevektoren angewendet wird, die die beiden Konzepte repräsentieren:
rsem(c1, c2) = sim c1), v(c2
Als Ähnlichkeitsmaß wird das Kosinus-Maß verwendet, also das normalisierte Skalarprodukt:
simcos(v1, v2) =
v1  v2
|v1| · |v2|
Zum Vergleich wird zum Teil eine gewichtete Tanimoto-Ähnlichkeit herangezogen. Hierbei werden
die Vektoren als Fuzzy Sets interpretiert und entsprechend die Größe der Schnittmenge bzw.
der Vereinigung als die Summe das paarweise Minimum bzw. Maximum der einzelnen Elemente
der Vektoren bestimmt.
simtan(v1, v2) = Pi min(v1,i, v2,i)
Pi max(v1,i, v2,i)
Der Merkmalsraum für die Featurevektoren wird durch die Konzepte des Thesaurus aufgespannt:
jedes Konzept definiert eine Dimension. Ein Featurevektor repräsentiert einen Ort in diesem Raum,
das heißt, er besteht aus einer Zuordnung von Gewichten zu jedem Konzept. Die Beziehungen, die
ein bestimmtes Konzept bezüglich einer bestimmten Relation des Thesaurus hat, weisen ihm einen
Ort im Merkmalsraum zu, der durch den Featurevektor dieses Konzeptes bezüglich dieser Relation
definiert ist:
vR(ck) =0BBBBBB@
wR(ck, c1)
wR(ck, c2)
...
wR(ck, cn)
1C
CCCCCA Wobei wR eine Funktion ist, die das Gewicht der Verknüpfung zweier Konzepte bezüglich der
Relation R angibt; das heißt, sie gibt die Gewichte der Kanten in dem von R aufgespannten
14. Verwandtheit und Disambiguierung 121
Graphen an. In dem hier beschriebenen Experiment werden zwei Varianten dieser Funktion verwendet:
für die ungewichtete Verwandtheit wird für wR die charakteristische Funktion von R verwendet,
die 1 zurückgibt, wenn cnRcm gilt; für die gewichtete Verwandtheit ergibt sich wR aus
dem Relevanzwert der Verknüpfung, wie er im Modell gespeichert ist. In der Implementation wird
er dem Referenzobjekt entnommen, das die entsprechende Beziehung repräsentiert .D.2). In der
vorliegenden Implementation handelt es sich dabei meist um den IDF-Wert des Konzeptes, das
Ziel der Verknüpfung ist (oder, im Fall der Subsumtionsbeziehung, um den inversen LHS-Wert,
.9.3). Theoretisch könnte die Relevanz aber auch direkt als Kantengewicht modelliert sein.
Der Featurevektor eines Konzeptes ergibt sich dann aus der Summe der Featurevektoren bezüglich
der einzelnen Relationen, jeweils skaliert mit einem (ad hoc festgelegten) Koeffizienten, der
angibt, wie viel Gewicht eine bestimmte Relation in der Berechnung der Verwandtheit haben soll:
v(c) = aidvid(c) + abrvbr(c) + anrvnr(c) + ainvin(c) + aoutvout(c) + arelvrel(c) + asimvsim(c)
Die berücksichtigten Relationen aus dem Konzeptmodell (.4.2, .C.1) sind die folgenden:
vid ist der Identitätsvektor des Konzeptes, also der Vektor, in dem nur für die Dimension, die
das Konzept selbst definiert, eine 1 steht, und ansonsten 0. Die Verwendung dieses Vektors
bedeutet, dass ein Konzept immer Teil seines eigenen Kontextes ist. aid ist auf 2 festgelegt,
da direkte Beziehungen eines Konzeptes ein großes Gewicht bei der Bestimmung der
Verwandtheit haben sollen.
vbr enthält die übergeordneten Konzepte (.C.2). abr ist auf 2 festgelegt, da eine gemeinsame
Einordnung unter ein allgemeineres Konzept einen wichtigen Hinweis auf Verwandtschaft
liefert.
vnr enthält die untergeordneten Konzepte. Der Wert von anr ist 1, da die gemeinsame Zuordnung
eines konkreteren Begriffes kein gutes Indiz für Verwandtheit ist.
vin enthält die Konzepte, die über einen Hyperlink auf das gegebene Konzept verweisen (.C.2).
ain ist auf 2 festgelegt, da gemeinsames Auftreten in einem Artikel ein gutes Indiz für
Verwandtschaft ist.
vout enthält die Konzepte, auf die das gegebene Konzept per Hyperlink verweist. Der Wert
von aout ist 1, da Gemeinsamkeiten bezüglich referenzierter Artikel kein starkes Indiz für
Verwandtheit sind.
vrel enthält die Konzepte, die im vorhinein als „verwandt“ gekennzeichnet wurden — diese
Zuweisung basiert insbesondere auf der Relation bilink, die Konzepte verbindet, die sich
gegenseitig referenzieren (.C.2, .9.1.3). Der Wert von arel ist -1; zwar ist diese Beziehung
ein sehr deutliches Zeichen für Verwandtheit, dasselbe Konzept ist aber bereits durch vin
und vout berücksichtigt; so ist es sogar notwendig, den Verwandtheitswert etwas zu dämpfen
(siehe Rechenbeispiel unten).
vsim enthält Konzepte, die als „ähnlich“ erkannt wurden, insbesondere auf Grund von Language-
Links. asim ist auf 2 festgelegt, da ähnliche Konzepte natürlich auch stark verwandt sind.
14. Verwandtheit und Disambiguierung 122
Ein alternative Möglichkeit, vsim zu verwenden, wäre es, die Featurevektoren aller ähnlichen
Konzepte zu berechnen und zu dem Featurevektor des ursprünglichen Konzeptes hinzuzuaddieren—
diese Möglichkeit wurde hier nicht weiter verfolgt und verbleibt als Gegenstand
künftiger Forschung.
Einige Beispiele dafür, wie viele „Punkte“ sich auf diese Weise in typischen Fällen für den
Verwandtheitswert simcos eines Paares von Konzepten ergeben:
• Wenn A ein übergeordnetes Konzept von B ist, dann gilt A 2 vbr(B) und B 2 vnr(A), sowie
natürlich immer A 2 vid(A) und B 2 vid(B). Damit ergibt sich für das Skalarprodukt v(A)  v(B) eine Punktzahl von 2 · 2 + 1 · 2 = 6.
• Wenn A und B ein gemeinsames übergeordnetes Konzept C haben, also bezüglich C kohyponym
sind, dann gilt C 2 vbr(A) und C 2 vbr(B). Damit ergibt sich für v(A)  v(B) eine
Punktzahl von 2 · 2 = 4.
• Wenn A und B ein gemeinsames untergeordnetes Konzept C haben, dann gilt C 2 vnr(A)
und C 2 vnr(B). Damit ergibt sich eine Punktzahl von 1 · 1 = 1.
• Wenn A per Hyperlink auf B verweist, dann gilt A 2 vin(B) und B 2 vout(A), sowie natürlich
immer A 2 vid(A) und B 2 vid(B). Damit ergibt sich für das Skalarprodukt v(A)  v(B) eine
Punktzahl von 2 · 2 + 1 · 2 = 6.
• Wenn A und B beide von einem Konzept C per Hyperlink referenziert werden, also bezüglich
C kookkurrent sind, dann gilt C 2 vin(A) und C 2 vin(B). Damit ergibt sich für v(A)v(B)
eine Punktzahl von 2 · 2 = 4.
• Wenn A und B beide per Hyperlink auf ein Konzept C verweisen, dann gilt C 2 vout(A) und
C 2 vout(B). Damit ergibt sich eine Punktzahl von 1 · 1 = 1.
• Wenn sich A und B gegenseitig per Hyperlink referenzieren, also im vorhinein über die
bilink-Relation als „verwandt“ markiert wurden, dann gilt A 2 vout(B), B 2 vout(A), A 2 vin(B), B 2 vin(A) sowie außerdem A 2 vrel(B) und B 2 vrel(A). Damit ergibt sich eine
Punktzahl von 2 · (2 + 1 - 1) + (2 + 1 - 1) · 2 = 8.
• Wenn A und B einen Language-Link gemeinsam haben, sie im vorhinein also als „ähnlich“
markiert wurden, dann gilt A 2 vsim(B) und B 2 vsim(A). Damit ergibt sich eine Punktzahl
von 2 · 2 + 2 · 2 = 8.
Durch die Anpassung der Koeffizienten kann also das Gewicht bestimmt werden, das bestimmten
Konstellationen von Konzepten bezüglich der im Datenmodell erfassten Relationen für die
Bestimmung der Verwandtheit der Konzepte beigemessen werden soll. Die absoluten Werte spielen
dabei allerdings keine Rolle, da bei der Bestimmung des Kosinus die Vektoren ja normiert
werden. Nur die Verhältnisse bleiben erhalten.
Die Featurevektoren geben direkte Verknüpfungen in dem Graphen wieder, der durch die
Beziehungen zwischen den Konzepten definiert wird. Diese direkten Kanten stellen Verbindungen
14. Verwandtheit und Disambiguierung 123
von Konzepten zu ihrem Verwendungskontext dar, also zum Beispiel zu Kategorien, denen sie
zugeordnet sind, oder Artikel, in denen auf sie verwiesen wird. Betrachtet man die Ähnlichkeit
zwischen Featurevektoren, so werden dadurch Pfade der Länge zwei in diesem Graphen abgedeckt
— das entspricht gerade den Kookkurrenten der Konzepte, deckt also diejenigen Konzepte
ab, die gemeinsam in einer Kategorie enthalten sind oder zusammen in einem Artikel referenziert
werden. Der Vergleich von Featurevektoren deckt also syntagmatische Beziehungen zwischen den
Konzepten auf1. Laut NAKAYAMA U. A. (2007B) ist eine Suchtiefe von zwei Kanten für die Bestimmung
semantischer Verwandtheit ausreichend, und STRUBE UND PONZETTO (2006) kommen zu dem Ergebnis,
dass eine Beschränkung der Suchtiefe unter Umständen die Ergebnisse sogar verbessern kann,
wenngleich dort eine Tiefe von maximal vier Kanten als optimal befunden wird.
Es wäre interessant, (signifikante) Kookkurrenten direkt mit in die Featurevektoren aufzunehmen
— damit würden auch Pfade der Länge drei und vier beim Vergleich der Vektoren berücksichtigt
und es würden somit auch paradigmatische Beziehungen zwischen den Konzepten gefunden
BIEMANN U. A. (2004). Eine Untersuchung dieser Erweiterung des hier vorgeschlagenen Verfahrens
geht jedoch über den Rahmen dieser Arbeit hinaus und bietet Gelegenheit für weitere Forschung.
Experiment
Alle Nomen
Anzahl 188 113
Korrelation (Cos) 0,31 0,39
Korrelation (Tani) 0,22 0,43
Korrelation (PL+Avg) 0,36 0,43
Korrelation (PL+Best) 0,43 0,49
concept-relatedness-eval.tsv, siehe .F.5
Tabelle 14.1.: Evaluation der Verwandtheit von Konzepten
Die oben beschriebene Bestimmung der semantischen Verwandtheit von Konzepten wurde evaluiert,
indem die auf diese Weise berechneten Verwandtheitswerte verglichen wurden mit der
menschlichen Beurteilung von Verwandheit. Dazu wurde der Datensatz ZG2222 ZESCH UND GUREVYCH
(2006)
herangezogen: er enthält 222 Wortpaare und zu jedem Paar einen Wert zwischen 0 und 4,
der aus den Urteilen von 24 Probanden berechnet wurde.
Jedem Wortpaar in ZG222 wurde nun manuell ein Paar von Konzepten aus der deutschsprachigen
Wikipedia zugewiesen — das war für 188 Paare möglich, in den restlichen Fällen gab es in der
deutschsprachigen Wikipedia für mindestens eines der Wörter kein passendes Konzept. Das war
insbesondere häufig der Fall für Adjektive wie „angehend“ oder „neu“, Verben wie „belieben“
oder „drängeln“, aber auch für sehr allgemeine Begriffe wie „Übersicht“ oder sehr spezielle wie
„Kursstätte“. Die Zuordnung von Konzepten zu dem Originaldatensatz ist in Anhang F.4 wiedergegeben.
1Bezogen auf eine ganzeWiki-Seite als Kontext, nicht auf einen einzelnen Satz, wie es typischerweise bei der Analyse
der Kookkurrenzen von Wörtern der Fall ist.
2Verfügbar unter <http://www.ukp.tu-darmstadt.de/data/semRelDatasets>.
14. Verwandtheit und Disambiguierung 124
Für jedes Paar von Konzepten wurde ein Verwandtheitswert bestimmt, nach dem oben beschriebenen
Verfahren, jeweils einmal unter Verwendung des Kosinus-Maßes und einmal der gewichteten
Tanimoto-Ähnlichkeit. Die so gewonnenen Verwandheitswerte wurden auf ihre statistische
Korrelation mit den in ZG222 ermitteltenWerten untersucht. Die Korrelation ist, der Literatur über
semantische Verwandtheit in der Wikipedia folgend ZESCH U. A. (2007B), STRUBE UND PONZETTO (2006),
in der Tabelle 14.1 als r-Wert nach Pearson angegeben. Die Korrelation wurde jeweils einmal
für alle 188 Konzeptpaare bestimmt, und einmal für alle 113 Konzeptpaare, die zu Paaren von
Substantiven in ZG222 korrespondieren — es ist nämlich zu erwarten, dass sich die Daten einer
Enzyklopädie wie Wikipedia insbesondere zur Untersuchung von Substantiven eignen.
Zum Vergleich sind in der Tabelle zusätzlich einige Ergebnise aus ZESCH U. A. (2007B) wiedergegeben,
nämlich die Werte für PL+Avg und PL+Best. PL basiert auf der taxonomischen Pfadlänge,
also der Anzahl von Kanten im Kategoriegraph, die die kürzeste Verbindung zwischen zwei
Kategorien bilden. Dabei wird aus jeweils einer Kategorie jedes Konzeptes ein Paar gebildet,
und der PL-Wert für dieses Paar von Kategorien berechnet. Der Wert PL+Avg ergibt sich aus der
durchschnittlichen Distanz für alle möglichen Kategoriepaare, PL+Best verwendet die minimale
Distanz, die für irgendein Paar von Kategorien gefunden wurde. Dieses Verfahren ist deutlich
aufwändiger als das oben beschriebene, da unter Umständen der gesamte Kategoriegraph betrachtet
werden muss, statt nur lokal definierte Featurevektoren zu vergleichen. Zudem werden kurze
Pfade, die höchstens zwei Kanten lang sind, von den Featurevekoren mit abgedeckt.
Die Ergebnisse für Substantivpaare zeigen mit 0,43 für die Tanimoto-Ähnlichkeit eine deutliche,
wenn auch nicht überragende Korrelation mit dem menschlichen Urteil, wie es in ZG222 wiedergegeben
ist — Zesch et. Al. erreichen für Paare von Nomen eine Korrelation von 0,49 mit dem
aufwändigeren PL+Best-Maß und 0,43 mit PL+Avg ZESCH U. A. (2007B).
Das Ergebnis über alle Konzeptpaare ist mit 0,30 für das Kosinus-Maß gerade noch als signifikant
anzusehen (Zesch et. Al. erreichen hier 0,43 mit PL+Best und 0,36 mit PL+Avg). Interessant ist,
dass das Ergebnis für die Tanimoto-Ähnlichkeit über alle Kozepte schlechter, für die Menge der
Substantive aber deutlich besser ist. Diesen Umstand näher zu betrachten sowie die Effekte anderer
Ähnlichkeitsmaße zu untersuchen, verbleibt aber als Gegenstand künftiger Forschung.
Ebenfalls auffällig ist, dass die Ergebnisse insgesamt schlechter sind als für den Fall einer automatischen
Bedeutungszuweisung, wie weiter unten in .14.3 beschrieben. Zwar war zu erwarten,
dass diese aufgrund der Methode der Konzeptauswahl durch Maximierung der Verwandheit
(.14.2) insgesamt höhere Verwandheitswerte liefert, jedoch schien es ebenfalls wahrscheinlich,
dass die Korrelation mit dem menschlichen Urteil unter falschen Zuordnungen, und damit überhöhten
Verwandheitswerten, leiden würde.
Es zeigt sich aber stattdessen, dass bei der manuellen Termzuordnung insgesamt häufig ein zu
geringer Verwandheitswert errechnet wurde. Ein möglicher Grund hierfür ist, dass die in ZG222
von Menschen bestimmten Verwandtheitswerte auf einer unbekannten Zordnung von Konzepten
basieren: zwar ist in ZESCH UND GUREVYCH (2006) beschrieben, dass den Probanden als Hilfe für
die Bewertung der Verwandheit Glossen und Synonyme der Terme vorgegeben wurden, so dass
die zu bewertenden Bedeutungen eindeutig waren. Sogar ein Nachschlagen des Begriffes in der
Wikipedia wurde dort angeboten, was impliziert, dass eine Zuordnung von Termen zu Wikipedia-
Artikeln bereits vorgenommen wurde. Diese Zuordnung zu kennen wäre für die Evaluation von
14. Verwandtheit und Disambiguierung 125
WikiWord ausgesprochen hilfreich gewesen, sie ist jedoch in dem bereitgestellten Datensatz nicht
wiedergegeben. Daraus ergibt sich ein grundsätzliches Problem mit ZG222: ein direkter Vergleich
mit Verwandheitswerten, die für Konzeptpaare in WikiWord ermittelt wurden, beruht immer auf
der Annahme, dass die Zuordnung von Konzepten zu Wörtern dort genau gleich erfolgte wie hier.
Diese Annahme scheint in Anbetracht der relativ schlechten Korrelation insbesondere für Nicht-
Substantive nicht in ausreichendem Maße gültig zu sein.
14.2. Disambiguierung durch Maximierung der Kohärenz
Die Verwandtheitsfunktion für Konzepte, rsem(c1, c2), kann nun verwendet werden, um einzelnen
Termen aus einer vorgegebenen Menge eine Bedeutung zuzuweisen. Die Idee ist, dass sich die
Terme gegenseitig disambiguieren: für jeden Term wird die Menge seiner möglichen Bedeutungen
bestimmt und dann für jeden Term diejenige Bedeutung gewählt, die dazu führt, dass die paarweise
Verwandtheit der gewählten Terme (die Kohärenz) insgesamt maximal wird (vergleiche PONZETTO
UND STRUBE (2007C), ZESCH U. A. (2007B)
). Genauer:
Sei W = {w1,w2, . . . ,wn} eine Menge von Termen und s(w) = {c | S (w, c)} die Funktion,
die zu einem Term w die Menge der Konzepte (Bedeutungen) liefert, die dem Term über die
Bedeutungsrelation S zugeordnet sind (.9.1.3, .C.2). Dann ist Dk = {c1,k, c2,k, . . . , cn,k} eine
Belegung derart, dass ci,k 2 s(wi) ist, also für jeden Term ein Bedeutung gewählt wurde.
Der Score gr einer Belegung Dk bezüglich der Kohärenz ist gegeben durch die normierte Summe
der paarweisen Verwandtheit der Konzepte:
gr(Dk) =
2 · Pni
, j rsem(ci,k, cj,k)
n · (n - 1)
Alternativ zur Verwandtheit der beiden Konzepte kann auch betrachtet werden, wie häufig ein
Term als Bezeichnung für ein bestimmtes Konzept verwendet wird — diese Frequenz der
Termzuordnung ist gegeben durch f (wi, ci,k). Daraus lässt sich ein Wert für die Popularität
pop(wi, ci,k) dieser Bedeutungszuweisung ableiten, mit der Eigenschaft, dass der Wert zwischen 0
und 1 liegt und mit wachsendem f monoton steigt:
pop(wi, ci,k) = 1 -
1
pf (wi, ci,k) + 1
Der Score einer Belegung bezüglich der Popularität der einzelnen Konzepte ergibt sich dann aus
dem arithmetischen Mittel:
gf (Dk) = Pni
pop(wi, ci,k)
n
14. Verwandtheit und Disambiguierung 126
Diese Scores sind beide auf einen Wert zwischen 0 und 1 normiert und lassen sich linear über
einen festen Koeffizienten p (den Popularitäts-Bias des Scores) kombinieren:
g(Dk) = gf (Dk) · p + gr(Dk) · (1 - p); 0  p  1
Die gesuchte Disambiguierung ist die bezüglich des Scores beste Belegung, Dmax = Dkmax , wobei
kmax = arg maxk g(Dk) ist. Es wird also diejenige Kombination von Bedeutungen für die Terme
gewählt, die den besten Score ergibt.
Für die Implementation bedeutet das, dass alle Belegungen, also alle möglichen Kombinationen
von Bedeutungszuweisungen, ausprobiert und bewertet werden müssen—das sind nd Belegungen
und n2-n
2 zu vergleichende Paare von Konzepten pro Belegung, wobei n die Anzahl der Terme
und d die Anzahl von Bedeutungen pro Term ist. Für jeden Vergleich von zwei Featurevektoren
fallen so viele Multiplikationen und Additionen an, wie Einträge in dem Feature-Vektor sind;
Diese Größe hängt wesentlich von der Knotengradverteilung im Hyperlink-Graphen ab (.11.4)
und dürfte in der Größenordnung von 100 liegen. Für vier Terme mit jeweils fünf Bedeutungen
ergeben sich 45 · 42-4
2 = 1024 · 6 = 6144 Vergleiche von Featurevektoren, also insgesamt etwa
614 400 Operationen. Für sechs Terme wären es schon 11 664 000, dieses Verfahren skaliert also
nicht für große Mengen von Termen. Um es auf Fließtext anwenden zu können, würde sich ein
Sliding Window von insgesamt drei bis fünf Termen anbieten.
Experiment
Zur Evaluation der automatischen Bedeutungszuweisung (Disambiguierung) nach dem oben beschriebenen
Verfahren wird wieder der Datensatz ZG222 nach ZESCH UND GUREVYCH (2006) mit den
manuell zugeordneten Konzeptpaaren (.14.1, .F.4) herangezogen. Tabelle 14.2 zeigt, wie sich die
Ergebnisse der verschiedenen Möglichkeiten der automatischen Zuordnung zu den manuell zugewiesenen
Konzepten verhalten. Die angegebenen Werte beziehen sich auf die 131 Wortpaare
bzw. 92 Substantivpaare, für die sowohl manuell als auch automatisch beide Konzepte zugeordnet
werden konnten. Die Spalte voll gibt an, wieviel Prozent der Konzeptpaare genau den manuell
ausgewählten Konzeptpaaren entsprechen, die Spalte teilw. gibt an, bei wieviel Prozent mindestens
eines der Konzepte übereinstimmt. Die letzte Spalte, Korr., ist die statistische Korrelation
(r-Wert nach Pearson) mit den in ZESCH UND GUREVYCH (2006) ermittelten Verwandtheitswerten.
Wünschenswert wäre eine hohe Übereinstimmung zwischen automatisch zugeordneten Konzepten
mit den manuell zugewiesenen und gleichzeitig eine starke Korrelation mit den in ZG222 vorgegebenen
Verwandheitswerten. Zunächst scheinen sich diese Werte aber gegenläufig zu entwickeln:
Wird ausschließlich die Kohärenz betrachtet (p = 0), ergibt sich ein relativ guter
Korrelationskoeffizient von 0,4 (über alle Konzepte, bei Verwendung des Kosinus-Maßes)
aber eine schlechte Übereinstimmung der gewählten Konzepte (37% volle und 75% teilweise
Übereinstimmung). Wird dagegen nur die Popularität der Bedeutungen (also die Frequenz
der Bedeutungszuweisung) beachtet (p = 1), so ergibt sich eine geringe Korrelation von 0,26,
aber eine größere Übereinstimmung der gewählten Konzepte (43% voll und 91% teilweise).
14. Verwandtheit und Disambiguierung 127
(a) Alle
Methode Pop-Bias (p) voll teilw. Korr.
Kohärenz, Cosinus 0 37.4% 74.8% 0,41
Kohärenz, Cosinus 0,25 40.5% 87.0% 0,41
Kohärenz, Cosinus 1 42.7% 90.8% 0,26
Kohärenz, Tanimoto 0 35.1% 74.0% 0,32
Kohärenz, Tanimoto 0,25 41.2% 87.8% 0,29
Kohärenz, Tanimoto 1 42.7% 90.8% 0,22
PL+Avg 0,36
PL+Best 0,43
(b) Substantive
Methode Pop-Bias (p) voll teilw. Korr.
Kohärenz, Cosinus 0 39.1% 68.5% 0,38
Kohärenz, Cosinus 0,25 43.5% 85.9% 0,39
Kohärenz, Cosinus 1 47.8% 92.4% 0,39
Kohärenz, Tanimoto 0 37.0% 69.6% 0,26
Kohärenz, Tanimoto 0,25 45.7% 90.2% 0,23
Kohärenz, Tanimoto 1 47.8% 92.4% 0,34
PL+Avg 0,43
PL+Best 0,49
sense-eval.tsv, siehe .F.5 bzw.. times-global-NN.tsv, siehe .F.5
Tabelle 14.2.: Evaluation der automatischen Bedeutungszuweisung
14. Verwandtheit und Disambiguierung 128
Experimentell wurde ein Wert von 0,25 für p ermittelt, der einen guten Kompromiss darzustellen
scheint: die Übereinstimmung der gewählten Konzepte bleibt hoch (41% voll und 89%
teilweise) und der Korrelationskoeffizient steigt bis auf die Marke von 0,4. Die Verwendung
der Tanimoto-Ähnlichkeit erweist sich hier als deutlich unterlegen: bei ähnlichen Werten für
die Übereinstimmung der Konzepte ergeben sich deutlich schlechtere Werte für die Korrelation
der Verwandtheitswerte. Betrachtet man die Werte nur für Paare von Substantiven, so ergeben
sich erwartungsgemäß bessere Werte für die Übereinstimmung der Bedeutungszuordnung, aber
überraschenderweise schlechtere Werte für die Korrelation der Verwandtheitswerte — dieser
Zusammenhang wird im nächsten Abschnitt .14.3 genauer betrachtet.
Der Umstand, dass sich bei deutlich schlechterer Übereinstimmung mit den manuell gewählten
Konzepten trotzdem eine gute Korrelation der Verwandtheitswerte erreichen lässt, scheint zunächst
verwunderlich. Die Erklärung ist wohl darin zu suchen, dass in den Fällen, in denen das
automatische Verfahren ein anderes Konzept gewählt hat als das, was manuell zugeordnet wurde,
dieses Konzept selten ein völlig anderes ist—vielmehr fällt die automatische Wahl häufig auf ein
Konzept, das dem manuell gewählten verwandt ist. Die Verwandtheit zwischen den gewünschten
und tatsächlich zugeordneten Konzepten zu messen und näher zu untersuchen bietet sich als
Gegenstand künftiger Forschung an.
Bei der Betrachtung solcher Fehlzuordnungen ist insbesondere das Phänomen der
Überspezialisierung zu beobachten: da ja Konzeptpaare so gewählt werden, das die Konzepte
eine möglichst große Verwandtheit miteinander aufweisen, kommt es vor, dass zwei sehr
spezielle Bedeutungen gewählt werden. Zum Beispiel wurde für das Wortpaar „Struktur“ und
„Entwicklung“ bei ausschließlicher Verwendung des Kohärenzwertes (p = 0) das Konzeptpaar
HERZ#STRUKTUR und HERZ#ENTWICKLUNG gewählt — diese beiden Konzepte sind natürlich stark
verwandt und haben die gesuchte Bezeichnung. Da auch im Original-Datensatz die Verwandtheit
von „Struktur“ und „Entwicklung“ überdurchschnittlich bewertet war, trägt diese Wahl zu einer
guten Korrelation der Verwandtheitswerte bei. Die gewählten Konzepte entsprechen aber natürlich
nicht denen, die den Termen manuell zugeordnet wurden, nämlich die allgemeinen Konzepte
STRUKTUR und ENTWICKLUNG.Wird aber die Frequenz der Bedeutungszuordnung, also die Popularität
der Bedeutungen, berücksichtigt (und sei es nur mit dem Faktor 0,25), so wählt das automatische
Verfahren die korrekten Konzepte — die allerdings als weniger stark (wenn auch immer noch
deutlich) verwandt angegeben werden, was der Korrelation der Verwandtheitswerte abträglich ist.
Ein weiteres Problem sind sehr allgemeine Konzepte wie BESCHREIBUNG: dem Term „Beschreibung“
sind zwar imWikiWord-Datensatz eine Vielzahl von Bedeutungen zugeordnet, diese sind aber alle
sehr speziell. Das allgemeine Konzept BESCHREIBUNG wird in der Wikipedia nicht behandelt, daher
muss die automatische Bedeutungszuweisung hier fehlschlagen.
Zu untersuchen wäre, wie sich verschiedene Cutoff-Verfahren (.10.4) auf die Ergebnisse der automatischen
Disambiguierung auswirken, insbesondere auch in Hinblick auf das Problem der
Überspezialisierung.
Desweiteren macht sich auch hier wieder das Problem bemerkbar, das schon in .14.1 angesprochen
wurde: welche Konzepte (Bedeutungen der Terme) die Evaluatoren in ZESCH UND GUREVYCH
(2006)
tatsächlich vorgegeben bekamen, als sie die Verwandtheit beurteilen sollten, ist unbekannt.
Deshalb sind die Verwandheitswerte, die für die hier vorgenommene manuelle Zuordnung von
14. Verwandtheit und Disambiguierung 129
Konzeptpaaren bestimmt wurden, nur bedingt mit denen aus dem Originaldatensatz vergleichbar.
Es wäre daher angebracht, weitere Untersuchungen auf einer Datenbasis durchzuführen, die direkt
auf die Evaluation von Systemen zur automatischen Disambiguierung zugeschnitten ist, wie zum
Beispeil Senseval MIHALCEA U. A. (2004).
14.3. Semantische Verwandtheit zwischen Termen
In der Praxis ist es häufig verlangt, die semantische Verwandtheit von zwei oder mehr Termen zu
bestimmen — diese Aufgabe lässt sich als Kombination von Disambiguierung und Bestimmung
der Verwandtheit von Konzepten verstehen: da Terme keine semantischen, sondern lexikalische
Einheiten sind, muss den Termen zunächst eine Bedeutung zugewiesen werden, bevor ihre
Verwandtheit bestimmt werden kann. Diese Art, die Verwandtheit zweier Terme zu messen, bietet
sich insbesondere bei der Verwendung des oben beschriebenen Verfahrens zur Disambiguierung
an, da es den entsprechenden Wert für die Verwandtheit bereits als g(Dmax) liefert.
Experiment
Die Evaluation der Bestimmung der semantischen Verwandtheit von Termen nach dem oben
beschriebenen Verfahren entspricht genau der Evaluation für das Disambiguierungsverfahren
(.14.2), nur dass ein anderer Aspekt des Ergebnisses im Vordergrund steht, nämlich die
Korrelation der Verwandtheitswerte. Die Scores g(Dmax), die bei der Disambiguierung für das beste
Konzeptpaar berechnet wurden, werden als Maß für die Verwandtheit der betreffenden Terme
interpretiert und mit den in ZESCH UND GUREVYCH (2006) ermittelten Verwandtheitswerten für die
Termpaare in ZG222 verglichen, indem ihre statistische Korrelation (r-Wert nach Pearson) bestimmt
wird.
Das beste Ergebnis wird dabei, wie in Tabelle 14.2 zu sehen ist, mit 0,41 für alle Konzepte unter
Verwendung des Kosinus-Maßes erzielt. Das ist interessanterweise besser als das Ergebnis
von 0,30, das in .14.1 für die manuell gewählten Konzeptepaare erzielt wurde, aber noch etwas
schlechter als das Ergebnis von 0,43, das mit dem aufwändigen PL-Verfahren erzielt wurde
ZESCH U. A. (2007B). Überraschenderweise sind die Ergebnisse für Substantivpaare hier erheblich
schlechter, der beste Wert von 0.39 liegt deutlich unter dem Ergebnis von 0,43, das für manuell
gewählte Terme erzielt werden konnte, und erst recht unter dem Ergebnis für das PL-Maß
mit 0,49. Das ist insbesondere deshalb überraschend, da die Übereinstimmung mit den manuell
gewählten Konzepten für Substantivpaare besser ist, und diese manuell gewählten Paare für
Substantivpaare die besseren Werte geliefert hatten .14.1. Weshalb die Ergebnisse der automatischen
Disambiguierung ausgerechnet für Substantivpaare schlechter sind, obwohl das die Wortart
ist, über die Wikipedia vorwiegend Informationen bietet, scheint einer näheren Untersuchung zu
bedürfen.
In ähnlichen Experimenten zur Disambiguierung und Bestimmung der semantischen Verwandtheit
auf Basis von Informationen aus der Wikipedia, mit etwas anderen Verfahren und auf anderen
Datensätzen, wurden vergleichbare Korrelationen zwischen 0.32 und 0.57 gegenüber dem menschlichen
Urteil erreicht STRUBE UND PONZETTO (2006), PONZETTO UND STRUBE (2007C).
14. Verwandtheit und Disambiguierung 130
Insgesamt zeigt sich, dass die Daten von WikiWord grundsätzlich geeignet sind, als Datenbasis
für die Bestimmung der semantischen Verwandtheit von Termen und Konzepten sowie für die
automatische Disambiguierung von Wörtern im Kontext zu dienen. Es wird aber auch deutlich,
dass einerseits die betrachteten Verfahren weiter verfeinert werden können, andererseits die zur
Evaluation verwendete Datenbasis nicht optimal war, da zu den Wortpaaren keine Zuordnung
von Konzeptpaaren bereitgestellt wurde und damit unklar blieb, auf welche Konzepte sich die
vorgegebenen Verwandtheitswerte bezogen.
Auch wurden Probleme mit den von WikiWord gewonnenen Daten deutlich: einerseits das zu
erwartende Fehlen von Informationen zu Adjektiven und Verben, andererseits das Problem der
Überspezialisierung bei der Disambiguierung und das Fehlen von Artikeln über allgemeine
Konzepte. Hier zeigt sich noch einmal, dass die von WikiWord aus der Wikipedia gewonnenen
Daten weniger einen Ersatz für als vielmehr eine Ergänzung zu den Daten aus klassischen
Wörterbüchern und Thesauri darstellen.

Upcoming Events

No records to display