History: DanielKinzler Chapter 14: Verwandtheit und Disambiguierung

Source of version: 1 (current)

14. Verwandtheit und Disambiguierung
Zwei wichtige Aufgaben im Kontext der Automatischen Sprachverarbeitung und des Information
Retrieval sind die Disambiguierung, also die Bedeutungszuweisung fÃ¼r WÃ¶rter abhÃ¤ngig von
dem Kontext in dem sie auftreten, sowie die Bestimmung der semantischen Verwandtheit von
Konzepten. Diese beiden Aufgaben sind an sich sehr unterschiedlich, sie sind jedoch in der Praxis
dadurch verknÃ¼pft, dass hÃ¤ufig die Verwandtheit von Termen bestimmt werden soll; diese Aufgabe
kann dadurch gelÃ¶st werden, dass den Termen zunÃ¤chst eine Bedeutung (also ein Konzept) zugewiesen
und dann die Verwandtheit zwischen den Konzepten bestimmt wird. Andersherum ist die
Verwandtheit von Konzepten eine nÃ¼tzliche Information bei der Aufgabe der Disambiguierung.
Dieses Kapitel beschreibt, wie die von WikiWord gesammelten Daten zur Bestimmung der
Verwandtheit von Termen verwendet werden kÃ¶nnen. Das Ziel ist, zu zeigen, dass sich die von
Wikiword gesammelten Daten grundsÃ¤tzlich zur Bestimmung von semantischer Verwandtheit von
Termen und Konzepten sowie zur automatischen Disambiguierung (Bedeutungszuweisung) eignen.
Es soll hier nicht versucht werden, Verfahren fÃ¼r die Bestimmung der Verwandtheit und zur
Disambiguierung zu optimieren oder auf ihre Tauglichkeit zu testen â€” solche Verfahren werden
nur insofern untersucht, als sie Aussagen Ã¼ber Eigenschaften der vonWikiWord beschafften Daten
ermÃ¶glichen. FÃ¼r einen Vergleich verschiedener Methoden zur Bestimmung der semantischen
Verwandheit, siehe [STRUBE UND PONZETTO (2006), GABRILOVICH UND MARKOVITCH (2007), ZESCH U. A. (2007B)].
ZunÃ¤chst werden hierfÃ¼r Verfahren beschrieben, mit denen die Verwandtheit von Konzepten bestimmt
und Termen im Kontext ein Sinn zugewiesen werden kann. Diese Verfahren werden dann
verwendet, um die Eignung der von WikiWord gewonnenen Daten zur LÃ¶sung der oben genannten
Aufgaben zu evaluieren. Die Verfahren selbst sind dabei mÃ¶glichst einfach gehalten und es
wird erwartet, dass durch die Verwendung anspruchsvollerer Verfahren zur Disambiguierung und
Bestimmung der Verwandtheit die Ergebnisse noch zu verbessern wÃ¤ren.
14.1. Semantische Verwandtheit zwischen Konzepten
Die semantische Verwandtheit von Konzepten kann auf unterschiedliche Weise bestimmt werden,
wobei sich die AnsÃ¤tze grob in drei Kategorien gliedern lassen:
1. Die Verwandtheit wird aufgrund des Abstandes der Konzepte in einem Graphen bestimmt,
zum Beispiel in einem Hyperlink-Netzwerk oder einer Taxonomie.
2. Die Verwandtheit wird aufgrund der Ã„hnlichkeit einer textuellen Beschreibung bestimmt,
zum Beispiel auf Basis von Glossen. Die Beschreibungen werden dabei in der Regel
als Featurevektor reprÃ¤sentiert und die Verwandtheit als Abstand oder Winkel in einem
Merkmalsraum angesehen (das entspricht dem Vector Space Model, [SALTON U. A. (1975)]).
3. Die Verwandtheit wird aufgrund der Gemeinsamkeiten in ihrer Verwendung bestimmt.
Dieser Ansatz kann weiter unterteilt werden in stochastische bzw. informationstheoretische
Verfahren, die die Verwandtheit zum Beispiel auf der Mutual Information begrÃ¼nden
14. Verwandtheit und Disambiguierung 120
[NAKAYAMA U. A. (2007B), PONZETTO UND STRUBE (2007B)], und solche, die den Kontext der Verwendung
als Featurevektor reprÃ¤sentieren und die Verwandtheit als Abstand oder Winkel in einem
Merkmalsraum ansehen.
Das WikiWord-Modell beinhaltet bereits eine Beziehung von â€žVerwandtheitâ€œ, die vorab ermittelt
wurde und direkt im Modell gespeichert ist (.C.2, .9.1.3, .12.4). Diese ist fÃ¼r die Zwecke dieser
Evaluation nicht ausreichend, schon weil sie viel zu wenige Paare von Konzepten abdeckt (nÃ¤mlich
nur die explizit verknÃ¼pften). Deshalb wird diese explizite Verwandtheit nur als einer von mehreren
Faktoren bei der Berechnung der effektiven Verwandtheit verwendet.
FÃ¼r die Evaluation von WikiWord wurde ein einfaches Verfahren gewÃ¤hlt, das sich auf Basis
der vorliegenden Daten leicht implementieren und effizient anwenden lÃ¤sst. Die semantische
Verwandtheit zweier Konzepte wird als derWert einer Ã„hnlichkeitsfunktion definiert, die auf zwei
Featurevektoren angewendet wird, die die beiden Konzepte reprÃ¤sentieren:
rsem(c1, c2) = sim (v(c1), v(c2))
Als Ã„hnlichkeitsmaÃŸ wird das Kosinus-MaÃŸ verwendet, also das normalisierte Skalarprodukt:
simcos(v1, v2) =
v1  v2
|v1| Â· |v2|
Zum Vergleich wird zum Teil eine gewichtete Tanimoto-Ã„hnlichkeit herangezogen. Hierbei werden
die Vektoren als Fuzzy Sets interpretiert und entsprechend die GrÃ¶ÃŸe der Schnittmenge bzw.
der Vereinigung als die Summe das paarweise Minimum bzw. Maximum der einzelnen Elemente
der Vektoren bestimmt.
simtan(v1, v2) = Pi min(v1,i, v2,i)
Pi max(v1,i, v2,i)
Der Merkmalsraum fÃ¼r die Featurevektoren wird durch die Konzepte des Thesaurus aufgespannt:
jedes Konzept definiert eine Dimension. Ein Featurevektor reprÃ¤sentiert einen Ort in diesem Raum,
das heiÃŸt, er besteht aus einer Zuordnung von Gewichten zu jedem Konzept. Die Beziehungen, die
ein bestimmtes Konzept bezÃ¼glich einer bestimmten Relation des Thesaurus hat, weisen ihm einen
Ort im Merkmalsraum zu, der durch den Featurevektor dieses Konzeptes bezÃ¼glich dieser Relation
definiert ist:
vR(ck) =0BBBBBB@
wR(ck, c1)
wR(ck, c2)
...
wR(ck, cn)
1C
CCCCCA Wobei wR eine Funktion ist, die das Gewicht der VerknÃ¼pfung zweier Konzepte bezÃ¼glich der
Relation R angibt; das heiÃŸt, sie gibt die Gewichte der Kanten in dem von R aufgespannten
14. Verwandtheit und Disambiguierung 121
Graphen an. In dem hier beschriebenen Experiment werden zwei Varianten dieser Funktion verwendet:
fÃ¼r die ungewichtete Verwandtheit wird fÃ¼r wR die charakteristische Funktion von R verwendet,
die 1 zurÃ¼ckgibt, wenn cnRcm gilt; fÃ¼r die gewichtete Verwandtheit ergibt sich wR aus
dem Relevanzwert der VerknÃ¼pfung, wie er im Modell gespeichert ist. In der Implementation wird
er dem Referenzobjekt entnommen, das die entsprechende Beziehung reprÃ¤sentiert .D.2). In der
vorliegenden Implementation handelt es sich dabei meist um den IDF-Wert des Konzeptes, das
Ziel der VerknÃ¼pfung ist (oder, im Fall der Subsumtionsbeziehung, um den inversen LHS-Wert,
.9.3). Theoretisch kÃ¶nnte die Relevanz aber auch direkt als Kantengewicht modelliert sein.
Der Featurevektor eines Konzeptes ergibt sich dann aus der Summe der Featurevektoren bezÃ¼glich
der einzelnen Relationen, jeweils skaliert mit einem (ad hoc festgelegten) Koeffizienten, der
angibt, wie viel Gewicht eine bestimmte Relation in der Berechnung der Verwandtheit haben soll:
v(c) = aidvid(c) + abrvbr(c) + anrvnr(c) + ainvin(c) + aoutvout(c) + arelvrel(c) + asimvsim(c)
Die berÃ¼cksichtigten Relationen aus dem Konzeptmodell (.4.2, .C.1) sind die folgenden:
vid ist der IdentitÃ¤tsvektor des Konzeptes, also der Vektor, in dem nur fÃ¼r die Dimension, die
das Konzept selbst definiert, eine 1 steht, und ansonsten 0. Die Verwendung dieses Vektors
bedeutet, dass ein Konzept immer Teil seines eigenen Kontextes ist. aid ist auf 2 festgelegt,
da direkte Beziehungen eines Konzeptes ein groÃŸes Gewicht bei der Bestimmung der
Verwandtheit haben sollen.
vbr enthÃ¤lt die Ã¼bergeordneten Konzepte (.C.2). abr ist auf 2 festgelegt, da eine gemeinsame
Einordnung unter ein allgemeineres Konzept einen wichtigen Hinweis auf Verwandtschaft
liefert.
vnr enthÃ¤lt die untergeordneten Konzepte. Der Wert von anr ist 1, da die gemeinsame Zuordnung
eines konkreteren Begriffes kein gutes Indiz fÃ¼r Verwandtheit ist.
vin enthÃ¤lt die Konzepte, die Ã¼ber einen Hyperlink auf das gegebene Konzept verweisen (.C.2).
ain ist auf 2 festgelegt, da gemeinsames Auftreten in einem Artikel ein gutes Indiz fÃ¼r
Verwandtschaft ist.
vout enthÃ¤lt die Konzepte, auf die das gegebene Konzept per Hyperlink verweist. Der Wert
von aout ist 1, da Gemeinsamkeiten bezÃ¼glich referenzierter Artikel kein starkes Indiz fÃ¼r
Verwandtheit sind.
vrel enthÃ¤lt die Konzepte, die im vorhinein als â€žverwandtâ€œ gekennzeichnet wurden â€” diese
Zuweisung basiert insbesondere auf der Relation bilink, die Konzepte verbindet, die sich
gegenseitig referenzieren (.C.2, .9.1.3). Der Wert von arel ist -1; zwar ist diese Beziehung
ein sehr deutliches Zeichen fÃ¼r Verwandtheit, dasselbe Konzept ist aber bereits durch vin
und vout berÃ¼cksichtigt; so ist es sogar notwendig, den Verwandtheitswert etwas zu dÃ¤mpfen
(siehe Rechenbeispiel unten).
vsim enthÃ¤lt Konzepte, die als â€žÃ¤hnlichâ€œ erkannt wurden, insbesondere auf Grund von Language-
Links. asim ist auf 2 festgelegt, da Ã¤hnliche Konzepte natÃ¼rlich auch stark verwandt sind.
14. Verwandtheit und Disambiguierung 122
Ein alternative MÃ¶glichkeit, vsim zu verwenden, wÃ¤re es, die Featurevektoren aller Ã¤hnlichen
Konzepte zu berechnen und zu dem Featurevektor des ursprÃ¼nglichen Konzeptes hinzuzuaddierenâ€”
diese MÃ¶glichkeit wurde hier nicht weiter verfolgt und verbleibt als Gegenstand
kÃ¼nftiger Forschung.
Einige Beispiele dafÃ¼r, wie viele â€žPunkteâ€œ sich auf diese Weise in typischen FÃ¤llen fÃ¼r den
Verwandtheitswert simcos eines Paares von Konzepten ergeben:
â€¢ Wenn A ein Ã¼bergeordnetes Konzept von B ist, dann gilt A 2 vbr(B) und B 2 vnr(A), sowie
natÃ¼rlich immer A 2 vid(A) und B 2 vid(B). Damit ergibt sich fÃ¼r das Skalarprodukt v(A)  v(B) eine Punktzahl von 2 Â· 2 + 1 Â· 2 = 6.
â€¢ Wenn A und B ein gemeinsames Ã¼bergeordnetes Konzept C haben, also bezÃ¼glich C kohyponym
sind, dann gilt C 2 vbr(A) und C 2 vbr(B). Damit ergibt sich fÃ¼r v(A)  v(B) eine
Punktzahl von 2 Â· 2 = 4.
â€¢ Wenn A und B ein gemeinsames untergeordnetes Konzept C haben, dann gilt C 2 vnr(A)
und C 2 vnr(B). Damit ergibt sich eine Punktzahl von 1 Â· 1 = 1.
â€¢ Wenn A per Hyperlink auf B verweist, dann gilt A 2 vin(B) und B 2 vout(A), sowie natÃ¼rlich
immer A 2 vid(A) und B 2 vid(B). Damit ergibt sich fÃ¼r das Skalarprodukt v(A)  v(B) eine
Punktzahl von 2 Â· 2 + 1 Â· 2 = 6.
â€¢ Wenn A und B beide von einem Konzept C per Hyperlink referenziert werden, also bezÃ¼glich
C kookkurrent sind, dann gilt C 2 vin(A) und C 2 vin(B). Damit ergibt sich fÃ¼r v(A)v(B)
eine Punktzahl von 2 Â· 2 = 4.
â€¢ Wenn A und B beide per Hyperlink auf ein Konzept C verweisen, dann gilt C 2 vout(A) und
C 2 vout(B). Damit ergibt sich eine Punktzahl von 1 Â· 1 = 1.
â€¢ Wenn sich A und B gegenseitig per Hyperlink referenzieren, also im vorhinein Ã¼ber die
bilink-Relation als â€žverwandtâ€œ markiert wurden, dann gilt A 2 vout(B), B 2 vout(A), A 2 vin(B), B 2 vin(A) sowie auÃŸerdem A 2 vrel(B) und B 2 vrel(A). Damit ergibt sich eine
Punktzahl von 2 Â· (2 + 1 - 1) + (2 + 1 - 1) Â· 2 = 8.
â€¢ Wenn A und B einen Language-Link gemeinsam haben, sie im vorhinein also als â€žÃ¤hnlichâ€œ
markiert wurden, dann gilt A 2 vsim(B) und B 2 vsim(A). Damit ergibt sich eine Punktzahl
von 2 Â· 2 + 2 Â· 2 = 8.
Durch die Anpassung der Koeffizienten kann also das Gewicht bestimmt werden, das bestimmten
Konstellationen von Konzepten bezÃ¼glich der im Datenmodell erfassten Relationen fÃ¼r die
Bestimmung der Verwandtheit der Konzepte beigemessen werden soll. Die absoluten Werte spielen
dabei allerdings keine Rolle, da bei der Bestimmung des Kosinus die Vektoren ja normiert
werden. Nur die VerhÃ¤ltnisse bleiben erhalten.
Die Featurevektoren geben direkte VerknÃ¼pfungen in dem Graphen wieder, der durch die
Beziehungen zwischen den Konzepten definiert wird. Diese direkten Kanten stellen Verbindungen
14. Verwandtheit und Disambiguierung 123
von Konzepten zu ihrem Verwendungskontext dar, also zum Beispiel zu Kategorien, denen sie
zugeordnet sind, oder Artikel, in denen auf sie verwiesen wird. Betrachtet man die Ã„hnlichkeit
zwischen Featurevektoren, so werden dadurch Pfade der LÃ¤nge zwei in diesem Graphen abgedeckt
â€” das entspricht gerade den Kookkurrenten der Konzepte, deckt also diejenigen Konzepte
ab, die gemeinsam in einer Kategorie enthalten sind oder zusammen in einem Artikel referenziert
werden. Der Vergleich von Featurevektoren deckt also syntagmatische Beziehungen zwischen den
Konzepten auf1. Laut [NAKAYAMA U. A. (2007B)] ist eine Suchtiefe von zwei Kanten fÃ¼r die Bestimmung
semantischer Verwandtheit ausreichend, und [STRUBE UND PONZETTO (2006)] kommen zu dem Ergebnis,
dass eine BeschrÃ¤nkung der Suchtiefe unter UmstÃ¤nden die Ergebnisse sogar verbessern kann,
wenngleich dort eine Tiefe von maximal vier Kanten als optimal befunden wird.
Es wÃ¤re interessant, (signifikante) Kookkurrenten direkt mit in die Featurevektoren aufzunehmen
â€” damit wÃ¼rden auch Pfade der LÃ¤nge drei und vier beim Vergleich der Vektoren berÃ¼cksichtigt
und es wÃ¼rden somit auch paradigmatische Beziehungen zwischen den Konzepten gefunden
[BIEMANN U. A. (2004)]. Eine Untersuchung dieser Erweiterung des hier vorgeschlagenen Verfahrens
geht jedoch Ã¼ber den Rahmen dieser Arbeit hinaus und bietet Gelegenheit fÃ¼r weitere Forschung.
Experiment
Alle Nomen
Anzahl 188 113
Korrelation (Cos) 0,31 0,39
Korrelation (Tani) 0,22 0,43
Korrelation (PL+Avg) 0,36 0,43
Korrelation (PL+Best) 0,43 0,49
concept-relatedness-eval.tsv, siehe .F.5
Tabelle 14.1.: Evaluation der Verwandtheit von Konzepten
Die oben beschriebene Bestimmung der semantischen Verwandtheit von Konzepten wurde evaluiert,
indem die auf diese Weise berechneten Verwandtheitswerte verglichen wurden mit der
menschlichen Beurteilung von Verwandheit. Dazu wurde der Datensatz ZG2222 [ZESCH UND GUREVYCH
(2006)] herangezogen: er enthÃ¤lt 222 Wortpaare und zu jedem Paar einen Wert zwischen 0 und 4,
der aus den Urteilen von 24 Probanden berechnet wurde.
Jedem Wortpaar in ZG222 wurde nun manuell ein Paar von Konzepten aus der deutschsprachigen
Wikipedia zugewiesen â€” das war fÃ¼r 188 Paare mÃ¶glich, in den restlichen FÃ¤llen gab es in der
deutschsprachigen Wikipedia fÃ¼r mindestens eines der WÃ¶rter kein passendes Konzept. Das war
insbesondere hÃ¤ufig der Fall fÃ¼r Adjektive wie â€žangehendâ€œ oder â€žneuâ€œ, Verben wie â€žbeliebenâ€œ
oder â€ždrÃ¤ngelnâ€œ, aber auch fÃ¼r sehr allgemeine Begriffe wie â€žÃœbersichtâ€œ oder sehr spezielle wie
â€žKursstÃ¤tteâ€œ. Die Zuordnung von Konzepten zu dem Originaldatensatz ist in Anhang F.4 wiedergegeben.
1Bezogen auf eine ganzeWiki-Seite als Kontext, nicht auf einen einzelnen Satz, wie es typischerweise bei der Analyse
der Kookkurrenzen von WÃ¶rtern der Fall ist.
2VerfÃ¼gbar unter <http://www.ukp.tu-darmstadt.de/data/semRelDatasets>.
14. Verwandtheit und Disambiguierung 124
FÃ¼r jedes Paar von Konzepten wurde ein Verwandtheitswert bestimmt, nach dem oben beschriebenen
Verfahren, jeweils einmal unter Verwendung des Kosinus-MaÃŸes und einmal der gewichteten
Tanimoto-Ã„hnlichkeit. Die so gewonnenen Verwandheitswerte wurden auf ihre statistische
Korrelation mit den in ZG222 ermitteltenWerten untersucht. Die Korrelation ist, der Literatur Ã¼ber
semantische Verwandtheit in der Wikipedia folgend [ZESCH U. A. (2007B), STRUBE UND PONZETTO (2006)],
in der Tabelle 14.1 als r-Wert nach Pearson angegeben. Die Korrelation wurde jeweils einmal
fÃ¼r alle 188 Konzeptpaare bestimmt, und einmal fÃ¼r alle 113 Konzeptpaare, die zu Paaren von
Substantiven in ZG222 korrespondieren â€” es ist nÃ¤mlich zu erwarten, dass sich die Daten einer
EnzyklopÃ¤die wie Wikipedia insbesondere zur Untersuchung von Substantiven eignen.
Zum Vergleich sind in der Tabelle zusÃ¤tzlich einige Ergebnise aus [ZESCH U. A. (2007B)] wiedergegeben,
nÃ¤mlich die Werte fÃ¼r PL+Avg und PL+Best. PL basiert auf der taxonomischen PfadlÃ¤nge,
also der Anzahl von Kanten im Kategoriegraph, die die kÃ¼rzeste Verbindung zwischen zwei
Kategorien bilden. Dabei wird aus jeweils einer Kategorie jedes Konzeptes ein Paar gebildet,
und der PL-Wert fÃ¼r dieses Paar von Kategorien berechnet. Der Wert PL+Avg ergibt sich aus der
durchschnittlichen Distanz fÃ¼r alle mÃ¶glichen Kategoriepaare, PL+Best verwendet die minimale
Distanz, die fÃ¼r irgendein Paar von Kategorien gefunden wurde. Dieses Verfahren ist deutlich
aufwÃ¤ndiger als das oben beschriebene, da unter UmstÃ¤nden der gesamte Kategoriegraph betrachtet
werden muss, statt nur lokal definierte Featurevektoren zu vergleichen. Zudem werden kurze
Pfade, die hÃ¶chstens zwei Kanten lang sind, von den Featurevekoren mit abgedeckt.
Die Ergebnisse fÃ¼r Substantivpaare zeigen mit 0,43 fÃ¼r die Tanimoto-Ã„hnlichkeit eine deutliche,
wenn auch nicht Ã¼berragende Korrelation mit dem menschlichen Urteil, wie es in ZG222 wiedergegeben
ist â€” Zesch et. Al. erreichen fÃ¼r Paare von Nomen eine Korrelation von 0,49 mit dem
aufwÃ¤ndigeren PL+Best-MaÃŸ und 0,43 mit PL+Avg [ZESCH U. A. (2007B)].
Das Ergebnis Ã¼ber alle Konzeptpaare ist mit 0,30 fÃ¼r das Kosinus-MaÃŸ gerade noch als signifikant
anzusehen (Zesch et. Al. erreichen hier 0,43 mit PL+Best und 0,36 mit PL+Avg). Interessant ist,
dass das Ergebnis fÃ¼r die Tanimoto-Ã„hnlichkeit Ã¼ber alle Kozepte schlechter, fÃ¼r die Menge der
Substantive aber deutlich besser ist. Diesen Umstand nÃ¤her zu betrachten sowie die Effekte anderer
Ã„hnlichkeitsmaÃŸe zu untersuchen, verbleibt aber als Gegenstand kÃ¼nftiger Forschung.
Ebenfalls auffÃ¤llig ist, dass die Ergebnisse insgesamt schlechter sind als fÃ¼r den Fall einer automatischen
Bedeutungszuweisung, wie weiter unten in .14.3 beschrieben. Zwar war zu erwarten,
dass diese aufgrund der Methode der Konzeptauswahl durch Maximierung der Verwandheit
(.14.2) insgesamt hÃ¶here Verwandheitswerte liefert, jedoch schien es ebenfalls wahrscheinlich,
dass die Korrelation mit dem menschlichen Urteil unter falschen Zuordnungen, und damit Ã¼berhÃ¶hten
Verwandheitswerten, leiden wÃ¼rde.
Es zeigt sich aber stattdessen, dass bei der manuellen Termzuordnung insgesamt hÃ¤ufig ein zu
geringer Verwandheitswert errechnet wurde. Ein mÃ¶glicher Grund hierfÃ¼r ist, dass die in ZG222
von Menschen bestimmten Verwandtheitswerte auf einer unbekannten Zordnung von Konzepten
basieren: zwar ist in [ZESCH UND GUREVYCH (2006)] beschrieben, dass den Probanden als Hilfe fÃ¼r
die Bewertung der Verwandheit Glossen und Synonyme der Terme vorgegeben wurden, so dass
die zu bewertenden Bedeutungen eindeutig waren. Sogar ein Nachschlagen des Begriffes in der
Wikipedia wurde dort angeboten, was impliziert, dass eine Zuordnung von Termen zu Wikipedia-
Artikeln bereits vorgenommen wurde. Diese Zuordnung zu kennen wÃ¤re fÃ¼r die Evaluation von
14. Verwandtheit und Disambiguierung 125
WikiWord ausgesprochen hilfreich gewesen, sie ist jedoch in dem bereitgestellten Datensatz nicht
wiedergegeben. Daraus ergibt sich ein grundsÃ¤tzliches Problem mit ZG222: ein direkter Vergleich
mit Verwandheitswerten, die fÃ¼r Konzeptpaare in WikiWord ermittelt wurden, beruht immer auf
der Annahme, dass die Zuordnung von Konzepten zu WÃ¶rtern dort genau gleich erfolgte wie hier.
Diese Annahme scheint in Anbetracht der relativ schlechten Korrelation insbesondere fÃ¼r Nicht-
Substantive nicht in ausreichendem MaÃŸe gÃ¼ltig zu sein.
14.2. Disambiguierung durch Maximierung der KohÃ¤renz
Die Verwandtheitsfunktion fÃ¼r Konzepte, rsem(c1, c2), kann nun verwendet werden, um einzelnen
Termen aus einer vorgegebenen Menge eine Bedeutung zuzuweisen. Die Idee ist, dass sich die
Terme gegenseitig disambiguieren: fÃ¼r jeden Term wird die Menge seiner mÃ¶glichen Bedeutungen
bestimmt und dann fÃ¼r jeden Term diejenige Bedeutung gewÃ¤hlt, die dazu fÃ¼hrt, dass die paarweise
Verwandtheit der gewÃ¤hlten Terme (die KohÃ¤renz) insgesamt maximal wird (vergleiche [PONZETTO
UND STRUBE (2007C), ZESCH U. A. (2007B)]). Genauer:
Sei W = {w1,w2, . . . ,wn} eine Menge von Termen und s(w) = {c | S (w, c)} die Funktion,
die zu einem Term w die Menge der Konzepte (Bedeutungen) liefert, die dem Term Ã¼ber die
Bedeutungsrelation S zugeordnet sind (.9.1.3, .C.2). Dann ist Dk = {c1,k, c2,k, . . . , cn,k} eine
Belegung derart, dass ci,k 2 s(wi) ist, also fÃ¼r jeden Term ein Bedeutung gewÃ¤hlt wurde.
Der Score gr einer Belegung Dk bezÃ¼glich der KohÃ¤renz ist gegeben durch die normierte Summe
der paarweisen Verwandtheit der Konzepte:
gr(Dk) =
2 Â· Pni
, j rsem(ci,k, cj,k)
n Â· (n - 1)
Alternativ zur Verwandtheit der beiden Konzepte kann auch betrachtet werden, wie hÃ¤ufig ein
Term als Bezeichnung fÃ¼r ein bestimmtes Konzept verwendet wird â€” diese Frequenz der
Termzuordnung ist gegeben durch f (wi, ci,k). Daraus lÃ¤sst sich ein Wert fÃ¼r die PopularitÃ¤t
pop(wi, ci,k) dieser Bedeutungszuweisung ableiten, mit der Eigenschaft, dass der Wert zwischen 0
und 1 liegt und mit wachsendem f monoton steigt:
pop(wi, ci,k) = 1 -
1
pf (wi, ci,k) + 1
Der Score einer Belegung bezÃ¼glich der PopularitÃ¤t der einzelnen Konzepte ergibt sich dann aus
dem arithmetischen Mittel:
gf (Dk) = Pni
pop(wi, ci,k)
n
14. Verwandtheit und Disambiguierung 126
Diese Scores sind beide auf einen Wert zwischen 0 und 1 normiert und lassen sich linear Ã¼ber
einen festen Koeffizienten p (den PopularitÃ¤ts-Bias des Scores) kombinieren:
g(Dk) = gf (Dk) Â· p + gr(Dk) Â· (1 - p); 0  p  1
Die gesuchte Disambiguierung ist die bezÃ¼glich des Scores beste Belegung, Dmax = Dkmax , wobei
kmax = arg maxk g(Dk) ist. Es wird also diejenige Kombination von Bedeutungen fÃ¼r die Terme
gewÃ¤hlt, die den besten Score ergibt.
FÃ¼r die Implementation bedeutet das, dass alle Belegungen, also alle mÃ¶glichen Kombinationen
von Bedeutungszuweisungen, ausprobiert und bewertet werden mÃ¼ssenâ€”das sind nd Belegungen
und n2-n
2 zu vergleichende Paare von Konzepten pro Belegung, wobei n die Anzahl der Terme
und d die Anzahl von Bedeutungen pro Term ist. FÃ¼r jeden Vergleich von zwei Featurevektoren
fallen so viele Multiplikationen und Additionen an, wie EintrÃ¤ge in dem Feature-Vektor sind;
Diese GrÃ¶ÃŸe hÃ¤ngt wesentlich von der Knotengradverteilung im Hyperlink-Graphen ab (.11.4)
und dÃ¼rfte in der GrÃ¶ÃŸenordnung von 100 liegen. FÃ¼r vier Terme mit jeweils fÃ¼nf Bedeutungen
ergeben sich 45 Â· 42-4
2 = 1024 Â· 6 = 6144 Vergleiche von Featurevektoren, also insgesamt etwa
614 400 Operationen. FÃ¼r sechs Terme wÃ¤ren es schon 11 664 000, dieses Verfahren skaliert also
nicht fÃ¼r groÃŸe Mengen von Termen. Um es auf FlieÃŸtext anwenden zu kÃ¶nnen, wÃ¼rde sich ein
Sliding Window von insgesamt drei bis fÃ¼nf Termen anbieten.
Experiment
Zur Evaluation der automatischen Bedeutungszuweisung (Disambiguierung) nach dem oben beschriebenen
Verfahren wird wieder der Datensatz ZG222 nach [ZESCH UND GUREVYCH (2006)] mit den
manuell zugeordneten Konzeptpaaren (.14.1, .F.4) herangezogen. Tabelle 14.2 zeigt, wie sich die
Ergebnisse der verschiedenen MÃ¶glichkeiten der automatischen Zuordnung zu den manuell zugewiesenen
Konzepten verhalten. Die angegebenen Werte beziehen sich auf die 131 Wortpaare
bzw. 92 Substantivpaare, fÃ¼r die sowohl manuell als auch automatisch beide Konzepte zugeordnet
werden konnten. Die Spalte voll gibt an, wieviel Prozent der Konzeptpaare genau den manuell
ausgewÃ¤hlten Konzeptpaaren entsprechen, die Spalte teilw. gibt an, bei wieviel Prozent mindestens
eines der Konzepte Ã¼bereinstimmt. Die letzte Spalte, Korr., ist die statistische Korrelation
(r-Wert nach Pearson) mit den in [ZESCH UND GUREVYCH (2006)] ermittelten Verwandtheitswerten.
WÃ¼nschenswert wÃ¤re eine hohe Ãœbereinstimmung zwischen automatisch zugeordneten Konzepten
mit den manuell zugewiesenen und gleichzeitig eine starke Korrelation mit den in ZG222 vorgegebenen
Verwandheitswerten. ZunÃ¤chst scheinen sich diese Werte aber gegenlÃ¤ufig zu entwickeln:
Wird ausschlieÃŸlich die KohÃ¤renz betrachtet (p = 0), ergibt sich ein relativ guter
Korrelationskoeffizient von 0,4 (Ã¼ber alle Konzepte, bei Verwendung des Kosinus-MaÃŸes)
aber eine schlechte Ãœbereinstimmung der gewÃ¤hlten Konzepte (37% volle und 75% teilweise
Ãœbereinstimmung). Wird dagegen nur die PopularitÃ¤t der Bedeutungen (also die Frequenz
der Bedeutungszuweisung) beachtet (p = 1), so ergibt sich eine geringe Korrelation von 0,26,
aber eine grÃ¶ÃŸere Ãœbereinstimmung der gewÃ¤hlten Konzepte (43% voll und 91% teilweise).
14. Verwandtheit und Disambiguierung 127
(a) Alle
Methode Pop-Bias (p) voll teilw. Korr.
KohÃ¤renz, Cosinus 0 37.4% 74.8% 0,41
KohÃ¤renz, Cosinus 0,25 40.5% 87.0% 0,41
KohÃ¤renz, Cosinus 1 42.7% 90.8% 0,26
KohÃ¤renz, Tanimoto 0 35.1% 74.0% 0,32
KohÃ¤renz, Tanimoto 0,25 41.2% 87.8% 0,29
KohÃ¤renz, Tanimoto 1 42.7% 90.8% 0,22
PL+Avg 0,36
PL+Best 0,43
(b) Substantive
Methode Pop-Bias (p) voll teilw. Korr.
KohÃ¤renz, Cosinus 0 39.1% 68.5% 0,38
KohÃ¤renz, Cosinus 0,25 43.5% 85.9% 0,39
KohÃ¤renz, Cosinus 1 47.8% 92.4% 0,39
KohÃ¤renz, Tanimoto 0 37.0% 69.6% 0,26
KohÃ¤renz, Tanimoto 0,25 45.7% 90.2% 0,23
KohÃ¤renz, Tanimoto 1 47.8% 92.4% 0,34
PL+Avg 0,43
PL+Best 0,49
sense-eval.tsv, siehe .F.5 bzw.. times-global-NN.tsv, siehe .F.5
Tabelle 14.2.: Evaluation der automatischen Bedeutungszuweisung
14. Verwandtheit und Disambiguierung 128
Experimentell wurde ein Wert von 0,25 fÃ¼r p ermittelt, der einen guten Kompromiss darzustellen
scheint: die Ãœbereinstimmung der gewÃ¤hlten Konzepte bleibt hoch (41% voll und 89%
teilweise) und der Korrelationskoeffizient steigt bis auf die Marke von 0,4. Die Verwendung
der Tanimoto-Ã„hnlichkeit erweist sich hier als deutlich unterlegen: bei Ã¤hnlichen Werten fÃ¼r
die Ãœbereinstimmung der Konzepte ergeben sich deutlich schlechtere Werte fÃ¼r die Korrelation
der Verwandtheitswerte. Betrachtet man die Werte nur fÃ¼r Paare von Substantiven, so ergeben
sich erwartungsgemÃ¤ÃŸ bessere Werte fÃ¼r die Ãœbereinstimmung der Bedeutungszuordnung, aber
Ã¼berraschenderweise schlechtere Werte fÃ¼r die Korrelation der Verwandtheitswerte â€” dieser
Zusammenhang wird im nÃ¤chsten Abschnitt .14.3 genauer betrachtet.
Der Umstand, dass sich bei deutlich schlechterer Ãœbereinstimmung mit den manuell gewÃ¤hlten
Konzepten trotzdem eine gute Korrelation der Verwandtheitswerte erreichen lÃ¤sst, scheint zunÃ¤chst
verwunderlich. Die ErklÃ¤rung ist wohl darin zu suchen, dass in den FÃ¤llen, in denen das
automatische Verfahren ein anderes Konzept gewÃ¤hlt hat als das, was manuell zugeordnet wurde,
dieses Konzept selten ein vÃ¶llig anderes istâ€”vielmehr fÃ¤llt die automatische Wahl hÃ¤ufig auf ein
Konzept, das dem manuell gewÃ¤hlten verwandt ist. Die Verwandtheit zwischen den gewÃ¼nschten
und tatsÃ¤chlich zugeordneten Konzepten zu messen und nÃ¤her zu untersuchen bietet sich als
Gegenstand kÃ¼nftiger Forschung an.
Bei der Betrachtung solcher Fehlzuordnungen ist insbesondere das PhÃ¤nomen der
Ãœberspezialisierung zu beobachten: da ja Konzeptpaare so gewÃ¤hlt werden, das die Konzepte
eine mÃ¶glichst groÃŸe Verwandtheit miteinander aufweisen, kommt es vor, dass zwei sehr
spezielle Bedeutungen gewÃ¤hlt werden. Zum Beispiel wurde fÃ¼r das Wortpaar â€žStrukturâ€œ und
â€žEntwicklungâ€œ bei ausschlieÃŸlicher Verwendung des KohÃ¤renzwertes (p = 0) das Konzeptpaar
HERZ#STRUKTUR und HERZ#ENTWICKLUNG gewÃ¤hlt â€” diese beiden Konzepte sind natÃ¼rlich stark
verwandt und haben die gesuchte Bezeichnung. Da auch im Original-Datensatz die Verwandtheit
von â€žStrukturâ€œ und â€žEntwicklungâ€œ Ã¼berdurchschnittlich bewertet war, trÃ¤gt diese Wahl zu einer
guten Korrelation der Verwandtheitswerte bei. Die gewÃ¤hlten Konzepte entsprechen aber natÃ¼rlich
nicht denen, die den Termen manuell zugeordnet wurden, nÃ¤mlich die allgemeinen Konzepte
STRUKTUR und ENTWICKLUNG.Wird aber die Frequenz der Bedeutungszuordnung, also die PopularitÃ¤t
der Bedeutungen, berÃ¼cksichtigt (und sei es nur mit dem Faktor 0,25), so wÃ¤hlt das automatische
Verfahren die korrekten Konzepte â€” die allerdings als weniger stark (wenn auch immer noch
deutlich) verwandt angegeben werden, was der Korrelation der Verwandtheitswerte abtrÃ¤glich ist.
Ein weiteres Problem sind sehr allgemeine Konzepte wie BESCHREIBUNG: dem Term â€žBeschreibungâ€œ
sind zwar imWikiWord-Datensatz eine Vielzahl von Bedeutungen zugeordnet, diese sind aber alle
sehr speziell. Das allgemeine Konzept BESCHREIBUNG wird in der Wikipedia nicht behandelt, daher
muss die automatische Bedeutungszuweisung hier fehlschlagen.
Zu untersuchen wÃ¤re, wie sich verschiedene Cutoff-Verfahren (.10.4) auf die Ergebnisse der automatischen
Disambiguierung auswirken, insbesondere auch in Hinblick auf das Problem der
Ãœberspezialisierung.
Desweiteren macht sich auch hier wieder das Problem bemerkbar, das schon in .14.1 angesprochen
wurde: welche Konzepte (Bedeutungen der Terme) die Evaluatoren in [ZESCH UND GUREVYCH
(2006)] tatsÃ¤chlich vorgegeben bekamen, als sie die Verwandtheit beurteilen sollten, ist unbekannt.
Deshalb sind die Verwandheitswerte, die fÃ¼r die hier vorgenommene manuelle Zuordnung von
14. Verwandtheit und Disambiguierung 129
Konzeptpaaren bestimmt wurden, nur bedingt mit denen aus dem Originaldatensatz vergleichbar.
Es wÃ¤re daher angebracht, weitere Untersuchungen auf einer Datenbasis durchzufÃ¼hren, die direkt
auf die Evaluation von Systemen zur automatischen Disambiguierung zugeschnitten ist, wie zum
Beispeil Senseval [MIHALCEA U. A. (2004)].
14.3. Semantische Verwandtheit zwischen Termen
In der Praxis ist es hÃ¤ufig verlangt, die semantische Verwandtheit von zwei oder mehr Termen zu
bestimmen â€” diese Aufgabe lÃ¤sst sich als Kombination von Disambiguierung und Bestimmung
der Verwandtheit von Konzepten verstehen: da Terme keine semantischen, sondern lexikalische
Einheiten sind, muss den Termen zunÃ¤chst eine Bedeutung zugewiesen werden, bevor ihre
Verwandtheit bestimmt werden kann. Diese Art, die Verwandtheit zweier Terme zu messen, bietet
sich insbesondere bei der Verwendung des oben beschriebenen Verfahrens zur Disambiguierung
an, da es den entsprechenden Wert fÃ¼r die Verwandtheit bereits als g(Dmax) liefert.
Experiment
Die Evaluation der Bestimmung der semantischen Verwandtheit von Termen nach dem oben
beschriebenen Verfahren entspricht genau der Evaluation fÃ¼r das Disambiguierungsverfahren
(.14.2), nur dass ein anderer Aspekt des Ergebnisses im Vordergrund steht, nÃ¤mlich die
Korrelation der Verwandtheitswerte. Die Scores g(Dmax), die bei der Disambiguierung fÃ¼r das beste
Konzeptpaar berechnet wurden, werden als MaÃŸ fÃ¼r die Verwandtheit der betreffenden Terme
interpretiert und mit den in [ZESCH UND GUREVYCH (2006)] ermittelten Verwandtheitswerten fÃ¼r die
Termpaare in ZG222 verglichen, indem ihre statistische Korrelation (r-Wert nach Pearson) bestimmt
wird.
Das beste Ergebnis wird dabei, wie in Tabelle 14.2 zu sehen ist, mit 0,41 fÃ¼r alle Konzepte unter
Verwendung des Kosinus-MaÃŸes erzielt. Das ist interessanterweise besser als das Ergebnis
von 0,30, das in .14.1 fÃ¼r die manuell gewÃ¤hlten Konzeptepaare erzielt wurde, aber noch etwas
schlechter als das Ergebnis von 0,43, das mit dem aufwÃ¤ndigen PL-Verfahren erzielt wurde
[ZESCH U. A. (2007B)]. Ãœberraschenderweise sind die Ergebnisse fÃ¼r Substantivpaare hier erheblich
schlechter, der beste Wert von 0.39 liegt deutlich unter dem Ergebnis von 0,43, das fÃ¼r manuell
gewÃ¤hlte Terme erzielt werden konnte, und erst recht unter dem Ergebnis fÃ¼r das PL-MaÃŸ
mit 0,49. Das ist insbesondere deshalb Ã¼berraschend, da die Ãœbereinstimmung mit den manuell
gewÃ¤hlten Konzepten fÃ¼r Substantivpaare besser ist, und diese manuell gewÃ¤hlten Paare fÃ¼r
Substantivpaare die besseren Werte geliefert hatten .14.1. Weshalb die Ergebnisse der automatischen
Disambiguierung ausgerechnet fÃ¼r Substantivpaare schlechter sind, obwohl das die Wortart
ist, Ã¼ber die Wikipedia vorwiegend Informationen bietet, scheint einer nÃ¤heren Untersuchung zu
bedÃ¼rfen.
In Ã¤hnlichen Experimenten zur Disambiguierung und Bestimmung der semantischen Verwandtheit
auf Basis von Informationen aus der Wikipedia, mit etwas anderen Verfahren und auf anderen
DatensÃ¤tzen, wurden vergleichbare Korrelationen zwischen 0.32 und 0.57 gegenÃ¼ber dem menschlichen
Urteil erreicht [STRUBE UND PONZETTO (2006), PONZETTO UND STRUBE (2007C)].
14. Verwandtheit und Disambiguierung 130
Insgesamt zeigt sich, dass die Daten von WikiWord grundsÃ¤tzlich geeignet sind, als Datenbasis
fÃ¼r die Bestimmung der semantischen Verwandtheit von Termen und Konzepten sowie fÃ¼r die
automatische Disambiguierung von WÃ¶rtern im Kontext zu dienen. Es wird aber auch deutlich,
dass einerseits die betrachteten Verfahren weiter verfeinert werden kÃ¶nnen, andererseits die zur
Evaluation verwendete Datenbasis nicht optimal war, da zu den Wortpaaren keine Zuordnung
von Konzeptpaaren bereitgestellt wurde und damit unklar blieb, auf welche Konzepte sich die
vorgegebenen Verwandtheitswerte bezogen.
Auch wurden Probleme mit den von WikiWord gewonnenen Daten deutlich: einerseits das zu
erwartende Fehlen von Informationen zu Adjektiven und Verben, andererseits das Problem der
Ãœberspezialisierung bei der Disambiguierung und das Fehlen von Artikeln Ã¼ber allgemeine
Konzepte. Hier zeigt sich noch einmal, dass die von WikiWord aus der Wikipedia gewonnenen
Daten weniger einen Ersatz fÃ¼r als vielmehr eine ErgÃ¤nzung zu den Daten aus klassischen
WÃ¶rterbÃ¼chern und Thesauri darstellen.