History: DanielKinzler Chapter 14: Verwandtheit und Disambiguierung
View page
Collapse Into Edit Sessions
Source of version: 1
(current)
«
»
14. Verwandtheit und Disambiguierung Zwei wichtige Aufgaben im Kontext der Automatischen Sprachverarbeitung und des Information Retrieval sind die Disambiguierung, also die Bedeutungszuweisung für Wörter abhängig von dem Kontext in dem sie auftreten, sowie die Bestimmung der semantischen Verwandtheit von Konzepten. Diese beiden Aufgaben sind an sich sehr unterschiedlich, sie sind jedoch in der Praxis dadurch verknüpft, dass häufig die Verwandtheit von Termen bestimmt werden soll; diese Aufgabe kann dadurch gelöst werden, dass den Termen zunächst eine Bedeutung (also ein Konzept) zugewiesen und dann die Verwandtheit zwischen den Konzepten bestimmt wird. Andersherum ist die Verwandtheit von Konzepten eine nützliche Information bei der Aufgabe der Disambiguierung. Dieses Kapitel beschreibt, wie die von WikiWord gesammelten Daten zur Bestimmung der Verwandtheit von Termen verwendet werden können. Das Ziel ist, zu zeigen, dass sich die von Wikiword gesammelten Daten grundsätzlich zur Bestimmung von semantischer Verwandtheit von Termen und Konzepten sowie zur automatischen Disambiguierung (Bedeutungszuweisung) eignen. Es soll hier nicht versucht werden, Verfahren für die Bestimmung der Verwandtheit und zur Disambiguierung zu optimieren oder auf ihre Tauglichkeit zu testen — solche Verfahren werden nur insofern untersucht, als sie Aussagen über Eigenschaften der vonWikiWord beschafften Daten ermöglichen. Für einen Vergleich verschiedener Methoden zur Bestimmung der semantischen Verwandheit, siehe [STRUBE UND PONZETTO (2006), GABRILOVICH UND MARKOVITCH (2007), ZESCH U. A. (2007B)]. Zunächst werden hierfür Verfahren beschrieben, mit denen die Verwandtheit von Konzepten bestimmt und Termen im Kontext ein Sinn zugewiesen werden kann. Diese Verfahren werden dann verwendet, um die Eignung der von WikiWord gewonnenen Daten zur Lösung der oben genannten Aufgaben zu evaluieren. Die Verfahren selbst sind dabei möglichst einfach gehalten und es wird erwartet, dass durch die Verwendung anspruchsvollerer Verfahren zur Disambiguierung und Bestimmung der Verwandtheit die Ergebnisse noch zu verbessern wären. 14.1. Semantische Verwandtheit zwischen Konzepten Die semantische Verwandtheit von Konzepten kann auf unterschiedliche Weise bestimmt werden, wobei sich die Ansätze grob in drei Kategorien gliedern lassen: 1. Die Verwandtheit wird aufgrund des Abstandes der Konzepte in einem Graphen bestimmt, zum Beispiel in einem Hyperlink-Netzwerk oder einer Taxonomie. 2. Die Verwandtheit wird aufgrund der Ähnlichkeit einer textuellen Beschreibung bestimmt, zum Beispiel auf Basis von Glossen. Die Beschreibungen werden dabei in der Regel als Featurevektor repräsentiert und die Verwandtheit als Abstand oder Winkel in einem Merkmalsraum angesehen (das entspricht dem Vector Space Model, [SALTON U. A. (1975)]). 3. Die Verwandtheit wird aufgrund der Gemeinsamkeiten in ihrer Verwendung bestimmt. Dieser Ansatz kann weiter unterteilt werden in stochastische bzw. informationstheoretische Verfahren, die die Verwandtheit zum Beispiel auf der Mutual Information begründen 14. Verwandtheit und Disambiguierung 120 [NAKAYAMA U. A. (2007B), PONZETTO UND STRUBE (2007B)], und solche, die den Kontext der Verwendung als Featurevektor repräsentieren und die Verwandtheit als Abstand oder Winkel in einem Merkmalsraum ansehen. Das WikiWord-Modell beinhaltet bereits eine Beziehung von „Verwandtheit“, die vorab ermittelt wurde und direkt im Modell gespeichert ist (.C.2, .9.1.3, .12.4). Diese ist für die Zwecke dieser Evaluation nicht ausreichend, schon weil sie viel zu wenige Paare von Konzepten abdeckt (nämlich nur die explizit verknüpften). Deshalb wird diese explizite Verwandtheit nur als einer von mehreren Faktoren bei der Berechnung der effektiven Verwandtheit verwendet. Für die Evaluation von WikiWord wurde ein einfaches Verfahren gewählt, das sich auf Basis der vorliegenden Daten leicht implementieren und effizient anwenden lässt. Die semantische Verwandtheit zweier Konzepte wird als derWert einer Ähnlichkeitsfunktion definiert, die auf zwei Featurevektoren angewendet wird, die die beiden Konzepte repräsentieren: rsem(c1, c2) = sim (v(c1), v(c2)) Als Ähnlichkeitsmaß wird das Kosinus-Maß verwendet, also das normalisierte Skalarprodukt: simcos(v1, v2) = v1 v2 |v1| · |v2| Zum Vergleich wird zum Teil eine gewichtete Tanimoto-Ähnlichkeit herangezogen. Hierbei werden die Vektoren als Fuzzy Sets interpretiert und entsprechend die Größe der Schnittmenge bzw. der Vereinigung als die Summe das paarweise Minimum bzw. Maximum der einzelnen Elemente der Vektoren bestimmt. simtan(v1, v2) = Pi min(v1,i, v2,i) Pi max(v1,i, v2,i) Der Merkmalsraum für die Featurevektoren wird durch die Konzepte des Thesaurus aufgespannt: jedes Konzept definiert eine Dimension. Ein Featurevektor repräsentiert einen Ort in diesem Raum, das heißt, er besteht aus einer Zuordnung von Gewichten zu jedem Konzept. Die Beziehungen, die ein bestimmtes Konzept bezüglich einer bestimmten Relation des Thesaurus hat, weisen ihm einen Ort im Merkmalsraum zu, der durch den Featurevektor dieses Konzeptes bezüglich dieser Relation definiert ist: vR(ck) =0BBBBBB@ wR(ck, c1) wR(ck, c2) ... wR(ck, cn) 1C CCCCCA Wobei wR eine Funktion ist, die das Gewicht der Verknüpfung zweier Konzepte bezüglich der Relation R angibt; das heißt, sie gibt die Gewichte der Kanten in dem von R aufgespannten 14. Verwandtheit und Disambiguierung 121 Graphen an. In dem hier beschriebenen Experiment werden zwei Varianten dieser Funktion verwendet: für die ungewichtete Verwandtheit wird für wR die charakteristische Funktion von R verwendet, die 1 zurückgibt, wenn cnRcm gilt; für die gewichtete Verwandtheit ergibt sich wR aus dem Relevanzwert der Verknüpfung, wie er im Modell gespeichert ist. In der Implementation wird er dem Referenzobjekt entnommen, das die entsprechende Beziehung repräsentiert .D.2). In der vorliegenden Implementation handelt es sich dabei meist um den IDF-Wert des Konzeptes, das Ziel der Verknüpfung ist (oder, im Fall der Subsumtionsbeziehung, um den inversen LHS-Wert, .9.3). Theoretisch könnte die Relevanz aber auch direkt als Kantengewicht modelliert sein. Der Featurevektor eines Konzeptes ergibt sich dann aus der Summe der Featurevektoren bezüglich der einzelnen Relationen, jeweils skaliert mit einem (ad hoc festgelegten) Koeffizienten, der angibt, wie viel Gewicht eine bestimmte Relation in der Berechnung der Verwandtheit haben soll: v(c) = aidvid(c) + abrvbr(c) + anrvnr(c) + ainvin(c) + aoutvout(c) + arelvrel(c) + asimvsim(c) Die berücksichtigten Relationen aus dem Konzeptmodell (.4.2, .C.1) sind die folgenden: vid ist der Identitätsvektor des Konzeptes, also der Vektor, in dem nur für die Dimension, die das Konzept selbst definiert, eine 1 steht, und ansonsten 0. Die Verwendung dieses Vektors bedeutet, dass ein Konzept immer Teil seines eigenen Kontextes ist. aid ist auf 2 festgelegt, da direkte Beziehungen eines Konzeptes ein großes Gewicht bei der Bestimmung der Verwandtheit haben sollen. vbr enthält die übergeordneten Konzepte (.C.2). abr ist auf 2 festgelegt, da eine gemeinsame Einordnung unter ein allgemeineres Konzept einen wichtigen Hinweis auf Verwandtschaft liefert. vnr enthält die untergeordneten Konzepte. Der Wert von anr ist 1, da die gemeinsame Zuordnung eines konkreteren Begriffes kein gutes Indiz für Verwandtheit ist. vin enthält die Konzepte, die über einen Hyperlink auf das gegebene Konzept verweisen (.C.2). ain ist auf 2 festgelegt, da gemeinsames Auftreten in einem Artikel ein gutes Indiz für Verwandtschaft ist. vout enthält die Konzepte, auf die das gegebene Konzept per Hyperlink verweist. Der Wert von aout ist 1, da Gemeinsamkeiten bezüglich referenzierter Artikel kein starkes Indiz für Verwandtheit sind. vrel enthält die Konzepte, die im vorhinein als „verwandt“ gekennzeichnet wurden — diese Zuweisung basiert insbesondere auf der Relation bilink, die Konzepte verbindet, die sich gegenseitig referenzieren (.C.2, .9.1.3). Der Wert von arel ist -1; zwar ist diese Beziehung ein sehr deutliches Zeichen für Verwandtheit, dasselbe Konzept ist aber bereits durch vin und vout berücksichtigt; so ist es sogar notwendig, den Verwandtheitswert etwas zu dämpfen (siehe Rechenbeispiel unten). vsim enthält Konzepte, die als „ähnlich“ erkannt wurden, insbesondere auf Grund von Language- Links. asim ist auf 2 festgelegt, da ähnliche Konzepte natürlich auch stark verwandt sind. 14. Verwandtheit und Disambiguierung 122 Ein alternative Möglichkeit, vsim zu verwenden, wäre es, die Featurevektoren aller ähnlichen Konzepte zu berechnen und zu dem Featurevektor des ursprünglichen Konzeptes hinzuzuaddieren— diese Möglichkeit wurde hier nicht weiter verfolgt und verbleibt als Gegenstand künftiger Forschung. Einige Beispiele dafür, wie viele „Punkte“ sich auf diese Weise in typischen Fällen für den Verwandtheitswert simcos eines Paares von Konzepten ergeben: • Wenn A ein übergeordnetes Konzept von B ist, dann gilt A 2 vbr(B) und B 2 vnr(A), sowie natürlich immer A 2 vid(A) und B 2 vid(B). Damit ergibt sich für das Skalarprodukt v(A) v(B) eine Punktzahl von 2 · 2 + 1 · 2 = 6. • Wenn A und B ein gemeinsames übergeordnetes Konzept C haben, also bezüglich C kohyponym sind, dann gilt C 2 vbr(A) und C 2 vbr(B). Damit ergibt sich für v(A) v(B) eine Punktzahl von 2 · 2 = 4. • Wenn A und B ein gemeinsames untergeordnetes Konzept C haben, dann gilt C 2 vnr(A) und C 2 vnr(B). Damit ergibt sich eine Punktzahl von 1 · 1 = 1. • Wenn A per Hyperlink auf B verweist, dann gilt A 2 vin(B) und B 2 vout(A), sowie natürlich immer A 2 vid(A) und B 2 vid(B). Damit ergibt sich für das Skalarprodukt v(A) v(B) eine Punktzahl von 2 · 2 + 1 · 2 = 6. • Wenn A und B beide von einem Konzept C per Hyperlink referenziert werden, also bezüglich C kookkurrent sind, dann gilt C 2 vin(A) und C 2 vin(B). Damit ergibt sich für v(A)v(B) eine Punktzahl von 2 · 2 = 4. • Wenn A und B beide per Hyperlink auf ein Konzept C verweisen, dann gilt C 2 vout(A) und C 2 vout(B). Damit ergibt sich eine Punktzahl von 1 · 1 = 1. • Wenn sich A und B gegenseitig per Hyperlink referenzieren, also im vorhinein über die bilink-Relation als „verwandt“ markiert wurden, dann gilt A 2 vout(B), B 2 vout(A), A 2 vin(B), B 2 vin(A) sowie außerdem A 2 vrel(B) und B 2 vrel(A). Damit ergibt sich eine Punktzahl von 2 · (2 + 1 - 1) + (2 + 1 - 1) · 2 = 8. • Wenn A und B einen Language-Link gemeinsam haben, sie im vorhinein also als „ähnlich“ markiert wurden, dann gilt A 2 vsim(B) und B 2 vsim(A). Damit ergibt sich eine Punktzahl von 2 · 2 + 2 · 2 = 8. Durch die Anpassung der Koeffizienten kann also das Gewicht bestimmt werden, das bestimmten Konstellationen von Konzepten bezüglich der im Datenmodell erfassten Relationen für die Bestimmung der Verwandtheit der Konzepte beigemessen werden soll. Die absoluten Werte spielen dabei allerdings keine Rolle, da bei der Bestimmung des Kosinus die Vektoren ja normiert werden. Nur die Verhältnisse bleiben erhalten. Die Featurevektoren geben direkte Verknüpfungen in dem Graphen wieder, der durch die Beziehungen zwischen den Konzepten definiert wird. Diese direkten Kanten stellen Verbindungen 14. Verwandtheit und Disambiguierung 123 von Konzepten zu ihrem Verwendungskontext dar, also zum Beispiel zu Kategorien, denen sie zugeordnet sind, oder Artikel, in denen auf sie verwiesen wird. Betrachtet man die Ähnlichkeit zwischen Featurevektoren, so werden dadurch Pfade der Länge zwei in diesem Graphen abgedeckt — das entspricht gerade den Kookkurrenten der Konzepte, deckt also diejenigen Konzepte ab, die gemeinsam in einer Kategorie enthalten sind oder zusammen in einem Artikel referenziert werden. Der Vergleich von Featurevektoren deckt also syntagmatische Beziehungen zwischen den Konzepten auf1. Laut [NAKAYAMA U. A. (2007B)] ist eine Suchtiefe von zwei Kanten für die Bestimmung semantischer Verwandtheit ausreichend, und [STRUBE UND PONZETTO (2006)] kommen zu dem Ergebnis, dass eine Beschränkung der Suchtiefe unter Umständen die Ergebnisse sogar verbessern kann, wenngleich dort eine Tiefe von maximal vier Kanten als optimal befunden wird. Es wäre interessant, (signifikante) Kookkurrenten direkt mit in die Featurevektoren aufzunehmen — damit würden auch Pfade der Länge drei und vier beim Vergleich der Vektoren berücksichtigt und es würden somit auch paradigmatische Beziehungen zwischen den Konzepten gefunden [BIEMANN U. A. (2004)]. Eine Untersuchung dieser Erweiterung des hier vorgeschlagenen Verfahrens geht jedoch über den Rahmen dieser Arbeit hinaus und bietet Gelegenheit für weitere Forschung. Experiment Alle Nomen Anzahl 188 113 Korrelation (Cos) 0,31 0,39 Korrelation (Tani) 0,22 0,43 Korrelation (PL+Avg) 0,36 0,43 Korrelation (PL+Best) 0,43 0,49 concept-relatedness-eval.tsv, siehe .F.5 Tabelle 14.1.: Evaluation der Verwandtheit von Konzepten Die oben beschriebene Bestimmung der semantischen Verwandtheit von Konzepten wurde evaluiert, indem die auf diese Weise berechneten Verwandtheitswerte verglichen wurden mit der menschlichen Beurteilung von Verwandheit. Dazu wurde der Datensatz ZG2222 [ZESCH UND GUREVYCH (2006)] herangezogen: er enthält 222 Wortpaare und zu jedem Paar einen Wert zwischen 0 und 4, der aus den Urteilen von 24 Probanden berechnet wurde. Jedem Wortpaar in ZG222 wurde nun manuell ein Paar von Konzepten aus der deutschsprachigen Wikipedia zugewiesen — das war für 188 Paare möglich, in den restlichen Fällen gab es in der deutschsprachigen Wikipedia für mindestens eines der Wörter kein passendes Konzept. Das war insbesondere häufig der Fall für Adjektive wie „angehend“ oder „neu“, Verben wie „belieben“ oder „drängeln“, aber auch für sehr allgemeine Begriffe wie „Übersicht“ oder sehr spezielle wie „Kursstätte“. Die Zuordnung von Konzepten zu dem Originaldatensatz ist in Anhang F.4 wiedergegeben. 1Bezogen auf eine ganzeWiki-Seite als Kontext, nicht auf einen einzelnen Satz, wie es typischerweise bei der Analyse der Kookkurrenzen von Wörtern der Fall ist. 2Verfügbar unter <http://www.ukp.tu-darmstadt.de/data/semRelDatasets>. 14. Verwandtheit und Disambiguierung 124 Für jedes Paar von Konzepten wurde ein Verwandtheitswert bestimmt, nach dem oben beschriebenen Verfahren, jeweils einmal unter Verwendung des Kosinus-Maßes und einmal der gewichteten Tanimoto-Ähnlichkeit. Die so gewonnenen Verwandheitswerte wurden auf ihre statistische Korrelation mit den in ZG222 ermitteltenWerten untersucht. Die Korrelation ist, der Literatur über semantische Verwandtheit in der Wikipedia folgend [ZESCH U. A. (2007B), STRUBE UND PONZETTO (2006)], in der Tabelle 14.1 als r-Wert nach Pearson angegeben. Die Korrelation wurde jeweils einmal für alle 188 Konzeptpaare bestimmt, und einmal für alle 113 Konzeptpaare, die zu Paaren von Substantiven in ZG222 korrespondieren — es ist nämlich zu erwarten, dass sich die Daten einer Enzyklopädie wie Wikipedia insbesondere zur Untersuchung von Substantiven eignen. Zum Vergleich sind in der Tabelle zusätzlich einige Ergebnise aus [ZESCH U. A. (2007B)] wiedergegeben, nämlich die Werte für PL+Avg und PL+Best. PL basiert auf der taxonomischen Pfadlänge, also der Anzahl von Kanten im Kategoriegraph, die die kürzeste Verbindung zwischen zwei Kategorien bilden. Dabei wird aus jeweils einer Kategorie jedes Konzeptes ein Paar gebildet, und der PL-Wert für dieses Paar von Kategorien berechnet. Der Wert PL+Avg ergibt sich aus der durchschnittlichen Distanz für alle möglichen Kategoriepaare, PL+Best verwendet die minimale Distanz, die für irgendein Paar von Kategorien gefunden wurde. Dieses Verfahren ist deutlich aufwändiger als das oben beschriebene, da unter Umständen der gesamte Kategoriegraph betrachtet werden muss, statt nur lokal definierte Featurevektoren zu vergleichen. Zudem werden kurze Pfade, die höchstens zwei Kanten lang sind, von den Featurevekoren mit abgedeckt. Die Ergebnisse für Substantivpaare zeigen mit 0,43 für die Tanimoto-Ähnlichkeit eine deutliche, wenn auch nicht überragende Korrelation mit dem menschlichen Urteil, wie es in ZG222 wiedergegeben ist — Zesch et. Al. erreichen für Paare von Nomen eine Korrelation von 0,49 mit dem aufwändigeren PL+Best-Maß und 0,43 mit PL+Avg [ZESCH U. A. (2007B)]. Das Ergebnis über alle Konzeptpaare ist mit 0,30 für das Kosinus-Maß gerade noch als signifikant anzusehen (Zesch et. Al. erreichen hier 0,43 mit PL+Best und 0,36 mit PL+Avg). Interessant ist, dass das Ergebnis für die Tanimoto-Ähnlichkeit über alle Kozepte schlechter, für die Menge der Substantive aber deutlich besser ist. Diesen Umstand näher zu betrachten sowie die Effekte anderer Ähnlichkeitsmaße zu untersuchen, verbleibt aber als Gegenstand künftiger Forschung. Ebenfalls auffällig ist, dass die Ergebnisse insgesamt schlechter sind als für den Fall einer automatischen Bedeutungszuweisung, wie weiter unten in .14.3 beschrieben. Zwar war zu erwarten, dass diese aufgrund der Methode der Konzeptauswahl durch Maximierung der Verwandheit (.14.2) insgesamt höhere Verwandheitswerte liefert, jedoch schien es ebenfalls wahrscheinlich, dass die Korrelation mit dem menschlichen Urteil unter falschen Zuordnungen, und damit überhöhten Verwandheitswerten, leiden würde. Es zeigt sich aber stattdessen, dass bei der manuellen Termzuordnung insgesamt häufig ein zu geringer Verwandheitswert errechnet wurde. Ein möglicher Grund hierfür ist, dass die in ZG222 von Menschen bestimmten Verwandtheitswerte auf einer unbekannten Zordnung von Konzepten basieren: zwar ist in [ZESCH UND GUREVYCH (2006)] beschrieben, dass den Probanden als Hilfe für die Bewertung der Verwandheit Glossen und Synonyme der Terme vorgegeben wurden, so dass die zu bewertenden Bedeutungen eindeutig waren. Sogar ein Nachschlagen des Begriffes in der Wikipedia wurde dort angeboten, was impliziert, dass eine Zuordnung von Termen zu Wikipedia- Artikeln bereits vorgenommen wurde. Diese Zuordnung zu kennen wäre für die Evaluation von 14. Verwandtheit und Disambiguierung 125 WikiWord ausgesprochen hilfreich gewesen, sie ist jedoch in dem bereitgestellten Datensatz nicht wiedergegeben. Daraus ergibt sich ein grundsätzliches Problem mit ZG222: ein direkter Vergleich mit Verwandheitswerten, die für Konzeptpaare in WikiWord ermittelt wurden, beruht immer auf der Annahme, dass die Zuordnung von Konzepten zu Wörtern dort genau gleich erfolgte wie hier. Diese Annahme scheint in Anbetracht der relativ schlechten Korrelation insbesondere für Nicht- Substantive nicht in ausreichendem Maße gültig zu sein. 14.2. Disambiguierung durch Maximierung der Kohärenz Die Verwandtheitsfunktion für Konzepte, rsem(c1, c2), kann nun verwendet werden, um einzelnen Termen aus einer vorgegebenen Menge eine Bedeutung zuzuweisen. Die Idee ist, dass sich die Terme gegenseitig disambiguieren: für jeden Term wird die Menge seiner möglichen Bedeutungen bestimmt und dann für jeden Term diejenige Bedeutung gewählt, die dazu führt, dass die paarweise Verwandtheit der gewählten Terme (die Kohärenz) insgesamt maximal wird (vergleiche [PONZETTO UND STRUBE (2007C), ZESCH U. A. (2007B)]). Genauer: Sei W = {w1,w2, . . . ,wn} eine Menge von Termen und s(w) = {c | S (w, c)} die Funktion, die zu einem Term w die Menge der Konzepte (Bedeutungen) liefert, die dem Term über die Bedeutungsrelation S zugeordnet sind (.9.1.3, .C.2). Dann ist Dk = {c1,k, c2,k, . . . , cn,k} eine Belegung derart, dass ci,k 2 s(wi) ist, also für jeden Term ein Bedeutung gewählt wurde. Der Score gr einer Belegung Dk bezüglich der Kohärenz ist gegeben durch die normierte Summe der paarweisen Verwandtheit der Konzepte: gr(Dk) = 2 · Pni , j rsem(ci,k, cj,k) n · (n - 1) Alternativ zur Verwandtheit der beiden Konzepte kann auch betrachtet werden, wie häufig ein Term als Bezeichnung für ein bestimmtes Konzept verwendet wird — diese Frequenz der Termzuordnung ist gegeben durch f (wi, ci,k). Daraus lässt sich ein Wert für die Popularität pop(wi, ci,k) dieser Bedeutungszuweisung ableiten, mit der Eigenschaft, dass der Wert zwischen 0 und 1 liegt und mit wachsendem f monoton steigt: pop(wi, ci,k) = 1 - 1 pf (wi, ci,k) + 1 Der Score einer Belegung bezüglich der Popularität der einzelnen Konzepte ergibt sich dann aus dem arithmetischen Mittel: gf (Dk) = Pni pop(wi, ci,k) n 14. Verwandtheit und Disambiguierung 126 Diese Scores sind beide auf einen Wert zwischen 0 und 1 normiert und lassen sich linear über einen festen Koeffizienten p (den Popularitäts-Bias des Scores) kombinieren: g(Dk) = gf (Dk) · p + gr(Dk) · (1 - p); 0 p 1 Die gesuchte Disambiguierung ist die bezüglich des Scores beste Belegung, Dmax = Dkmax , wobei kmax = arg maxk g(Dk) ist. Es wird also diejenige Kombination von Bedeutungen für die Terme gewählt, die den besten Score ergibt. Für die Implementation bedeutet das, dass alle Belegungen, also alle möglichen Kombinationen von Bedeutungszuweisungen, ausprobiert und bewertet werden müssen—das sind nd Belegungen und n2-n 2 zu vergleichende Paare von Konzepten pro Belegung, wobei n die Anzahl der Terme und d die Anzahl von Bedeutungen pro Term ist. Für jeden Vergleich von zwei Featurevektoren fallen so viele Multiplikationen und Additionen an, wie Einträge in dem Feature-Vektor sind; Diese Größe hängt wesentlich von der Knotengradverteilung im Hyperlink-Graphen ab (.11.4) und dürfte in der Größenordnung von 100 liegen. Für vier Terme mit jeweils fünf Bedeutungen ergeben sich 45 · 42-4 2 = 1024 · 6 = 6144 Vergleiche von Featurevektoren, also insgesamt etwa 614 400 Operationen. Für sechs Terme wären es schon 11 664 000, dieses Verfahren skaliert also nicht für große Mengen von Termen. Um es auf Fließtext anwenden zu können, würde sich ein Sliding Window von insgesamt drei bis fünf Termen anbieten. Experiment Zur Evaluation der automatischen Bedeutungszuweisung (Disambiguierung) nach dem oben beschriebenen Verfahren wird wieder der Datensatz ZG222 nach [ZESCH UND GUREVYCH (2006)] mit den manuell zugeordneten Konzeptpaaren (.14.1, .F.4) herangezogen. Tabelle 14.2 zeigt, wie sich die Ergebnisse der verschiedenen Möglichkeiten der automatischen Zuordnung zu den manuell zugewiesenen Konzepten verhalten. Die angegebenen Werte beziehen sich auf die 131 Wortpaare bzw. 92 Substantivpaare, für die sowohl manuell als auch automatisch beide Konzepte zugeordnet werden konnten. Die Spalte voll gibt an, wieviel Prozent der Konzeptpaare genau den manuell ausgewählten Konzeptpaaren entsprechen, die Spalte teilw. gibt an, bei wieviel Prozent mindestens eines der Konzepte übereinstimmt. Die letzte Spalte, Korr., ist die statistische Korrelation (r-Wert nach Pearson) mit den in [ZESCH UND GUREVYCH (2006)] ermittelten Verwandtheitswerten. Wünschenswert wäre eine hohe Übereinstimmung zwischen automatisch zugeordneten Konzepten mit den manuell zugewiesenen und gleichzeitig eine starke Korrelation mit den in ZG222 vorgegebenen Verwandheitswerten. Zunächst scheinen sich diese Werte aber gegenläufig zu entwickeln: Wird ausschließlich die Kohärenz betrachtet (p = 0), ergibt sich ein relativ guter Korrelationskoeffizient von 0,4 (über alle Konzepte, bei Verwendung des Kosinus-Maßes) aber eine schlechte Übereinstimmung der gewählten Konzepte (37% volle und 75% teilweise Übereinstimmung). Wird dagegen nur die Popularität der Bedeutungen (also die Frequenz der Bedeutungszuweisung) beachtet (p = 1), so ergibt sich eine geringe Korrelation von 0,26, aber eine größere Übereinstimmung der gewählten Konzepte (43% voll und 91% teilweise). 14. Verwandtheit und Disambiguierung 127 (a) Alle Methode Pop-Bias (p) voll teilw. Korr. Kohärenz, Cosinus 0 37.4% 74.8% 0,41 Kohärenz, Cosinus 0,25 40.5% 87.0% 0,41 Kohärenz, Cosinus 1 42.7% 90.8% 0,26 Kohärenz, Tanimoto 0 35.1% 74.0% 0,32 Kohärenz, Tanimoto 0,25 41.2% 87.8% 0,29 Kohärenz, Tanimoto 1 42.7% 90.8% 0,22 PL+Avg 0,36 PL+Best 0,43 (b) Substantive Methode Pop-Bias (p) voll teilw. Korr. Kohärenz, Cosinus 0 39.1% 68.5% 0,38 Kohärenz, Cosinus 0,25 43.5% 85.9% 0,39 Kohärenz, Cosinus 1 47.8% 92.4% 0,39 Kohärenz, Tanimoto 0 37.0% 69.6% 0,26 Kohärenz, Tanimoto 0,25 45.7% 90.2% 0,23 Kohärenz, Tanimoto 1 47.8% 92.4% 0,34 PL+Avg 0,43 PL+Best 0,49 sense-eval.tsv, siehe .F.5 bzw.. times-global-NN.tsv, siehe .F.5 Tabelle 14.2.: Evaluation der automatischen Bedeutungszuweisung 14. Verwandtheit und Disambiguierung 128 Experimentell wurde ein Wert von 0,25 für p ermittelt, der einen guten Kompromiss darzustellen scheint: die Übereinstimmung der gewählten Konzepte bleibt hoch (41% voll und 89% teilweise) und der Korrelationskoeffizient steigt bis auf die Marke von 0,4. Die Verwendung der Tanimoto-Ähnlichkeit erweist sich hier als deutlich unterlegen: bei ähnlichen Werten für die Übereinstimmung der Konzepte ergeben sich deutlich schlechtere Werte für die Korrelation der Verwandtheitswerte. Betrachtet man die Werte nur für Paare von Substantiven, so ergeben sich erwartungsgemäß bessere Werte für die Übereinstimmung der Bedeutungszuordnung, aber überraschenderweise schlechtere Werte für die Korrelation der Verwandtheitswerte — dieser Zusammenhang wird im nächsten Abschnitt .14.3 genauer betrachtet. Der Umstand, dass sich bei deutlich schlechterer Übereinstimmung mit den manuell gewählten Konzepten trotzdem eine gute Korrelation der Verwandtheitswerte erreichen lässt, scheint zunächst verwunderlich. Die Erklärung ist wohl darin zu suchen, dass in den Fällen, in denen das automatische Verfahren ein anderes Konzept gewählt hat als das, was manuell zugeordnet wurde, dieses Konzept selten ein völlig anderes ist—vielmehr fällt die automatische Wahl häufig auf ein Konzept, das dem manuell gewählten verwandt ist. Die Verwandtheit zwischen den gewünschten und tatsächlich zugeordneten Konzepten zu messen und näher zu untersuchen bietet sich als Gegenstand künftiger Forschung an. Bei der Betrachtung solcher Fehlzuordnungen ist insbesondere das Phänomen der Überspezialisierung zu beobachten: da ja Konzeptpaare so gewählt werden, das die Konzepte eine möglichst große Verwandtheit miteinander aufweisen, kommt es vor, dass zwei sehr spezielle Bedeutungen gewählt werden. Zum Beispiel wurde für das Wortpaar „Struktur“ und „Entwicklung“ bei ausschließlicher Verwendung des Kohärenzwertes (p = 0) das Konzeptpaar HERZ#STRUKTUR und HERZ#ENTWICKLUNG gewählt — diese beiden Konzepte sind natürlich stark verwandt und haben die gesuchte Bezeichnung. Da auch im Original-Datensatz die Verwandtheit von „Struktur“ und „Entwicklung“ überdurchschnittlich bewertet war, trägt diese Wahl zu einer guten Korrelation der Verwandtheitswerte bei. Die gewählten Konzepte entsprechen aber natürlich nicht denen, die den Termen manuell zugeordnet wurden, nämlich die allgemeinen Konzepte STRUKTUR und ENTWICKLUNG.Wird aber die Frequenz der Bedeutungszuordnung, also die Popularität der Bedeutungen, berücksichtigt (und sei es nur mit dem Faktor 0,25), so wählt das automatische Verfahren die korrekten Konzepte — die allerdings als weniger stark (wenn auch immer noch deutlich) verwandt angegeben werden, was der Korrelation der Verwandtheitswerte abträglich ist. Ein weiteres Problem sind sehr allgemeine Konzepte wie BESCHREIBUNG: dem Term „Beschreibung“ sind zwar imWikiWord-Datensatz eine Vielzahl von Bedeutungen zugeordnet, diese sind aber alle sehr speziell. Das allgemeine Konzept BESCHREIBUNG wird in der Wikipedia nicht behandelt, daher muss die automatische Bedeutungszuweisung hier fehlschlagen. Zu untersuchen wäre, wie sich verschiedene Cutoff-Verfahren (.10.4) auf die Ergebnisse der automatischen Disambiguierung auswirken, insbesondere auch in Hinblick auf das Problem der Überspezialisierung. Desweiteren macht sich auch hier wieder das Problem bemerkbar, das schon in .14.1 angesprochen wurde: welche Konzepte (Bedeutungen der Terme) die Evaluatoren in [ZESCH UND GUREVYCH (2006)] tatsächlich vorgegeben bekamen, als sie die Verwandtheit beurteilen sollten, ist unbekannt. Deshalb sind die Verwandheitswerte, die für die hier vorgenommene manuelle Zuordnung von 14. Verwandtheit und Disambiguierung 129 Konzeptpaaren bestimmt wurden, nur bedingt mit denen aus dem Originaldatensatz vergleichbar. Es wäre daher angebracht, weitere Untersuchungen auf einer Datenbasis durchzuführen, die direkt auf die Evaluation von Systemen zur automatischen Disambiguierung zugeschnitten ist, wie zum Beispeil Senseval [MIHALCEA U. A. (2004)]. 14.3. Semantische Verwandtheit zwischen Termen In der Praxis ist es häufig verlangt, die semantische Verwandtheit von zwei oder mehr Termen zu bestimmen — diese Aufgabe lässt sich als Kombination von Disambiguierung und Bestimmung der Verwandtheit von Konzepten verstehen: da Terme keine semantischen, sondern lexikalische Einheiten sind, muss den Termen zunächst eine Bedeutung zugewiesen werden, bevor ihre Verwandtheit bestimmt werden kann. Diese Art, die Verwandtheit zweier Terme zu messen, bietet sich insbesondere bei der Verwendung des oben beschriebenen Verfahrens zur Disambiguierung an, da es den entsprechenden Wert für die Verwandtheit bereits als g(Dmax) liefert. Experiment Die Evaluation der Bestimmung der semantischen Verwandtheit von Termen nach dem oben beschriebenen Verfahren entspricht genau der Evaluation für das Disambiguierungsverfahren (.14.2), nur dass ein anderer Aspekt des Ergebnisses im Vordergrund steht, nämlich die Korrelation der Verwandtheitswerte. Die Scores g(Dmax), die bei der Disambiguierung für das beste Konzeptpaar berechnet wurden, werden als Maß für die Verwandtheit der betreffenden Terme interpretiert und mit den in [ZESCH UND GUREVYCH (2006)] ermittelten Verwandtheitswerten für die Termpaare in ZG222 verglichen, indem ihre statistische Korrelation (r-Wert nach Pearson) bestimmt wird. Das beste Ergebnis wird dabei, wie in Tabelle 14.2 zu sehen ist, mit 0,41 für alle Konzepte unter Verwendung des Kosinus-Maßes erzielt. Das ist interessanterweise besser als das Ergebnis von 0,30, das in .14.1 für die manuell gewählten Konzeptepaare erzielt wurde, aber noch etwas schlechter als das Ergebnis von 0,43, das mit dem aufwändigen PL-Verfahren erzielt wurde [ZESCH U. A. (2007B)]. Überraschenderweise sind die Ergebnisse für Substantivpaare hier erheblich schlechter, der beste Wert von 0.39 liegt deutlich unter dem Ergebnis von 0,43, das für manuell gewählte Terme erzielt werden konnte, und erst recht unter dem Ergebnis für das PL-Maß mit 0,49. Das ist insbesondere deshalb überraschend, da die Übereinstimmung mit den manuell gewählten Konzepten für Substantivpaare besser ist, und diese manuell gewählten Paare für Substantivpaare die besseren Werte geliefert hatten .14.1. Weshalb die Ergebnisse der automatischen Disambiguierung ausgerechnet für Substantivpaare schlechter sind, obwohl das die Wortart ist, über die Wikipedia vorwiegend Informationen bietet, scheint einer näheren Untersuchung zu bedürfen. In ähnlichen Experimenten zur Disambiguierung und Bestimmung der semantischen Verwandtheit auf Basis von Informationen aus der Wikipedia, mit etwas anderen Verfahren und auf anderen Datensätzen, wurden vergleichbare Korrelationen zwischen 0.32 und 0.57 gegenüber dem menschlichen Urteil erreicht [STRUBE UND PONZETTO (2006), PONZETTO UND STRUBE (2007C)]. 14. Verwandtheit und Disambiguierung 130 Insgesamt zeigt sich, dass die Daten von WikiWord grundsätzlich geeignet sind, als Datenbasis für die Bestimmung der semantischen Verwandtheit von Termen und Konzepten sowie für die automatische Disambiguierung von Wörtern im Kontext zu dienen. Es wird aber auch deutlich, dass einerseits die betrachteten Verfahren weiter verfeinert werden können, andererseits die zur Evaluation verwendete Datenbasis nicht optimal war, da zu den Wortpaaren keine Zuordnung von Konzeptpaaren bereitgestellt wurde und damit unklar blieb, auf welche Konzepte sich die vorgegebenen Verwandtheitswerte bezogen. Auch wurden Probleme mit den von WikiWord gewonnenen Daten deutlich: einerseits das zu erwartende Fehlen von Informationen zu Adjektiven und Verben, andererseits das Problem der Überspezialisierung bei der Disambiguierung und das Fehlen von Artikeln über allgemeine Konzepte. Hier zeigt sich noch einmal, dass die von WikiWord aus der Wikipedia gewonnenen Daten weniger einen Ersatz für als vielmehr eine Ergänzung zu den Daten aus klassischen Wörterbüchern und Thesauri darstellen.
History
Enable pagination
rows per page
HTML diff
Side-by-side diff
Side-by-side diff by characters
Inline diff
Inline diff by characters
Full side-by-side diff
Full side-by-side diff by characters
Full inline diff
Full inline diff by characters
Unified diff
Side-by-side view
Information
Version
Fri 30 of May, 2008 21:29 GMT
alain_desilets
1
Actions
View
Source
Select action to perform with checked...
Remove
OK
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display