DanielKinzler Chapter 13: Analyse von Begriffsklärungsseiten

13. Analyse von Begriffsklärungsseiten
Datensatz OK NOT MISSED PART BAD Precision Recall F-Maß
en 282 100 16 8 5 0,96 0,95 0,95
de 202 59 30 16 5 0,91 0,87 0,89
disambig-eval.tsv, siehe .F.5, Tabelle resource_survey, siehe .F.4
Tabelle 13.1.: Evaluation der Analyse von Begriffsklärungsseiten
Der in .8.10 angegebene Algorithmus zur Analyse von Begriffsklärungsseiten wurde auf einer
Stichprobe von jeweils 50 Begriffsklärungsseiten aus zwei Wikipedias (en und de) evaluiert, das
Ergebnis ist in Tabelle 13.1 aufgeführt. Ziel ist es, auf der Begriffsklärungsseite diejenigen Wiki-
Links zu finden, die auf Bedeutungen der fraglichen Bezeichnung verweisen. Für die Evaluation
wurden nun alle Wiki-Links auf jeder Seite der Stichproben manuell dahingehend bewertet, ob
sie auf eine der Bedeutungen des Wortes zeigen, für das die Begriffsklärungsseite angelegt wurde
(siehe Anhang F.4). Das Ergebnis der manuellen Beurteilung wird dann mit der automatischen
Einordnung verglichen:
OK: der Link verweist auf eine der Bedeutungen des Wortes, für das die Begriffsklärungsseite
angelegt wurde und er wurde auch als Bedeutungs-Link erkannt (True Positive).
NOT: der Link verweist nicht auf eine der möglichen Bedeutungen und wurde auch nicht als
Bedeutungs-Link identifiziert. (True Negative)
MISSED: der Link verweist auf eine der Bedeutungen, wurde aber nicht als Bedeutungs-Link erkannt
(False Negative).
BAD: der Link verweist nicht auf eine der Bedeutungen, wurde aber als Bedeutungs-Link erkannt
(False Positive).
PART: der Link verweist auf etwas, das der eigentlichen Bedeutung übergeordnet ist, wurde aber
als Bedeutungs-Link erkannt (auch False Positive).
Diese Evaluation kann allerdings aufgrund der geringen Stichprobengröße nur einen ungefähren
Eindruck von der Leistungsfähigkeit des verwendeten Algorithmus bieten. Bei der Fehleranalyse
war erneut ein Problem zu beobachten, das schon bei den Termzuordnungen über den Link-
Text aufgetreten ist: es kommt (insbesondere bei Ortsteilen) häufig vor, dass ein Link auf einen
übergeordneten Artikel gesetzt wird, wenn es keinen eigenen Artikel für das Konzept gibt
(Bewertung PART in Tabelle 13.1; vergleiche auch Tabelle die Spalte DISAMBIG in Tabelle 12.7).
So enthält die Begriffsklärungsseite für Hüttenberg zum Beispiel die Zeile „* einen Ortsteil
von [[Brobergen]] im Landkreis Stade in Niedersachsen“, wodurch BROBERGEN als
Bedeutung von „Hüttenberg“ erkannt wird; wie man dem Text entnehmen kann, ist das aber falsch:
„Hüttenberg“ ist nur eine Bezeichnung für einen Teil von BROBERGEN. Für WikiWord wäre es wünschenswert,
wenn an solchen Stellen in der Begriffsklärung ein Wiki-Link auf einen noch nicht
13. Analyse von Begriffsklärungsseiten 118
existierenden Artikel über den Ortsteil stünde — allerdings ist das aus der pragmatischen Sicht
der Wikipedia nur dann wünschenswert, wenn der Ortsteil hinreichend „interessant“ ist, dass sich
ein eigener Artikel darüber „lohnt“. Eine Alternative ist es, auf einen Abschnitt in dem übergeordneten
Artikel zu verweisen, wenn es diesen gibt, in diesem Fall etwa BROBERGEN#H¨UTTENBERG.

Upcoming Events

No records to display