History: DanielKinzler Chapter 13: Analyse von Begriffsklärungsseiten
View page
Collapse Into Edit Sessions
Source of version: 1
(current)
«
»
13. Analyse von Begriffsklärungsseiten Datensatz OK NOT MISSED PART BAD Precision Recall F-Maß en 282 100 16 8 5 0,96 0,95 0,95 de 202 59 30 16 5 0,91 0,87 0,89 disambig-eval.tsv, siehe .F.5, Tabelle resource_survey, siehe .F.4 Tabelle 13.1.: Evaluation der Analyse von Begriffsklärungsseiten Der in .8.10 angegebene Algorithmus zur Analyse von Begriffsklärungsseiten wurde auf einer Stichprobe von jeweils 50 Begriffsklärungsseiten aus zwei Wikipedias (en und de) evaluiert, das Ergebnis ist in Tabelle 13.1 aufgeführt. Ziel ist es, auf der Begriffsklärungsseite diejenigen Wiki- Links zu finden, die auf Bedeutungen der fraglichen Bezeichnung verweisen. Für die Evaluation wurden nun alle Wiki-Links auf jeder Seite der Stichproben manuell dahingehend bewertet, ob sie auf eine der Bedeutungen des Wortes zeigen, für das die Begriffsklärungsseite angelegt wurde (siehe Anhang F.4). Das Ergebnis der manuellen Beurteilung wird dann mit der automatischen Einordnung verglichen: OK: der Link verweist auf eine der Bedeutungen des Wortes, für das die Begriffsklärungsseite angelegt wurde und er wurde auch als Bedeutungs-Link erkannt (True Positive). NOT: der Link verweist nicht auf eine der möglichen Bedeutungen und wurde auch nicht als Bedeutungs-Link identifiziert. (True Negative) MISSED: der Link verweist auf eine der Bedeutungen, wurde aber nicht als Bedeutungs-Link erkannt (False Negative). BAD: der Link verweist nicht auf eine der Bedeutungen, wurde aber als Bedeutungs-Link erkannt (False Positive). PART: der Link verweist auf etwas, das der eigentlichen Bedeutung übergeordnet ist, wurde aber als Bedeutungs-Link erkannt (auch False Positive). Diese Evaluation kann allerdings aufgrund der geringen Stichprobengröße nur einen ungefähren Eindruck von der Leistungsfähigkeit des verwendeten Algorithmus bieten. Bei der Fehleranalyse war erneut ein Problem zu beobachten, das schon bei den Termzuordnungen über den Link- Text aufgetreten ist: es kommt (insbesondere bei Ortsteilen) häufig vor, dass ein Link auf einen übergeordneten Artikel gesetzt wird, wenn es keinen eigenen Artikel für das Konzept gibt (Bewertung PART in Tabelle 13.1; vergleiche auch Tabelle die Spalte DISAMBIG in Tabelle 12.7). So enthält die Begriffsklärungsseite für Hüttenberg zum Beispiel die Zeile „* einen Ortsteil von [[Brobergen]] im Landkreis Stade in Niedersachsen“, wodurch BROBERGEN als Bedeutung von „Hüttenberg“ erkannt wird; wie man dem Text entnehmen kann, ist das aber falsch: „Hüttenberg“ ist nur eine Bezeichnung für einen Teil von BROBERGEN. Für WikiWord wäre es wünschenswert, wenn an solchen Stellen in der Begriffsklärung ein Wiki-Link auf einen noch nicht 13. Analyse von Begriffsklärungsseiten 118 existierenden Artikel über den Ortsteil stünde — allerdings ist das aus der pragmatischen Sicht der Wikipedia nur dann wünschenswert, wenn der Ortsteil hinreichend „interessant“ ist, dass sich ein eigener Artikel darüber „lohnt“. Eine Alternative ist es, auf einen Abschnitt in dem übergeordneten Artikel zu verweisen, wenn es diesen gibt, in diesem Fall etwa BROBERGEN#H¨UTTENBERG.
History
Enable pagination
rows per page
HTML diff
Side-by-side diff
Side-by-side diff by characters
Inline diff
Inline diff by characters
Full side-by-side diff
Full side-by-side diff by characters
Full inline diff
Full inline diff by characters
Unified diff
Side-by-side view
HTML diff
Side-by-side diff
Advanced
Information
Version
Fri 30 of May, 2008 21:28 GMT
alain_desilets
1
Select action to perform with checked...
Remove
OK
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display