DanielKinzler Chapter 3: Idee

3. Idee
Das zu erstellende Softwaresystem WikiWord soll in effizienter Weise die für einen multilingualen,
konzeptorientierten Thesaurus benötigten Relationen aus demWiki-Text extrahieren (für eine
detaillierte Aufstellung von Anforderungen, siehe .5). Die Grundidee ist dabei, die Extraktion im
Wesentlichen auf die unterschiedlichen Arten von Hyperlinks, die in Wikipedia-Artikeln vorkommen,
zu beschränken (.A.3):
• Einfache Wiki-Links liefern Informationen über den semantischen Kontext von Konzepten
— sie können unter anderem verwendet werden, um semantische Verwandtheit zu bestimmen
(vergleiche .2.3, .2.4 und insbesondere GREGOROWICZ UND KRAMER (2006)).
• Der Link-Text liefert zudem Informationen über Bezeichnungen, die für das Konzept (das
Link-Ziel) verwendet werden (vergleiche .2.3 und besonders MIHALCEA (2007), EIRON UND
MCCURLEY (2003), KRAFT UND ZIEN (2004)
).
• Kategorisierungs-Links liefern die Subsumtionsrelation (vergleiche .2.3 und .2.4, insbesondere
PONZETTO UND STRUBE (2007B))
• Language-Links verbinden Beschreibungen des gleichen Konzeptes in unterschiedlichen
Sprachen — aus ihnen kann auf die semantische Ähnlichkeit von Konzepten geschlossen
werden, sowohl innerhalb einer Sprache als auch zwischen verschiedenen Sprachen.
Sie können daher verwendet werden, um einen multilingualen Thesaurus aufzubauen, indem
ähnliche Konzepte aus unterschiedlichen Sprachen zu sprachübergreifenden Konzepten
zusammengefasst werden (siehe .4.3). Dieser Ansatz wurde in den eingangs erwähnten
Arbeiten noch nicht untersucht.
Neben den Links können noch weitere Eigenschaften betrachtet werden, zum Beispiel die auf
einer Seite verwendeten Vorlagen. Sie können zur Klassifikation von Seiten und Konzepten
(.8.5 bzw. .8.6) verwendet werden, vergleiche .2.6. Weiterleitungen und Begriffsklärungsseiten
sowie bestimmte Magic Words können verwendet werden, um Konzepten zusätzliche Terme
(Bezeichnungen) zuzuweisen (siehe .8.9 und .8.10 sowie .9.1).
Dieser Ansatz, der sich auf Wiki-Links und andere Markup-Elemente konzentriert, umgeht
eine Anzahl von Schwierigkeiten, die bei den klassischen Methoden der automatischen
Thesaurusgenerierung auftreten (vergleiche NAKAYAMA U. A. (2007A)): insbesondere findet keine
Analyse natürlicher Sprache statt und selbst auf der lexikalischen Ebene werden problematische
Aufgaben wie Stammformreduktion (Stemming) vermieden. Zudem wird anstelle von statistischen
Verfahren und Heuristiken vor allem direkt menschliches Wissen genutzt, das über Regeln und
Konventionen in den Wikipedia-Seiten kodiert ist (vergleiche .1.2, .8, .9.1).


Upcoming Events

No records to display