History: DanielKinzler Chapter 3: Idee
View page
Source of version: 1
(current)
3. Idee Das zu erstellende Softwaresystem WikiWord soll in effizienter Weise die für einen multilingualen, konzeptorientierten Thesaurus benötigten Relationen aus demWiki-Text extrahieren (für eine detaillierte Aufstellung von Anforderungen, siehe .5). Die Grundidee ist dabei, die Extraktion im Wesentlichen auf die unterschiedlichen Arten von Hyperlinks, die in Wikipedia-Artikeln vorkommen, zu beschränken (.A.3): • Einfache Wiki-Links liefern Informationen über den semantischen Kontext von Konzepten — sie können unter anderem verwendet werden, um semantische Verwandtheit zu bestimmen (vergleiche .2.3, .2.4 und insbesondere [GREGOROWICZ UND KRAMER (2006)]). • Der Link-Text liefert zudem Informationen über Bezeichnungen, die für das Konzept (das Link-Ziel) verwendet werden (vergleiche .2.3 und besonders [MIHALCEA (2007), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)]). • Kategorisierungs-Links liefern die Subsumtionsrelation (vergleiche .2.3 und .2.4, insbesondere [PONZETTO UND STRUBE (2007B)]) • Language-Links verbinden Beschreibungen des gleichen Konzeptes in unterschiedlichen Sprachen — aus ihnen kann auf die semantische Ähnlichkeit von Konzepten geschlossen werden, sowohl innerhalb einer Sprache als auch zwischen verschiedenen Sprachen. Sie können daher verwendet werden, um einen multilingualen Thesaurus aufzubauen, indem ähnliche Konzepte aus unterschiedlichen Sprachen zu sprachübergreifenden Konzepten zusammengefasst werden (siehe .4.3). Dieser Ansatz wurde in den eingangs erwähnten Arbeiten noch nicht untersucht. Neben den Links können noch weitere Eigenschaften betrachtet werden, zum Beispiel die auf einer Seite verwendeten Vorlagen. Sie können zur Klassifikation von Seiten und Konzepten (.8.5 bzw. .8.6) verwendet werden, vergleiche .2.6. Weiterleitungen und Begriffsklärungsseiten sowie bestimmte Magic Words können verwendet werden, um Konzepten zusätzliche Terme (Bezeichnungen) zuzuweisen (siehe .8.9 und .8.10 sowie .9.1). Dieser Ansatz, der sich auf Wiki-Links und andere Markup-Elemente konzentriert, umgeht eine Anzahl von Schwierigkeiten, die bei den klassischen Methoden der automatischen Thesaurusgenerierung auftreten (vergleiche [NAKAYAMA U. A. (2007A)]): insbesondere findet keine Analyse natürlicher Sprache statt und selbst auf der lexikalischen Ebene werden problematische Aufgaben wie Stammformreduktion (Stemming) vermieden. Zudem wird anstelle von statistischen Verfahren und Heuristiken vor allem direkt menschliches Wissen genutzt, das über Regeln und Konventionen in den Wikipedia-Seiten kodiert ist (vergleiche .1.2, .8, .9.1).
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display