DanielKinzler Chapter 5: Anforderungen

5. Anforderungen
Im Folgenden werden die Anforderungen aufgefÃ¼hrt, die an WikiWord, das System zur automatischen
Extraktion eines multilingualen Thesaurus aus der Wikipedia, gestellt werden.
5.1. Aufgaben
WikiWord soll in der Lage sein, auf Basis des Wikipedia-Korpus die folgenden Informationen
effizient zu liefern:
1. Eine Liste der Konzepte (Bedeutungen) die zu einem Term (Bezeichnung, Wort, Phrase)
einer bestimmten Sprache gehÃ¶ren, mit Ranking nach HÃ¤ufigkeit/Wahrscheinlichkeit.
2. Eine Liste aller Terme (Bezeichnungen, WÃ¶rter, Phrasen) fÃ¼r ein Konzept in einer gegebenen
Sprache, mit Ranking nach HÃ¤ufigkeit/Wahrscheinlichkeit.
3. Ãœbersetzungen eines Terms aus einer Sprache in eine andere, gegebenenfalls getrennt fÃ¼r
unterschiedliche Bedeutungen. Das ergibt sich aus einer Kombination der beiden vorausgegangenen
Punkte: a) Finden aller mÃ¶glichen Bedeutungen eines Terms in einer Sprache,
b) Anzeige aller Bedeutungen mit jeweils allen mÃ¶glichen Bezeichnungen in einer anderen
Sprache.
4. Ãœber- bzw. untergeordnete Konzepte zu einem gegebenen Konzept, wobei diese
Subsumtionsrelation azyklisch sein soll.
5. Eine grobe, sprachunabhÃ¤ngige Klassifikation von Konzepten, also Zuordnung eines von
einigen wenigen fest vorgegebenen Typen (z. B. Person, Ort, Zeit, etc).
6. Die semantische Verwandtheit (Semantic Relatedness, SR) zwischen zwei gegebenen
Konzepten.
7. Eine Zuweisung einer Bedeutung (Konzept) zu jeweils einem Term in einer Menge von
Termen (Disambiguierung im Kontext).
8. Eine Glosse (Definitionssatz) zu (mÃ¶glichst) jedem Konzept.
5.2. Rahmenbedingungen
1. Als Eingabe soll ausschlieÃŸlich der Wiki-Text (.A) von den Seiten der Wikipedia dienen,
wie er in den Wikipedia XML-Dumps enthalten ist MW:XML, WM:DOWNLOAD. Zur
Verarbeitung soll nur ein Minimum von sprach- und Wikipedia-spezifischem Wissen benÃ¶tigt
werden.
5. Anforderungen 34
2. Die Extraktion der gewÃ¼nschten Daten sowie ihre Verarbeitung und ÃœberfÃ¼hrung in die
fÃ¼r die Nutzung gewÃ¼nschte Form soll hinreichend effizient sein: das Verfahren muss auf
eine Datenbasis von mehreren Millionen Dateien anwendbar sein und in annehmbarer Zeit
terminieren. Anzustreben ist dabei ein in Bezug auf die Anzahl der im Korpus enthaltenen
Links subquadratischer Zeit- und Platzaufwand.
3. Die Daten sollen zur weiteren Nutzung in einem relationalen Datenbanksystem abgelegt
werden, in einer Form, die eine effiziente Abfrage bezÃ¼glich der intendierten Datennutzung
erlaubt.
4. Die erzeugten Daten sollen in bestehende Thesaurus- oder WÃ¶rterbuchsysteme integrierbar
sein.
5. Das Softwaresystem soll leicht anzupassen und zu erweitern sein. Insbesondere soll die
Software ohne Schwierigkeiten an Ã„nderungen der Konventionen einzelner Wikipedias, an
der Wiki-Text-Syntax oder an dem fÃ¼r die Dumps verwendeten XML Format angepasst
werden kÃ¶nnen.
6. Das Softwaresystem soll auf verschiedenen Betriebssystemen lauffÃ¤hig bzw. leicht portierbar
sein.

DanielKinzler Chapter 5: Anforderungen

SideMenu

Latest Changes

Search

Log In

Upcoming Events