History: DanielKinzler Chapter 5: Anforderungen
View page
Collapse Into Edit Sessions
Source of version: 1
(current)
«
»
5. Anforderungen Im Folgenden werden die Anforderungen aufgeführt, die an WikiWord, das System zur automatischen Extraktion eines multilingualen Thesaurus aus der Wikipedia, gestellt werden. 5.1. Aufgaben WikiWord soll in der Lage sein, auf Basis des Wikipedia-Korpus die folgenden Informationen effizient zu liefern: 1. Eine Liste der Konzepte (Bedeutungen) die zu einem Term (Bezeichnung, Wort, Phrase) einer bestimmten Sprache gehören, mit Ranking nach Häufigkeit/Wahrscheinlichkeit. 2. Eine Liste aller Terme (Bezeichnungen, Wörter, Phrasen) für ein Konzept in einer gegebenen Sprache, mit Ranking nach Häufigkeit/Wahrscheinlichkeit. 3. Übersetzungen eines Terms aus einer Sprache in eine andere, gegebenenfalls getrennt für unterschiedliche Bedeutungen. Das ergibt sich aus einer Kombination der beiden vorausgegangenen Punkte: a) Finden aller möglichen Bedeutungen eines Terms in einer Sprache, b) Anzeige aller Bedeutungen mit jeweils allen möglichen Bezeichnungen in einer anderen Sprache. 4. Über- bzw. untergeordnete Konzepte zu einem gegebenen Konzept, wobei diese Subsumtionsrelation azyklisch sein soll. 5. Eine grobe, sprachunabhängige Klassifikation von Konzepten, also Zuordnung eines von einigen wenigen fest vorgegebenen Typen (z. B. Person, Ort, Zeit, etc). 6. Die semantische Verwandtheit (Semantic Relatedness, SR) zwischen zwei gegebenen Konzepten. 7. Eine Zuweisung einer Bedeutung (Konzept) zu jeweils einem Term in einer Menge von Termen (Disambiguierung im Kontext). 8. Eine Glosse (Definitionssatz) zu (möglichst) jedem Konzept. 5.2. Rahmenbedingungen 1. Als Eingabe soll ausschließlich der Wiki-Text (.A) von den Seiten der Wikipedia dienen, wie er in den Wikipedia XML-Dumps enthalten ist [MW:XML, WM:DOWNLOAD]. Zur Verarbeitung soll nur ein Minimum von sprach- und Wikipedia-spezifischem Wissen benötigt werden. 5. Anforderungen 34 2. Die Extraktion der gewünschten Daten sowie ihre Verarbeitung und Überführung in die für die Nutzung gewünschte Form soll hinreichend effizient sein: das Verfahren muss auf eine Datenbasis von mehreren Millionen Dateien anwendbar sein und in annehmbarer Zeit terminieren. Anzustreben ist dabei ein in Bezug auf die Anzahl der im Korpus enthaltenen Links subquadratischer Zeit- und Platzaufwand. 3. Die Daten sollen zur weiteren Nutzung in einem relationalen Datenbanksystem abgelegt werden, in einer Form, die eine effiziente Abfrage bezüglich der intendierten Datennutzung erlaubt. 4. Die erzeugten Daten sollen in bestehende Thesaurus- oder Wörterbuchsysteme integrierbar sein. 5. Das Softwaresystem soll leicht anzupassen und zu erweitern sein. Insbesondere soll die Software ohne Schwierigkeiten an Änderungen der Konventionen einzelner Wikipedias, an der Wiki-Text-Syntax oder an dem für die Dumps verwendeten XML Format angepasst werden können. 6. Das Softwaresystem soll auf verschiedenen Betriebssystemen lauffähig bzw. leicht portierbar sein.
History
Enable pagination
rows per page
HTML diff
Side-by-side diff
Side-by-side diff by characters
Inline diff
Inline diff by characters
Full side-by-side diff
Full side-by-side diff by characters
Full inline diff
Full inline diff by characters
Unified diff
Side-by-side view
Information
Version
Fri 30 of May, 2008 21:21 GMT
alain_desilets
1
Actions
View
Source
Select action to perform with checked...
Remove
OK
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display