5. Anforderungen
Im Folgenden werden die Anforderungen aufgeführt, die an WikiWord, das System zur automatischen
Extraktion eines multilingualen Thesaurus aus der Wikipedia, gestellt werden.
5.1. Aufgaben
WikiWord soll in der Lage sein, auf Basis des Wikipedia-Korpus die folgenden Informationen
effizient zu liefern:
1. Eine Liste der Konzepte (Bedeutungen) die zu einem Term (Bezeichnung, Wort, Phrase)
einer bestimmten Sprache gehören, mit Ranking nach Häufigkeit/Wahrscheinlichkeit.
2. Eine Liste aller Terme (Bezeichnungen, Wörter, Phrasen) für ein Konzept in einer gegebenen
Sprache, mit Ranking nach Häufigkeit/Wahrscheinlichkeit.
3. Übersetzungen eines Terms aus einer Sprache in eine andere, gegebenenfalls getrennt für
unterschiedliche Bedeutungen. Das ergibt sich aus einer Kombination der beiden vorausgegangenen
Punkte: a) Finden aller möglichen Bedeutungen eines Terms in einer Sprache,
b) Anzeige aller Bedeutungen mit jeweils allen möglichen Bezeichnungen in einer anderen
Sprache.
4. Über- bzw. untergeordnete Konzepte zu einem gegebenen Konzept, wobei diese
Subsumtionsrelation azyklisch sein soll.
5. Eine grobe, sprachunabhängige Klassifikation von Konzepten, also Zuordnung eines von
einigen wenigen fest vorgegebenen Typen (z. B. Person, Ort, Zeit, etc).
6. Die semantische Verwandtheit (Semantic Relatedness, SR) zwischen zwei gegebenen
Konzepten.
7. Eine Zuweisung einer Bedeutung (Konzept) zu jeweils einem Term in einer Menge von
Termen (Disambiguierung im Kontext).
8. Eine Glosse (Definitionssatz) zu (möglichst) jedem Konzept.
5.2. Rahmenbedingungen
1. Als Eingabe soll ausschließlich der Wiki-Text (.A) von den Seiten der Wikipedia dienen,
wie er in den Wikipedia XML-Dumps enthalten ist MW:XML, WM:DOWNLOAD. Zur
Verarbeitung soll nur ein Minimum von sprach- und Wikipedia-spezifischem Wissen benötigt
werden.
5. Anforderungen 34
2. Die Extraktion der gewünschten Daten sowie ihre Verarbeitung und Überführung in die
für die Nutzung gewünschte Form soll hinreichend effizient sein: das Verfahren muss auf
eine Datenbasis von mehreren Millionen Dateien anwendbar sein und in annehmbarer Zeit
terminieren. Anzustreben ist dabei ein in Bezug auf die Anzahl der im Korpus enthaltenen
Links subquadratischer Zeit- und Platzaufwand.
3. Die Daten sollen zur weiteren Nutzung in einem relationalen Datenbanksystem abgelegt
werden, in einer Form, die eine effiziente Abfrage bezüglich der intendierten Datennutzung
erlaubt.
4. Die erzeugten Daten sollen in bestehende Thesaurus- oder Wörterbuchsysteme integrierbar
sein.
5. Das Softwaresystem soll leicht anzupassen und zu erweitern sein. Insbesondere soll die
Software ohne Schwierigkeiten an Änderungen der Konventionen einzelner Wikipedias, an
der Wiki-Text-Syntax oder an dem für die Dumps verwendeten XML Format angepasst
werden können.
6. Das Softwaresystem soll auf verschiedenen Betriebssystemen lauffähig bzw. leicht portierbar
sein.
Im Folgenden werden die Anforderungen aufgeführt, die an WikiWord, das System zur automatischen
Extraktion eines multilingualen Thesaurus aus der Wikipedia, gestellt werden.
5.1. Aufgaben
WikiWord soll in der Lage sein, auf Basis des Wikipedia-Korpus die folgenden Informationen
effizient zu liefern:
1. Eine Liste der Konzepte (Bedeutungen) die zu einem Term (Bezeichnung, Wort, Phrase)
einer bestimmten Sprache gehören, mit Ranking nach Häufigkeit/Wahrscheinlichkeit.
2. Eine Liste aller Terme (Bezeichnungen, Wörter, Phrasen) für ein Konzept in einer gegebenen
Sprache, mit Ranking nach Häufigkeit/Wahrscheinlichkeit.
3. Übersetzungen eines Terms aus einer Sprache in eine andere, gegebenenfalls getrennt für
unterschiedliche Bedeutungen. Das ergibt sich aus einer Kombination der beiden vorausgegangenen
Punkte: a) Finden aller möglichen Bedeutungen eines Terms in einer Sprache,
b) Anzeige aller Bedeutungen mit jeweils allen möglichen Bezeichnungen in einer anderen
Sprache.
4. Über- bzw. untergeordnete Konzepte zu einem gegebenen Konzept, wobei diese
Subsumtionsrelation azyklisch sein soll.
5. Eine grobe, sprachunabhängige Klassifikation von Konzepten, also Zuordnung eines von
einigen wenigen fest vorgegebenen Typen (z. B. Person, Ort, Zeit, etc).
6. Die semantische Verwandtheit (Semantic Relatedness, SR) zwischen zwei gegebenen
Konzepten.
7. Eine Zuweisung einer Bedeutung (Konzept) zu jeweils einem Term in einer Menge von
Termen (Disambiguierung im Kontext).
8. Eine Glosse (Definitionssatz) zu (möglichst) jedem Konzept.
5.2. Rahmenbedingungen
1. Als Eingabe soll ausschließlich der Wiki-Text (.A) von den Seiten der Wikipedia dienen,
wie er in den Wikipedia XML-Dumps enthalten ist MW:XML, WM:DOWNLOAD. Zur
Verarbeitung soll nur ein Minimum von sprach- und Wikipedia-spezifischem Wissen benötigt
werden.
5. Anforderungen 34
2. Die Extraktion der gewünschten Daten sowie ihre Verarbeitung und Überführung in die
für die Nutzung gewünschte Form soll hinreichend effizient sein: das Verfahren muss auf
eine Datenbasis von mehreren Millionen Dateien anwendbar sein und in annehmbarer Zeit
terminieren. Anzustreben ist dabei ein in Bezug auf die Anzahl der im Korpus enthaltenen
Links subquadratischer Zeit- und Platzaufwand.
3. Die Daten sollen zur weiteren Nutzung in einem relationalen Datenbanksystem abgelegt
werden, in einer Form, die eine effiziente Abfrage bezüglich der intendierten Datennutzung
erlaubt.
4. Die erzeugten Daten sollen in bestehende Thesaurus- oder Wörterbuchsysteme integrierbar
sein.
5. Das Softwaresystem soll leicht anzupassen und zu erweitern sein. Insbesondere soll die
Software ohne Schwierigkeiten an Änderungen der Konventionen einzelner Wikipedias, an
der Wiki-Text-Syntax oder an dem für die Dumps verwendeten XML Format angepasst
werden können.
6. Das Softwaresystem soll auf verschiedenen Betriebssystemen lauffähig bzw. leicht portierbar
sein.