6. Plattform
WikiWord, das System zur Extraktion eines multilingualen Thesaurus, soll leistungsfähig, flexibel
und portierbar sein. In Hinblick darauf sind vor allem zwei Dinge als Basis für die Implementation
auszuwählen: Die Programmiersprache (und Laufzeitumgebung) sowie die Persistenzplattform
zur Datenspeicherung. In Hinblick auf die Weiterverwendbarkeit der Daten muss eine für die
Weiternutzung durch Dritte geeignete externe Darstellung gefunden werden.
6.1. Laufzeitumgebung: Java
Als Programmiersprache und Laufzeitumgebung wurde Java gewählt, unter anderem aus folgenden
Gründen:
• Java verbindet gute Performanz mit einem hohen Grad an Abstraktion und Modularität.
• Java bietet eine große Auswahl frei verfügbarer Bibliotheken.
• Java ist im akademischen Umfeld weit verbreitet wegen seiner guten Lesbarkeit und wohldefinierten
Semantik.
6.2. Datenbank: MySQL
Als internes Speichersystem wurde ein relationales Datenbanksystem gewählt, nämlich MySQL
MYSQL:
• Die zu speichernden Daten sind relationaler Natur.
• Ein relationales Datenbanksystem bietet effizienten Zugriff auch bei sehr großen
Datenmengen.
• Die Nutzung eines Datenbanksystems vermeidet zusätzlichen Programmieraufwand für die
Persistenzlogik.
• MySQL ist freie Software und läuft auf allen verbreiteten Betriebssystemen.
• MySQL ist für den Umgang mit sehr großen Datenmengen wohl erprobt und gilt als verhältnismäßig
performant.
Die Anbindung von MySQL an die Java-Anwendung erfolgt über Javas Standard
Datenbankschnittstelle, JDBC JDBC, und wird durch eine Datenzugriffsschicht (DAO) gekapselt
(siehe .C.3).
6. Plattform 36
6.3. Austauschformat: SKOS
Als Datenformat für den Austausch und die Weiterverwendung des erstellten Thesaurus wurde
SKOS W3C:SKOS (2004), MILES (2005B) gewählt, insbesondere aus den folgenden Gründen
GREGOROWICZ UND KRAMER (2006), VAN ASSEM U. A. (2006), W3C (2005):
• SKOS ist ein vorgeschlagener W3C-Standard und baut auf den wohlbekannten Standards
XML, RDF und OWL auf.
• SKOS wurde für die Repräsentation von Thesauri und Wissensnetzen entworfen und eignet
sich daher sehr gut für die vorliegenden Daten.
• SKOS ist (im Gegensatz zu dem ISO-Modellen ISO:2788 (1986)) konzeptorientiert und passt
daher gut zu dem verwendeten Datenmodell.
• SKOS wird von einer Vielzahl von Systemen zur Sprach- und Wissensverarbeitung unterstützt.
WikiWord, das System zur Extraktion eines multilingualen Thesaurus, soll leistungsfähig, flexibel
und portierbar sein. In Hinblick darauf sind vor allem zwei Dinge als Basis für die Implementation
auszuwählen: Die Programmiersprache (und Laufzeitumgebung) sowie die Persistenzplattform
zur Datenspeicherung. In Hinblick auf die Weiterverwendbarkeit der Daten muss eine für die
Weiternutzung durch Dritte geeignete externe Darstellung gefunden werden.
6.1. Laufzeitumgebung: Java
Als Programmiersprache und Laufzeitumgebung wurde Java gewählt, unter anderem aus folgenden
Gründen:
• Java verbindet gute Performanz mit einem hohen Grad an Abstraktion und Modularität.
• Java bietet eine große Auswahl frei verfügbarer Bibliotheken.
• Java ist im akademischen Umfeld weit verbreitet wegen seiner guten Lesbarkeit und wohldefinierten
Semantik.
6.2. Datenbank: MySQL
Als internes Speichersystem wurde ein relationales Datenbanksystem gewählt, nämlich MySQL
MYSQL:
• Die zu speichernden Daten sind relationaler Natur.
• Ein relationales Datenbanksystem bietet effizienten Zugriff auch bei sehr großen
Datenmengen.
• Die Nutzung eines Datenbanksystems vermeidet zusätzlichen Programmieraufwand für die
Persistenzlogik.
• MySQL ist freie Software und läuft auf allen verbreiteten Betriebssystemen.
• MySQL ist für den Umgang mit sehr großen Datenmengen wohl erprobt und gilt als verhältnismäßig
performant.
Die Anbindung von MySQL an die Java-Anwendung erfolgt über Javas Standard
Datenbankschnittstelle, JDBC JDBC, und wird durch eine Datenzugriffsschicht (DAO) gekapselt
(siehe .C.3).
6. Plattform 36
6.3. Austauschformat: SKOS
Als Datenformat für den Austausch und die Weiterverwendung des erstellten Thesaurus wurde
SKOS W3C:SKOS (2004), MILES (2005B) gewählt, insbesondere aus den folgenden Gründen
GREGOROWICZ UND KRAMER (2006), VAN ASSEM U. A. (2006), W3C (2005):
• SKOS ist ein vorgeschlagener W3C-Standard und baut auf den wohlbekannten Standards
XML, RDF und OWL auf.
• SKOS wurde für die Repräsentation von Thesauri und Wissensnetzen entworfen und eignet
sich daher sehr gut für die vorliegenden Daten.
• SKOS ist (im Gegensatz zu dem ISO-Modellen ISO:2788 (1986)) konzeptorientiert und passt
daher gut zu dem verwendeten Datenmodell.
• SKOS wird von einer Vielzahl von Systemen zur Sprach- und Wissensverarbeitung unterstützt.