History: DanielKinzler Chapter 7: Framework

View page
Source of version: 1 (current)

7. Framework
In den vorangegangenen Kapiteln wurde ein grober Entwurf fÃ¼r die FunktionalitÃ¤t von
WikiWord entwickelt (.3) und die zu bewÃ¤ltigenden Aufgaben sowie die zu berÃ¼cksichtigenden
Rahmenbedingungen spezifiziert (.5). Dieses Kapitel gibt nun einen Ãœberblick Ã¼ber die zu diesem
Zweck entwickelten Softwarekomponenten (siehe Anhang G fÃ¼r Zugang zum Quellcode). Eine
Beschreibung der Kommandozeilenschnittstelle fÃ¼r WikiWord findet sich in Anhang B.
7.1. Import-Architektur
Dieser Abschnitt gibt eine Ãœbersicht Ã¼ber die wichtigsten Klassen und Komponenten von
WikiWord. Im Zentrum der Betrachtung steht dabei ImportConcepts, das Programm zur
Extraktion der Thesaurusdaten aus dem Wiki-Text.
Die Programme, die die Kommandozeilenschnittstelle vonWikiWord bilden, sowie die Parameter
und Optionen fÃ¼r ihren Aufruf sind in Anhang B beschrieben. Weitere MÃ¶glichkeiten zur
Konfiguration bieten die sogenannten Tweak-Werte, siehe .B.5. Eine Auflistung der relevanten
Klassen und Packages ist in .G gegeben.
Die Basis fÃ¼r alle Programme der Kommandozeilenschnittstelle von WikiWord ist
die Klasse CliApp: Sie stellt BasisfunktionalitÃ¤t unter anderem zur Verarbeitung von
Kommandozeilenparametern und zur Ausgabe von Log-Nachrichten bereit. Alle in .B.1 erwÃ¤hnten
Import-Programme mit Ausnahme von ExportSkos, bauen auf der von CliApp
abgeleiteten Klasse ImportApp auf: dieses bietet UnterstÃ¼tzung fÃ¼r die Verwendung des Agenda-
Systems zur Ablaufkontrolle (siehe Anhang B.6) sowie fÃ¼r die Erzeugung eines geeigneten
Datenzugriffsobjektes fÃ¼r die Interaktion mit der Datenbank (siehe .C.3).
Eine genauere Betrachtung verdient die Klasse ImportDump, auf der auch ImportConcepts basiert,
welches der Einstiegspunkt fÃ¼r einen GroÃŸteil der Extraktionslogik ist. ImportDump ist von
ImportApp abgeleitet und bildet das Framework fÃ¼r eine Consumer-Producer-Architektur fÃ¼r
den Import von Daten: Eine Implementation des Interfaces ImportDriver liest â€žSeitenâ€œ aus einer
Datenquelle und Ã¼bergibt sie, eine nach der anderen, an eine Implementation des Interfaces
WikiWordImporter, die die Daten dann weiter verarbeitet. Die Klasse AbstractImporter
bildet die Basis fÃ¼r Implementationen dieses Interfaces und bietet Funktionen insbesondere
fÃ¼r die Ablaufsteuerung Ã¼ber das Agenda-Objekt sowie fÃ¼r die Umsetzung allgemeiner
Kommandozeilenparameter.
Im Normalfall sollen die Wiki-Seiten aus einem Wikipedia-Dump gelesen werden [MW:XML].
Dies wird von der Klasse DumpImportDriver umgesetzt (einer Implementation des Interfaces
ImportDriver), die ihrerseits auf die MWDumper-Bibliothek von Wikimedia zurÃ¼ckgreift
[MW:DUMPER]: Sie verarbeitet die XML-Struktur und ruft fÃ¼r jede enthaltene Wiki-Seite die
Methode handlePage auf dem WikiWordImporter auf. Dabei wird die XML-Datei automatisch
dekomprimiert, sollte dies erforderlich ein1.
1UnterstÃ¼tzt werden die weit verbreiteten Formate GZip und BZip2.
7. Framework 38
FÃ¼r die Analyse des Wiki-Textes und den Import der so gewonnenen Ressourcen in das lokale
Datenmodell verwendet das Programm ImportConcepts die Klasse ConceptImporter als
Implementation von WikiWordImporter. Diese Ã¼berfÃ¼hrt den rohen Wiki-Text zunÃ¤chst unter
Verwendung von WikiTextAnalyzer in das Ressourcenmodell (siehe .4.1, .8, .D.1), interpretiert
die Eigenschaften der Ressource (.4.2, .9.1) und schreibt das Ergebnis dann in das lokale
Datenmodell, ein Datenzugriffsobjekt des Typs LocalConceptStoreBuilder (siehe und .C.4).
Die Interaktion von DumpImportDriver, ConceptImporter, WikiTextAnalyzer und
LocalConceptStoreBuilder wird im nÃ¤chsten Abschnitt genauer erlÃ¤utert.
7.2. Ablauf und Parallelisierung (Pipeline)
main:DumpImportDriver read read read
imperter:ConceptImporter handlePage
handle
(queue)
handlePage
handle
(queue)
handlePage
handle
(queue)
flusher:DatabaseLocalStoreBuilder
store
(buffer)
flush
store store
(buffer)
Abb. 7.1: Parallelisierung: die Import-Pipeline
Die Aufgabe von ImportConcepts lÃ¤sst sich in zwei Abschnitte gliedern: den eigentlichen
Datenimport, also das Lesen, Interpretieren und Speichern der Daten, und die Nachbereitung, also
die Konsolidierung der Daten. Der Datenimport ist selbst in mehrere Schritte gegliedert, von denen
einige parallel ausgefÃ¼hrt werden kÃ¶nnenâ€”diese Parallelisierung soll hier nÃ¤her beschrieben
werden.
Die am Datenimport beteiligten Komponenten sind DumpImportDriver,
ConceptImporterWikiTextAnalyzer und LocalConceptStoreBuilder bzw.
DatabaseLocalConceptStoreBuilder. Diese Komponenten arbeiten zum Teil parallel
(siehe Abb. 7.1) und sind wie folgt gekoppelt:
Im Haupt-Thread des ImportConcepts-Programms wird die runImport-Methode von
DumpImportDriver aufgerufen â€” sie ist der Einstiegspunkt fÃ¼r den gesamten Datenimport.
DumpImportDriver extrahiert mit Hilfe der MWDumper-Bibliothek den Wiki-Text der einzelnen
Seiten aus der XML-Struktur der Dump-Datei. Der Wiki-Text jeder Seite wird dann,
zusammen mit der zugehÃ¶rigen Metainformation wie dem Seitentitel, in eine Warteschlange
eingefÃ¼gt, aus der er, gemÃ¤ÃŸ dem Consumer-Producer-Muster, von einem anderen Thread
herausgenommen wird, der ihn dann an die Methode handlePage von ConceptImporter
Ã¼bergibt. Die Warteschlange ist auf n EintrÃ¤ge beschrÃ¤nkt: wenn sich schon n unbearbeitete
EintrÃ¤ge in der Warteschlange befinden, wenn der Producer (DumpImportDriver) einen Eintrag
7. Framework 39
hinzufÃ¼gen will, so wird dieser blockiert, bis der Consumer (ConceptImporter) einen Eintrag
aus der Warteschlange entnommen hat. Die LÃ¤nge der Warteschlange ist per Default 8 und
kann Ã¼ber den Tweak-Wert dumpdriver.pageImportQueue konfiguriert werden â€” die LÃ¤nge
ist aber relativ unerheblich, da die Warteschlange in der Regel voll und der Producer-Thread
blockiert ist. Die Warteschlange dient also nicht als Puffer, sondern lediglich der Entkopplung
der beiden AktivitÃ¤ten, die eine parallele AusfÃ¼hrung erlaubt; eine Entkopplung nach dem
Rendezvous-Muster wÃ¤re hier ebenfalls ausreichend. Wird dumpdriver.pageImportQueue auf
0 gesetzt, so wird der Import â€ždurchgekoppeltâ€œ und keine Warteschlange verwendet â€” in diesem
Fall ruft der DumpImportDriver direkt die Methode handlePage von ConceptImporter auf.
Wie oben beschrieben, wird der ConceptImporter in einem eigenen Thread betrieben und
aus einer Warteschlange bedient. FÃ¼r jeden Eintrag aus der Warteschlange wird die Methode
handlePage mit dem Wiki-Text und den zugehÃ¶rigen Metadaten wie dem Seitentitel aufgerufen.
Diese Methode verwendet nun zunÃ¤chst den WikiTextAnalyzer, um den Wiki-Text in das
Ressourcenmodell, implementiert durch WikiTextAnalyzer.WikiPage (siehe .D.1), zu Ã¼berfÃ¼hren,
das heiÃŸt, den Text zu parsen und die relevanten Features (.4.1) wie Wiki-Links, verwendete
Vorlagen etc. zu extrahieren. Die so bestimmten Eigenschaften werden dann interpretiert
und entsprechende Informationen werden zur Speicherung an die Datenzugriffsschicht Ã¼bergeben
(siehe .9.1 und .C.4).
Die datenbankbasierte Implementation der Datenzugriffsschicht (DAO),
DatabaseLocalConceptStoreBuilder, verwendet intern fÃ¼r jede Datenbanktabelle einen
Puffer, in dem neue EintrÃ¤ge zwischengespeichert werden. Ist ein Puffer voll, so wird er in eine
Warteschlange gelegt und ein neuer Puffer fÃ¼r die betreffende Tabelle verwendet. Ein separater
Thread arbeitet im Hintergrund die Puffer aus der Warteschlange ab, indem er einen nach
dem anderen entnimmt und an die Datenbank weiterleitet. Das entspricht einer asynchronen
Flush-Funktion fÃ¼r die Puffer. Bei einem expliziten Aufruf der Methode flush werden die Puffer
aller Tabellen in die Warteschlange des Flush-Threads gelegt und dann gewartet, bis alle Daten in
die Datenbank geschrieben wurden.
Die LÃ¤nge der Warteschlange fÃ¼r die asynchronen Flush-Funktion ist per Default 4 und kann Ã¼ber
den Tweak-Wert dbstore.backgroundFlushQueue konfiguriert werden â€” die LÃ¤nge ist aber
relativ unerheblich, da die Warteschlange in der Regel leer sein sollte, da nur recht selten EintrÃ¤ge
in ihr abgelegt werden. Sollte die Warteschlange hÃ¤ufig voll sein und damit den Arbeitsthread
blockieren, sollte die GrÃ¶ÃŸe der EinfÃ¼gepuffer erhÃ¶ht werden â€” das kann Ã¼ber den Tweak-
Wert dbstore.insertionBufferFactor geschehen. Dabei ist allerdings zu beachten, dass die
GrÃ¶ÃŸe jedes einzelnen Puffers durch die MySQL-Konfigurationsvariable max_allowed_packet
begrenzt ist â€” gegebenenfalls muss auch diese erhÃ¶ht werden. Die Warteschlange dient also
vornehmlich der Entkopplung der langwierigen Flush-Operation, so dass diese parallel zur
Analyse des Wiki-Textes ausgefÃ¼hrt werden kann. Wird dbstore.backgroundFlushQueue
auf 0 gesetzt, so wird die Flush-Operation â€ždurchgekoppeltâ€œ und keine Warteschlange verwendet
â€” in diesem Fall muss der Arbeitsthread warten, wÃ¤hrend volle EinfÃ¼gepuffer in
die Datenbank Ã¼bertragen werden. Werden die Tweak-Werte dbstore.useEntityBuffer und
dbstore.useRelationBuffer auf false gesetzt, so wird fÃ¼r das EinfÃ¼gen in die Datenbank
gar kein Puffer benutzt, jeder Eintrag wird sofort Ã¼bertragen. Dieser Modus ist allerdings sehr
langsam und nur fÃ¼r die Fehlersuche sinnvoll.