DanielKinzler Chapter 8: Analyse des Wiki-Textes

8. Analyse des Wiki-Textes
Dieses Kapitel beschreibt, wie der Wiki-Text analysiert wird, um alle fÃ¼r WikiWord relevanten
Eigenschaften (Features) zu extrahieren und wie diese Eigenschaften im Ressourcenmodell
reprÃ¤sentiert werden. Relevante Eigenschaften sind unter anderem die Wiki-Links (inklusive
Kategorisierung, Language-Links etc., siehe .A.3), der Einleitungssatz (Glosse) und die verwendeten
Vorlagen und ihre Parameter (.A.5).
Die Logik zur Analyse von Wiki-Text (und, soweit notwendig, von natÃ¼rlicher Sprache),
sind im Java Package de.brightbyte.wikiword.analyzer implementiert. Das Package de.
brightbyte.wikiword.wikis enthÃ¤lt Klassen, die das sprach- bzw. projektspezifische Wissen
reprÃ¤sentieren, das notwendig ist, um denWiki-Text zu analysieren. Die in diesen Packages implementierten
Regeln und Muster basieren auf Informationen darÃ¼ber, wieWiki-Text im Allgemeinen
und Wikipedia-Seiten im Speziellen aufgebaut sind. Insbesondere reprÃ¤sentieren sie:
1. Die Wiki-Text Markup Syntax, wie von MediaWiki festgelegt (Anhang A). Diese Regeln
sind, soweit sie fÃ¼r WikiWord relevant sind, fest in PlainTextAnalyzer kodiert.
2. Die Konventionen und Richtlinien der einzelnen Wiki-Projekte, die zum Beispiel festlegen,
wie Artikel strukturiert werden WP:ARTIKEL, wie Kategorien zu verwenden sind
WP:KAT oder wann und wie BegriffsklÃ¤rungsseiten anzulegen sind WP:BKL. Diese Regeln
sind, soweit sie fÃ¼r WikiWord relevant sind, zumeist in der projektspezifischen Subklasse
von WikiConfiguration definiert, zum Teil aber auch fest in WikiTextAnalyzer kodiert.
3. Beobachtungen darÃ¼ber, wann bestimmte Textmuster auftreten oder wie das Wiki-Text-
Markup verwendet wird. Das sind zum Beispiel die Menge der in einer Sprache hÃ¤ufig
auftretenden AbkÃ¼rzungen, wichtig fÃ¼r das Erkennen des Endes der Glosse â€” diese
Information ist als sprachspezifisches Wissen in der betreffenden Subklasse von
LanguageConfiguration abgelegt. Ein anderes Beispiel sind Vorlagen, die hÃ¤ufig inline
im Text verwendet werden und daher vor der Verarbeitung aufgelÃ¶st werden sollten.
Sie sind mit den anderen projektspezifischen Informationen in einer Subklasse von
WikiConfiguration definiert.
Zu beachten ist, dass WikiWord ad-hoc-Heuristiken nach MÃ¶glichkeit vermeidet und statt dessen
versucht, direkt explizite Konventionen zu modellieren. So profitiert WikiWord stÃ¤rker von
der Intention der Autoren des Wiki-Textes und ist weniger auf die Intuition des Programmierers
angewiesen.
8.1. Klassen
Dieser Abschnitt beschreibt die Klassen, die fÃ¼r die Analyse des Wiki-Textes und eine
Ãœbertragung in das Ressourcenmodell wichtig sind.
8. Analyse des Wiki-Textes 41
PlainTextAnalyzer: Die Klasse PlainTextAnalyzer bietet einfache Funktionen zur Analyse
natÃ¼rlichsprachlicher Texte, insbesondere eine Methode zur Extraktion des ersten Satzes
aus einem Text, und eine Funktion zur Extraktion einzelner WÃ¶rter aus einer Zeichenkette.
Instanzen von PlainTextAnalyzer sollten Ã¼ber die Methode getPlainTextAnalyzer
erzeugt werden: Sie lÃ¤dt die fÃ¼r die gegebene Sprache passende Implementation und
Konfiguration. Die Default-Implementation funktioniert bei entsprechender Konfiguration
Ã¼ber eine LanguageConfiguration fÃ¼r die meisten europÃ¤ischen Sprachen.
LanguageConfiguration: Die Klasse LanguageConfiguration reprÃ¤sentiert eine
Konfiguration von PlainTextAnalyzer fÃ¼r eine bestimmte Sprache. Die wichtigste
sprachspezifische Information, die diese Klasse kapselt, ist ein Muster fÃ¼r
hÃ¤ufig verwendete AbkÃ¼rzungen dieser Sprache, das bei der Satzgrenzenerkennung
verwendet wird. FÃ¼r Deutsch und Englisch sind Konfigurationen im Package
de.brightbyte.wikiword.wikis definiert, fÃ¼r weitere Sprachen wie FranzÃ¶sisch,
NiederlÃ¤ndisch und Norwegisch ist eine rudimentÃ¤re Basiskonfiguration vorhanden.
WikiTextAnalyzer: Die Klasse WikiTextAnalyzer enthÃ¤lt Logik fÃ¼r die Verarbeitung vieler
Aspekte des von MediaWiki verwendeten Wiki-Text-Markups (.A). Insbesondere bietet
sie Methoden fÃ¼r den Zugriff auf Wiki-Links, Vorlagen und Artikelabschnitte, sowie
FunktionalitÃ¤t zum Entfernen von Wiki-Markup, um â€žeinfachenâ€œ Text zur weiteren
Verarbeitung zu erzeugen. Instanzen von WikiTextAnalyzer sollten Ã¼ber die Methode
getWikiTextAnalyzer erzeugt werden: Sie lÃ¤dt die fÃ¼r den gegebenen Korpus passende
Implementation und Konfiguration.
WikiTextAnalyzer.WikiPage: Die Klasse WikiTextAnalyzer.WikiPage reprÃ¤sentiert eine
Seite imWiki und implementiert damit das Ressourcenmodell vonWikiWord (.4.1). Sie bietet
Zugriff auf die verschiedenen Eigenschaften der Seite, wie sie von WikiTextAnalyzer
erkannt wurden. Diese sind im Anhang D.1 beschrieben.
WikiConfiguration: Die Klasse WikiConfiguration reprÃ¤sentiert eine Konfiguration von
WikiTextAnalyzer fÃ¼r ein bestimmtes Wiki-Projekt. Sie enthÃ¤lt Wissen Ã¼ber diverse
Konfigurationen und Konventionen fÃ¼r das betreffende Wiki. Konfigurationen sind im
Package de.brightbyte.wikiword.wikis vorhanden fÃ¼r die deutschsprachige (de.
wikipedia.org) und die englischsprachige Wikipedia (en.wikipedia.org) sowie rudimentÃ¤r
angelegt fÃ¼r die franzÃ¶sischsprachige (fr.wikipedia.org), niederlÃ¤ndischsprachige
(nl.wikipedia.org) und norwegischsprachige (no.wikipedia.org).
WikiTextSniffer: Die Klasse WikiTextSniffer erlaubt es, typische Elemente vonWiki-Text
zu erkennen. Das ist nÃ¼tzlich fÃ¼r Sanity-Checks: so sollten zum Beispiel Konzeptnamen und
Terme, die ausWiki-Links extrahiert wurden, keinenWiki-Text mehr enthalten. Tun sie das
doch, werden sie ignoriert. Das sollte nur dann auftreten, wennWiki-Markup auf inkorrekte
oder sehr ungewÃ¶hnliche Weise verwendet wurde.
Die Klassen und Dateien, die zur Konfiguration Wiki-spezifischer Werte und Muster verwendet
werden, sind in Anhang B.7 beschrieben.
8. Analyse des Wiki-Textes 42
8.2. Mechanismen
Zur Verarbeitung des Wiki-Textes werden verschiedene Techniken verwendet, hauptsÃ¤chlich aber
Mustererkennung (Pattern Matching), wobei die Muster nicht unbedingt direkt auf den vollen
Wiki-Text angewendet werden, sondern zum Teil auf schon vorverarbeiteten Text oder TextstÃ¼cke.
Um die verschiedenen Muster und Regeln in WikiConfiguration zu definieren, werden vor
allem die folgenden Klassen verwendet:
Pattern: Ein regulÃ¤rer Ausdruck, in Javas eigener Implementation JAVA:RE. Wird fÃ¼r einfache
Mustererkennung im Text verwendet.
AbstractAnalyzer.Mangler: Ein Interface fÃ¼r Klassen, die Text manipulieren, also
Ersetzungen irgendeiner Form durchfÃ¼hren. Standard-Implementationen dieses Interfaces
sind WikiTextAnalyzer.BoxStripManger zum Entfernen von Blockstrukturen
aus Wiki-Text .8.3, WikiTextAnalyzer.EntityDecodeManger zum AuflÃ¶sen
von HTML Character References W3C:HTML (1999) und AbstractAnalyzer.
RegularExpressionMangler, der beliebige Textersetzungen auf der Basis von regulÃ¤ren
AusdrÃ¼cken vornimmt.
AbstractAnalyzer.SuccessiveMangler: Ebenfalls ein Interface fÃ¼r Klassen, die Text manipulieren.
SuccessiveMangler hat dabei zusÃ¤tzlich die Eigenschaft, dass er den gegebenen
Text nicht unbedingt bis zum Ende verarbeitet und dass die Verarbeitung dort fortgesetzt
werden kann, wo sie unterbrochen wurde. So kann der Text sukzessive verarbeitet werden,
genau so weit, wie das Ergebnis tatsÃ¤chlich benÃ¶tigt wird. Die bereits erwÃ¤hnte Klasse
WikiTextAnalyzer.BoxStripManger zum Entfernen von Blockstrukturen ausWiki-Text
implementiert dieses Interface zusÃ¤tzlich zu AbstractAnalyzer.Mangler â€” das ist insbesondere
fÃ¼r das AufspÃ¼ren des ersten Absatzes eines Artikels nÃ¼tzlich.
AbstractAnalyzer.Armorer: Interface fÃ¼r Klassen, die Teile des Textes durch Platzhalter ersetzen,
um sie so vor weiteren Verarbeitungsschritten zu schÃ¼tzen. Das ist insbesondere fÃ¼r
Abschnitte imWiki-Text sinnvoll, die als verbatim markiert sind, auf die also die Regeln des
Wiki-Markup nicht angewendet werden sollen (.8.3). Das sind insbesondere Kommentare
sowie Text in <nowiki>- und <pre>-Tags (siehe .A). Die Standard-Implementation dieses Interfaces ist AbstractAnalyzer.RegularExpressionArmorer â€” sie identifiziert zu schÃ¼tzende Teile des Wiki-Textes mit Hilfe eines regulÃ¤ren Ausdrucks. WikiTextAnalyzer.Sensor: Interface fÃ¼r Klassen, die eine WikiPage auf Grund einer ihrer Eigenschaften klassifizieren: die Methode sense gibt zurÃ¼ck, ob der Sensor zu der gegebenen WikiPage passt; die Methode getValue liefert den Wert, der der Seite gegebenenfalls zugeordnet werden soll. FÃ¼r dieses Interface gibt es eine ganze Reihe von Implementationen: HasCategorySensor: Stellt fest, ob die Seite zu einer bestimmten Kategorie gehÃ¶rt. HasCategoryLikeSensor: stellt fest, ob die Seite zu einer Kategorie gehÃ¶rt, deren Name zu einem bestimmten regulÃ¤ren Ausdruck passt. 8. Analyse des Wiki-Textes 43 HasSectionSensor: Stellt fest, ob die Seite einen Abschnitt mit einem bestimmten Namen hat. HasSectionLikeSensor: stellt fest, ob die Seite einen Abschnitt hat, dessen Name zu einem bestimmten regulÃ¤ren Ausdruck passt. HasTemplateSensor: Stellt fest, ob die Seite eine bestimmte Vorlage verwendet. Optional kann auch verlangt werden, dass die Vorlage mit einem bestimmten Parameter verwendet wird und dass diesem Parameter ein bestimmter Wert zugewiesen wurde. HasTemplateLikeSensor: Stellt fest, ob wenn die Seite eine Vorlage verwendet, deren Name zu einem bestimmten regulÃ¤ren Ausdruck passt. Optional kann auch verlangt werden, dass die Vorlage mit einem bestimmten Parameter verwendet wird und dass der Wert, der diesem Parameter zugewiesen wurde, zu einem bestimmten regulÃ¤ren Ausdruck passt. RegularExpressionCleanedTextSensor: Stellt fest, ob der bereinigte Text der Seite (.8.3) zu einem bestimmten regulÃ¤ren Ausdruck passt. RegularExpressionTitleSensor: Stellt fest, ob der Titel der Seite zu einem bestimmten regulÃ¤ren Ausdruck passt. Sensoren dieser Art werden vornehmlich fÃ¼r die Klassifikation von Ressourcen und Konzepten verwendet (siehe .8.5 bzw. .8.6). Mit diesen Mitteln lassen sich die Eigenheiten eines Wikipedia-Projektes ausdrÃ¼cken und in einer Subklasse von WikiConfiguration festhalten, auf die WikiTextAnalyzer bei der Analyse von Wiki-Text zurÃ¼ckgreifen kann. 8.3. Bereinigen FÃ¼r die Verarbeitung von Wiki-Text ist es nÃ¼tzlich, bestimmte Arten oder Aspekte des Wiki- Markups vorab zu entfernen. Wie in .D.1 erwÃ¤hnt, kennt WikiWord vier Versionen des Wiki- Textes: text: der unverÃ¤nderte Wiki-Text. cleanedText: der Wiki-Text ohne stÃ¶rende Elemente, nach Anwendung von WikiTextAnalyzer.stripClutter. Diese Form des Textes ist die Basis fÃ¼r die weitere Analyse (Extraktion von Vorlagen, Links, Kategorien etc). flatText: der Wiki-Text ohne BlÃ¶cke, nach Anwendung von WikiTextAnalyzer. stripBoxes. Diese Form des Textes ist die Basis fÃ¼r die weitere Analyse auf der Textebene (Extraktion der Glosse, von AbsÃ¤tzen etc.). plainText: der Text nach dem Entfernen sÃ¤mtlicher Markup-Elemente, also nach Anwendung von WikiTextAnalyzer.stripMarkup. Diese Form des Textes kann fÃ¼r eine weitere Verarbeitung auf der Ebene natÃ¼rlicher Sprache verwendet werden. 8. Analyse des Wiki-Textes 44 Die einzelnen Methoden zum Bereinigen des Textes werden im Folgenden nÃ¤her erlÃ¤utert: WikiTextAnalyzer.stripClutter: Diese Methode entfernt oder transformiert alle solchen Wiki-Text-Elemente, die fÃ¼r die Analyse im Rahmen dieser Arbeit unnÃ¶tig oder stÃ¶rend sind, und ruft dann WikiTextAnalyzer.resolveMagic auf. Alle anderen Analysemethoden werden auf den so bereinigten Text angewendet (oder auf eine weiter bereinigte Version). VollstÃ¤ndig entfernt werden <gallery>-BlÃ¶cke, alle eingebundenen Bilder (also Wiki-Links in den Image-Namensraum) MW:IMAGES (.A.3) sowie alle Optionen der Form .*? MW:MAGIC (.A.6). Definiert werden diese Ersetzungen durch WikiConfiguration.stripClutterManglers. Ebenfalls durch WikiConfiguration.stripClutterManglers werden Ersetzungen definiert, die wohlbekannte, wikispezifische Vorlagen ersetzen, insbesondere Formatierungshilfen, die inline im Text verwendet werden. FÃ¼r die englischsprachige Wikipedia werden zum Beispiel unter Anderem folgende Ersetzungen vorgenommen: {{dot}} durch â€žÂ·â€œ (Unicode U+00B7), {{sub|xxx}} durch â€žxxxâ€œ und {{frac|a|b}} durch â€ža/bâ€œ. Zudem wird eine Vielzahl von Vorlagen einfach entfernt, zum Beispiel {{fact}}, das in der englischen Wikipedia auf eine unbelegte Aussage hinweist. Wichtig ist auch, dass in diesem Schritt Vorlagen ersetzt werden, die Teile von Markup-Konstrukten enthalten, die fÃ¼r die weitere Verarbeitung benÃ¶tigt werden: In der englischsprachigen Wikipedia muss zum Beispiel die Vorlage {{wrapper}} durch â€ž{|â€œ (Tabellenanfang) und {{end}} durch â€ž|}â€œ (Tabellenende) ersetzt werden. Einige Arten von Wiki-Text-Konstrukten werden nicht einfach entfernt oder umgewandelt, sondern durch einen Platzhalter ersetzt, so dass sie zwar von der weiteren Verarbeitung ausgeschlossen sind, aber spÃ¤ter wieder eingefÃ¼gt werden kÃ¶nnen (Armoring): das ist vor allem fÃ¼r BlÃ¶cke der Fall, in denen Wiki-Text-Markup keine Anwendung findet, per Default also bei Kommentaren (<!~~.*?~~>) sowie bei <nowiki>- und <pre>-BlÃ¶cken (.A). Diese BlÃ¶cke werden durch WikiConfiguration.stripClutterArmorers festgelegt. WikiTextAnalyzer.resolveMagic: Diese Methode ersetzt einige Magic Words durch ihren konkreten Wert MW:MAGIC: sie verwendet den in WikiConfiguration.magicPattern definierten regulÃ¤ren Ausdruck, um solche Magic Words zu finden, und ruft dann WikiTextAnalyzer.evaluateMagic auf, um ihren Wert zu ermitteln. Ersetzt werden solche Magic Words, die als Variablen fÃ¼r verschiedene Versionen des Seitentitels oder des Namensraumes der Seite funktionieren, konkret solche, die zu folgendem regulÃ¤ren Ausdruck passen: \{\{\s*((FULL|SUB|BASE)?PAGENAMEE?|NAMESPACEE?)\s*\}\} . Andere Magic Words werden spÃ¤ter genau wie Vorlagen behandelt (wenn sie der Vorlagen-Syntax folgen, siehe .8.4), oder wurden vorher bereits von WikiTextAnalyzer. stripClutter entfernt (im Fall von Optionen wie NOTOC). WikiTextAnalyzer.stripBoxes: Diese Methode liefert den â€žeigentlichenâ€œ Inhalt der Wiki- Seite (den FlieÃŸtext), ohne Bilder, Tabellen, Infoboxen, Hinweise und dergleichen, aber noch mit Markup zur Textformatierung sowie Wiki-Links. Die Ersetzungen, die anzuwenden sind, um das zu erreichen, werden von WikiConfiguration.stripBoxesManglers 8. Analyse des Wiki-Textes 45 definiert. Als Eingabe wird Text erwartet, der bereits durch WikiTextAnalyzer. stripClutter bereinigt wurde. Per Default enthÃ¤lt stripBoxesManglers genau einen Mangler, nÃ¤mlich eine Instanz von WikiTextAnalyzer.BoxStripMangler: Er entfernt alle expliziten Blockstrukturen, also Tabellen, Vorlagen (soweit nicht bereits ersetzt) sowie <div>- und <center>- BlÃ¶cke; diese werden in der Wikipedia fast nie im FlieÃŸtext des Artikels verwendet, sondern nur fÃ¼r â€žKÃ¤stenâ€œ (Floats), Warnungen, Hinweise, usw. (<p>-BlÃ¶cke dagegen kommen manchmal im FlieÃŸtext vor, und werden eher selten fÃ¼r Floats verwendet). Das Entfernen der Blockstrukturen erfolgt durch rekursives Parsen anhand der Ã¶ffnenden und schlieÃŸenden Elemente der einzelnen Strukturen, implementiert als Kellerautomat in WikiTextAnalyzer.BoxStripMangler.mangle. WikiTextAnalyzer.stripMarkup: Diese Methode entfernt alle Markup-Elemente aus einem Text â€” als Eingabe wird Text erwartet, der bereits durch WikiTextAnalyzer. stripBoxes bereinigt wurde. Die Ersetzungen, die anzuwenden sind, um das zu erreichen, werden von WikiConfiguration.stripMarkupManglers definiert. Per Default werden folgende Ersetzungen durchgefÃ¼hrt: â€¢ Zeilen, die nur aus bestehen, definieren horizontale Trennlinien; sie werden entfernt. â€¢ Alle Wiki-Links werden durch ihren Link-Text ersetzt. â€¢ Alle externen Links werden durch ihren Link-Text ersetzt oder, wenn kein Link-Text angegeben ist, durch die URL, auf die sie verweisen. â€¢ Doppelpunkte am Anfang einer Zeile werden durch eine entsprechende Anzahl Tabs ersetzt (Unicode U+0009). â€¢ Alle Gruppen von zwei oder drei aufeinanderfolgenden Apostrophen (Unicode U+0027) werden entfernt. â€¢ Alle verbleibenden XML-artigen Tags werden entferntâ€”dabei bleibt gegebenenfalls der Text zwischen Start- und End-Tag erhalten. â€¢ Alle HTML-artige Entity-Referenzen werden unter Verwendung von WikiTextAnalyzer.EntityDecodeMangler.mangle dekodiert W3C:HTML (1999). 8.4. Extraktion von Vorlagen WikiWord analysiert auch die Verwendung von Vorlagen (Templates) auf Wiki-Seiten (.A), vornehmlich, weil diese einen guten Anhaltspunkt fÃ¼r die Klassifikation der Seite bzw. des Konzeptes bietet. Die Verarbeitung der Vorlagen ist in WikiTextAnalyzer.extractTemplates implementiert; sie ist konzeptionell als Kellerautomat umgesetzt, wobei allerdings verschachtelt auftretende Vorlagen lediglich gezÃ¤hlt werden. Nur die Verwendung auf der â€žoberstenâ€œ Ebene wird registriert und gespeichert. 8. Analyse des Wiki-Textes 46 Die Vorlagen, die auf einer Wiki-Seite verwendet werden, werden als Datenstruktur vom Typ java.util.Map reprÃ¤sentiert; die SchlÃ¼ssel in der Map sind die normalisierten Namen der verwendeten Vorlagen, die den SchlÃ¼sseln zugeordneten Werte sind selbst wieder Maps, die die Parameter der Vorlage als SchlÃ¼ssel-Wert-Paare enthalten; unbenannte (positionale) Parameter werden, wie in MediaWiki selbst, mit 1 beginnend durchnummeriert. Die ReprÃ¤sentation in einer Map hat zur Folge, dass, sollte eine Vorlage auf derselben Seite mehrfach verwendet werden, nur das letzte Auftreten der Vorlage beachtet wird. Zwar kommt es recht hÃ¤ufig vor, dass Vorlagen mehrfach verwendet werden, jedoch trifft dies kaum auf die Art von Vorlage zu, die vonWikiWord von Interesse fÃ¼r die Klassifikation der Seite wÃ¤re â€” oder es ist fÃ¼r die Klassifikation zumindest unerheblich, wie oft die Vorlage auf der Seite vorkommt. Vorlagen, deren Name mit â€ž#â€œ beginnt, werden als Parser Functions erkannt und Ã¼bergangen. Vorlagen, deren Namen einen Doppelpunkt â€ž:â€œ enthÃ¤lt, werden daraufhin untersucht, ob der Teil vor dem Doppelpunkt der Name eines relevanten Magic Words ist (WikiTextAnalyzer. getMagicTemplateId) â€” falls das der Fall ist, wird der SchlÃ¼ssel auf den kanonischen Namen des Magic Words gesetzt und der Teil des ursprÃ¼nglichen Namens, der auf den Doppelpunkt folgt, als Parameter mit dem Namen â€ž0â€œ interpretiert. Auf diese Wiese lÃ¤sst sich insbesondere die Verwendung von {{DISPLAYTITLE:...}} und {{DEFAULTSORT:...}} festhalten (siehe .A.6); diese Information kann spÃ¤ter zur Bestimmung der Bezeichnungen fÃ¼r ein Konzept beitragen (siehe .8.9 und .9.1). 8.5. Ressourcenklassifikation Die Methode WikiTextAnalyzer.determineResourceType bestimmt den ResourceType: Das heiÃŸt, sie weist einerWiki-Seite (Ressource) einen Typ aus einer fest vorgegebenen Menge zu (vergleiche .4.1). Von diesem Typ hÃ¤ngt die weitere Verarbeitung der Seite ab, siehe .9.1. Die Zuweisung wird in WikiConfiguration.resourceTypeSensors definiert, die Regeln sind im Allgemeinen Wiki-spezifisch. Die folgenden Typen werden verwendet: ARTICLE: Die Ressource ist ein Artikel, das heiÃŸt, sie beschreibt ein Konzept. Solche Seiten liefern den eigentlichen enzyklopÃ¤dischen Inhalt der Wikipedia. Dieser Typ wird allen Seiten zugewiesen, die zu keinem der anderen Typen passen. REDIRECT: Die Ressource definiert eine Weiterleitung auf eine andere Seite (also einen Alias fÃ¼r das entsprechende Konzept). Dieser Typ wird allen Seiten zugeordnet, die zu dem in WikiConfig.redirectPattern festgelegten Muster passen. DISAMBIG: Die Ressource ist eine BegriffsklÃ¤rungsseite, das heiÃŸt, sie fÃ¼hrt verschiedene Bedeutungen eines Terms auf (.8.10). Seiten dieses Typs lassen sich meist an der Verwendung einer speziellen Vorlage erkennen: in der deutschsprachigen Wikipedia zum Beispiel wird dieser Typ allen Seiten zugewiesen, die die Vorlage {{BegriffsklÃ¤rung}} enthalten. LIST: Die Ressource ist eine explizite Liste von Seiten (und damit Konzepten) mit einer bestimmten Eigenschaft. Seiten dieses Typs lassen sich meist an ihrem Titel oder einer ihrer 8. Analyse des Wiki-Textes 47 Kategorien erkennen: in der deutschsprachigen Wikipedia zum Beispiel wird dieser Typ allen Seiten zugewiesen, die in einer Kategorie sind, die Liste heiÃŸt oder deren Name mit Liste_ beginnt. CATEGORY: Die Ressource ist eine Kategorie, das heiÃŸt, eine Sammlung von Seiten bzw. Konzepten, die dem Konzept, das die Kategorie selbst reprÃ¤sentiert, untergeordnet sind. Dieser Typ wird allen Seiten aus dem Kategorie-Namensraum zugewiesen, das heiÃŸt, sie werden an ihrem Titel erkannt. BAD: Die Seite ist als problematisch markiert; das betrifft vor allem so genannte LÃ¶schkandidaten WP:LR, also Seiten, die aus irgendeinem Grund zur LÃ¶schung aus der Wikipedia vorgeschlagen wurden. Seiten dieses Typs lassen sich meist Ã¼ber die Verwendung einer speziellen Vorlage erkennen: in der deutschsprachigen Wikipedia zum Beispiel wird dieser Typ unter Anderem allen Seiten zugewiesen, die die Vorlage {{LÃ¶schen}} enthalten. 8.6. Konzeptklassifikation Konzepten wird wÃ¤hrend des Imports ein ConceptType aus einer fest vorgegebenen Menge von Typen zugewiesen. Diese Konzepttypen sind unabhÃ¤ngig von der Sprache und dem Wiki (bzw. Korpus) und dienen einer groben Filterung der Konzepte je nach Anwendungsbereich, insbesondere fÃ¼r die Named Entity Recognition DAKKA UND CUCERZAN (2008), TORAL UND MUNOZ (2006). Sie werden von der Methode WikiTextAnalyzer.determineConceptType unter Verwendung der Sensoren in WikiConfiguration.conceptTypeSensors bestimmt. Die folgenden Konzepttypen sind definiert: UNKNOWN: Unbekannter Typ â€” wird verwendet, wenn der Konzepttyp nicht bestimmt werden konnte, weil es keine beschreibende Ressource (also keine Wiki-Seite) zu dem Konzept gibt. Das kommt insbesondere fÃ¼r solche Konzepte vor, die im Wiki zwar referenziert, aber nicht erklÃ¤rt werden (insbesondere also â€žrote Linksâ€œ und Navigationskategorien, .9.1). PLACE: Orte, Regionen, geografische Einheiten. Solche EintrÃ¤ge kÃ¶nnten fÃ¼r den Aufbau bzw. die Erweiterung eines Gazetteers verwendet werden und sind besonders fÃ¼r Aufgaben wie Named Entity Recognition und damit Topic-Tracking nÃ¼tzlich. Beim Aufbau eines WÃ¶rterbuches dagegen kÃ¶nnen Orte gegebenenfalls ausgelassen werden. PERSON: NatÃ¼rliche Personen. Solche EintrÃ¤ge kÃ¶nnten fÃ¼r den Aufbau bzw. die Erweiterung eines Personenregisters verwendet werden und sind ebenfalls besonders fÃ¼r Aufgaben wie Named Entity Recognition und damit Topic-Tracking nÃ¼tzlich. Beim Aufbau eines WÃ¶rterbuches dagegen sollten Personen in der Regel nicht aufgenommen werden. ORGANISATION: Organisationen wie Firmen, Regierungs- und Nichtregierungsorganisationen (NGOs), etc. Auch solche EintrÃ¤ge sind besonders fÃ¼r Aufgaben wie Named Entity Recognition und damit Topic-Tracking nÃ¼tzlich. Beim Aufbau eines WÃ¶rterbuches dagegen sollten Organisationen meist nicht aufgenommen werden. 8. Analyse des Wiki-Textes 48 NAME: Vor- oder Nachnamen an sich (nicht die betreffenden Personen). Solche EintrÃ¤ge kÃ¶nnten fÃ¼r den Aufbau bzw. die Erweiterung eines Namenslexikons verwendet werden und sind unter UmstÃ¤nden fÃ¼r Aufgaben wie Named Entity Recognition und damit Topic-Tracking nÃ¼tzlich. Beim Aufbau eines WÃ¶rterbuches dagegen kÃ¶nnen Namen im Allgemeinen ausgelassen werden. TIME: Zeitperioden (wie z. B. 15. JAHRHUNDERT) oder auch ein wiederkehrendes Datum (wie z. B. 6. APRIL). Solche EintrÃ¤ge kÃ¶nnten fÃ¼r den Aufbau bzw. die Erweiterung eines Almanachs verwendet werden. Beim Aufbau eines WÃ¶rterbuches dagegen sollten sie nicht verwendet werden. NUMBER: Zahlen an sich. Diese kÃ¶nnen beim Aufbau eines WÃ¶rterbuches in der Regel Ã¼bergangen werden. LIFEFORM: Lebensformen, also biologische Taxa, Klassen, Familien, Rassen usw. von Tieren und Pflanzen. Diese kÃ¶nnen beim Aufbau eines WÃ¶rterbuches unter UmstÃ¤nden ausgelassen werden. OTHER: Sonstige Konzepteâ€”alle, denen keiner der oben angegebenen Typen zugeordnet werden konnte. ALIAS: Pseudo-Konzept fÃ¼r Aliase; wird nur aus technischen GrÃ¼nden vorÃ¼bergehend benÃ¶tigt (.A.6) und sollte im fertigen Thesaurus nicht vorkommen. Die Zuordnung von Konzepttypen wird in .12.1 evaluiert. 8.7. Links Wiki-Links (.A.3) sind eine reiche Informationsquelle: sie bieten Zugang zu menschlichem Urteil darÃ¼ber, welche Konzepte fÃ¼r das VerstÃ¤ndnis eines anderen Konzeptes relevant sind (durch Querverweise, WP:V sowie ZESCH U. A. (2007A), PONZETTO UND STRUBE (2007C), GREGOROWICZ UND KRAMER (2006)), sowie welche Bezeichnung (Term) fÃ¼r welches Konzept geeignet ist (durch den Link- Text, MIHALCEA (2007) sowie CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)). Die Methode WikiTextAnalyzer.extractLinks extrahiert alleWiki-Links aus dem gegebenen Text. Der Text sollte bereits mit stripClutter bereinigt worden sein. Der genaue Algorithmus ist in Anhang E.1 beschrieben. Die WikiLink-Objekte, die dabei erzeugt werden, haben insbesondere die folgenden Eigenschaften (vergleiche .A.3): interwiki: der PrÃ¤fix fÃ¼r Interwiki-Links (null, falls der Link kein Interwiki-Link ist). namespace: die ID des Namensraumes, in den der Link verweist, wie von WikiTextAnalyzer. getNamespaceId geliefert (siehe auch .B.7). 8. Analyse des Wiki-Textes 49 page: der Titel der Seite, auf die der Link zeigt (ohne Namensraum, Interwiki-PrÃ¤fix, Abschnitt, etc.) in normalisierter Form (also mit Unterstrichen statt Leerzeichen und dem ersten Buchstaben als GroÃŸbuchstaben). section: der Abschnitts-Anker (bzw. das â€žDokumentenfragmentâ€œ nach der URL-Spezifikation) auf der Zielseite in normalisierter Form (oder null, wenn auf keinen Abschnitt verwiesen wird). text: der verwendete Link-Text (Label). Falls nicht explizit ein Link-Text angegeben wurde, so wird der Text, der zur Angabe des Link-Zieles verwendet wurde, als Link-Text angenommen und gegebenenfalls der Link-Trail angehÃ¤ngt. Ist der Link ein Kategorisierungslink, hat also die Eigenschaft magic den Wert CATEGORY, so gibt die Eigenschaft text den Sort-Key fÃ¼r die Kategorisierung an. impliedText: ist true genau dann, wenn der Text nicht explizit angegeben wurde, sondern aus dem Link-Ziel geschlossen wurde. magic: gibt an, inwiefern der Link â€žmagischâ€œ ist, dass heiÃŸt, ob er eine spezielle Semantik hat. Die mÃ¶glichen Werte werden von WikitextAnalyzer.LinkMagic definiert: NONE: â€žnormalerâ€œ Wiki-Link, keine â€žMagicâ€œ. CATEGORY: Zuweisung einer Kategorie an die Seite, die den Link enthÃ¤lt. IMAGE: Einbinden eines Bildes; da Bilder schon von stripClutter entfernt werden, sollte das hier nicht vorkommen. LANGUAGE: VerknÃ¼pfung mit einer (semantisch) Ã¤quivalenten Seite in einer anderen Sprache. Dabei ist zu beachten, dass z. B. ein Link in den Kategorie-Namensraum auch ohne die Kategorisierungssemantik vorkommen kann, nÃ¤mlich genau dann, wenn er mit einem fÃ¼hrenden Doppelpunkt definiert wurde, also in der Form [[:Category:Baum]]. Dasselbe gilt analog fÃ¼r Links in den Image-Namensraum und auch fÃ¼r Links mit Interwiki-PrÃ¤fix (siehe auch .A.3). Die so extrahierten Links dienen, je nach ihrer magic, zur Bestimmung der semantischen Verwandtheit von Konzepten (.9.1.3), dem ZusammenfÃ¼hren von Ã¤quivalenten Konzepten aus unterschiedlichenWikipedias (.9.2.2), dem Aufbau der Subsumtionsrelation oder, unter Verwendung des Link-Textes, der Zuordnung von Termen zu Konzepten (.9.1). Sie sind damit von zentraler Bedeutung fÃ¼r den Aufbau des Thesaurus, da sie nahezu alle betrachteten Relationen direkt oder indirekt definieren. 8.8. Extraktion von Glossen DefinitionssÃ¤tze (Glossen) kÃ¶nnen in einem Artikel recht einfach gefunden werden: per Konvention WP:WSIGA definiert der erste Satz immer den Gegenstand des Artikels. Den 8. Analyse des Wiki-Textes 50 ersten Satz zu finden, ist allerdings nicht ganz trivial: aus dem bereinigten Text (nach WikiTextAnalyzer.stripClutter) wird zunÃ¤chst der erste Absatz extrahiert, also der Text bis zur ersten leeren Zeile, oder der ersten Ãœberschrift. Diese Arbeit erledigt die Methode WikiTextAnalyzer.extractFirstParagraph, welche auf WikiConfiguration. extractParagraphMangler zurÃ¼ckgreift. Per Default ist das eine speziell konfigurierte Instanz von WikiTextAnalyzer.BoxStripMangler, die nach Entfernen aller BlÃ¶cke (siehe .8.3) nur den ersten Absatz liefertâ€”der Rest des Textes wird aus EffizienzgrÃ¼nden nicht weiter behandelt. Der so gewonnene erste Absatz wird dann mittels WikiTextAnalyzer.stripMarkup weiter bereinigt, so dass nur noch reiner Text ohne Markup Ã¼brig bleibt. ZusÃ¤tzlich werden weitere Elemente mittels LanguageConfiguration.sentenceManglers entfernt, per Default insbesondere alle geklammerten TeilsÃ¤tze. Aus dem bereinigten ersten Absatz wird dann der erste Satz als Glosse extrahiert. Der Algorithmus fÃ¼r diese Aufgabe ist in Anhang E.2 detailliert beschrieben. Bei den so extrahierten SÃ¤tzen handelt es sich fast immer um DefinitionssÃ¤tze der Form â€žX ist/sind/ war (ein) Yâ€œ; allerdings kommt es vor, dass die Aussagekraft der Definition zu wÃ¼nschen Ã¼brig lÃ¤sst â€” zum Beispiel lautet der Einleitungssatz fÃ¼r den Artikel Weltoffenheit1: â€žWeltoffenheit ist ein Begriff aus der philosophischen Anthropologie.â€œ â€” dieser Satz beschreibt nicht, was WELTOFFENHEIT ist, sondern lediglich, welcher Fachbereich sie untersucht. Aber selbst diese Art der Ungenauigkeit ist verhÃ¤ltnismÃ¤ÃŸig selten (.12). Eine mÃ¶gliche LÃ¶sung wÃ¤re es, den ganzen ersten Absatz als Definition zu verwenden oder zumindest zusÃ¤tzlich vorzuhalten, wie es in der Literatur vorgeschlagen wurde (vergleiche die Arbeiten in .2.4, z. B. STRUBE UND PONZETTO (2006)). Im Falle des Artikels Weltoffenheit wÃ¤re das zielfÃ¼hrend, der Absatz lautet als Ganzes: Weltoffenheit ist ein Begriff aus der philosophischen Anthropologie. Er bezeichnet die Entbundenheit des Menschen von organischen ZwÃ¤ngen (Trieben) und seiner unmittelbaren Umwelt und betont seine Ã–ffnung hin zu einer von ihm selbst hervorgebrachten kulturellen Welt. Hiermit einher geht, dass der Mensch ohne festgelegte Verhaltensmuster geboren wird und sich Verhaltenssicherheit in der Welt immer erst erwerben muss. Der erste Absatz enthÃ¤lt aber fast immer auch Text, der nicht Teil der Definition des Artikelgegenstandes ist: der zweite Satz in obigem Beispiel vervollstÃ¤ndigt die Definition, der dritte jedoch ist schon eine Einlassung, die Ã¼ber eine bloÃŸe Definition hinausgeht. Immer den gesamten Absatz zu verwenden wÃ¼rde also das Signal-Rausch-VerhÃ¤ltnis in Bezug auf die Forderung, eine Definition des Konzeptes zu finden (.5.1), verschlechtern. Das oben beschriebene Verfahren zur Extraktion von Glossen wird in .12.6 evaluiert. 8.9. Terme Terme, die als Bezeichnungen fÃ¼r ein bestimmtes Konzept dienen, werden aus verschiedenen Quellen bestimmt, zum Beispiel aus dem Link-Text (siehe .8.7, vergleiche MIHALCEA (2007)), 1In der deutschsprachigen Wikipedia, zum Zeitpunkt des Erstellens dieser Arbeit: <http://de.wikipedia.org/w/index.php?title=Weltoffenheit&oldid=44584462> 8. Analyse des Wiki-Textes 51 aus Weiterleitungen (siehe .8.5) oder aus BegriffsklÃ¤rungen (siehe .8.10). Aber auch aus dem Artikel selbst kÃ¶nnen schon Bezeichnungen gewonnen werden: das ist die Aufgabe der Methode PlainTextAnalyzer.determinePageTerms (bzw. PlainTextAnalyzer.getPageTerms). Sie bestimmt Bezeichnungen fÃ¼r das Konzept des Artikels per Default aus zwei Quellen: 1. Aus dem â€žBasisnamenâ€œ des Artikels, wie er von PlainTextAnalyzer. determineBaseName zurÃ¼ckgegeben wird. Der â€žBasisnameâ€œ ist der Titel des Artikels, der mittels der Muster in WikiConfiguration.titleSuffixPattern und WikiConfiguration.titlePrefixPattern bereinigt wurde â€” per Default wird dabei insbesondere der geklammerte Suffix vom Titel entfernt, falls vorhanden: aus Leiter_(GerÃ¤t) wird also â€žLeiterâ€œ. Um die entsprechenden Terme zu erhalten, werden auÃŸerdem alle Unterstriche durch Leerzeichen ersetzt, aus Albert_Einstein wird also â€žAlbert Einsteinâ€œ. 2. Aus dem Magic Word DISPLAYTITLE, das eine alternative Bezeichnung fÃ¼r das Konzept definiert (siehe auch .A.6). Diese Magic Words werden bei der Extraktion der Vorlagen evaluiert (siehe .8.4). ZusÃ¤tzliche Terme kÃ¶nnen aus den Sort-Keys bestimmt werden, die bei der Kategorisierung der Seite verwendet wurden (zugÃ¤nglich Ã¼ber die Methode WikiPage.getCategories) sowie aus der Verwendung des Magic Words DEFAULTSORT (zugÃ¤nglich Ã¼ber die Methode PlainTextAnalyzer.getDefaultSortKey), siehe .A.3 und .A.6. Der Analyzer definiert auÃŸerdem eine Methode zur Bestimmung â€žschlechterâ€œ Terme, nÃ¤mlich WikiTextAnalyzer.isBadTerm. Per Default ist das lediglich ein â€žSanity-Checkâ€œ der LÃ¤nge des Terms: diese wird mit WikiConfiguration.minTermLength und WikiConfiguration. maxTermLength verglichen. 8.10. BegriffsklÃ¤rungsseiten BegriffsklÃ¤rungsseiten (Disambiguierungen) dienen in der Wikipedia dazu, die mÃ¶glichen Bedeutungen eines Terms aufzuzÃ¤hlen WP:BKL. Um daraus eine Liste von Konzepten zu erzeugen, mÃ¼ssen aus dem Wiki-Text der BegriffsklÃ¤rungsseite alle Wiki-Links (und damit alle Konzepte) ausgelesen werden, die auf einen Artikel verweisen, der eine der mÃ¶glichen Bedeutungen beschreibt. Das Problem besteht darin, dass BegriffsklÃ¤rungsseiten noch weitere Wiki-Links enthalten kÃ¶nnen, insbesondere Querverweise und Links auf Kontext-Begriffe (vergleiche die in .2.4 beschriebenen Arbeiten, insbesondere DAKKA UND CUCERZAN (2008), ZESCH U. A. (2007A), PONZETTO UND STRUBE (2007C)). Diejenigen Links auf der BegriffsklÃ¤rungsseite zu finden, die auf die einzelnen Bedeutungen verweisen, ist Aufgabe der Methode WikiTextAnalyzer.extractDisambigLinks. Der Standard- Ansatz macht dabei zwei wesentliche Annahmen: â€¢ die BegriffsklÃ¤rungsseite enthÃ¤lt eine Liste von Bedeutungen derart, dass in jeder (relevanten) Zeile (hÃ¶chstens) ein Link steht, der auf eine Bedeutung des zu klÃ¤renden Terms zeigt. 8. Analyse des Wiki-Textes 52 â€¢ enthÃ¤lt eine Zeile mehr als einen Link, so ist der Link mit der grÃ¶ÃŸten lexikographischen Ã„hnlichkeit zu dem zu klÃ¤renden Term auch der, der auf eine Bedeutung dieses Terms verweist. Auf Basis dieser Annahmen wurde der Algorithmus zur Extraktion der Bedeutungslinks aus der BegriffsklÃ¤rungsseite entwickelt, der in .E.3 beschrieben ist. Die Ergebnisse dieses Verfahrens werden in .13 evaluiert. Auf diese Weise werden aus Wiki-Seiten diejenigen Eigenschaften extrahiert, die fÃ¼r den Aufbau eines (zunÃ¤chst monolingualen) Thesaurus relevant sind. Diese Eigenschaften werden durch ein WikiPage-Objekt reprÃ¤sentiert und von der Klasse ConceptImporter dann hinsichtlich ihrer Bedeutung fÃ¼r das Thesaurusmodell interpretiert (siehe .9.1). Die so gewonnenen EntitÃ¤ten und Relationen werden in einem lokalen Datensatz abgelegt (siehe .C.1 und .C.4).

DanielKinzler Chapter 8: Analyse des Wiki-Textes

SideMenu

Latest Changes

Search

Log In

Upcoming Events