History: DanielKinzler Chapter 12: Akkuratheit der Konzepte
View page
Collapse Into Edit Sessions
Source of version: 1
(current)
«
»
12. Akkuratheit der Konzepte Dieses Kapitel untersucht die Eigenschaften und Beziehungen von Konzepten. Dazu werden aus zwei Thesauri, dem deutschsprachigen und dem englischsprachigen, jeweils zwei Stichproben entnommen: eine mit zufälligen Konzepten aus der Gesamtmenge der Konzepte (enall mit 102 Konzepten bzw. deall mit 101), und eine mit zufälligen Konzepten aus den „Top 10%“, den am häufigsten verwendeten zehn Prozent der Konzepte (entop bzw. detop, jeweils mit 51 Konzepten) unter Verwendung des in_rank-Wertes. Dabei ist zu bedenken, dass die Stichprobe über alle Konzepte auch viele Konzepte aus den 70% enthält, die gar keinen Artikel haben — einige der hier untersuchten Eigenschaften treten bei solchen artikellosen Konzepten gar nicht auf. Es wird erwartet, dass die Stichprobe über die „Top 10%“ gebräuchliche, allgemeine Konzepte enthält und dass die betreffenden Artikel von guter Qualität sind, das heißt, den Richtlinien der Wikipedia und der Syntax von MediaWiki folgen. Insbesondere ist zu erwarten, dass sich die 70% der Konzepte ohne Artikel am Ende der Rangliste nach in_rank befinden (meist werden sie nur ein- oder höchstens zweimal direkt referenziert, zum Teil, z. B. bei Navigationskategorien, gar nicht)—das bedeutet, dass die meisteverwendeten 10% der Konzepte größtenteils in die meistverwendeten 33% der Artikel fallen, da die Artikel mehr oder weniger die oberen 30% der Konzepte ausmachen. Die Evaluation der Konzepte ist in ConceptSurvey implementiert und basiert auf den folgenden Schritten: 1. In der Tabelle degree wird für das Feld in_rank das gewünschte Intervall bestimmt, also [1 . . . n] für die Stichprobe über alle Konzepte und [1 . . . n/10] für die Stichprobe aus den Top 10%. 2. Eine Zahl aus diesem Intervall wird zufällig gewählt und das Konzept, das diese Zahl als in_ rank hat, wird geladen. Dabei werden die Informationen aus concept_info verwendet, um effizient Zugang zu allen Eigenschaften und Beziehungen zu erhalten. 3. Für jedes Konzept wird eine Anzahl von Eigenschaften (Properties) untersucht, wobei manche Eigenschaften mehr als einenWert haben können. Die untersuchten Eigenschaften sind: terms: Die Terme (.8.9), die dem Konzept über die Bedeutungsrelation zugeordnet sind (aus der Tabelle meaning .C.2). type: Der Konzepttyp (.8.6), der dem Konzept zugeordnet ist (aus der Tabelle concept .C.2). definition: Die Definition (.8.8), die dem Konzept zugeordnet ist (aus der Tabelle definition .C.2). broader: Übergeordnete Konzepte (.9.1), die dem Konzept über die Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader .C.2). narrower: Untergeordnete Konzepte (.9.1), die dem Konzept über die Subsumtionsbeziehung zugeordnet sind (aus der Tabelle broader). 12. Akkuratheit der Konzepte 103 related: Verwandte Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle relation .C.2). similar: Ähnliche Konzepte (.9.1.3), die dem Konzept zugeordnet sind (aus der Tabelle relation). Diese Eigenschaften entsprechen denen, die im Datenmodell festgelegt sind (.D.2, .C.1). 4. Jedem Wert jeder Eigenschaft von jedem Konzept wurde nun manuell eine Bewertung zugewiesen, die besagt, ob und inwieweit der gegebene Wert korrekt ist (siehe Anhang F.4 für die Rohdaten der Erhebung). Welche Bewertungen möglich sind, hängt dabei von der betreffenden Eigenschaft ab. Im Folgenden wird die Qualität der Werte für die einzelnen Eigenschaften analysiert. 12.1. Auswertung der Klassifikation Bei der Konzeptklassifikation (.8.6) wird jedem Konzept ein Typ aus einer fest vorgegebenen Menge von Typen wie PERSON oder PLACE zugewiesen. Sie bietet also eine grobe, korpusunabhängige Aufteilung der Konzepte, die verwendet werden kann, um Konzepte für eine bestimmte Anwendung zu filtern. Zum Beispiel können für die Erstellung eines Wörterbuches Personen ignoriert werden, oder es können für die Erstellung eines Gazetteer gezielt Orte verwendet werden. Konzepte, die zu keiner der vorgegebenen Klassen passen, erhalten den Typ OTHER, solche, zu denen es keinen eigenen Artikel gibt und eine Klassifikation daher nicht möglich ist, erhalten den Typ UNKNOWN. (a) gesamt Typ en de UNKNOWN 68% 60% PLACE 2% 3% PERSON 8% 10% ORGANISATION >1% >1% NAME >1% >1% TIME >1% >1% NUMBER >1% >1% LIFEFORM 1% >1% OTHER 21% 17% (b) ohne UNKNOWN Typ en de UNKNOWN PLACE 7% 11% PERSON 24% 31% ORGANISATION >1% 1% NAME >1% >1% TIME >1% >1% NUMBER >1% >1% LIFEFORM 4% 2% OTHER 65% 54% Tabelle 12.1.: Häufigkeit der Konzepttypen Zur Evaluation der Konzeptklassifikation stehen vier Werte als mögliche Beurteilungen zur Verfügung: UNKNOWN wird immer automatisch für den Typ UNKNOWN gewählt—wenn der Typ nicht bestimmt werden kann, weil es zu dem Konzept keinen Artikel gibt, dann ist die Beurteilung gegenstandslos. 12. Akkuratheit der Konzepte 104 (a) gesamt Typ enall entop deall detop UNKNOWN 58% 2% 72% 2% OK 36% 92% 28% 92% MISSING 6% 4% 0% 6% WRONG 0% 2% 0% 0% (b) ohne UNKNOWN Typ enall entop deall detop UNKNOWN OK 86% 92% 100% 92% MISSING 14% 4% 0% 6% WRONG 0% 2% 0% 0% Tabelle concept_survey, siehe .F.4 Tabelle 12.2.: Bewertung der Konzeptklassifikation OK wird benutzt, wenn der Typ korrekt erkannt wurde. MISSING gibt an, dass kein konkreter Typ zugewiesen wurde (also der Typ OTHER ist), obwohl das Konzept eindeutig zu einer der vorgegebenen Klassen gehört. WRONG gibt an, dass der erkannte Typ falsch ist. Bei der Auswertung zeigt sich zunächst, dass die allermeisten Konzepte korrekt und fast gar keine irrtümlich zugeordnet werden. Allerdings wird der Typ einiger Konzepte, die eigentlich klassifiziert werden sollten, nicht erkannt — daraus wird sichtbar, dass es sich bei der Klassifikation um eine Heuristik handelt, die nach dem Best-Effort-Prinzip arbeitet: in der betreffenden Unterklasse von WikiConfiguration sind in dem Feld conceptTypeSensors „Sensoren“ registriert (.8.2), die sichere Hinweise für die einzelnen Konzepttypen erkennen, zumeist die Verwendung bestimmter Kategorien oder Vorlagen. Die Erkennung basiert also auf Konventionen bezüglich der Kategorisierung und Gestaltung von Artikeln über Konzepte einer bestimmten Art — wie effektiv die Heuristiken arbeiten, hängt also davon ab, wie konsistent die betreffenden Konventionen in den Artikeln derWikipedia befolgt werden, und wie gut sie durch die angegebenen Muster erkannt werden. Auch prinzipiell ist das Zuweisen der Konzepttypen nicht trivial, weil sie oft nicht eindeutig abzugrenzen sind. Zum Beispiel ist unklar, was als Ort zu klassifizieren ist: Länder und Städte sicher, aber Flüsse, Flughäfen, bestimmte Gebäude? Ähnlich verhält es sich mit Organisationen. Personen sind dagegen relativ leicht abzugrenzen, es kann höchstens passieren, dass eine fiktive Person mit aufgenommen wird. Artikel über Zeitabschnitte (Jahre, Jahrzehnte und so weiter) sowie biologische Taxa sind im allgemeinen leicht zu erkennen, da sie in den meisten Wikipedias durchgehend typische Vorlagen verwenden: Taxoboxen bei Taxa und Vorlagen zur Kalendernavigation in Artikeln über Zeitabschnitte. Problematisch wird es wieder bei Namen: in manchen Wikipedias dienen Artikel über Vor- oder Nachnamen gleichzeitig als Begriffsklärung oder Liste aller (bekannter) Namensträger. Es kann also sein, dass sie gar nicht erst als Artikel erkannt sondern als Begriffsklärung oder Liste behandelt werden (.8.5). 12. Akkuratheit der Konzepte 105 12.2. Auswertung der Subsumtion Die Subsumtionsbeziehung ist ein wichtiger Bestandteil eines Thesaurus: sie ist das strukturierende Element, das es erlaubt, ein Konzept durch Eingrenzung zu finden, also durch Navigation einer Hierarchie von Konzepten, ausgehend von den allgemeineren zu den spezielleren. Außerdem ermöglicht sie bei Bedarf ein automatisches Fallback auf allgemeinere Konzepte, zum Beispiel bei einer Query Expansion. Zur Bewertung der Subsumtionsbeziehungen eines Konzeptes, also seiner Verknüpfung mit überbzw. untergeordneten Konzepten, stehen nur zwei Alternativen zur Verfügung: RIGHT und WRONG. Es wird also nur festgestellt, ob die Unterordnung eines Konzeptes unter ein anderes berechtigt scheint. Dabei werden die Bewertungen für die Eigenschaften narrower und broader zusammengefasst. Typ enall entop deall detop RIGHT gesamt 99% 99% 96% 98% RIGHT ohne UNKNOWN 99% 99% 96% 98% Tabelle concept_survey, siehe .F.4 Tabelle 12.3.: Bewertung der Konzeptklassifikation Die Tabelle 12.3 zeigt, dass fast alle Unterordnungen korrekt sind. Fälschliche Unterordnungen basieren zum einen auf falschen Angaben in Wikipedia-Artikeln (die meist daher rühren, dass die Bedeutung der zugeordneten Kategorie missverstanden wurde), zum andern aber auch an falsch zugeordneten Kategorisierungs-Aliasen .9.1.2. Zum Beispiel wurden für die deutschsprachige Wikipedia die Zuweisung der Kategorie Kategorie:US-Amerikaner interpretiert als Unterordnung unter das Konzept DEUTSCHAMERIKANER, weil die Seite Deutschamerikaner fälschlich als Hauptartikel der Kategorie Kategorie:US-Amerikaner erkannt wurde. Das liegt daran, dass es keinen „richtigen“ Hauptartikel US-Amerikaner gibt, und Deutschamerikaner die einzige Seite der Kategorie war, die als Hauptartikel infrage kam. Dieser eine Fehler hat, da es viele Personen und darunter viele Amerikaner in der Stichprobe gibt, sichtbare Auswirkungen auf das Ergebnis der Evaluation. Im allgemeinen liefern die Kategorisierungs-Aliase allerdings sehr gute Ergebnisse: etwa 99% sind korrekt. Die Subsumtionsrelation wurde hier allerdings nur auf lokale Plausibilität untersucht. Interpretiert man sie gemäß ihrer Semantik als transitiv, so können unerwünschte Ergebnisse auftreten: Durch Querverbindungen entstehen unter Umständen sehr lange Pfade, die dann als „abwegige“ Subsumtionen interpretiert werden müssten (siehe dazu auch [HAMMW¨OHNER (2007)]). WikiWord übernimmt die Subsumtionsrelation direkt so, wie sie in der Wikipedia angegeben sind. Ein „Säubern“ dieser Daten, die über das einfache Entfernen von Zyklen (.E.5) hinausgeht, verbleibt als Gegenstand künftiger Forschung (vergleiche [PONZETTO UND STRUBE (2007B), HAMMW¨OHNER (2007B)]). In diesem Rahmen könnte auch untersucht werden, ob sich durch geeignete statistische oder heuristische Verfahren aus der unspezifischen Subsumtionsrelation spezifische semantische Beziehungen extrahieren lassen, ob es also möglich ist, zu erkennen, ob es 12. Akkuratheit der Konzepte 106 sich bei einer Unterordnung um eine Instanzbeziehung (is-a), Abstraktionsbeziehung (subtype), eine Aggregationsbeziehung (part-of ) oder eine andere Beziehung handelt (vergleiche [PONZETTO UND STRUBE (2007B)]). 12.3. Auswertung der Ähnlichkeit Die Zuordnung semantisch ähnlicher Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen wird (.9.1.3), basiert auf gemeinsamen Language-Links. Wenn zwei Artikel denselben Artikel in einer anderen Sprache als Äquivalent haben, dann werden sie als „ähnlich“ angesehen und entsprechend im Feld langmatch in der Tabelle relation markiert. Dieses Vorgehen ist allerdings stark von der Granularität der anderenWikipedias abhängig: werden bei der Bestimmung der Ähnlichkeit alle Projekte berücksichtigt, dann ist ihre „Trennschärfe“ beschränkt durch die Granularität der kleinsten, also am wenigsten granularen Wikipedia. Ein Beispiel: in der deutschsprachigen Wikipedia werden die Konzepte für die Jahre 1980, 1981, 1982 usw. bis 1989 alle als „ähnlich“ angesehen, weil sie alle als Übersetzungsäquivalent ALS:1980ER haben, also das Konzept in der alemannischenWikipedia, das die achtziger Jahre insgesamt behandelt. Dieses Problem tritt sehr häufig auf, so zum Beispiel auch für METALLE und EISEN, TAG und SONNTAG und viele mehr. Solche Paare als „ähnlich“ zu bezeichnen ist nicht völlig falsch, aber kann, je nach Kontext, doch zu weit gefasst sein. Dieses Problem wirkt sich entsprechend auch auf die Ergebnisse der Vereinigung zu einem multilingualen Thesaurus aus. langmatch en de f r >0 77108 30982 42146 >1 14962 6320 15432 >2 9550 4072 12212 >3 6226 3076 10962 >4 5010 2370 6840 >5 4060 1744 6492 >6 3366 1400 6104 Tabelle concept_survey, siehe .F.4 Tabelle 12.4.: Paare von ähnlichen Konzepten Um dieses Problem zu umgehen, kann verlangt werden, dass zwei Konzepte, um als ähnlich angesehen zu werden, in mehr als einem Language-Link übereinstimmen müssen—die Anzahl der Übereinstimmungen ist in dem Feld langmatch in der Tabelle relation gespeichert und kann so direkt zum Filtern der Relation verwendet werden. Die Tabelle 12.4 zeigt, wie viele Paare dann jeweils übrig bleiben (wobei interessant ist, zu sehen, dass die französischsprachigeWikipedia deutlich mehr Language-Links hat als die deutschsprachige, obwohl sie etwas kleiner ist). Die stärkste Filterung ist der Schritt von mindestens einer Übereinstimmung zu mindestens zwei: Dabei entfallen viele fehlerhafte Zuordnungen sowie „Ausreißer“, die durch Verweise in sehr kleine Projekte mit geringer Granularität entstehen. Wird ein noch höherer Grad an Übereinstimmung gefordert, verbessert sich die Qualität der Ähnlichkeit sukzessive — so lässt sich der gewünschte Trade-Off zwischen Qualität und Abdeckung steuern. Für den Export nach RDF ist dies durch die Option 12. Akkuratheit der Konzepte 107 min-langmatch möglich. Dabei ist allerdings zu bedenken, dass, wenn man mindestens drei übereinstimmende Language-Links verlangt, nur Konzepte überhaupt als ähnlich erkannt werden können, die es noch in mindestens drei weiteren Wikipedias gibt. Wegen der großen Unterschiede in Umfang und Abdeckung der Wikipedias ist das eine recht starke Einschränkung. Eine Alternative wäre es, Language-Links auf sehr kleine Projekte von der Betrachtung auszuschließen. Vermutlich ließen sich dadurch ebenfalls eine Vielzahl von „unscharfen“ Ähnlichkeiten vermeiden, die entstehen, wenn das Projekt, das Ziel eines Language-Links ist, eine zu geringe Granularität hat. Es wird erwartet, dass dabei weniger Verknüpfungen verloren gingen, als das der Fall ist, wenn man eine Übereinstimmung in mindestens zwei oder mehr Language-Links verlangt. Diese Möglichkeit wurde hier nicht weiter verfolgt und verbleibt als Gegenstand künftiger Forschung. 12.4. Auswertung der Verwandtheit Die Zuordnung semantisch verwandter Konzepte, wie sie beim Import der Wikipedia-Daten vorgenommen wird (.9.1.3), ist schwer zu evaluieren, da die Semantik dieser Beziehungen nicht klar definiert ist—das heißt, es ist nicht einfach, zu bestimmen, welche Zuordnung „falsch“ wäre. Die Stärke und Art der subjektiv empfundenen Verwandtheit der Konzeptpaare variiert aber stark. Hier ein paar Beispiele: ERDMASSE ist verwandt mit PLANET, GRAVITATIONSKONSTANTE und SONNENMASSE. EARL_BROWDER (amerikanischer Kommunist) ist verwandt mit 1891 (Geburtsjahr), 1973 (Sterbejahr), KOMMUNISTISCHE_PARTEI_DER_USA (Vorsitz), PR¨ASIDENTSCHAFTSWAHL_IN_DEN_VEREINIGTEN_STAATEN_1936 (Kandidatur), WILLIAM_Z._FOSTER (Vorgänger). LUKE_DONALD (englischer Golfer) ist verwandt mit NORTHWESTERN_UNIVERSITY (Absolvent), WORLD_CUP_(GOLF,_M¨ANNER) (Sieger), HEMEL_HEMPSTEAD (Geburtsort), PAUL_CASEY_(GOLFER) (Partner), OMEGA_EUROPEA_MASTERS (Sieger). VERWEILDAUER (im Versicherungsjargon) ist verwandt mit KRANKENHAUS, DIAGNOSIS_RELATED_GROUPS. Die Qualität der Verknüpfungen über ihre Frequenz zu approximieren, wie das bei der Ähnlichkeit möglich war (.12.3), führt hier nicht zum Erfolg: die Verwandtheit ergibt sich ja daraus, ob sich zwei Artikel gegenseitig per Wiki-Link referenzieren. Wie oft sie das tun, ist dabei kein Indikator für die Stärke der Verbindung—per Konvention sollte die Anzahl der Verknüpfungen in der Regel sogar immer nur 1 sein: [WP:V] besagt, dass in einem Artikel normalerweise nur einmal auf einen bestimmten anderen Artikel verwiesen werden soll. Aussichtsreicher ist es, den Typ der Konzepte zu betrachten (.8.6): Personen zum Beispiel sind oft „verwandt“ mit ihrem Geburts- und Sterbejahr, und eventuell auch mit ihrem Geburtsort—der Grund ist, dass die Artikel über die Jahre Listen von Personen enthalten, die in den betreffenden 12. Akkuratheit der Konzepte 108 Jahren geboren wurden und gestorben sind. Ähnlich wird in Artikeln über Städte häufig angegeben, welche Persönlichkeiten dort geboren wurden oder gewirkt haben. Diese Verknüpfungen sind aber, je nach Nutzung, wenig hilfreich als Indikator für semantische Verwandtschaft. So bietet es sich an, die Verwandtschaftsbeziehung nach Typ zu filtern: zum Beispiel können aus der Verwandtschaft von Personen (Typ PERSON) Zeiten entfernt werden (Konzepte vom Typ TIME) und eventuell auch Orte (Konzepte vom Typ PLACE). Oder man verlangt, dass die Verwandtschaften eines Konzeptes immer vom selben Typ sein müssen, wie das Konzept selbst (wobei OTHER auch zulässig sein kann): so findet man zu einer Person weitere Personen, zu einem Ort weitere Orte, zu einem Jahr weitere Jahre und so weiter. Die Qualität der Verwandtheit ist also schwer festzustellen, der Typ Konzepte bietet einen besseren Anhaltspunkt für die Filterung passend zum Anwendungsfall. Noch besser wäre es natürlich, die konkrete Semantik der Beziehung zwischen den Konzepten zu kennen (etwa geborenin oder hauptstadt-von). Um solche Relationen aus Wikipedia-Artikeln zu extrahieren, gibt es im wesentlichen zwei Möglichkeiten: entweder man analysiert die Parameter von bestimmten Vorlagen (Infoboxen), um strukturierte Datensätze zu erhalten [WP:IB, AUER U. A. (2007), AUER UND LEHMANN (2007)]. Oder man analysiert den Satz, in dem die Verknüpfung in den jeweiligen Artikeln auftritt, mit einfachem Pattern Matching, oder mit aufwändigeren Methoden der automatischen Sprachverarbeitung [NGUYEN U. A. (2007), NGUYEN UND ISHIZUKA (2007), WU UND WELD (2007)]. Diese Möglichkeiten der Datenextraktion sind nicht Gegenstand dieser Arbeit und damit nicht Aufgabe von WikiWord — sie sind vielmehr komplementär zu den hier vorgestellten Methoden: ihre Ergebnisse können die von WikiWord ergänzen. DesWeiteren ist anzumerken, dass die hier betrachtete Verwandtheitsbeziehung relativ grob ist: sie betrachtet nur explizite direkte Verwandtheit, die sich vorab für alle Konzepte in einem Thesaurus bestimmen lässt. Sie verbindet also solche Konzepte, die „sehr“ verwandt sind: eine graduelle Abstufung oder ein Vergleich der „Verwandtheit“ ist nicht möglich. In Kapitel .14 werden Techniken betrachtet, mit denen einWert für die semantische Verwandtheit eines gegebenen Paars von Konzepten oder Termen berechnet werden kann. 12.5. Auswertung der Termzuordnung Die Bedeutungsrelation, also die Zuordnung von Termen (Bezeichnungen) zu Konzepten (Bedeutungen), ist ein Kernstück eines konzeptorientierten Thesaurus: sie vermittelt zwischen reinem Text und inhaltlichen Beziehungen. Daher ist es besonders wichtig, dass diese Relation korrekt ist, dass heißt, dass sie keine fehlerhaften Zuordnungen liefert. Dieser Abschnitt untersucht die Qualität der Bedeutungsrelation auf der Basis der oben beschriebenen Stichproben. Die Tabellen 12.5 und 12.6 zeigen die Bewertung der Terme, die den einzelnen Konzepten zugeordnet sind — die Erhebung kann im Einzelnen in Anhang F.4 nachvollzogen werden. Für jeden Term, der einem Konzept zugeordnet ist, wurde eine der folgenden Bewertungen abgegben, die die Zeilen der Tabellen bilden: GOOD: der Term ist eine korrekte Bezeichnung für das Konzept. 12. Akkuratheit der Konzepte 109 en.wikipedia %tall %nall %ttop %ntop GOOD 87,1 95,9 76,4 91,4 DIRTY 3,0 0,8 2,2 0,3 VARIANT 1,0 0,2 3,8 4,2 DERIVED 1,0 0,4 4,1 1,2 BROADER 3,0 0,6 4,1 1,6 NARROWER 4,0 1,9 6,9 1,0 BAD 1,0 0,2 2,5 0,2 Tabelle concept_survey, siehe .F.4 Tabelle 12.5.: Bewertung der Termzuordnungen für die englischsprachige Wikipedia de.wikipedia %tall %nall %ttop %ntop GOOD 87,2 95,8 49,5 83,3 DIRTY 0,0 0,0 0,3 0,0 VARIANT 1,2 0,3 14,8 9,1 DERIVED 9,3 3,3 10,3 3,4 BROADER 2,3 0,7 7,7 1,3 NARROWER 0,0 0,0 15,4 2,5 BAD 0,0 0,0 1,9 0,2 Tabelle concept_survey, siehe .F.4 Tabelle 12.6.: Bewertung der Termzuordnungen für die deutschsprachige Wikipedia VARIANT: der Term ist eine Form einer korrekten Bezeichnung für das Konzept, also zum Beispiel ein Plural oder Genitiv, oder das Wort ist groß geschrieben, weil es am Satzanfang steht. DERIVED: der Term ist von dem Konzept abgeleitet, bezeichnet es aber nicht direkt: zum Beispiel „Physiker“ für PHYSIK oder „deutsch“ für DEUTSCHLAND. DIRTY: der Term ist nicht ganz richtig verwendet, zum Beispiel ist die Großschreibung falsch, oder die Verwendung von Bindestrichen oder Apostrophen ist nicht ganz korrekt. BROADER: der Term bezeichnet eigentlich etwas, das dem Konzept übergeordnet ist — dies tritt relativ häufig auf, und zwar vor allem immer dann, wem ein Term totem pro parte (oder in ähnlicher Weise synekdotisch) verwendet wird. Beispiele sind „Amerika“ für USA oder „griechisch“ für GRIECHISCHE MYTOLOGIE. Zum Teil handelt es sich dabei um ungenaue, aber umgangssprachlich gebräuchliche Bezeichnungen, zum Teil aber auch um Terme, die nur in einem ganz bestimmten Kontext auf das gegebene Konzept verweisen: „Vergrößerung“ kann zum Beispiel für HEPATOMEGALIE stehen, wenn der Kontext sich mit Krankeiten der Leber beschäftigt. Diese Bedeutungszuweisung ist dann zwar stark kontextabhängig, aber dennoch valid. NARROWER: der Term bezeichnet etwas, das dem Konzept untergeordnet ist — dies tritt vor allem dann auf, wenn es für das konkretere Konzept keinen eigenen Artikel in der Wikipedia gibt. Sehr häufig zum Beispiel verweist der Name eines Stadteils auf den Artikel über die 12. Akkuratheit der Konzepte 110 ganze Stadt. Dieses Vorgehen ist zwar im Rahmen der Wikipedia pragmatisch, führt aber für WikiWord zu fehlerhaften Bedeutungszuweisungen — besser ist es, wenn in einem solchen Fall auf einen Abschnitt des entsprechenden Artikels verwiesen wird. Dann erzeugt WikiWord für den Abschnitt ein eigenes Konzept (.9.1.1). Zu beachten ist auch, dass Terme in derWikipedia fast nie aus rethorischen Gründen auf ein allgemeineres Konzept verweisen — das heißt, sie werden nicht pars pro toto verwendet, bzw. wird, wenn diese Stilfigur verwendet wird, kein Wiki-Link gesetzt. BAD: der Term bezeichnet das Konzept nicht, die Verwendung als Link-Text ist falsch oder zumindest irreführend. Zum Teil handelt es sich hier um Tippfehler oder eine fehlerhafteWahl des Link-Zieles, zum Teil aber auch um „navigatorische“ Link-Texte, wie „das gleichnamige Buch“ oder „im folgenden Jahr“. Diese sind für die Bedeutungsrelation unbrauchbar. Die Übergänge zwischen den einzelnen Bewertungen sind bisweilen fließend. Einige Beispiele: • Die Bezeichnung „Amerika“ für das Konzept USA kann als Kurzform des Namens gesehen werden (GOOD) oder als Synekdoche, also eine Verwendung totem pro parte (BROADER). • Das Adjektiv „physikalisch“ für das Konzept PHYSIK kann als Wortform (VARIANT) oder als abgeleitetes Wort (DERIVED) betrachtet werden. • Die Schreibweise „Lodz“ für £´OD´Z kann als valide deutsche Transkription (GOOD) oder als typographischer Fehler (DIRTY) angesehen werden. Aus diesem Grund wird die Unterscheidung im Folgenden auf „gute“ und „schlechte“ Zuordnungen reduziert, wobei nur die Bewertungen NARROW und BAD als „schlecht“ betrachtet werden: Die Interpretation von BROADER als „gut“ und NARROWER als „schlecht“ ist dadurch begründet, dass, wie oben schon bemerkt, die Bewertung BROADER häufig aus einer Verwendung des Terms als Synekdoche stammt, während die Bewertung NARROW meist von „Verlegenheitsverknüpfungen“ herrührt, die entstehen, wenn kein Artikel zu dem konkreten Konzept existiert, und deshalb ein Wiki-Link auf ein übergeordnetes Thema gesetzt wird. Aus Sicht von WikiWord wäre es in solchen Fällen vorzuziehen, entweder einen Link auf eine noch nicht existierende Seite zu setzen (was unter Umständen durchaus erwünscht ist [WP:RL, WP:V]) oder auf einen konkreten Abschnitt in einem übergeordneten Artikel zu verweisen. Aus diesem Grund wird hier BROADER noch als „gut“, aber NARROW als „schlecht“ bewertet. Die Bewertungen VARIANT und DERIVED sind aus der Perspektive des Information Retrieval sicherlich als valid anzusehen, da sich im Kontext einer Dokumentensuche oder Indexierung der entsprechenden Text korrekt dem fraglichen Konzept zuordnen lässt. Dasselbe gilt auch für die Bewertung DIRTY, da für die Effektivität der Suche ja nicht entscheidend ist, ob eine Bezeichnung „korrekt“ ist, sondern nur, wie sie pragmatisch verwendet wird. Die Spalten der Tabellen 12.5 und 12.6 teilen sich in zwei Gruppen: die ersten beiden Spalten geben die Werte für die Stichprobe über den Gesamtkorpus an (all), die letzten beiden Spalten 12. Akkuratheit der Konzepte 111 die Werte für die Stichprobe aus den 10% meistgenutzer Konzepte (top). Die jeweils erste Spalte gibt direkt den Anteil von Termen wieder, auf die die der Zeile entsprechende Bewertung zutrifft (%t), die jeweils zweite Spalte ist nach Termfrequenz gewichtet, das heißt, sie gibt den Anteil der Verwendungen von Termen an, auf die die Bewertung zutrifft (%n). Vergleicht man die Bewertungen innerhalb einer Spalte, so ist zunächst offensichtlich, dass die allermeisten Terme als GOOD markiert sind, also als völlig korrekte Bezeichungen für das Konzept. Der Anteil liegt bei etwa 50%–87% der Terme, aber etwa 83%–97% der Verwendungen — was besagt, dass die „guten“, primären Bezeichnungen für ein Konzept häufiger verwendet werden als irgendwelche Varianten, abgeleitete oder gar falsche Bezeichnungen. Der Anteil der „guten“ Bezeichnungen ist ausserdem bei der Stichprobe aus den meistgenutzten 10% kleiner als bei der Stichprobe über den Gesamtkorpus — der Grund dafür ist vermutlich, dass abgeleitete Formen oder alternative Bezeichnungen bevorzugt für gebräuchliche Konzepte verwendet werden, während ungebräuchliche Konzepte meist über ihren primären Namen referenziert werden. Bei einem Vergleich zwischen den Ergebnissen für die englischsprachige und die deutschsprachige Wikipedia fällt auf, dass in der deutschsprachigen Wikipedia deutlich mehr Terme als VARIANT (Wortform) oder DERIVED (Abgeleitet) markiert sind. Das ist vermutlich durch die reichere Morphologie der deutschen Sprache sowie die Verwendung von Komposita zu erklären. Diese Vermutung durch Untersuchungen an weiteren Sprachen zu erhärten verbleibt als Gegenstand künftiger Forschung. Eine weitere Auffälligkeit ist, dass in der englischsprachigen Wikipedia mehr Einträge als DIRTY markiert sind—das ist insbesondere auf fehlende Apostrophe bei Genitiv-Formen sowie auf fälschliche Kleinschreibung bei Namen und Abkürzungen zurückzuführen. LINK DISAMBIG SORTKEY REDIRECT TITLE GOOD 96,5 76,5 100,0 57,7 99,0 VARIANT 0,2 – – 3,8 – DERIVED 0,8 – – 11,5 – DIRTY 0,2 – – 15,4 – BROADER 1,1 11,8 – – 1,0 NARROWER 1,1 – – 11,5 – BAD 0,2 11,8 – – – eval-rules-en.tsv, siehe .F.5 Tabelle 12.7.: Evaluation der Termzuordnung, nach Extraktionsregel (englischsprachige Wikipedia, all- Stichprobe) Um nun den Anteil der „schlechten“ Termzuordnungen zu reduzieren, können die Zuordnungen gefiltert werden (Cutoff, siehe .10.4). Dabei kommen die beiden folgenden Kriterien in Betracht: die Häufigkeit, mit der die Zuordnung beobachtet wurde (vergleiche Tabelle 12.8) sowie die Regeln, über die die Zuordnung extrahiert wurde (vergleiche Tabelle 12.7), wie sie in den Feldern freq bzw. rule in der Tabelle meaning (.C.2) gespeichert sind. Die Bedeutungsrelation wird dabei also um Zuordnungen beschnitten, die zu selten und/oder zu schwach sind. Die Erwartung 12. Akkuratheit der Konzepte 112 >=1 >=2 >=3 >=4 GOOD 84,8 94,5 94,8 97,5 VARIANT 1,1 0,0 0,0 0,0 DERIVED 2,7 1,8 1,7 0,0 DIRTY 2,2 0,9 0,0 0,0 BROADER 5,4 0,0 0,0 0,0 NARROWER 2,2 2,7 3,4 2,5 BAD 1,6 0,0 0,0 0,0 eval-freq-en.tsv, siehe .F.5 Tabelle 12.8.: Evaluation der Termzuordnung, nach Frequenz (englischsprachige Wikipedia, all- Stichprobe) %tcall %tall %ncall %nall %tctop %ttop %nctop %ntop Alle 100,0 91,3 100,0 96,7 100,0 84,3 100,0 97,3 Min. 2×od. Exp. 82,6 91,4 96,0 97,0 79,9 86,6 98,2 97,7 Min. 3×od. Exp. 80,4 91,2 94,9 96,9 75,2 87,9 97,3 97,9 Min. 2× 59,8 94,5 90,7 97,8 50,3 90,0 95,5 98,1 Min. 3× 31,5 94,8 77,5 98,4 38,7 94,3 93,4 98,6 Nur Explizite 77,2 91,5 87,4 97,1 65,7 88,5 77,8 98,7 eval-cutoff-en.tsv, siehe .F.5 Tabelle 12.9.: Auswirkung verschiedener Cutoff-Modi, für die englischsprachige Wikipedia %tcall %tall %ncall %nall %tctop %ttop %nctop %ntop Alle 100,0 94,4 100,0 98,1 100,0 72,0 100,0 93,8 Min. 2×od. Exp.: 81,4 96,5 94,7 98,8 61,4 80,1 96,0 95,2 Min. 3×od. Exp. 78,5 97,8 93,1 99,5 54,3 80,5 94,6 95,5 Min. 2× 59,3 98,1 88,4 99,3 48,2 80,7 94,7 95,5 Min. 3× 26,0 100,0 69,3 100,0 35,4 86,4 92,1 96,3 Nur Explizite 76,3 97,8 90,1 99,5 46,3 79,2 89,2 95,7 eval-cutoff-de.tsv, siehe .F.5 Tabelle 12.10.: Auswirkung verschiedener Cutoff-Modi, für die deutschsprachige Wikipedia 12. Akkuratheit der Konzepte 113 ist, dass sich dadurch der Anteil der „guten“ Termzuordnung (also die Precision) vergößern lässt, wobei in Kauf genommen wird, dass sich die Abdeckung (Coverage) verschlechtert1. Die Tabellen 12.9 und 12.10 zeigen die Auswirkungen unterschiedlicher Cutoff-Methoden auf die Stichproben aus dem englischsprachigen bzw. deutschsprachigen Thesaurus. Sie geben die Abdeckung und den Anteil als „gut“ bewerteter Termzuordnungen wieder, jeweils für einen bestimmten Cutoff-Modus und eine bestimmte Stichprobe. Die ersten vier Spalten beziehen sich auf die Stichprobe über alle Konzepte (all), die letzten vier auf die Stichprobe aus den oberen 10% der am häufigsten verwendeten Konzepte (top). Für beide Stichproben beziehen sich die ersten beiden Spalten jeweils auf den Anteil an unterschiedlichen Termen (t) und die beiden verbleibenden auf den Anteil bezüglich aller Verwendungen der Terme, also skaliert nach Termfrequenz (n). So ergeben sich vier Paare von Spalten, in jedem dieser Paare gibt die erste Spalte (tc bzw. nc) die Abdeckung an, also den Anteil von Termzuweisungen, die nach dem Cutoff verblieben sind, und die zweite Spalte (t bzw. n) gibt den Anteil der als „gut“ bewerteten Terme an (also alle mit den Bewertungen GOOD, DIRTY, DERIVED, VARIANT und BROADER). Die Spalten der Tabelle geben die Ergebnisse für unterschiedliche Cutoff-Modi an, grob sortiert nach zunehmender „Strenge“ der Kriterien. Im Einzelnen: Alle: Werte ohne Cutoff, also für alle gefundenen Termzuordnungen. Min. 2×od. Exp.: Die Zuordnung muss mindestens zweimal vorkommen, oder sie muss mindestens einmal explizit vorgenommen worden sein, also nicht ausschließlich aus einer Verwendung des Termes als Link-Text folgen. Min. 3×od. Exp.: Die Zuordnung muss mindestens dreimal vorkommen, oder sie muss explizit vorgenommen worden sein. Min. 2×: Die Zuordnung muss mindestens zweimal vorkommen, egal ob sie explizit vorgenommen wurde oder nicht. Min. 3×: Die Zuordnung muss mindestens dreimal vorkommen. Nur Explizite: Die Zuordnung muss mindestens einmal explizit vorgenommen worden sein, also nicht ausschließlich aus einer Verwendung des Termes als Link-Text folgen. Dabei ist es im Allgemeinen so, dass sowohl die Vorgabe einer Mindestfrequenz als auch das Verlangen einer expliziten Zuordnung die Abdeckung stark reduziert, um die Präzision um einige Prozentpunkte zu erhöhen. Dabei sind die Auswirkungen auf die skaliertenWerte, also die Anteile an der Verwendung der Terme, deutlich geringer als an den absoluten Werten. Das ist konsistent mit der vorher beschriebenen Beobachtung, dass „gute“ Terme für ein Konzept weit häufiger verwendet werden als „schlechte“; auch ist der Zusammenhang natürlich darin begründet, dass es ja gerade die wenig verwendeten Termzuordnungen sind, die ausgefiltert werden. 1Die Abdeckung bezieht sich auf die Anzahl von Zuordnungen bzw. Termen ohne Cutoff; der Recall würde sich auf die Anzahl aller Bezeichnungen für die gegebenen Konzepte beziehen, diese ist jedoch unbekannt, und selbst mit Hilfe eines „Gold-Standards“ auf der Basis von Standard-Wörterbüchern nur schlecht anzunähern. 12. Akkuratheit der Konzepte 114 Wird kein Cutoff angewendet, ergibt sich (bei, per Definition, 100% Abdeckung) die schlechteste Präzision, die aber für den Anteil der Termverwendungen immer noch durchweg bei 97% liegt. Bezogen auf unterschiedliche Terme liegt die Präzision immer noch zwischen 84% und 94% (mit der Ausnahme von 72% für die Top10%-Stichprobe aus der deutschsprachigenWikipedia, die vor allem auf das oben erwähnten Problem mit Stadtteilen zurückzuführen ist). Das zeigt, dass die Bedeutungsrelation von WikiWord schon recht hohe Qualität hat. Etwas überraschend ist, dass eine Beschränkung auf explizite Termzuweisungen, die mit großen Einbußen in der Abdeckung verbunden ist, in keinem Fall besser ist als alle anderen Möglichkeiten des Cutoffs, und zumeist sogar deutlich hinter anderen Möglichkeiten zurückbleibt. Das ist insbesondere auch deshalb interessant, weil dieser Modus den Ergebnissen entspricht, die zu erwarten wären, wenn der Link-Text gar nicht als Quelle von Termzuordnungen berücksichtigt würde — wie es die meisten anderen Ansätze zur Extraktion eines Thesaurus aus der Wikipedia tun. Die Verwendung des Link-Textes bringt also nicht nur einen quantitativen, sondern im Allgemeinen auch einen qualitativen Vorteil —zum Teil sogar ohne Filterung, spätestens aber nach Anwendung geeigneter Cutoff-Regeln. Das bestätigt die Ergebnisse von [CRASWELL U. A. (2001), EIRON UND MCCURLEY (2003), KRAFT UND ZIEN (2004)]. Die Anwendung eines „naiven“ Cutoffs, der eine minimale Anzahl von Beobachtungen einer Termzuordnung verlangt, liefert eine Verbesserung der Präzision um ein bis zwei Prozentpunkte auf über 99% (in einer Stichprobe sogar auf 100% für eine Mindestfrequenz von 3), allerdings auf Kosten der Abdeckung, insbesondere in Bezug auf die Anzahl der bekannten unterschiedlichen Terme: sie sinkt für eine Mindestfrequenz von 2 auf 50% und für eine Mindestfrequenz von 3 auf circa 30%—das entspricht grob der Erwartung, dass, nach dem Zipfschen Gesetz [ZIPF (1935)], die Häfte der Zuordnungen nur einmal vorkommt, und drei Viertel nur höchstens zweimal. Die Kombination der Kriterien Mindestfrequenz und explizite Zuordnung ist als Kompromiss zwischen Abdeckung und Präzision gedacht: wird eine explizite Zuweisung nur für Terme verlangt, die selten vorkommen, so ergibt sich ein deutlich geringerer Verlust an Abdeckung, während der Gewinn an Präzision fast gleich bleibt: Die Verschlechterung der Präzision beträgt etwa 0,5 Prozentpunkt bezüglich der Termverwendungen und bis zu 5 Prozentpunkte bezüglich unterschiedlicher Terme. Dem steht eine Verbesserung der Abeckung um circa 5 Prozentpunkte bezüglich der Termverwendungen und bis zu 50 Prozentpunkte bezüglich der Anzahl unterschiedlicher Terme gegenüber. Über die beiden Cutoff-Kriterien lässt sich der Trade-Off zwischen Abdeckung und Präzision steuern, insbesondere auch in Bezug darauf, ob in der gegebenen Anwendung die Präzision in Bezug auf die zu erwartende natürliche Häufigkeit der Verwendung relevant ist, oder ob die Wahrscheinlichkeit der Nutzung jedes Terms in etwa gleich ist: ist die Präzision wichtig und die Terme treten in ihrer natürlichen (Zipfschen) Verteilung auf, so empfielt sich ein „strikter“ Cutoff. Ist jedoch die Abdeckung wichtig, sollte ein kombinierter Cutoff verwendet werden, insbesondere dann, wenn die Terme gleichverteilt auftreten, da sonst die Abdeckung zu stark reduziert würde. Es wäre interessant, weiter zu untersuchen, wie sich unterschiedliche Definitionen für explizite Zuweisung auswirken, also welche Extraktionsregeln unter den Cutoff fallen. In obigem Experiment wurde die Regel TERM_FROM_LINK als implizit angesehen, die anderen als explizit. Aufgrund der hohen Fehlerraten der Regeln TERM_FROM_DISAMBIG sowie TERM_ FROM_REDIRECT (vergleiche Tabelle 12.7) scheint es sinnvoll, verschiedene Kombinationen von Extraktionsregeln für den Cutoff näher zu betrachten. 12. Akkuratheit der Konzepte 115 12.6. Auswertung der Glossen Die Extraktion von Definitionssätzen (Glossen, .8.8) aus den Artikeln wurde in Bezug darauf evaluiert, ob sie in der Tat einen Definitionssatz liefert. Dabei wurde nicht die faktische Richtigkeit bewertet (die der Autor in vielen Fällen gar nicht beurteilen kann), sondern lediglich, ob es sich um einen wohlgeformten, vollständigen Definitionssatz handelt, der eine nicht-triviale Aussage über das Konzept macht. Im einzelnen waren die folgenden Bewertungen möglich: UNKNOWN: Zu dem betreffenden Konzept gibt es keinen Artikel, daher konnte keine Definition extrahiert werden, die Bewertung ist also gegenstandslos. OK: Der Definitionssatz wurde korrekt extrahiert und macht eine nicht-triviale Aussage über das Konzept. MISSING: Es wurde kein Definitionssatz extrahiert. Das bedeutet entweder, dass der Artikel nicht der Standard-Form für Wikipedia-Artikel folgt [WP:ARTIKEL, WP:WSIGA] und nicht mit einem Definitionssatz beginnt, oder, dass die Muster und Heuristiken zum Auffinden des ersten Satzes fehlgeschlagen sind. TRIVIAL: Der Definitionssatz wurde korrekt extrahiert, enthält aber keine sinnvolle Aussage. Relativ häufig kommen Sätze wie der folgende vor: „Weltoffenheit ist ein Begriff aus der philosophischen Anthropologie.“ (.8.8). TRUNCATED: Der Definitionssatz wurde nur teilweise extrahiert, ist abgeschnitten oder sonstwie verstümmelt. Der Grund ist meist eine fehlerhafte Erkennung des Satzendes (etwa fälschlich nach einer unbekannten Abkürzung), Verwirrung durch verschachtelte Strukturen wie Klammersätze oder wörtliche Rede, oder aber die Verwendung von unbekannten Vorlagen für die Formatierung von Text. RUNAWAY: Der Definitionssatz wurde korrekt extrahiert, aber es wurde noch weiterer Text mitgeliefert. Meistens wird noch ein zweiter Satz angehängt, weil der erste mit einer Abkürzung wie „etc.“ endete und daher das Satzende nicht als solches erkannt wurde. CLUTTERED: Der Definitionssatz wurde korrekt extrahiert, enthält aber Überbleibsel von Wiki- Markup oder ähnlichem. Das ist meist auf eine fehlerhafte Verwendung von Wiki-Markup zurückzuführen, oder aber auf Fehler in den Mustern, die zur Bereinigung des Textes verwendet werden (.8.3). WRONG: Es wurde etwas extrahiert, was kein Definitionssatz für das betreffende Konzept ist. Entweder der erste Satz ist kein Definitionssatz, weil der Artikel nicht der Standard-Form für Wikipedia-Artikel folgt ([WP:WSIGA, WP:ARTIKEL]), oder die Muster und Heuristiken zum Auffinden des ersten Satzes sind fehlgeschlagen. Die Tabelle 12.11 zeigt, dass die Definitionssätze in den allermeisten Fällen korrekt extrahiert werden (OK) oder nur kleinere Probleme aufweisen (RUNAWAY, CLUTTERED). 12. Akkuratheit der Konzepte 116 (a) gesamt Typ enall entop deall detop UNKNOWN 58% 2% 72% 2% OK 40% 86% 28% 88% CLUTTERED – 2% – – RUNAWAY – 2% – 2% TRUNCATED 2% 4% – 4% TRIVIAL – – – 4% MISSING – 2% – – WRONG – 2% – – (b) ohne UNKNOWN Typ enall entop deall detop UNKNOWN OK 95% 88% 100% 90% CLUTTERED – 2% – – RUNAWAY – 2% – 2% TRUNCATED 5% 4% – 4% TRIVIAL – – – 4% MISSING – 2% – – WRONG – 2% – – Tabelle concept_survey, siehe .F.4 Tabelle 12.11.: Evaluation der Glossen Die Fälle, in denen der Satz abgeschnitten wurde (TRUNCATED) sind meist auf eine zu strenge Heuristik zurückzuführen, nämlich die, dass ein einzelner Zeilenumbruch einen Satz beendet — das ist gemäß der Wiki-Syntax nicht notwendig (.A) und kann in LanguageConfiguration. sentencePattern angepasst werden. Das würde aber vermutlich zu einer Vermehrung der RUNAWAY-Fälle führen. Gegen triviale Glossen (TRIVIAL), die der Form nach, aber nicht dem Inhalt nach eine Definition darstellen, ist mit algorithmischen Mitteln wenig zu machen. Es wäre höchstens möglich, immer den ganzen ersten Absatz als Glosse zu nehmen, das würde aber in den meisten Fällen Text mit einbeziehen, der nicht zur Definition gehört, und laut Anforderung (.5.1) hier nicht erwünscht ist (vergleiche .8.8). Wenn gar keine Glosse gefunden wird (MISSING), liegt das meist daran, dass auch keine vorhanden ist—in vielenWikis ist das zum Beispiel für Jahresartikel der Fall, die imWesentlichen als Listen von Ereignissen strukturiert sind. Es fällt auch schwer, sich für eine Jahreszahl eine sinnvolle Definition vorzustellen. Wird ein falscher Satz als Glosse gefunden (WRONG), so liegt das oft daran, dass vor dem Definitionssatz eine Bemerkung steht — einleitende Hinweise (Tags) in Artikeln kommen recht oft vor, zum Beispiel alsoWarnung vor schlechter Qualität des Artikels, oder als Hinweis auf eine Begriffsklärungsseite. Aber normalerweise sind solche tags Vorlagen, oder sie sind zumindest mit <center> oder <div> formatiert und können damit leicht erkannt und herausgefiltert werden. In einigen Fällen jedoch ist das nicht der Fall: in der englischsprachigen Wikipedia zum Beispiel stehen Verweise auf alternative Bedeutungen häufig direkt vor dem eigentlichen Artikelinhalt, und sind nur dadurch abgesetzt, dass sie eingerückt sind. Wird diese Einrückung vergessen, was durchaus vorkommt, so findet der Algorithmus diesen vorangestellten Kommentar als ersten Satz, der dann fälschlich als Glosse interpretiert wird. Es ist zu hoffen, dass auch die englischsprachige Wikipedia zur Nutzung von Vorlagen für diesen Zweck übergeht, so dass dieses Problem in Zukunft vermieden wird.
History
Enable pagination
rows per page
HTML diff
Side-by-side diff
Side-by-side diff by characters
Inline diff
Inline diff by characters
Full side-by-side diff
Full side-by-side diff by characters
Full inline diff
Full inline diff by characters
Unified diff
Side-by-side view
HTML diff
Side-by-side diff
Advanced
Information
Version
Fri 30 of May, 2008 21:27 GMT
alain_desilets
1
Select action to perform with checked...
Remove
OK
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display