History: DanielKinzler Chapter 2: Einordnung
View page
Source of version: 1
(current)
2. Einordnung Im Folgenden wird ein Überblick über den Stand der Forschung in Bereichen gegeben, die in Bezug auf den Gegenstand der vorliegenden Arbeit besonders relevant sind. Insbesondere werden Arbeiten betrachtet, die entweder die Wikipedia selbst zum Gegenstand haben oder Inhalte und Struktur der Wikipedia nutzen, um Aufgaben aus dem Bereich der automatischen Sprachverarbeitung und des Information Retrieval zu bewältigen. 2.1. Untersuchung von Struktur und Qualität der Wikipedia Die Wikipedia findet seit dem Jahr 2005 zunehmend Beachtung in der Forschung, sowohl als Gegenstand von Untersuchungen als auch als Datenbasis oder Korpus für Verfahren zur Bewältigung einer Vielzahl von unterschiedlichen Aufgaben. Im Bereich der Arbeiten, die allgemeine Eigenschaften der Wikipedia untersuchen, wie zum Beispiel das Wachstum oder die Verknüpfungsstruktur, sind vor allem die Arbeiten von J. Voß zu nennen [VOSS (2005A), VOSS (2005B)] sowie ein Vortrag von J. Wales, dem Gründer1 der Wikipedia [WALES (2004)]. A. Capocci et. Al. untersuchen die Eigenschaften der Wikipedia insbesondere in Hinblick auf das Modell des Preferential Attachment [CAPOCCI U. A. (2006)], während F. Bellomi und R. Bonato gängige Algorithmen wie HITS und PageRank zur Bestimmung der Relevanz bzw. Autorität auf die Wikipedia anwenden [BELLOMI UND BONATO (2005B), BELLOMI UND BONATO (2005A)]. Gegen die Verwendung der Wikipedia als Datenbasis für Verfahren der Wissens- und Sprachverarbeitung gab es lange Zeit (und gibt es zum Teil noch immer) den Vorbehalt, dass die Qualität der Inhalte zu schlecht oder zumindest zu unzuverlässig sei, um sie bedenkenlos verwenden zu können. Anlass für diese kritische Haltung war und ist zumeist der Umstand, dass die Wikipedia jederzeit von jedermann frei bearbeitet werden kann und Vorkehrungen zur Qualitätssicherung wie in einem traditionellen Redaktionssystem weitgehend fehlen. Dem wurde von Seiten der Wikimedia Foundation sowie der Nutzer der Wikipedia entgegengehalten, dass neben dem Einbringen neuer Informationen eben auch die redaktionellen Aufgaben wie Qualitätssicherung von jedermann übernommen werden können und auch tatsächlich übernommen werden [WALES (2004)]. Seit dem Jahr 2006 ist es erklärtes Ziel der Wikipedia, die Qualität und Verlässlichkeit der Artikel zu verbessern [WP:100K]. In der Wikipedia werden seit ihrer Gründung, aber besonders seit 2006, immer neue Strukturen und Verfahren entwickelt, um die Qualität der Artikel zu verbessern. Beispiele aus der deutschsprachigen Wikipedia sind das Qualitätssicherungsprojekt [WP:QS], die Auszeichnung von exzellenten Artikeln [WP:EA] sowie, als Experiment seit Mai 2008, das Verfahren der gesichteten Versionen [WP:GS]: Änderungen, die von anonymen oder neuen Benutzern vorgenommen werden, werden nicht mehr sofort, sondern erst nach einer ersten (oberflächlichen) Prüfung der Allgemeinheit präsentiert. 1Oder Mitbegründer. Ob die Erfindung der Wikipedia alleine Jimmy Wales zuzuschreiben ist, oder inwieweit die Idee auf Larry Sanger zurückgeht, ist Gegenstand eines andauernden Streits zwischen eben jenen. 2. Einordnung 15 Die erste und wohl bekannteste Studie zur Qualität der Inhalte der Wikipedia wurde von J. Giles im Jahr 2005 für die Zeitschrift Nature durchgeführt [GILES (2005)]. Giles vergleicht hier eine Anzahl von Artikeln aus der Wikipedia mit den entsprechenden Einträgen in der Encyclopaedia Britannica und kommt zu dem Ergebnis, dass die Wikipedia dem traditionellen Nachschlagewerk in Bezug auf die Qualität kaum unterlegen und in Bezug auf die Ausführlichkeit der Beschreibungen und die Abdeckung von aktuellen Themen gar überlegen ist. Diese Untersuchung hatte zur Folge, dass die Wikipedia zunehmend als ernstzunehmende und verlässliche Wissensbasis betrachtet und untersucht wurde. Detailliertere und differenziertere Untersuchungen zur Qualität der Wikipedia wurden vor allem von R. Hammwöhner durchgeführt [HAMMW¨OHNER (2007A), HAMMW¨OHNER (2007B), HAMMW¨OHNER (2007)]. Hierbei wurde insbesondere deutlich, dass die Qualität einzelner Artikel stark divergiert: es gibt in Bezug auf die untersuchten Eigenschaften sowohl Beispiele sehr geringer, wie auch sehr hoher Qualität. Diese Untersuchungen beruhen zum Teil auf den Kriterien, die von Stvilia et. Al. für die Evaluation von Enzyklopädien entwickelt wurden [STVILIA U. A. (2005)]. Probleme sieht Hammwöhner besonders im Bereich der Wissensorganisation zum Beispiel in Form des Kategoriesystems, welches insbesondere für die englischsprachige Wikipedia als schlecht strukturiert und zum Teil fehlerhaft befunden wurde. Er schlägt vor, die Kategoriestrukturen aus mehrerenWikipedias über die Language-Links, die sie verbinden, zu vergleichen und auf diese Weise Probleme aufzudecken und zu beseitigen [HAMMW¨OHNER (2007B)]. 2.2. Maschinenlesbare Wissensbasen Es existieren bereits einige Versuche, eine maschinenlesbare Wissensbasis zur Verfügung zu stellen, die als Grundlage für ein weites Feld an Verfahren aus den Bereichen der automatischen Sprachverarbeitung, des Information Retrieval, aber auch der Wissensrepräsentation und künstlichen Intelligenz dienen können. Zwei der ältesten und bekanntesten Systeme dieser Art sind Cyc und WordNet: Das Cyc-Projekt bietet eine manuell gepflegte, logikbasierte Ontologie mit etwa 300 000 Konzepten und 3 000 000 Verknüpfungen bzw. Aussagen über diese Konzepte (47 000 Konzepte und 300 000 Aussagen in der Open-Source-Version OpenCyc) [LENAT U. A. (1990), CYC, OPENCYC]. Es wird seit 1984 unter der Leitung von D. Lenat entwickelt und hat seine Wurzeln in der klassischen KI-Forschung. Ziel des Cyc-Projektes ist es, Softwaresystemen Zugang zu „gesundem Menschenverstand“ („Common Sense“), also Weltwissen, zu bieten. Neben der Ontologie enthält es auch ein Lexikon, das (englische) Terme auf Konzepte der Ontologie abbildet. WordNet ist ein von Hand erzeugtes semantisches Lexikon der englischen Sprache, es besteht aus etwa 117 000 SynSets (Konzepten) mit etwa 155 000 Wörtern [MILLER (1995), FELLBAUM (1998), WORDNET]. Zwischen den Konzepten sind die für Thesauri üblichen Relationen definiert, wie allgemeiner/ spezieller und verwandt sowie einige speziellere, wie Aggregationsbeziehung (part-of ). WordNet stammt aus dem Bereich der automatischen Sprachverarbeitung, es wird seit 1985 von G. A. Miller und in jüngerer Zeit von C. Fellbaum betreut. Eine neuere Entwicklung stellt SUMO (Suggested Upper Merged Ontology) dar, das eine gemeinsame standardisierte „obere“ Ontologie für verschiedene Anwendungen im Bereich Suche, 2. Einordnung 16 automatisches Schließen sowie automatische Sprachverarbeitung bieten soll [NILES UND PEASE (2001), SUMO, IEEE:SUO-WG]. SUMO wird seit dem Jahr 2000 vom IEEE entwickelt und enthält Anfang 2008 etwa 20 000 handverlesene Konzepte und 70 000 Aussagen (Axiome). Für SUMO gibt es eine vollständige Abbildung auf WordNet, mit deren Hilfe Wörter der englischen Sprache an die abstrakten Konzepte der Ontologie gebunden werden können. Lange vor solchen maschinenlesbaren Wissensbasen, die auf die Verwendung im Bereich der automatischen Sprachverarbeitung und künstlichen Intelligenz ausgerichtet sind, gab es Klassifikationssysteme bzw. kontrollierte Vokabulare für die Indexierung von Dokumenten, insbesondere für die Verwendung in Bibliotheken. Einige prominente Beispiele sind DDC (Dewey Decimal Classification [DEWEY (1965), DDC]) und die komplexere UDC (Universal Decimal Classification [OTLET UND FONTAINE (1905), UDC]) sowie die LLC (Library of Congress Classification [LCC, CHAN (1986)]). In Deutschland ist außerdem die ASB (Allgemeine Systematik für Öffentliche Bibliotheken [VBNW (2003)]) verbreitet. Neben diesen breit angelegten Systemen gibt es eine Vielzahl von fachspezifischen Thesauri, die für die Indexierung von Dokumenten in bestimmten Fachbereichen und/oder für bestimmte Institutionen entwickelt wurden. Bekannte Beispiele dafür sind unter anderem MeSH (die Medical Subject Headings der United States National Library of Medicine [LIPSCOMB (2000), MESH], das von MEDLINE und PubMed für Arbeiten im Bereich Medizin und Biologie verwendet wird) und die CR Classification (das ACM Computing Classification System für die Klassifikation von Arbeiten aus dem Bereich Informatik und Informationstechnologie [COULTER U. A. (1998), CCS]). Wissensbasen, die auf Informationen aus der Wikipedia beruhen, sind in den letzten Jahren ebenfalls entstanden. Zu nennen sind hier einerseits YAGO, dasWordNet als ein strukturelles Rückgrat verwendet, um die Inhalte der Wikipedia zu organisieren [YAGO]. Andererseits ist DBpedia zu erwähnen, welches strukturierte Daten wie Attribut-Wert-Paare aus der Wikipedia extrahiert und in einer RDF-Datenbank ablegt [DBPEDIA]. Diese beiden Datenbasen, sowie die Systeme, mit deren Hilfe sie erstellt wurden, werden in .2.4 bzw. .2.5 noch etwas genauer betrachtet. Ein weiteres derartiges Projekt ist Freebase, dessen Ziel es ist, eine frei zugängliche Datenbank zu schaffen, in dem dasWissen derWelt verknüpft ist [FREEBASE]. Die Idee ist es, Daten aus unterschiedlichen Quellen miteinander zu kombinieren und über eine einheitliche Schnittstelle zugänglich zu machen. Freebase enthält Daten unter anderem aus der Wikipedia, aus PubMed2, dem CIA World Factbook3 und diversen anderen Quellen. Ziel von WikiWord ist es nun, Daten zu liefern, die solche Systeme ergänzen und bereichern können. Insbesondere die Möglichkeit, Terme aus unterschiedlichen Sprachen auf ein gemeinsames abstraktes Konzept abzubilden, sowie eine Vielzahl von Bezeichnungen für dasselbe Konzept in jeder Sprache zu unterstützen, soll einen Beitrag dazu leisten, die Inhalte solcher Wissensdatenbanken auf natürlichsprachliche Texte wie Dokumente oder Suchanfragen anwenden zu können. 2<http://www.pubmedcentral.nih.gov/> 3<https://www.cia.gov/library/publications/the-world-factbook/index.html/> 2. Einordnung 17 2.3. Automatische Disambiguierung und semantische Verwandtheit Zwei eng miteinander verwandte Aufgaben aus dem Bereich der automatischen Sprachverarbeitung und des Information Retrieval, die beide ein gewisses Maß an Weltwissen benötigen, sind die automatische Disambiguierung (Sinnzuweisung, Bedeutungszuweisung) von Termen sowie die Bestimmung des Grades der semantischen Verwandtheit und Ähnlichkeit von Termen bzw. Konzepten. Die Datenbasis, die für diese Aufgaben benötigt wird, ist ein Assoziationsnetz von Termen und/oder Konzepten, wie es durch einen Thesaurus gegeben ist. Die Wikipedia erfreut sich in jüngster Zeit wachsender Beliebtheit als Grundlage für die automatische Erstellung einer solchen Datenbasis, da sie ein weites Feld von Themen abdeckt und dabei sehr aktuell ist. Zu nennen sind hier zunächst die Arbeiten von M. Strube und S. P. Ponzetto, die Verfahren zur Extraktion von Thesauri und Taxonomien aus der Wikipedia entwickelt [PONZETTO (2007), PONZETTO UND STRUBE (2007B)] und verschiedene Methoden zur Berechnung der semantischen Verwandtheit zwischen Konzepten evaluiert haben [PONZETTO UND STRUBE (2007C), STRUBE UND PONZETTO (2006), PONZETTO UND STRUBE (2007A)]. Hierbei wurden vor allem die Kategoriestruktur der Wikipedia sowie die Querverweise zwischen Artikeln verwendet. R. Mihalcea dagegen betrachtet vor allem die Beziehung zwischen Link-Text und Link-Ziel und interpretiert diese als Bedeutungsannotation (Sense-Tags) [MIHALCEA (2007)]. Konkret verwendet er Wikipedia als Trainingsmenge für einen Klassifikator zur automatischen Bedeutungsannotation. E. Gabrilovich verwendet verschiedene Eigenschaften von Wikipedia-Artikeln, um einen Klassifikator zu trainieren, der Dokumente kategorisiert [GABRILOVICH (2006), GABRILOVICH UNDMARKOVITCH (2006), GABRILOVICH UND MARKOVITCH (2007)]. Ebenfalls mit der Klassifikation von Dokumenten mit Hilfe der Informationen aus derWikipedia befasst sich P. Schönhofen [SCH¨ONHOFEN (2006)]. A. Krizhanovsky verwendet die Struktur vonWikipedia, um ähnliche Seiten zu gruppieren und so Synonymgruppen zu finden [KRIZHANOVSKY (2006)]. Die Forschung von T. Zesch und I. Gurevych gilt besonders der Berechnung von semantischer Verwandtheit und der Evaluation von Wikipedia als Datenbasis für diesen Zweck, im Vergleich unter anderem zu WordNet [ZESCH U. A. (2007A), ZESCH U. A. (2007B), ZESCH UND GUREVYCH (2007)], besonders unter Verwendung der Kategoriestruktur. Auf diese Arbeiten wird insbesondere bei der Evaluation in Kapitel .14 Bezug genommen. K. Nakayama et. Al. untersuchen neben Maßen für die semantische Verwandtheit auch Maße für die Relevanz und Zentralität von Konzepten, insbesondere auf Basis der Struktur der Querverweise über Wiki-Links [NAKAYAMA U. A. (2007B), NAKAYAMA U. A. (2007A)]. Dabei untersuchen sie unter anderem, inwieweit sich eine Beschränkung der Suchtiefe bei der Analyse der Verknüpfungsstruktur auf die Ergebnisse auswirkt. Die Evaluation all dieser Ansätze zeigt jeweils, dassWikipedia als Datenbasis für solche Aufgaben beachtliche Ergebnisse liefert, in der Präzision häufig an manuell gewartete Wissensnetze wie WordNet heran reicht und diesen in Bezug auf die Abdeckung von Spezialausdrücken oder aktuellen Themen sogar überlegen ist. In diesem Zusammenhang ebenfalls erwähnenswert sind die Arbeiten von M. Jarmasz und S. Szpakowicz, die Roget’s Thesaurus auf seinen Nutzen für die Bestimmung semantischer 2. Einordnung 18 Verwandtheit untersucht haben [JARMASZ UND SZPAKOWICZ (2001), JARMASZ UND SZPAKOWICZ (2003)]. Dabei haben sie insbesondere den Wert einer reichen Taxonomie für diese Aufgabe herausgestellt. 2.4. Erzeugung von Thesauri und Taxonomien Die Idee, Wikipedia als lexikalisch-semantische Datenbasis zur Erstellung von Thesauri und Taxonomien zu verwenden, ist schon verschiedentlich Gegenstand der Forschung gewesen. Auch die oben beschriebenen Systeme zur Untersuchung von semantischer Verwandtheit verwenden alle ein Thesaurus-artiges Assoziationsnetzwerk, insbesondere die Arbeiten von M. Strube und S. P. Ponzetto, die von E. Gabrilovich, von T. Zesch und I. Gurevych sowie die von K. Nakayama et. Al. Im Folgenden werden einige Untersuchungen aufgeführt, die den Aufbau eines Thesaurus oder einer Taxonomie unmittelbar zum Ziel haben. A. Gregorowicz und M. A. Kramer bauen auf Grundlage der Wikipedia ein Term-Konzept- Netzwerk auf, das Relationen zwischen Konzepten sowie die Zuordnungen von Termen zu Konzepten enthält, sehr ähnlich der Struktur, die auch in der vorliegenden Diplomarbeit verwendet wird [GREGOROWICZ UND KRAMER (2006)]. D. Milne et. Al. untersuchen eine ähnliche Struktur insbesondere in Hinblick auf eine Verwendung für die Indexierung von Dokumenten und das Information Retrieval [MILNE U. A. (2006), MILNE UND NICHOLS (2007), MILNE U. A. (2007)]. Sie entwickeln eine wissensbasierte Suchmaschine namens Koru, um die Eignung der aus der Wikipedia gewonnenen Daten für Indexierung und Suche zu demonstrieren. J. Voß untersucht, wie sich das Kategoriesystem der Wikipedia zu anderen Indexierungs- und Klassifikationssystemen verhält [VOSS (2006)]. M. Ruiz-Casado et. Al. ordnen Wikipedia-Einträge automatisch WordNet-SynSets zu und evaluieren die relative Abdeckung und Granularität dieser beiden Wissensbasen [RUIZ-CASADO U. A. (2005)]. F. M. Suchanek et. Al. kombinieren ebenfalls Wikipedia und WordNet, allerdings mit dem Ziel, Wikipedia-Einträge als Individuen bzw. Instanzen von Klassen zu verwenden, die von WordNet-Einträgen gebildet werden [SUCHANEK U. A. (2007)]. Auf diese Weise entsteht eine neue Wissensstruktur, YAGO, die die Wohlstrukturiertheit von WordNet mit der Informationsfülle und Aktualität der Wikipedia verbinden soll. Z. Syed et. Al. verwenden die Einträge der Wikipedia als Vokabular zur Indexierung von Dokumenten. Die durch Querverweise zwischen Artikeln gegebene Assoziation von Themen wird zur Bestimmung relevanter Konzepte zu einer Suchanfrage genutzt, indem das Verfahren der Spearding Activation auf die Verknüpfungsstruktur angewendet wird [SYED U. A. (2008)]. M. Hepp et. Al. untersuchen, inwieweit sich Wikipedia-Einträge bzw. ihre URLs als Bezeichner für Konzepte zur Indexierung von Dokumenten eignen [HEPP U. A. (2006)]. Sie betrachten dabei unter anderem, wie sich das Konzept, das mit einer gegebenen URL bzw. URI verbunden ist, über die Zeit verändert. L. Muchnik et. Al. beschreiben ein Modell für die Hierarchisierung von Netzwerken im Allgemeinen, und validieren es unter anderem am Beispiel der Wikipedia, indem sie allein auf Grund der Struktur der Querverweise eine Taxonomie der Artikel aufbauen und diese mit der Kategoriestruktur vergleichen [MUCHNIK U. A. (2007)]. Eines der Maße für die lokale Bestimmung der Zentralität von Konzepten, die dabei entwickelt wurden, nämlich der Local Hierarchy Score (LHS), wird auch im Rahmen dieser Arbeit verwendet (.9.3). 2. Einordnung 19 E.M. van Mullige et. Al. entwickeln eine Erweiterung der MediaWiki-Software, mit deren Hilfe die komplexen, hoch strukturierten Daten eines multilingualen Wörterbuches und Thesaurus namens OmegaWiki (ehemals WiktionaryZ) kollaborativ in einem Wiki verwaltet und bearbeitet werden können [VAN MULLIGEN U. A. (2006), OMEGAWIKI]. Die MediaWiki-Erweiterung, Wikidata, auf der diese Anwendung basiert, wurde vornehmlich für den Einsatz in OmegaWiki entwickelt. Sie dient vor allem der Verwaltung von relationalen Datensätzen in einem Wiki. Dabei liegt der Fokus, anders als bei dem weiter unten erwähnten Semantic MediaWiki, darauf, eine komplexe aber fest vorgegebene Datenbankstruktur mit Inhalten zu füllen. Zu diesem Zweck werden spezialisierte Eingabehilfen bereitgestellt. 2.5. Wissensextraktion Wikipedia kann auch als Grundlage für die Erzeugung einer Wissensbasis dienen, die über ein bloßes Assoziationsnetzwerk und einfache Subsumtionsbeziehungen hinausgeht: durch geeignete Verfahren lassen sich Attribut-Wert-Paare sowie semantisch bedeutsame Relationen zwischen Entitäten bzw. Konzepten extrahieren. In den letzten Jahren wurden verschiedene Versuche unternommen, diese Informationen zugänglich zu machen. S. Auer, J. Lehmann et. Al. haben ein System namens DBpedia entwickelt, das Attributwerte sowie semantische Relationen aus der Wikipedia extrahiert, vor allem durch Auswertung spezieller Vorlagen, so genannter Infoboxen [AUER U. A. (2007), AUER UND LEHMANN (2007), DBPEDIA]. Diese bieten strukturierte Daten in einer Form an, die bereits weitgehend dem Modell von Attribut-Wert-Paaren entspricht [WP:IB]. DBpedia stellt die so gewonnenen Daten als eineWissensbasis im RDF-Format [W3C:RDF (2004)] bereit und bietet eine Abfrageschnittstelle, die komplexe logikbasierte Abfragen auf der Basis von SPARQL [W3C:SPARQL (2008)] erlaubt. Auch D. P. T. Nguyen et. Al. verwenden Infoboxen zur Gewinnung von strukturierten Daten sowie zur Klassifikation von Artikeln bzw. von Konzepten [NGUYEN U. A. (2007)]. F. Wu und D. S. Weld benutzen ebenfalls die Informationen aus Infoboxen, trainieren aber ein System zur Erkennung von Textmustern darauf, Informationen aus dem Fließtext mit denen aus Infoboxen abzugleichen und gegebenenfalls Infoboxen zu ergänzen oder zu erzeugen [WU UND WELD (2007)]. Neben der Forschung zur Extraktion von Daten aus der Wikipedia gibt es auch Versuche, Wiki- Systeme so zu erweitern, dass sie unmittelbar zur Erzeugung und Pflege von strukturierten, semantisch bedeutsamen und maschinenlesbaren Daten verwendet werden können. Der wohl bekannteste Versuch ist wohl der von M. Krötzsch et. Al., welche mit Semantic MediaWiki eine Erweiterung von MediaWiki entwickelt haben, mit dessen Hilfe strukturierte Daten wie semantische Relationen und Attributwerte direkt in einem Wiki-System verwaltet und bearbeitet werden können [KR¨OTZSCH U. A. (2005), KR¨OTZSCH U. A. (2007), SMW]. Sie schlagen vor, dieses System auch für die Wikipedia selbst zu verwenden. T. Redmann und H. Thomas untersuchen, wie sich Topic Maps [GARSHOL (2004), ISO:13250 (2003)] mit Hilfe eines Wiki-Systems bearbeiten lassen, und wie sich umgekehrt die typischen Strukturen einesWikis in Form einer Topic Map speichern lassen [REDMANN UND THOMAS (2007)]. R. Witte und T. Gitzinger schlagen vor, Mustererkennung und automatische Sprachverarbeitung direkt in Wiki-Systeme zu integrieren, um so den Aufbau einer Wissensbasis aus Texten sowie 2. Einordnung 20 umgekehrt die Beschreibung von strukturierten Daten in Texten als interaktiven Prozess zu gestalten [WITTE UND GITZINGER (2007)]. 2.6. Named Entity Recognition Eine wichtige Aufgabe im Bereich der automatischen Sprachverarbeitung sowie des Information Retrieval ist die Erkennung und Disambiguierung von Named Entities, also vor allem von (Eigennamen von) Personen, Orten, Organisationen und ähnlichem. Wikipedia enthält, genau wie andere Enzyklopädien, eine große Zahl von Einträgen über eben solche Konzepte, und bietet sich daher als Datenbasis für eine Erkennung solcher Named Entities an. S. Cucerzan und W. Dakka untersuchten Methoden zur Disambiguierung von Namen sowie zur Klassifikation von Dokumenten unter Verwendung von Verfahren des maschinellen Lernens, konkret eines naiven Bayes-Klassifikators sowie Support Vector Machines (SVM). Dabei wurden unter anderem Informationen aus den Seitentiteln,Weiterleitungen, Begriffsklärungsseiten sowie aus dem Link-Text von Wiki-Links verwendet [DAKKA UND CUCERZAN (2008), CUCERZAN (2007)]. Einen ähnlichen Ansatz verfolgen R. Bunescu und M. Pasca, die ebenfalls SVM auf der Basis von Wikipedia für die Erkennung von Named Entities trainieren [BUNESCU UND PASCA (2006)]. A. Toral und R. Munoz entwarfen ein System zum automatischen Aufbau eines Gazetteers aus der Wikipedia, indem sie ähnlich wie F. M. Suchanek Beschreibungen von Instanzen aus derWikipedia mit Klassen aus WordNet kombinierten [TORAL UND MUNOZ (2007), TORAL UND MUNOZ (2006)]. J. Kazama und K. Torisawa präsentieren eine Methode zur Erkennung und Klassifikation von Wikipedia- Seiten über Named Entities, die auf der Analyse des ersten Satzes von Wikipedia-Artikeln beruht [KAZAMA UND TORISAWA (2007)]. 2.7. Eigenschaften von WikiWord Dieser Abschnitt gibt einen kurzen Überblick über die Eigenschaften der WikiWord-Software, die im Rahmen dieser Diplomarbeit entwickelt wurde. Dabei werden insbesondere solche Eigenschaften betrachtet, die WikiWord zu den oben erwähnten Arbeiten in Beziehung setzen bzw. von ihnen abgrenzen. • WikiWord erzeugt einen konzeptorientierten Thesaurus, also ein Netzwerk von Konzepten, die durch Relationen wie Subsumtion, Verwandtheit und Ähnlichkeit verbunden sind, mit einer zusätzlichen Bedeutungsrelation, die Terme mit Konzepten assoziiert und als Lexikon dient (vergleiche [GREGOROWICZ UND KRAMER (2006)]). Die meisten der oben beschriebenen Systeme zum Aufbau eines Thesaurus aus der Wikipedia (zum Beispiel die Arbeiten von T. Zesch und I. Gurevych) übergehen die Bedeutungsrelation weitgehend und befassen sich kaum mit der Identifikation verschiedener Bezeichnungen für Konzepte. In der Regel erschöpft sich die Behandlung von Synonymien in der Auflösung von Weiterleitungen, wie sie in der Wikipedia definiert sind. 2. Einordnung 21 • WikiWord erzeugt einen multilingualen Thesaurus, indem es Language-Links verwendet, um Artikel über dasselbe Konzept in unterschiedlichen Wikipedias zu identifizieren und zu vereinigen. Eine solche Konsolidierung der Informationen aus unterschiedlichenWikipedias zu einer sprachübergreifenden Wissensbasis wurde in den oben erwähnten Studien bislang nicht untersucht. Lediglich [AUER U. A. (2007)] verwendet einige Informationen aus unterschiedlichen Wikipedias, wobei die Grundstruktur an die englischsprachige Wikipedia gebunden bleibt. • WikiWord verwendet neben Seitentiteln und Weiterleitungsseiten auch Begriffsklärungsseiten sowie insbesondere auch Link-Text, um die verschiedenen Bezeichnungen für ein Konzept zu ermitteln und zu gewichten. Link-Text wird in den oben erwähnten Arbeiten zur Erzeugung eines Thesaurus kaum erwähnt, lediglich die Forschung zur Named Entity Recognition scheint sich dieser Informationsquelle bisher bedient zu haben (z. B. S. Cucerzan und W. Dakka). Dadurch deckt WikiWord eine Vielzahl von Bezeichnungen ab, die anderweitig schwer zu erfassen sind, darunter viele Mehrwortphrasen, Abkürzungen, flektierte Formen sowie ungenaue oder synekdotische Verwendungen von Termen. • WikiWord liefert zu vielen Konzepten den ersten Satz des entsprechenden Wikipedia- Artikels als Glosse in den gegebenen Sprachen. Die oben erwähnten Verfahren nutzen meist den ersten Absatz als Glosse, statt nur des ersten Satzes, was zu mehr „Rauschen“ führt. Zudem wird sie häufig lediglich zur Bestimmung der semantischen Verwandtheit oder ähnlichem herangezogen und nicht als Eigenschaft eines Konzeptes im Resultat wiedergegeben. • WikiWord verzichtet auf eine Analyse natürlicher Sprache, nicht einmal Stammformreduktion (Stemming) oder Wortarterkennung (POS-Tagging) kommen zum Einsatz. Das verwendete einfache Pattern Matching beschränkt sich auf Muster, die bestimmte Markup-Konstrukte und Strukturmerkmale von Wikipedia-Seiten erkennen. Das einzige verwendete Verfahren, das entfernt auf Sprachverarbeitung beruht, ist das zur Erkennung von Satzenden: Dieses wird verwendet, um Glossen aus denWikipedia-Artikeln zu extrahieren. • WikiWord extrahiert keine Attribut-Wert-Paare oder andere strukturierte Daten aus Vorlagen wie Infoboxen oder ähnlichem. Während Wikipedia eine reiche Quelle für diese Art von Informationen ist, soll die Auswertung dieser Daten Projekten wie DBpedia überlassen bleiben (vergleiche .2.5). • WikiWord verwendet kein maschinelles Lernen und kaum statistische Heuristiken4. Stattdessen werden Strukturen und Konventionen, die in den verschiedenen Wikipedia- Projekten anzutreffen sind, explizit modelliert und ausgewertet. So kann die Investition menschlichen Urteils, die in der Struktur der Wikipedia enthalten ist, direkt genutzt werden. • WikiWord berücksichtigt Konzepte, die nur als Abschnitte von Artikeln repräsentiert sind, sowie Konzepte, die zwar referenziert werden, jedoch (noch) keinen eigenen Artikel haben. 4eine erwähnenswerte Heuristik mag das Cutoff-Verfahren sein, das in .10.4 beschrieben ist. 2. Einordnung 22 Damit wird eine deutlich größere Zahl von Konzepten berücksichtigt, wobei allerdings zu vielen davon kaum Informationen vorliegen. Solche „schwachen“ Konzepte werden von WikiWord gekennzeichnet und können daher bei Bedarf ignoriert werden. • WikiWord liefert zusätzlich zu der Subsumtionsrelation eine grobe Typisierung der Konzepte, die insbesondere verschiedene Arten von Named Entities identifizieren, zum Beispiel Personen, Orte, Zeitpunkte und Lebensformen. Diese Typen können zur Filterung der Konzepte je nach Anwendungsgebiet verwendet werden. • WikiWord konsolidiert Konzepte aus Artikeln mit Konzepten, die in der Wikipedia durch Kategorien repräsentiert sind. Insgesamt versucht WikiWord, möglichst viele lexikalisch-semantische Informationen, die in der Wikipedia kodiert sind, zugänglich zu machen. Dabei berührt es viele Bereiche, die von den oben beschriebenen Arbeiten über die Erzeugung von Taxonomien und Thesauri aus der Wikipedia behandelt werden, sowie auch von Arbeiten, die sich mit Named Entity Recognition befassen. WikiWord verzichtet auf heuristische und statistische Verfahren und beschränkt sich weitgehend auf die bloße Extraktion und Repräsentation der Daten. Die meisten der oben erwähnten Verfahren könnten auf die von WikiWord extrahierten Daten angewendet werden, statt die Daten der Wikipedia direkt zu benutzen — es wäre zu untersuchen, inwiefern sie von den zusätzlichen von WikiWord berücksichtigten Strukturen und Konventionen der Wikipedia profitieren. Die von WikiWord erzeugte Datenbasis ist aber auch als eigenständiger, multilingualer, konzeptorientierter Thesaurus nützlich für Aufgaben wie Indexierung, Disambiguierung und Bestimmung von semantischer Ähnlichkeit (vergleiche .IV). Teil II. Entwurf
SideMenu
Home Page
Demo screencast
Last changes
CLWE To do
Forum Wiki-translation
BabelWiki Workshop
Architecture document (pdf)
CLWE Paper (pdf)
Edit Side Menu
Latest Changes
No records to display
...more
Search
Find
Log In
Username:
Password:
I forgot my password
CapsLock is on.
Log in
Upcoming Events
No records to display