History: DanielKinzler Chapter 2: Einordnung

View page
Source of version: 1 (current)

2. Einordnung
Im Folgenden wird ein Ãœberblick Ã¼ber den Stand der Forschung in Bereichen gegeben, die
in Bezug auf den Gegenstand der vorliegenden Arbeit besonders relevant sind. Insbesondere
werden Arbeiten betrachtet, die entweder die Wikipedia selbst zum Gegenstand haben oder
Inhalte und Struktur der Wikipedia nutzen, um Aufgaben aus dem Bereich der automatischen
Sprachverarbeitung und des Information Retrieval zu bewÃ¤ltigen.
2.1. Untersuchung von Struktur und QualitÃ¤t der Wikipedia
Die Wikipedia findet seit dem Jahr 2005 zunehmend Beachtung in der Forschung, sowohl
als Gegenstand von Untersuchungen als auch als Datenbasis oder Korpus fÃ¼r Verfahren zur
BewÃ¤ltigung einer Vielzahl von unterschiedlichen Aufgaben.
Im Bereich der Arbeiten, die allgemeine Eigenschaften der Wikipedia untersuchen, wie zum
Beispiel das Wachstum oder die VerknÃ¼pfungsstruktur, sind vor allem die Arbeiten von J. VoÃŸ
zu nennen [VOSS (2005A), VOSS (2005B)] sowie ein Vortrag von J. Wales, dem GrÃ¼nder1 der Wikipedia
[WALES (2004)]. A. Capocci et. Al. untersuchen die Eigenschaften der Wikipedia insbesondere in
Hinblick auf das Modell des Preferential Attachment [CAPOCCI U. A. (2006)], wÃ¤hrend F. Bellomi und
R. Bonato gÃ¤ngige Algorithmen wie HITS und PageRank zur Bestimmung der Relevanz bzw.
AutoritÃ¤t auf die Wikipedia anwenden [BELLOMI UND BONATO (2005B), BELLOMI UND BONATO (2005A)].
Gegen die Verwendung der Wikipedia als Datenbasis fÃ¼r Verfahren der Wissens- und
Sprachverarbeitung gab es lange Zeit (und gibt es zum Teil noch immer) den Vorbehalt, dass
die QualitÃ¤t der Inhalte zu schlecht oder zumindest zu unzuverlÃ¤ssig sei, um sie bedenkenlos
verwenden zu kÃ¶nnen. Anlass fÃ¼r diese kritische Haltung war und ist zumeist der Umstand,
dass die Wikipedia jederzeit von jedermann frei bearbeitet werden kann und Vorkehrungen zur
QualitÃ¤tssicherung wie in einem traditionellen Redaktionssystem weitgehend fehlen. Dem wurde
von Seiten der Wikimedia Foundation sowie der Nutzer der Wikipedia entgegengehalten,
dass neben dem Einbringen neuer Informationen eben auch die redaktionellen Aufgaben wie
QualitÃ¤tssicherung von jedermann Ã¼bernommen werden kÃ¶nnen und auch tatsÃ¤chlich Ã¼bernommen
werden [WALES (2004)]. Seit dem Jahr 2006 ist es erklÃ¤rtes Ziel der Wikipedia, die QualitÃ¤t
und VerlÃ¤sslichkeit der Artikel zu verbessern [WP:100K]. In der Wikipedia werden seit ihrer
GrÃ¼ndung, aber besonders seit 2006, immer neue Strukturen und Verfahren entwickelt, um die
QualitÃ¤t der Artikel zu verbessern. Beispiele aus der deutschsprachigen Wikipedia sind das
QualitÃ¤tssicherungsprojekt [WP:QS], die Auszeichnung von exzellenten Artikeln [WP:EA] sowie, als
Experiment seit Mai 2008, das Verfahren der gesichteten Versionen [WP:GS]: Ã„nderungen, die von
anonymen oder neuen Benutzern vorgenommen werden, werden nicht mehr sofort, sondern erst
nach einer ersten (oberflÃ¤chlichen) PrÃ¼fung der Allgemeinheit prÃ¤sentiert.
1Oder MitbegrÃ¼nder. Ob die Erfindung der Wikipedia alleine Jimmy Wales zuzuschreiben ist, oder inwieweit die Idee
auf Larry Sanger zurÃ¼ckgeht, ist Gegenstand eines andauernden Streits zwischen eben jenen.
2. Einordnung 15
Die erste und wohl bekannteste Studie zur QualitÃ¤t der Inhalte der Wikipedia wurde von
J. Giles im Jahr 2005 fÃ¼r die Zeitschrift Nature durchgefÃ¼hrt [GILES (2005)]. Giles vergleicht
hier eine Anzahl von Artikeln aus der Wikipedia mit den entsprechenden EintrÃ¤gen in der
Encyclopaedia Britannica und kommt zu dem Ergebnis, dass die Wikipedia dem traditionellen
Nachschlagewerk in Bezug auf die QualitÃ¤t kaum unterlegen und in Bezug auf die
AusfÃ¼hrlichkeit der Beschreibungen und die Abdeckung von aktuellen Themen gar Ã¼berlegen ist.
Diese Untersuchung hatte zur Folge, dass die Wikipedia zunehmend als ernstzunehmende und
verlÃ¤ssliche Wissensbasis betrachtet und untersucht wurde.
Detailliertere und differenziertere Untersuchungen zur QualitÃ¤t der Wikipedia wurden vor allem
von R. HammwÃ¶hner durchgefÃ¼hrt [HAMMWÂ¨OHNER (2007A), HAMMWÂ¨OHNER (2007B), HAMMWÂ¨OHNER (2007)].
Hierbei wurde insbesondere deutlich, dass die QualitÃ¤t einzelner Artikel stark divergiert: es gibt
in Bezug auf die untersuchten Eigenschaften sowohl Beispiele sehr geringer, wie auch sehr hoher
QualitÃ¤t. Diese Untersuchungen beruhen zum Teil auf den Kriterien, die von Stvilia et. Al. fÃ¼r die
Evaluation von EnzyklopÃ¤dien entwickelt wurden [STVILIA U. A. (2005)]. Probleme sieht HammwÃ¶hner
besonders im Bereich der Wissensorganisation zum Beispiel in Form des Kategoriesystems, welches
insbesondere fÃ¼r die englischsprachige Wikipedia als schlecht strukturiert und zum Teil fehlerhaft
befunden wurde. Er schlÃ¤gt vor, die Kategoriestrukturen aus mehrerenWikipedias Ã¼ber die
Language-Links, die sie verbinden, zu vergleichen und auf diese Weise Probleme aufzudecken
und zu beseitigen [HAMMWÂ¨OHNER (2007B)].
2.2. Maschinenlesbare Wissensbasen
Es existieren bereits einige Versuche, eine maschinenlesbare Wissensbasis zur VerfÃ¼gung zu stellen,
die als Grundlage fÃ¼r ein weites Feld an Verfahren aus den Bereichen der automatischen
Sprachverarbeitung, des Information Retrieval, aber auch der WissensreprÃ¤sentation und kÃ¼nstlichen
Intelligenz dienen kÃ¶nnen. Zwei der Ã¤ltesten und bekanntesten Systeme dieser Art sind Cyc
und WordNet:
Das Cyc-Projekt bietet eine manuell gepflegte, logikbasierte Ontologie mit etwa 300 000
Konzepten und 3 000 000 VerknÃ¼pfungen bzw. Aussagen Ã¼ber diese Konzepte (47 000 Konzepte
und 300 000 Aussagen in der Open-Source-Version OpenCyc) [LENAT U. A. (1990), CYC, OPENCYC].
Es wird seit 1984 unter der Leitung von D. Lenat entwickelt und hat seine Wurzeln in der klassischen
KI-Forschung. Ziel des Cyc-Projektes ist es, Softwaresystemen Zugang zu â€žgesundem
Menschenverstandâ€œ (â€žCommon Senseâ€œ), also Weltwissen, zu bieten. Neben der Ontologie enthÃ¤lt
es auch ein Lexikon, das (englische) Terme auf Konzepte der Ontologie abbildet.
WordNet ist ein von Hand erzeugtes semantisches Lexikon der englischen Sprache, es besteht
aus etwa 117 000 SynSets (Konzepten) mit etwa 155 000 WÃ¶rtern [MILLER (1995), FELLBAUM (1998),
WORDNET]. Zwischen den Konzepten sind die fÃ¼r Thesauri Ã¼blichen Relationen definiert, wie allgemeiner/
spezieller und verwandt sowie einige speziellere, wie Aggregationsbeziehung (part-of ).
WordNet stammt aus dem Bereich der automatischen Sprachverarbeitung, es wird seit 1985 von
G. A. Miller und in jÃ¼ngerer Zeit von C. Fellbaum betreut.
Eine neuere Entwicklung stellt SUMO (Suggested Upper Merged Ontology) dar, das eine gemeinsame
standardisierte â€žobereâ€œ Ontologie fÃ¼r verschiedene Anwendungen im Bereich Suche,
2. Einordnung 16
automatisches SchlieÃŸen sowie automatische Sprachverarbeitung bieten soll [NILES UND PEASE (2001),
SUMO, IEEE:SUO-WG]. SUMO wird seit dem Jahr 2000 vom IEEE entwickelt und enthÃ¤lt Anfang
2008 etwa 20 000 handverlesene Konzepte und 70 000 Aussagen (Axiome). FÃ¼r SUMO gibt es
eine vollstÃ¤ndige Abbildung auf WordNet, mit deren Hilfe WÃ¶rter der englischen Sprache an die
abstrakten Konzepte der Ontologie gebunden werden kÃ¶nnen.
Lange vor solchen maschinenlesbaren Wissensbasen, die auf die Verwendung im Bereich
der automatischen Sprachverarbeitung und kÃ¼nstlichen Intelligenz ausgerichtet sind, gab es
Klassifikationssysteme bzw. kontrollierte Vokabulare fÃ¼r die Indexierung von Dokumenten, insbesondere
fÃ¼r die Verwendung in Bibliotheken. Einige prominente Beispiele sind DDC (Dewey
Decimal Classification [DEWEY (1965), DDC]) und die komplexere UDC (Universal Decimal
Classification [OTLET UND FONTAINE (1905), UDC]) sowie die LLC (Library of Congress Classification
[LCC, CHAN (1986)]). In Deutschland ist auÃŸerdem die ASB (Allgemeine Systematik fÃ¼r Ã–ffentliche
Bibliotheken [VBNW (2003)]) verbreitet.
Neben diesen breit angelegten Systemen gibt es eine Vielzahl von fachspezifischen Thesauri,
die fÃ¼r die Indexierung von Dokumenten in bestimmten Fachbereichen und/oder fÃ¼r bestimmte
Institutionen entwickelt wurden. Bekannte Beispiele dafÃ¼r sind unter anderem MeSH (die Medical
Subject Headings der United States National Library of Medicine [LIPSCOMB (2000), MESH], das von
MEDLINE und PubMed fÃ¼r Arbeiten im Bereich Medizin und Biologie verwendet wird) und die
CR Classification (das ACM Computing Classification System fÃ¼r die Klassifikation von Arbeiten
aus dem Bereich Informatik und Informationstechnologie [COULTER U. A. (1998), CCS]).
Wissensbasen, die auf Informationen aus der Wikipedia beruhen, sind in den letzten Jahren ebenfalls
entstanden. Zu nennen sind hier einerseits YAGO, dasWordNet als ein strukturelles RÃ¼ckgrat
verwendet, um die Inhalte der Wikipedia zu organisieren [YAGO]. Andererseits ist DBpedia zu erwÃ¤hnen,
welches strukturierte Daten wie Attribut-Wert-Paare aus der Wikipedia extrahiert und in
einer RDF-Datenbank ablegt [DBPEDIA]. Diese beiden Datenbasen, sowie die Systeme, mit deren
Hilfe sie erstellt wurden, werden in .2.4 bzw. .2.5 noch etwas genauer betrachtet.
Ein weiteres derartiges Projekt ist Freebase, dessen Ziel es ist, eine frei zugÃ¤ngliche Datenbank zu
schaffen, in dem dasWissen derWelt verknÃ¼pft ist [FREEBASE]. Die Idee ist es, Daten aus unterschiedlichen
Quellen miteinander zu kombinieren und Ã¼ber eine einheitliche Schnittstelle zugÃ¤nglich zu
machen. Freebase enthÃ¤lt Daten unter anderem aus der Wikipedia, aus PubMed2, dem CIA World
Factbook3 und diversen anderen Quellen.
Ziel von WikiWord ist es nun, Daten zu liefern, die solche Systeme ergÃ¤nzen und bereichern
kÃ¶nnen. Insbesondere die MÃ¶glichkeit, Terme aus unterschiedlichen Sprachen auf ein gemeinsames
abstraktes Konzept abzubilden, sowie eine Vielzahl von Bezeichnungen fÃ¼r dasselbe
Konzept in jeder Sprache zu unterstÃ¼tzen, soll einen Beitrag dazu leisten, die Inhalte solcher
Wissensdatenbanken auf natÃ¼rlichsprachliche Texte wie Dokumente oder Suchanfragen anwenden
zu kÃ¶nnen.
2<http://www.pubmedcentral.nih.gov/>
3<https://www.cia.gov/library/publications/the-world-factbook/index.html/>
2. Einordnung 17
2.3. Automatische Disambiguierung und semantische
Verwandtheit
Zwei eng miteinander verwandte Aufgaben aus dem Bereich der automatischen
Sprachverarbeitung und des Information Retrieval, die beide ein gewisses MaÃŸ an Weltwissen
benÃ¶tigen, sind die automatische Disambiguierung (Sinnzuweisung, Bedeutungszuweisung) von
Termen sowie die Bestimmung des Grades der semantischen Verwandtheit und Ã„hnlichkeit
von Termen bzw. Konzepten. Die Datenbasis, die fÃ¼r diese Aufgaben benÃ¶tigt wird, ist ein
Assoziationsnetz von Termen und/oder Konzepten, wie es durch einen Thesaurus gegeben ist.
Die Wikipedia erfreut sich in jÃ¼ngster Zeit wachsender Beliebtheit als Grundlage fÃ¼r die automatische
Erstellung einer solchen Datenbasis, da sie ein weites Feld von Themen abdeckt und dabei
sehr aktuell ist. Zu nennen sind hier zunÃ¤chst die Arbeiten von M. Strube und S. P. Ponzetto, die
Verfahren zur Extraktion von Thesauri und Taxonomien aus der Wikipedia entwickelt [PONZETTO
(2007), PONZETTO UND STRUBE (2007B)] und verschiedene Methoden zur Berechnung der semantischen
Verwandtheit zwischen Konzepten evaluiert haben [PONZETTO UND STRUBE (2007C), STRUBE UND PONZETTO
(2006), PONZETTO UND STRUBE (2007A)]. Hierbei wurden vor allem die Kategoriestruktur der Wikipedia
sowie die Querverweise zwischen Artikeln verwendet.
R. Mihalcea dagegen betrachtet vor allem die Beziehung zwischen Link-Text und Link-Ziel und
interpretiert diese als Bedeutungsannotation (Sense-Tags) [MIHALCEA (2007)]. Konkret verwendet er
Wikipedia als Trainingsmenge fÃ¼r einen Klassifikator zur automatischen Bedeutungsannotation.
E. Gabrilovich verwendet verschiedene Eigenschaften von Wikipedia-Artikeln, um einen
Klassifikator zu trainieren, der Dokumente kategorisiert [GABRILOVICH (2006), GABRILOVICH UNDMARKOVITCH
(2006), GABRILOVICH UND MARKOVITCH (2007)]. Ebenfalls mit der Klassifikation von Dokumenten mit Hilfe
der Informationen aus derWikipedia befasst sich P. SchÃ¶nhofen [SCHÂ¨ONHOFEN (2006)]. A. Krizhanovsky
verwendet die Struktur vonWikipedia, um Ã¤hnliche Seiten zu gruppieren und so Synonymgruppen
zu finden [KRIZHANOVSKY (2006)].
Die Forschung von T. Zesch und I. Gurevych gilt besonders der Berechnung von semantischer
Verwandtheit und der Evaluation von Wikipedia als Datenbasis fÃ¼r diesen Zweck, im Vergleich
unter anderem zu WordNet [ZESCH U. A. (2007A), ZESCH U. A. (2007B), ZESCH UND GUREVYCH (2007)], besonders
unter Verwendung der Kategoriestruktur. Auf diese Arbeiten wird insbesondere bei der Evaluation
in Kapitel .14 Bezug genommen.
K. Nakayama et. Al. untersuchen neben MaÃŸen fÃ¼r die semantische Verwandtheit auch MaÃŸe fÃ¼r
die Relevanz und ZentralitÃ¤t von Konzepten, insbesondere auf Basis der Struktur der Querverweise
Ã¼ber Wiki-Links [NAKAYAMA U. A. (2007B), NAKAYAMA U. A. (2007A)]. Dabei untersuchen sie unter anderem,
inwieweit sich eine BeschrÃ¤nkung der Suchtiefe bei der Analyse der VerknÃ¼pfungsstruktur auf die
Ergebnisse auswirkt.
Die Evaluation all dieser AnsÃ¤tze zeigt jeweils, dassWikipedia als Datenbasis fÃ¼r solche Aufgaben
beachtliche Ergebnisse liefert, in der PrÃ¤zision hÃ¤ufig an manuell gewartete Wissensnetze wie
WordNet heran reicht und diesen in Bezug auf die Abdeckung von SpezialausdrÃ¼cken oder aktuellen
Themen sogar Ã¼berlegen ist.
In diesem Zusammenhang ebenfalls erwÃ¤hnenswert sind die Arbeiten von M. Jarmasz und
S. Szpakowicz, die Rogetâ€™s Thesaurus auf seinen Nutzen fÃ¼r die Bestimmung semantischer
2. Einordnung 18
Verwandtheit untersucht haben [JARMASZ UND SZPAKOWICZ (2001), JARMASZ UND SZPAKOWICZ (2003)]. Dabei
haben sie insbesondere den Wert einer reichen Taxonomie fÃ¼r diese Aufgabe herausgestellt.
2.4. Erzeugung von Thesauri und Taxonomien
Die Idee, Wikipedia als lexikalisch-semantische Datenbasis zur Erstellung von Thesauri und
Taxonomien zu verwenden, ist schon verschiedentlich Gegenstand der Forschung gewesen. Auch
die oben beschriebenen Systeme zur Untersuchung von semantischer Verwandtheit verwenden alle
ein Thesaurus-artiges Assoziationsnetzwerk, insbesondere die Arbeiten von M. Strube und S. P.
Ponzetto, die von E. Gabrilovich, von T. Zesch und I. Gurevych sowie die von K. Nakayama et. Al.
Im Folgenden werden einige Untersuchungen aufgefÃ¼hrt, die den Aufbau eines Thesaurus oder
einer Taxonomie unmittelbar zum Ziel haben.
A. Gregorowicz und M. A. Kramer bauen auf Grundlage der Wikipedia ein Term-Konzept-
Netzwerk auf, das Relationen zwischen Konzepten sowie die Zuordnungen von Termen zu
Konzepten enthÃ¤lt, sehr Ã¤hnlich der Struktur, die auch in der vorliegenden Diplomarbeit verwendet
wird [GREGOROWICZ UND KRAMER (2006)]. D. Milne et. Al. untersuchen eine Ã¤hnliche Struktur insbesondere
in Hinblick auf eine Verwendung fÃ¼r die Indexierung von Dokumenten und das Information
Retrieval [MILNE U. A. (2006), MILNE UND NICHOLS (2007), MILNE U. A. (2007)]. Sie entwickeln eine wissensbasierte
Suchmaschine namens Koru, um die Eignung der aus der Wikipedia gewonnenen Daten fÃ¼r
Indexierung und Suche zu demonstrieren.
J. VoÃŸ untersucht, wie sich das Kategoriesystem der Wikipedia zu anderen Indexierungs- und
Klassifikationssystemen verhÃ¤lt [VOSS (2006)]. M. Ruiz-Casado et. Al. ordnen Wikipedia-EintrÃ¤ge
automatisch WordNet-SynSets zu und evaluieren die relative Abdeckung und GranularitÃ¤t dieser
beiden Wissensbasen [RUIZ-CASADO U. A. (2005)]. F. M. Suchanek et. Al. kombinieren ebenfalls
Wikipedia und WordNet, allerdings mit dem Ziel, Wikipedia-EintrÃ¤ge als Individuen bzw.
Instanzen von Klassen zu verwenden, die von WordNet-EintrÃ¤gen gebildet werden [SUCHANEK U. A.
(2007)]. Auf diese Weise entsteht eine neue Wissensstruktur, YAGO, die die Wohlstrukturiertheit
von WordNet mit der InformationsfÃ¼lle und AktualitÃ¤t der Wikipedia verbinden soll.
Z. Syed et. Al. verwenden die EintrÃ¤ge der Wikipedia als Vokabular zur Indexierung von
Dokumenten. Die durch Querverweise zwischen Artikeln gegebene Assoziation von Themen
wird zur Bestimmung relevanter Konzepte zu einer Suchanfrage genutzt, indem das Verfahren
der Spearding Activation auf die VerknÃ¼pfungsstruktur angewendet wird [SYED U. A. (2008)]. M.
Hepp et. Al. untersuchen, inwieweit sich Wikipedia-EintrÃ¤ge bzw. ihre URLs als Bezeichner fÃ¼r
Konzepte zur Indexierung von Dokumenten eignen [HEPP U. A. (2006)]. Sie betrachten dabei unter
anderem, wie sich das Konzept, das mit einer gegebenen URL bzw. URI verbunden ist, Ã¼ber die
Zeit verÃ¤ndert.
L. Muchnik et. Al. beschreiben ein Modell fÃ¼r die Hierarchisierung von Netzwerken im
Allgemeinen, und validieren es unter anderem am Beispiel der Wikipedia, indem sie allein auf
Grund der Struktur der Querverweise eine Taxonomie der Artikel aufbauen und diese mit der
Kategoriestruktur vergleichen [MUCHNIK U. A. (2007)]. Eines der MaÃŸe fÃ¼r die lokale Bestimmung
der ZentralitÃ¤t von Konzepten, die dabei entwickelt wurden, nÃ¤mlich der Local Hierarchy Score
(LHS), wird auch im Rahmen dieser Arbeit verwendet (.9.3).
2. Einordnung 19
E.M. van Mullige et. Al. entwickeln eine Erweiterung der MediaWiki-Software, mit deren Hilfe die
komplexen, hoch strukturierten Daten eines multilingualen WÃ¶rterbuches und Thesaurus namens
OmegaWiki (ehemals WiktionaryZ) kollaborativ in einem Wiki verwaltet und bearbeitet werden
kÃ¶nnen [VAN MULLIGEN U. A. (2006), OMEGAWIKI]. Die MediaWiki-Erweiterung, Wikidata, auf der diese
Anwendung basiert, wurde vornehmlich fÃ¼r den Einsatz in OmegaWiki entwickelt. Sie dient vor
allem der Verwaltung von relationalen DatensÃ¤tzen in einem Wiki. Dabei liegt der Fokus, anders
als bei dem weiter unten erwÃ¤hnten Semantic MediaWiki, darauf, eine komplexe aber fest
vorgegebene Datenbankstruktur mit Inhalten zu fÃ¼llen. Zu diesem Zweck werden spezialisierte
Eingabehilfen bereitgestellt.
2.5. Wissensextraktion
Wikipedia kann auch als Grundlage fÃ¼r die Erzeugung einer Wissensbasis dienen, die Ã¼ber ein
bloÃŸes Assoziationsnetzwerk und einfache Subsumtionsbeziehungen hinausgeht: durch geeignete
Verfahren lassen sich Attribut-Wert-Paare sowie semantisch bedeutsame Relationen zwischen
EntitÃ¤ten bzw. Konzepten extrahieren. In den letzten Jahren wurden verschiedene Versuche unternommen,
diese Informationen zugÃ¤nglich zu machen.
S. Auer, J. Lehmann et. Al. haben ein System namens DBpedia entwickelt, das Attributwerte sowie
semantische Relationen aus der Wikipedia extrahiert, vor allem durch Auswertung spezieller
Vorlagen, so genannter Infoboxen [AUER U. A. (2007), AUER UND LEHMANN (2007), DBPEDIA]. Diese bieten
strukturierte Daten in einer Form an, die bereits weitgehend dem Modell von Attribut-Wert-Paaren
entspricht [WP:IB]. DBpedia stellt die so gewonnenen Daten als eineWissensbasis im RDF-Format
[W3C:RDF (2004)] bereit und bietet eine Abfrageschnittstelle, die komplexe logikbasierte Abfragen
auf der Basis von SPARQL [W3C:SPARQL (2008)] erlaubt.
Auch D. P. T. Nguyen et. Al. verwenden Infoboxen zur Gewinnung von strukturierten Daten sowie
zur Klassifikation von Artikeln bzw. von Konzepten [NGUYEN U. A. (2007)]. F. Wu und D. S. Weld
benutzen ebenfalls die Informationen aus Infoboxen, trainieren aber ein System zur Erkennung
von Textmustern darauf, Informationen aus dem FlieÃŸtext mit denen aus Infoboxen abzugleichen
und gegebenenfalls Infoboxen zu ergÃ¤nzen oder zu erzeugen [WU UND WELD (2007)].
Neben der Forschung zur Extraktion von Daten aus der Wikipedia gibt es auch Versuche, Wiki-
Systeme so zu erweitern, dass sie unmittelbar zur Erzeugung und Pflege von strukturierten, semantisch
bedeutsamen und maschinenlesbaren Daten verwendet werden kÃ¶nnen. Der wohl bekannteste
Versuch ist wohl der von M. KrÃ¶tzsch et. Al., welche mit Semantic MediaWiki eine Erweiterung
von MediaWiki entwickelt haben, mit dessen Hilfe strukturierte Daten wie semantische Relationen
und Attributwerte direkt in einem Wiki-System verwaltet und bearbeitet werden kÃ¶nnen [KRÂ¨OTZSCH
U. A. (2005), KRÂ¨OTZSCH U. A. (2007), SMW]. Sie schlagen vor, dieses System auch fÃ¼r die Wikipedia selbst
zu verwenden. T. Redmann und H. Thomas untersuchen, wie sich Topic Maps [GARSHOL (2004),
ISO:13250 (2003)] mit Hilfe eines Wiki-Systems bearbeiten lassen, und wie sich umgekehrt die typischen
Strukturen einesWikis in Form einer Topic Map speichern lassen [REDMANN UND THOMAS (2007)].
R. Witte und T. Gitzinger schlagen vor, Mustererkennung und automatische Sprachverarbeitung
direkt in Wiki-Systeme zu integrieren, um so den Aufbau einer Wissensbasis aus Texten sowie
2. Einordnung 20
umgekehrt die Beschreibung von strukturierten Daten in Texten als interaktiven Prozess zu gestalten
[WITTE UND GITZINGER (2007)].
2.6. Named Entity Recognition
Eine wichtige Aufgabe im Bereich der automatischen Sprachverarbeitung sowie des Information
Retrieval ist die Erkennung und Disambiguierung von Named Entities, also vor allem von
(Eigennamen von) Personen, Orten, Organisationen und Ã¤hnlichem. Wikipedia enthÃ¤lt, genau wie
andere EnzyklopÃ¤dien, eine groÃŸe Zahl von EintrÃ¤gen Ã¼ber eben solche Konzepte, und bietet sich
daher als Datenbasis fÃ¼r eine Erkennung solcher Named Entities an.
S. Cucerzan und W. Dakka untersuchten Methoden zur Disambiguierung von Namen sowie zur
Klassifikation von Dokumenten unter Verwendung von Verfahren des maschinellen Lernens, konkret
eines naiven Bayes-Klassifikators sowie Support Vector Machines (SVM). Dabei wurden unter
anderem Informationen aus den Seitentiteln,Weiterleitungen, BegriffsklÃ¤rungsseiten sowie aus
dem Link-Text von Wiki-Links verwendet [DAKKA UND CUCERZAN (2008), CUCERZAN (2007)]. Einen Ã¤hnlichen
Ansatz verfolgen R. Bunescu und M. Pasca, die ebenfalls SVM auf der Basis von Wikipedia
fÃ¼r die Erkennung von Named Entities trainieren [BUNESCU UND PASCA (2006)].
A. Toral und R. Munoz entwarfen ein System zum automatischen Aufbau eines Gazetteers aus der
Wikipedia, indem sie Ã¤hnlich wie F. M. Suchanek Beschreibungen von Instanzen aus derWikipedia
mit Klassen aus WordNet kombinierten [TORAL UND MUNOZ (2007), TORAL UND MUNOZ (2006)]. J. Kazama
und K. Torisawa prÃ¤sentieren eine Methode zur Erkennung und Klassifikation von Wikipedia-
Seiten Ã¼ber Named Entities, die auf der Analyse des ersten Satzes von Wikipedia-Artikeln beruht
[KAZAMA UND TORISAWA (2007)].
2.7. Eigenschaften von WikiWord
Dieser Abschnitt gibt einen kurzen Ãœberblick Ã¼ber die Eigenschaften der WikiWord-Software,
die im Rahmen dieser Diplomarbeit entwickelt wurde. Dabei werden insbesondere solche
Eigenschaften betrachtet, die WikiWord zu den oben erwÃ¤hnten Arbeiten in Beziehung setzen
bzw. von ihnen abgrenzen.
â€¢ WikiWord erzeugt einen konzeptorientierten Thesaurus, also ein Netzwerk von Konzepten,
die durch Relationen wie Subsumtion, Verwandtheit und Ã„hnlichkeit verbunden sind,
mit einer zusÃ¤tzlichen Bedeutungsrelation, die Terme mit Konzepten assoziiert und als
Lexikon dient (vergleiche [GREGOROWICZ UND KRAMER (2006)]). Die meisten der oben beschriebenen
Systeme zum Aufbau eines Thesaurus aus der Wikipedia (zum Beispiel die Arbeiten
von T. Zesch und I. Gurevych) Ã¼bergehen die Bedeutungsrelation weitgehend und befassen
sich kaum mit der Identifikation verschiedener Bezeichnungen fÃ¼r Konzepte. In der Regel
erschÃ¶pft sich die Behandlung von Synonymien in der AuflÃ¶sung von Weiterleitungen, wie
sie in der Wikipedia definiert sind.
2. Einordnung 21
â€¢ WikiWord erzeugt einen multilingualen Thesaurus, indem es Language-Links verwendet,
um Artikel Ã¼ber dasselbe Konzept in unterschiedlichen Wikipedias zu identifizieren und zu
vereinigen. Eine solche Konsolidierung der Informationen aus unterschiedlichenWikipedias
zu einer sprachÃ¼bergreifenden Wissensbasis wurde in den oben erwÃ¤hnten Studien bislang
nicht untersucht. Lediglich [AUER U. A. (2007)] verwendet einige Informationen aus unterschiedlichen
Wikipedias, wobei die Grundstruktur an die englischsprachige Wikipedia
gebunden bleibt.
â€¢ WikiWord verwendet neben Seitentiteln und Weiterleitungsseiten auch
BegriffsklÃ¤rungsseiten sowie insbesondere auch Link-Text, um die verschiedenen
Bezeichnungen fÃ¼r ein Konzept zu ermitteln und zu gewichten. Link-Text wird in den
oben erwÃ¤hnten Arbeiten zur Erzeugung eines Thesaurus kaum erwÃ¤hnt, lediglich die
Forschung zur Named Entity Recognition scheint sich dieser Informationsquelle bisher
bedient zu haben (z. B. S. Cucerzan und W. Dakka). Dadurch deckt WikiWord eine
Vielzahl von Bezeichnungen ab, die anderweitig schwer zu erfassen sind, darunter viele
Mehrwortphrasen, AbkÃ¼rzungen, flektierte Formen sowie ungenaue oder synekdotische
Verwendungen von Termen.
â€¢ WikiWord liefert zu vielen Konzepten den ersten Satz des entsprechenden Wikipedia-
Artikels als Glosse in den gegebenen Sprachen. Die oben erwÃ¤hnten Verfahren nutzen meist
den ersten Absatz als Glosse, statt nur des ersten Satzes, was zu mehr â€žRauschenâ€œ fÃ¼hrt.
Zudem wird sie hÃ¤ufig lediglich zur Bestimmung der semantischen Verwandtheit oder Ã¤hnlichem
herangezogen und nicht als Eigenschaft eines Konzeptes im Resultat wiedergegeben.
â€¢ WikiWord verzichtet auf eine Analyse natÃ¼rlicher Sprache, nicht einmal
Stammformreduktion (Stemming) oder Wortarterkennung (POS-Tagging) kommen
zum Einsatz. Das verwendete einfache Pattern Matching beschrÃ¤nkt sich auf Muster, die
bestimmte Markup-Konstrukte und Strukturmerkmale von Wikipedia-Seiten erkennen.
Das einzige verwendete Verfahren, das entfernt auf Sprachverarbeitung beruht, ist das zur
Erkennung von Satzenden: Dieses wird verwendet, um Glossen aus denWikipedia-Artikeln
zu extrahieren.
â€¢ WikiWord extrahiert keine Attribut-Wert-Paare oder andere strukturierte Daten aus Vorlagen
wie Infoboxen oder Ã¤hnlichem. WÃ¤hrend Wikipedia eine reiche Quelle fÃ¼r diese Art von
Informationen ist, soll die Auswertung dieser Daten Projekten wie DBpedia Ã¼berlassen bleiben
(vergleiche .2.5).
â€¢ WikiWord verwendet kein maschinelles Lernen und kaum statistische Heuristiken4.
Stattdessen werden Strukturen und Konventionen, die in den verschiedenen Wikipedia-
Projekten anzutreffen sind, explizit modelliert und ausgewertet. So kann die Investition
menschlichen Urteils, die in der Struktur der Wikipedia enthalten ist, direkt genutzt werden.
â€¢ WikiWord berÃ¼cksichtigt Konzepte, die nur als Abschnitte von Artikeln reprÃ¤sentiert sind,
sowie Konzepte, die zwar referenziert werden, jedoch (noch) keinen eigenen Artikel haben.
4eine erwÃ¤hnenswerte Heuristik mag das Cutoff-Verfahren sein, das in .10.4 beschrieben ist.
2. Einordnung 22
Damit wird eine deutlich grÃ¶ÃŸere Zahl von Konzepten berÃ¼cksichtigt, wobei allerdings zu
vielen davon kaum Informationen vorliegen. Solche â€žschwachenâ€œ Konzepte werden von
WikiWord gekennzeichnet und kÃ¶nnen daher bei Bedarf ignoriert werden.
â€¢ WikiWord liefert zusÃ¤tzlich zu der Subsumtionsrelation eine grobe Typisierung der
Konzepte, die insbesondere verschiedene Arten von Named Entities identifizieren, zum
Beispiel Personen, Orte, Zeitpunkte und Lebensformen. Diese Typen kÃ¶nnen zur Filterung
der Konzepte je nach Anwendungsgebiet verwendet werden.
â€¢ WikiWord konsolidiert Konzepte aus Artikeln mit Konzepten, die in der Wikipedia durch
Kategorien reprÃ¤sentiert sind.
Insgesamt versucht WikiWord, mÃ¶glichst viele lexikalisch-semantische Informationen, die in der
Wikipedia kodiert sind, zugÃ¤nglich zu machen. Dabei berÃ¼hrt es viele Bereiche, die von den oben
beschriebenen Arbeiten Ã¼ber die Erzeugung von Taxonomien und Thesauri aus der Wikipedia
behandelt werden, sowie auch von Arbeiten, die sich mit Named Entity Recognition befassen.
WikiWord verzichtet auf heuristische und statistische Verfahren und beschrÃ¤nkt sich weitgehend
auf die bloÃŸe Extraktion und ReprÃ¤sentation der Daten. Die meisten der oben erwÃ¤hnten
Verfahren kÃ¶nnten auf die von WikiWord extrahierten Daten angewendet werden, statt die Daten
der Wikipedia direkt zu benutzen â€” es wÃ¤re zu untersuchen, inwiefern sie von den zusÃ¤tzlichen
von WikiWord berÃ¼cksichtigten Strukturen und Konventionen der Wikipedia profitieren. Die von
WikiWord erzeugte Datenbasis ist aber auch als eigenstÃ¤ndiger, multilingualer, konzeptorientierter
Thesaurus nÃ¼tzlich fÃ¼r Aufgaben wie Indexierung, Disambiguierung und Bestimmung von semantischer
Ã„hnlichkeit (vergleiche .IV).
Teil II.
Entwurf