Einführung

Unter "Tagging" versteht man in der Computerlinguistik allgemein die Annotation von Korpora mit linguistischen Informationen. Im engeren Sinne ist damit das automatische Wortart-Tagging (Part-of-Speech Tagging) gemeint, bei dem es darum geht, jedem Wort eines Korpus mittels eines Computerprogrammes seine Wortart zuzuweisen. Beispielsweise würde der Satz "Er liest das Buch, das sie ihm empfohlen hat." wie folgt annotiert:

Er/PPER liest/VVFIN das/ART Buch/NN ,/$, das/PRELS sie/PPER ihm/PPER empfohlen/VVPP hat/VAFIN ./$.

Das verwendete Inventar von Wortartbezeichnungen wird als "Tagset" bezeichnet. Je nachdem, wie fein unterschieden wird und welche morphosyntaktischen Informationen (Numerus, Genus Kasus, Tempus etc.) repräsentiert werden, kann das Tagset zwischen etwa 15 und über tausend Wortart-Tags umfassen. Im obigen Beispiel wurde das STTS-Tagset verwendet.

Wortart-Tagging ist für viele Anwendungen (Informationsextraktion, Sprachsynthese, automatische Übersetzung, Parsing uvm.) bedeutsam.

Wortart-Tagger lassen sich folgendermaßen einteilen:

  • regelbasierte Tagger
    • manuell erstellte Regeln (Constraint Grammar)
    • automatisch gelernte Regeln (Brill Tagger)
  • statistische Tagger
    • auf Basis von Hidden Markow Modellen (TnT, TreeTagger, HunPos)
    • auf Basis von Support Vector Machines (SVMTool)
    • auf Basis von Maximum-Entropie-Modellen (MXPOST, Stanford Tagger)
    • auf Basis von neuronalen Netzwerken (Morce)

Alle Systeme außer denen, die auf manuell erstellten Regeln basieren, benötigen ein manuell mit Wortart annotiertes Korpus für das Training. Die Hauptschwierigkeit beim Taggen besteht darin, bei Wörtern mit mehreren möglichen Wortarten und unbekannten Wörtern die Wortart korrekt zu desambiguieren.

Einige Wortart-Tagger zerlegen den Eingabetext selbst in einzelne Wörter, Satzzeichen, Klammern etc. Diese Zerlegung wird "Tokenisierung" genannt. Andere Tagger erwarten bereits tokenisierten Eingabetext. Manche Tagger (wie der TreeTagger) liefern neben der Wortart auch das Lemma eines Wortes.

Literatur

Brants, Thorsten. 2000. TnT - A Statistical Part-of-Speech Tagger. "6th Applied Natural Language Processing Conference".

Giménez, J., and Márquez, L. 2004. SVMTool: A general POS tagger generator based on Support Vector Machines. Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04). Lisbon, Portugal.

Adwait Ratnaparkhi. (1996). A Maximum Entropy Model for Part-Of-Speech Tagging. In Proceedings of the Empirical Methods in Natural Language Processing Conference (EMNLP), University of Pennsylvania.

Toutanova, K., Klein, D., Manning, C.D., Yoram Singer, Y. 2003. Feature-rich part-of-speech tagging with a cyclic dependency network. Proceedings of HLT-NAACL 2003, pages 252-259.

Spoustová, Drahomíra "Johanka", Jan Hajic, Jan Raab and Miroslav Spousta. 2009. Semi-supervised Training for the Averaged Perceptron POS Tagger. Proceedings of the 12 EACL, pages 763-771.

Manning, Christopher D. 2011. Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics? In Alexander Gelbukh (ed.), Computational Linguistics and Intelligent Text Processing, 12th International Conference, CICLing 2011, Proceedings, Part I. Lecture Notes in Computer Science 6608, pp. 171-189. Springer.

Links


Betreut von: Helmut Schmid, IMS, Uni Stuttgart