Standardisierung linguistischer Ressourcen


Die Vielfalt der linguistischen Ressourcen ist groß (z.B. Korpora in verschiedenen Sprachen und mit unterschiedlichen Annotationen versehen, Wortsammlungen, Ontologien, Wissensbasen usw.) und ihre Anwendungsmöglichkeiten sind breit gefächert, z.B. im Bereich des Information Retrieval, der Informationsextraktion, Maschineller Übersetzung, Spracherkennung usw.

Die Menge, Verfügbarkeit und Qualität linguistischer Ressourcen spielt insbesondere in statistischen Verfahren eine große Rolle, indem anhand großer Datenmengen bestimmte Phänomene und Gesetzmäßigkeiten besser untersucht und ausgewertet werden können. Aus diesem Grund stehen elektronisch dargestellte und zugänglich gemachte Daten seit Langem im Fokus der Sprachverarbeitung.

Die Erstellung von linguistischen Ressourcen ist kostspielig, zeitaufwändig und fordert tiefgehende Fachkenntnisse. Genau aus diesen Gründen ist es wichtig, dass die bereits erstellten linguistischen Ressourcen in möglichst vielen und verschiedenen Anwendungskontexten eingesetzt werden können, unabhängig von Sprache, Betriebssystem und Hardware. Um dies zu ermöglichen, sollten sie eine spezifizierte Menge von Eigenschaften über Formate und Strukturdarstellungen erfüllen.

Durch die Beteiligung von verschiedenen nationalen und internationalen Gremien, wissenschaftlichen Experten und Normierungsgruppen wird versucht, die Richtlinien, Empfehlungen und Regelwerken für die Erstellung, Pflege und Nutzung der linguistischen Ressourcen zu entwickeln, um einen reibungslosen Datenaustausch zwischen den Applikationen und Nutzern zu ermöglichen. Die Anwendung von diesen Standards und Spezifikationen bei der Erstellung der Sprachressourcen ist damit eine der Voraussetzungen für die Verfügbarkeit, Nachhaltigkeit und Wiederverwendbarkeit von Daten.

Bei Standards wird zwischen De-jure- und De-facto-Standards unterschieden. Zu den De-jure-Standards gehören diejenigen, die im gesetzlichen Auftrag von einer offiziellen formalen Standardisierungsorganisation wie z.B. der International Standardisierungsorganisation (ISO) entwickelt und definiert werden. Die De-facto-Standards werden dagegen nicht von einer offiziellen Standardisierungsorganisation erarbeitet und anerkannt, haben jedoch ihre Anerkennung durch ihre weite Verbreitung erreicht.

Im Bereich der linguistischen Ressourcen kommen zahlreiche De-facto- und De-jure-Standards zum Einsatz. Sie decken den Bedarf von einfacher Zeichencodierung bis zur Darstellung der Wissensbasen und Textannotationen. Im Folgenden sind einige Beispiele aufgeführt.

De-facto-Standards

De-jure-Standards

  • Linguistic Annotation Framework (LAF, ISO 24612:2012)
  • Morpho-Syntactic Annotation Framework (MAF, ISO 24611:2012)
  • Syntactic Annotation Framework (SynAF, ISO 24615:2010)
  • Data Category Registry (DCR, ISO 12620:2009)

Im Bereich der Standardisierung der linguistischen Ressourcen spielt die Tätigkeit des Unterkomitees 4 des Technischen Komitees 37 der Internationalen Standardisierungsorganisation (ISO/TC 37/SC 4) eine große Rolle. Zu seinen Aufgaben gehört es, die Standards und Richtlinien für eine effektive Verwaltung und Management der linguistischen Ressourcen zu entwickeln. Das Unterkomitee definiert geeignete Verfahren und Methoden für deren Datendarstellung und Annotation. Zu den Ergebnissen der Arbeit von ISO/TC 37/SC 4 gehören Standards wie LAF (Linguistic Annotation Framework, ISO 24612:2012), SynLAF (Syntactic Annotation Framework, 24615:2010), LMF (Lexical Markup Framework, ISO 24613:2008), MAF (Morpho-syntactic Annotation Framework, ISO 24611:2012) und MLIF (Multilingual Information Framework, ISO 16642:2003). Deutschland wird in der ISO/TC 37/SC 4 durch den DIN e. V. NA 105-00-06 AA "Sprachressourcen" vertreten.

Zu den bekanntesten Standardisierungsorganisationen zählen:

Betreut von: Dr. Rainer Osswald, Düsseldorf / Dr. Thorsten Trippel, Tübingen / Dr. Andreas Witt, Mannheim / Antonina Werthmann, Mannheim