Das interdisziplinäre Forschungsgebiet der Texttechnologie teilt sich mit der Sprachwissenschaft bzw. der Computerlinguistik den gemeinsamen Untersuchungsgegenstand: die natürlicher Sprache. Wie die Computerlinguistik steht die Beschäftigung mit der maschinellen Verarbeitung von Sprache im Vordergrund. Allerdings konzentriert sich die Texttechnologie dabei auf deren Manifestation in Form digitaler Texte, d.h. auf semistrukturierte Daten. Für diese entwickelt sie algorithmisierbare Verfahren, die potenziell sowohl Inhalts- wie Ausdrucksseite modellieren bzw. analysieren. Linguistisch motivierte Erkenntnisinteressen betreffen z.B. Syntax, Bedeutung und Verwendung: Wie lassen sich Textstrukturen und Referenzbeziehungen präzise beschreiben, welche Repräsentationsmodelle (Dokumentgrammatiken) und Algorithmen unterstützen eine effiziente Informationsextraktion, wie können Textgenerierung oder Text-to-Speech-Systeme unterstützt werden usw. Entsprechend breit gefächert und praxisnah sind die Anknüpfungspunkte an linguistische Forschungsbereiche.
Ein zentrales Hilfsmittel der Texttechnologie sind formale Sprachen für die logische Auszeichnung (Markup) natürlichsprachlicher Texte, insbesondere auf Basis von SGML oder XML. Die Sprachwissenschaft profitiert auf mehreren Ebenen vom Einsatz texttechnologischer Methoden: Der Einsatz von Markup-Sprachen zur strukturellen Beschreibung von Inhalt und Ausdruck bei der Anreicherung digitaler Textkorpora um linguistisch relevante Meta-Informationen oder bei der Strukturierung (Mikrostruktur)/Vernetzung (Makrostruktur) von Wörterbüchern erhöht gleichermaßen deren wissenschaftlichen und praktischen Nutzwert, erleichtert die statistische Auswertung sprachlicher Phänomene und ermöglicht dadurch eine empirische Evaluierung von Theorien. Elektronische Thesauri, Wort- und Wissensnetze sowie domänenspezifische oder -übergreifende Ontologien befördern darüber hinaus die (terminologische) Konsistenz und (semantische) Erschließung textueller Daten.
Verwandte (Teil-)Disziplinen neben der Text-, Korpus- und Computerlinguistik und den Philologien sind z.B. die Informationswissenschaft - besonders das hypermediale Dokumentenmanagement, automatisierte Textzusammenfassung und das Information Retrieval - sowie die praktische Informatik mit Schwerpunkten wie Data Mining/Text Mining oder Datenbanktechnologie.
Literatur
- Carstensen et al. (2010): Computerlinguistik und Sprachtechnologie - Eine Einführung. Spektrum.
- Carstensen (2017): Sprachtechnologie - Ein Überblick
- Gries (2008): Statistik für Sprachwissenschaftler. Vandenhoeck und Ruprecht.
- Lobin (2009): Computerlinguistik und Texttechnologie. UTB/Fink.
- Lobin/Lemnitzer (2004): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg.
- Witt/Metzing (2010): Linguistic Modeling of Information and Markup Languages
Studiengänge
Betreut von: PD Dr. Roman Schneider, IDS Mannheim