Einführung

Korpuslinguistik ist zunächst eine Methode, linguistische Fragestellungen auf der Basis von digitalen Textsammlungen zu bearbeiten. Als Grundlage dafür werden Sprachdaten gesprochener und geschriebener Sprache digital aufbereitet und mit Grundannotationen wie Wortartenlabeln versehen. Für viele Fragestellungen werden große Mengen an Sprachdaten benötigt, die nicht manuell, sondern nur automatisch annotiert werden können.

In der Computerlinguistik dienen manuell analysierte Korpora als Trainingsdaten für statistische Analyseprogramme, zum Beispiel für Wortartentagger oder syntaktische Parser, mit denen anschließend wiederum großere Datenmengen automatisch analysiert werden können. Im weiteren Sinn bezeichnet Korpuslinguistik eine ganze Disziplin, die sich mit der Aufbereitung, Analyse und langfristigen Speicherung von digitalisierten Sprachdaten befasst, sowie mit Methoden der Datenauswertung und Ergebnisinterpretation.

Literatur

Einführungen
Handbuch
Studienbibliographie
Statistik für Korpuslinguisten

Link-Sammlungen

Ressourcen und Tools

Annotation
  • EXMARaLDA [Toolsammlung; Partitur Editor für die computergestützte Transkription und Annotation insbesondere von gesprochener Sprache].
  • MMAX2 [Tool für die computergestütze Annotation einschließlich satzübergreifender Relationen].
  • Weblicht [Plattform für die Onlineaufbereitung und Analyse von Korpora. Tools verschiedener Forschungsgruppen. Frei nutzbar für die Angehörigen fast aller Hochschulen in Deutschland].
Abfrage
  • ANNIS2 [Suchtool für Korpora, die auf unterschiedlichsten Ebenen annotiert sind.].
  • CorpusWorkbench [Suchtool für linguistisch annotierte Korpora].
  • EXMARaLDA [Toolsammlung; Suchtool EXAKT].
  • TigerSearch [Suchtool für syntaktisch annotierte Korpora (Baumbanken)].
Große, frei nutzbare Korpora/n-Gramm-Sammlungen
  • deWaC [Deutsches web-basierte Korpus von WaCKy: 1,7 Milliarden Token-Korpus von Webseiten der de-Domäne; Lemmatisiert und PoS-getaggt (TreeTagger); Freier Download].
  • Leipziger Corpora Collection [Korpora bestehend aus zufällig ausgewählten Sätzen von Web-Quellen mit Metadaten; Mehr als 100 Sprachen; großes Subkorpus zu Deutsch; freier Download].
  • Google n-grams: Web 1T 5-gram, 10 European Languages [N-Gramm-Listen basierend auf Webseiten; Teilsammlung zu Deutsch; 7 DVDs über das LDC erhältlich (Portokosten)].
  • Google books Ngrams [N-Gramm-Listen basierend auf der Google Books-Sammlung nach Erscheinungsjahr subklassifiziert; Teilsammlung zu Deutsch; Freier Download].

Tagungen, Workshops

  • International Conference on Language Resources and Evaluation (LREC) [große europäische Konferenz mit Schwerpunkt auf der Erstellung und Nutzung von Sprachressourcen; Turnus: zweijährlich].
  • International Workshop on Treebanks and Linguistic Theories (TLT) [Erstellung und Nutzung von Baumbanken; Turnus: zweijährlich].
  • Linguistic Annotation Workshop (LAW) [diverse Aspekte von Korpus-Annotation, z.B. Annotationsschemata und -formate, Methoden der Annotation und Evaluation; Turnus: jährlich],
  • Corpus Linguistics [britische Konferenz mit Schwerpunkt auf korpusbasierter Analyse von Sprache; Turnus: zweijährlich].

Betreut von: Dr. Stefanie Dipper, Bochum, und Dr. Heike Zinsmeister, Konstanz.