Portal Computerlinguistik : Korpuslinguistik

Einführung

Korpuslinguistik ist zunächst eine Methode, linguistische Fragestellungen auf der Basis von digitalen Textsammlungen zu bearbeiten. Als Grundlage dafür werden Sprachdaten gesprochener und geschriebener Sprache digital aufbereitet und mit Grundannotationen wie Wortartenlabeln versehen. Für viele Fragestellungen werden große Mengen an Sprachdaten benötigt, die nicht manuell, sondern nur automatisch annotiert werden können.

In der Computerlinguistik dienen manuell analysierte Korpora als Trainingsdaten für statistische Analyseprogramme, zum Beispiel für Wortartentagger oder syntaktische Parser, mit denen anschließend wiederum großere Datenmengen automatisch analysiert werden können. Im weiteren Sinn bezeichnet Korpuslinguistik eine ganze Disziplin, die sich mit der Aufbereitung, Analyse und langfristigen Speicherung von digitalisierten Sprachdaten befasst, sowie mit Methoden der Datenauswertung und Ergebnisinterpretation.

Literatur

Einführungen

Bubenhofer (2006-2011): Einführung in die Korpuslinguistik [Elektronische Ressource; praxis-orientierte Einführung].
Lemnitzer/Zinsmeister (2010): Korpuslinguistik. 2.Auflage. Tübingen: Narr
McEnery/Wilson (2001): Corpus Linguistics. 2.Auflage. Edinburgh University Press [Ein Klassiker].
Biber/Conrad/Reppen (1998): Corpus Linguistics. Cambridge University Press. [Ein anderer Klassiker].
Stede (2007): Korpusgestütze Textanalyse. Tübingen: Narr.
Carstensen/Ebert/Ebert/Jekat/Klabunde/Langer (Hrsg.)(2010). Computerlinguistik und Sprachtechnologie. 3.Auflage. Heidelberg: Spektrum Akademischer Verlag. [Besonders die Kapitel: 3.4 Flache Satzverarbeitung, 3.5 Syntax und Parsing, 3.7 Pragmatik, 4.1 Korpora, 4.2 Baumbanken, 4.5 Sprachdatenbanken, 4.7 Das World Wide Web als computerlinguistische Ressource].

Handbuch

Lüdeling/Kytö (Hrsg)(2008/2009): Corpus Linguistics. An International Handbook Bd. 1 und 2. Berlin: Mouton de Gruyter. [HSK-Reihe]

Studienbibliographie

Cramer/Schulte im Walde (2006/2010): Studienbibliographie Computerlinguistik und Sprachtechnologie. [Buch und Onlineressource. Einträge zu Korpora finden Sie unter der Rubrik Ressourcen]

Statistik für Korpuslinguisten

Baayen (2008): Analyzing Linguistic Data. Cambridge University Press. [Auf der Basis von R]
Gries (2008): Statistik für Sprachwissenschaftler. [Auf der Basis von R]
Vasishth/Broe (2011): The Foundations of Statistics. Berlin/Heidelberg: Springer. [Erläutert anhand von Simulationen in R]
http://www.collocations.de/ [Stefan Everts Sammlung zu Kollokationen]

Link-Sammlungen

Ressourcen und Tools

Frei verfügbare NLP-Tools und -Web-Services für die deutsche Sprache [Linksammlung von Peter Kolb].
WaCKy [Tools zur Erstellung von web-basierten Korpora; Download von Frequenzlisten und präprozessierten web-basierten Korpora (DE, FR, IT, EN-UK)].

Annotation

EXMARaLDA [Toolsammlung; Partitur Editor für die computergestützte Transkription und Annotation insbesondere von gesprochener Sprache].
MMAX2 [Tool für die computergestütze Annotation einschließlich satzübergreifender Relationen].
Weblicht [Plattform für die Onlineaufbereitung und Analyse von Korpora. Tools verschiedener Forschungsgruppen. Frei nutzbar für die Angehörigen fast aller Hochschulen in Deutschland].

Abfrage

ANNIS2 [Suchtool für Korpora, die auf unterschiedlichsten Ebenen annotiert sind.].
CorpusWorkbench [Suchtool für linguistisch annotierte Korpora].
EXMARaLDA [Toolsammlung; Suchtool EXAKT].
TigerSearch [Suchtool für syntaktisch annotierte Korpora (Baumbanken)].

Große, frei nutzbare Korpora/n-Gramm-Sammlungen

deWaC [Deutsches web-basierte Korpus von WaCKy: 1,7 Milliarden Token-Korpus von Webseiten der de-Domäne; Lemmatisiert und PoS-getaggt (TreeTagger); Freier Download].
Leipziger Corpora Collection [Korpora bestehend aus zufällig ausgewählten Sätzen von Web-Quellen mit Metadaten; Mehr als 100 Sprachen; großes Subkorpus zu Deutsch; freier Download].
Google n-grams: Web 1T 5-gram, 10 European Languages [N-Gramm-Listen basierend auf Webseiten; Teilsammlung zu Deutsch; 7 DVDs über das LDC erhältlich (Portokosten)].
Google books Ngrams [N-Gramm-Listen basierend auf der Google Books-Sammlung nach Erscheinungsjahr subklassifiziert; Teilsammlung zu Deutsch; Freier Download].

Tagungen, Workshops

International Conference on Language Resources and Evaluation (LREC) [große europäische Konferenz mit Schwerpunkt auf der Erstellung und Nutzung von Sprachressourcen; Turnus: zweijährlich].
International Workshop on Treebanks and Linguistic Theories (TLT) [Erstellung und Nutzung von Baumbanken; Turnus: zweijährlich].
Linguistic Annotation Workshop (LAW) [diverse Aspekte von Korpus-Annotation, z.B. Annotationsschemata und -formate, Methoden der Annotation und Evaluation; Turnus: jährlich],
Corpus Linguistics [britische Konferenz mit Schwerpunkt auf korpusbasierter Analyse von Sprache; Turnus: zweijährlich].

Betreut von: Dr. Stefanie Dipper, Bochum, und Dr. Heike Zinsmeister, Konstanz.

Einführung

Literatur

Link-Sammlungen

Ressourcen und Tools

Tagungen, Workshops

Themen