Die folgende Zusammenstellung computerlinguistischer Ressourcen und Tools soll zwei Schwerpunkte abdecken:
- Die Verarbeitung der deutschen Sprache
- Entwicklungen aus Deutschland
Ein kurzer Überblick über weitergehende Verweise ist am Ende der Seite zu finden.
Korpora
- Anselm (Korpus St. Anselmi Fragen an Maria)
- Archiv für Gesprochenes Deutsch
- Austrian Academy Corpus (AAC)
- BAS (Bayerisches Archiv für Sprachsignale)
- Corpora of Computer-Mediated Communication
- COW – Corpora from the web
- Deutsche politische Reden
- Deutsches Textarchiv DTA
- deWaC [Deutsches web-basierte Korpus von WaCKy)
- DGS-Korpus Gebärdensprache
- Dortmunder Chat-Korpus
- ELRA-Korpora für Forschungszwecke
- Falko - Ein fehlerannotiertes Lernerkorpus des Deutschen als Fremdsprache
- Foodblog-Korpus
- Fußballlinguistik-Korpora
- GENIE – GEsprochenes NIEdersorbisch/Wendisch
- GenitivDB - Korpusbasierte Datenbank zur Genitivmarkierung
- German Drama Corpus (GerDraCor)
- Google Web 1T 5-gram
- Korpora am IMS Stuttgart (Tiger u.a.)
- Korpora des Hamburger Zentrums für Sprachkorpora
- Korpus Südtirol
- Limas-Korpus
- Negra (Syntaktisch annotiertes Zeitungstextkorpus des Deutschen)
- OPUS - the open parallel corpus
- Projekt Deutscher Wortschatz
- Referenzkorpus Altdeutsch (750-1050)
- Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (DWDS Kernkorpus)
- Referenzkorpus Frühneuhochdeutsch (1350-1650)
- Referenzkorpus Mittelhochdeutsch (1050-1350)
- Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200-1650)
- Saarbrücker Stimmdatenbank
- Schweizer Textkorpus
- SemEval-2 Datasets: Evaluation Exercises on Semantic Evaluation
- Songkorpus (annotierte deutschsprachige Popmusiktexte)
- Texasdeutsch (Interviews, Korpus)
- Textkorpora des IDS Mannheim (DeReKo via COSMAS II)
- Tübinger Korpora (TüBa-D/Z u.a.)
Wörterbücher
- Abstractness, Arousal, Imageability and Valence for German Lemmas
- Deutsches Wortnetz GermaNet
- DWDS (Digitales Wörterbuch der deutschen Sprache)
- Englisches Princeton WordNet
- E-VALBU (Wörterbuch zur Verbvalenz)
- German FrameNet
- Grammatische Terminologie
- NRC Emotion and Sentiment Lexicons (partly translated to German)
- OntoWiktionary - Wiktionary-basierte Ontologie
- OpenThesaurus (Deutschsprachiger Thesaurus)
- OWID (Online-Wortschatz-Informationssystem Deutsch des Instituts für Deutsche Sprache)
- SALSA - deutsches framebasiertes Lexikon
- UBY - umfangreiche, standardisierte und integrierte lexikalische Ressource
- WikiMwe: a Multiword Expression Resource from Wikipedia
- Wörterbuch der Konnektoren
- Wortschatz-Wörterbücher Leipzig
Tagger/Parser
- Connexor Machinese (Kommerzielles Textanalysesystem für verschiedene Sprachen)
- HeidelTime: multilingual, cross-domain temporal tagger
- mate-tools: lemmatization, POS tagging, dependency parsing, semantic role labeling
- MMAX2 (Werkzeug zur Korpusannotation; Open Source)
- Modellbasierte Interpunktion (Python-Tool auf Europarl-Basis)
- ParZu - The Zurich Dependency Parser for German
- SMM -- Spanish Malaga Morphology
- TnT (Statistischer Part-of-Speech-Tagger, trainiert für Deutsch und English)
- TreeTagger (Sprachunabhängiger Tagger)
- Xerox Incremental Parser (kommerziell)
Sonstiges
- AntConc: A freeware corpus analysis toolkit for concordancing and text analysis
- B-Ger-TS: Test-Suite/Sammlung deutscher Sätze
- BootCaT: Simple Utilities to Bootstrap Corpora And Terms from the Web
- CharSplit - An ngram-based compound splitter for German
- CL-Taskbox (E-Learning Tool)
- corpus-tools.org - infrastructure to annotate, migrate, and analyze linguistic data
- Edinburgh Speech Tools (Library of signal processing and synthesis tools)
- Einfache Werkzeuge zum Einstieg in die digitalen Geisteswissenschaften
- Euralex Bibliographie zur Computerlexikographie
- Free Visualization Tools from Chris Culy
- GermaNet (Deutsches WordNet; kostenfrei für nichtkommerzielle Zwecke)
- GG (HPSG-Grammatik für Deutsch)
- HTS HMM-based synthesis
- IMS German Festival - German extension to the Festival speech synthesis system
- INCEpTION - A semantic annotation platform
- LanguageTool (Open-Source Stil- und Grammatikprüfung für verschiedene Sprachen)
- LAUDATIO - Long-term Access and Usage of Deeply Annotated Information
- Linguistic Linked Open Data
- LINSE: Linguistik-Server Essen
- MAE (Multi-purpose Annotation Environment)
- MALAGA -- A Grammar Development Environment for Natural Languages
- Mary speech synthesis system
- MBROLA project (Diphone Databases)
- META - Multilingual Europe Technology Alliance
- Obelex: Online-Bibliografie zur elektronischen Lexikografie
- Pepper: Software zur Bearbeitung/Konversion linguistischer Daten
- PET (Verarbeitungssystem für unifikationsbasierte Grammatiken; Open Source)
- Reguläre Ausdrücke online testen
- SECOS - SEmantic COmpound Splitter
- SemEval 2010 Task 1: Koreferenzauflösung
- SentText Sentimentanalysetool
- Speech synthesis tutorial at TU Dresden, including Demo
- SProUT (Entwicklungsplattform für multilinguale Textverarbeitung und Informationsextraktion)
- Transkriptionseditor FOLKER
- UAM CorpusTool
- Visualisierung linguistischer Daten mit R
- Voyant Corpus Tools Online
- WebAnno: A Flexible, Web-based and Visually Supported System for Distributed Annotations
- Weblicht
- XML-Blog von Wilfried Grupe
Weitergehende Hinweise auf Ressourcen und Tools finden sich z.B.hier:
- ACL Wiki: Resources for German
- ELSNET (European Network of Excellence in Human Language Technologies)
- Katalog der European Language Resources Association (ELRA) zum Deutschen
- Methoden/Ressourcen-Abschnitt der Studienbibliographie Computerlinguistik und Sprachtechnologie
- Sprachressourcen bei CLARIN-D
- Tools for Corpus Linguistics
- Visual Interactive Syntax Learning (German)
Betreut von: Dr. Rainer Osswald (Düsseldorf), PD Dr. Roman Schneider (Mannheim)