Die folgende Zusammenstellung computerlinguistischer Ressourcen und Tools soll zwei Schwerpunkte abdecken:
- Die Verarbeitung der deutschen Sprache
- Entwicklungen aus Deutschland
Ein kurzer Überblick über weitergehende Verweise ist am Ende der Seite zu finden.
Korpora
- Archiv für Gesprochenes Deutsch
- Austrian Academy Corpus (AAC)
- BAS (Bayerisches Archiv für Sprachsignale)
- Corpora of Computer-Mediated Communication
- COSMAS II (Korpusrechercheportal des Instituts für Deutsche Sprache)
- COW – Corpora from the web
- Deutsches Textarchiv DTA
- deWaC [Deutsches web-basierte Korpus von WaCKy)
- Dortmunder Chat-Korpus
- Google Web 1T 5-gram
- Korpora des Sonderforschungsbereichs 538 Mehrsprachigkeit
- Korpus Südtirol
- Limas-Korpus
- Negra (Syntaktisch annotiertes Zeitungstextkorpus des Deutschen)
- Projekt Deutscher Wortschatz
- Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (DWDS Kernkorpus)
- Schweizer Textkorpus
- Tiger Treebank
- TüBa-D/Z
Wörterbücher
- Deutsches Wortnetz GermaNet
- DWDS (Digitales Wörterbuch der deutschen Sprache)
- Englisches Princeton WordNet
- E-VALBU (Valenzwörterbuch)
- OntoWiktionary - Wiktionary-basierte Ontologie
- OWID (Online-Wortschatz-Informationssystem Deutsch des Instituts für Deutsche Sprache)
- SALSA - deutsches framebasiertes Lexikon
- UBY - umfangreiche, standardisierte und integrierte lexikalische Ressource
- WikiMwe: a Multiword Expression Resource from Wikipedia
- Wortschatz-Wörterbücher Leipzig
Tagger/Parser
- Connexor Machinese (Kommerzielles Textanalysesystem für verschiedene Sprachen)
- MMAX2 (Werkzeug zur Korpusannotation; Open Source)
- NSyntax – Ein Satzparser für das Deutsche
- ParZu - The Zurich Dependency Parser for German
- SMM -- Spanish Malaga Morphology
- TnT (Statistischer Part-of-Speech-Tagger, trainiert für Deutsch und English)
- TreeTagger (Sprachunabhängiger Tagger)
- Xerox Incremental Parser (kommerziell)

Sonstiges
- B-Ger-TS: Test-Suite/Sammlung deutscher Sätze
- canoonet (Portal zu verschiedenen deutschen Sprachressourcen)
- DKPro - Darmstadt Knowledge Processing Repository (Open Source)
- Domänenspezifische Ontologie grammatischer Termini
- Edinburgh Speech Tools (Library of signal processing and synthesis tools)
- Euralex Bibliographie zur Computerlexikographie
- EuroWordNet
- Festival - Software for speech synthesis
- Festvox Homepage - Software for speech synthesis, tools for building your own voices and systems
- GermaNet (Deutsches WordNet; kostenfrei für nichtkommerzielle Zwecke)
- GG (HPSG-Grammatik für Deutsch)
- HTS HMM-based synthesis
- IMS German Festival - German extension to the Festival speech synthesis system
- JWKTL - Java-based Wiktionary Library
- JWPL - Java-based Wikipedia LIibrary (Open Source)
- LINSE: Linguistik-Server Essen
- MALAGA -- A Grammar Development Environment for Natural Languages
- Mary speech synthesis system
- MBROLA project (Diphone Databases)
- META - Multilingual Europe Technology Alliance
- Obelex: Online-Bibliografie zur elektronischen Lexikografie
- PET (Verarbeitungssystem für unifikationsbasierte Grammatiken; Open Source)
- Reguläre Ausdrücke online testen
- SALSA
- SemEval 2010 Task 1: Koreferenzauflösung
- Speech synthesis tutorial at TU Dresden, including Demo
- SProUT (Entwicklungsplattform für multilinguale Textverarbeitung und Informationsextraktion)
- Transkriptionseditor FOLKER
- Weblicht
Weitergehende Hinweise auf Ressourcen und Tools finden sich z.B.hier:
- ACL Textual Entailment Portal
- ELSNET (European Network of Excellence in Human Language Technologies)
- Katalog der European Language Resources Association (ELRA)
- Katalog des Linguistic Data Consortium (LDC)
- Language Technology World (DFKI)
- Methoden/Ressourcen-Abschnitt der Studienbibliographie Computerlinguistik und Sprachtechnologie
- Natural Language Software Registry am DFKI
- OpenNLP-Sammlung
- Portal der Association for Computational Linguistics (ACL)
- Semtracks Corpora Directory
- Sprachressourcen und -werkzeuge auf CLARIN-D
- Visual Interactive Syntax Learning
Betreut von: Dr. Rainer Osswald, Düsseldorf


