Distributionelle Semantik und Distributionelle Modelle

Modelle in der distributionellen Semantik (DSMs) gehen zurück auf mindestens zwei grundlegende Zitate.

  • "Each language can be described in terms of a distributional structure, i.e., in terms of the occurrence of parts relative to other parts." (Harris, 1954)
  • "You shall know a word by the company it keeps." (Firth, 1957)

Beide Zitate sagen im Kern aus, dass der Kontext einer linguistischen Einheit Indikatoren für deren Verwendung und Bedeutung enthält. Die Summe von Kontext-Beschreibungen einer linguistischen Einheit würde in einer idealisierten Vorstellung dann der lexikalischen Beschreibung dieser Einheit entsprechen. Korpus-basierte quantitative Untersuchungen machen sich diese Idee zu Nutze, indem sie Korpus-Daten für die Induktion und Definition von lexikalischen Eigenschaften linguistischer Einheiten verwenden. Ein Vergleich der Korpus-basierten Eigenschaften von zwei linguistischen Einheiten bietet entsprechend die Möglichkeit, Aussagen zu dem Grad der Ähnlichkeit der linguistischen Einheiten zu machen.

Die Repräsentation einer linguistischen Einheit auf Basis distributioneller Merkmale nutzt typischerweise eine mathematische Formulierung im Vektorraum (siehe Turney und Pantel (2010) für eine detaillierte Beschreibung): Eine linguistische Einheit (in unserem Fall: ein Wort) wird als Vektor bzw. als Punkt im Vektorraum dargestellt. Ein fünf-dimensionaler Vektor wie zum Beispiel Vektor(Maus) = <23, 116, 0, 0, 346> stellt die Bedeutung des Wortes "Maus" dar. In diesem Fall bezieht sich der Vektor auf fünf Merkmale, die je nach Forschungsziel unterschiedliche relevante Korpus-Merkmale quantifizieren. Typischerweise basieren die Werte der Merkmale auf Frequenzen, die durch Assoziationsmaße normalisiert werden können (Evert, 2005). A priori können die Wort-Vektoren nicht zwischen verschiedenen Wortbedeutungen unterscheiden, d.h. sie subsumieren die Merkmale aller Wortvorkommen im Korpus.

Die Merkmale, die als Vektor-Dimensionen ausgewählt werden, sollten möglichst salient sein in Bezug auf die Aufgabenstellung. Typische Kriterien für die Auswahl sind (a) Kookkurrenzen in einem bestimmten Wortfenster, dem Satz, Paragraphen oder Dokument (Bullinaria und Levy, 2007); (b) dito, aber zusätzlich unter Einbezug bestimmter syntaktischer Abhängigkeiten (zum Beispiel könnten nur direkte Objekte von Verben betrachtet werden) (Pado und Lapata, 2007); (c) lineare Sequenzen von Kontext-Wörtern (Hearst, 1998). Der Vergleich von zwei Wort-Vektoren soll Aufschluss geben über die (semantische) Ähnlichkeit der entsprechenden beiden Wörter.

Referenzen:

  • John A. Bullinaria und Joseph P. Levy (2007): "Extracting Semantic Representations from Word Co-Occurrence Statistics: A Computational Study". In: Behavior Research Methods 39(3): 510-526.
  • Stefan Evert (2005). The Statistics of Word Co-Occurrences: Word Pairs and Collocations. Dissertation. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart.
  • John R. Firth (1957). Papers in Linguistics 1934-51. Longmans, London, UK.
  • Zellig Harris (1954). Distributional Structure. Word 10(23):146-162.
  • Marti Hearst (1998): Automated Discovery of WordNet Relations. In Fellbaum (Hg.): "WordNet - An Electronic Lexical Database".
  • Sebastian Pado und Mirella Lapata (2007): "Dependency-based Construction of Semantic Space Models". In: Computational Linguistics 33(2): 161-199.
  • Peter D. Turney and Patrick Pantel (2010). From Frequency to Meaning: Vector Space Models of Semantics. Journal of Artificial Intelligence Research 37:141-188.

Betreut von: PD Dr. Sabine Schulte im Walde, Stuttgart