Be­schrei­bung des For­schungs­vor­ha­bens

Das empirische Forschungsvorhaben untersucht den Sprachausbau des Mittelniederdeutschen vom 13. Jahrhundert bis zum Schreibsprachenwechsel im 16./17. Jahrhundert, mit dem das Mittelniederdeutsche seine Geltung als Schriftsprache an das Fru?hneuhochdeutsche verliert. Es leistet damit einen Beitrag zur Rekonstruktion der bislang erst punktuell untersuchten grammatischen Entwicklung des Mittelniederdeutschen als historischer Schriftsprache. Die Untersuchung konzentriert sich auf sta?dtische Rechtssatzungen, und zwar aus mehreren Gru?nden: Sprachliche Ausbauprozesse finden sich mutma?lich gerade in der Rechtsschriftlichkeit, die komplexe Rechtssachverhalte in allen rechtsrelevanten Aspekten kontextentbunden explizieren muss. In Rechtssatzungen geht es dabei in einem alltagspraktischen Sinne stets um konditionale Sachverhaltsrelationen, so dass untersucht werden kann, wie sich die grammatische Konstruktion von Konditionalita?t im Untersuchungszeitraum wandelt. Schlie?lich sind Rechtssatzungen lokalisier- und datierbar, so dass sich die zeitra?umliche Entwicklungsdynamik des Ausbaus nachzeichnen la?sst.

Entwickelt wird ein ?interaktives“ Verfahren, das maschinelles Lernen und Expertenfeedback kombiniert. Auf diese Weise wird ein zentrales Problem bestehender Annotationsverfahren fu?r historische Texte gelo?st. Existierende Parsing- und Tagging-Verfahren der Computer- bzw. Korpuslinguistik setzen statische (a priori definierte) Grammatiken bzw. grammatische Kategorien voraus, was der historischen Dynamik der Grammatik nicht gerecht wird. Eine sich diachron entwickelnde, dynamische Grammatik mittels regelbasierter Textanalyseverfahren und Methoden des maschinellen Lernens im Korpus zu ?entdecken“ und auf diese Weise den Sprachwandel evidenzbasiert zu rekonstruieren, ist ein Novum. Da dies gleicherma?en sprach-/grammatikhistorisches Wissen sowie Kenntnisse im Bereich der Computerlinguistik und Informatik voraussetzt, ist das Vorhaben als fa?cheru?bergreifendes Projekt konzipiert, das eine enge Kooperation der Fa?cher u?ber den gesamten Fo?rderzeitraum verlangt.

Das Projekt ist mittlerweile abgeschlossen (Laufzeit: 01.01.2017 bis 30.06.2020)

 

  • Zunahme syntaktischer Komplexit?t?
  • Wachsende Pr?ferenz für verdichtende Konstruktionen?
  • Texttypenspezifik konditionaler Sachverhaltsdarstellungen?
  • Schreibsprachenwechsel zun?chst nur "Lexikwechsel"?

Fra­ge­stel­lung

Im Zentrum unseres Forschungsinteresses stehen zwei Sprachausbauph?nomene, die den (komplexen) Satz betreffen. Vorarbeiten legen nahe, dass mit den folgenden Entwicklungen in den zu untersuchenden Rechtstexten zu rechnen ist:

  1. mit einer Zunahme an syntaktischer Komplexit?t: Wir interessieren uns also für das Aufkommen und die Verbreitung von subordinativen Konstruktionen. 365体育_足球比分网¥投注直播官网 kodieren nicht nur rechtsrelevante Relationssemantiken (Konditionalit?t, Negativ-Restriktivit?t, ....), sondern dienen auch deutlich grundlegender dem Explizieren von temporalen, lokalen Umst?nden etc.
  2. mit einer wachsenden Pr?ferenz, auf verdichtende Konstruktionen beim Schreiben von Rechtstexten zurückzugreifen: Beispielsweise versuchen wir zu rekonstruieren, wie sich (adverbial gebrauchte) Pr?positionalphrasen, deren nominaler Bestandteil deverbale Nomen sind, herausbilden, ggf. gegenüber anderen Kodierungsm?glichkeiten durchsetzen und mitunter den Rechtskontext verfestigen.

Unser Ziel ist es, diese konstruktionalen Entwicklungen in ihrer Qualit?t, Dynamik und r?umlichen Ausbreitung zu beschreiben.

Darüber hinaus interessiert uns die Frage, inwiefern einzelne konditionale Kodierungsm?glichkeiten texttypenspezifisch sind, also gepr?gt mit Blick auf das Schreiben von Rechtstexten. Dies liegt vor allem bei solchen sprachlichen Mustern nahe, die auf ein m?glichst explizites, dabei allerdings stark schematisches construal (Sachverhaltskonstruktion) zielen. Ein Vergleich mit Sprachgebrauchsmustern, wie sie in Arzneibüchern der damaligen Zeit auszumachen sind, soll in diesem Bereich Erhellung bringen. Denn auch diese instruktiven Texte zeichnen sich durch einen vermehrten Gebrauch konditionaler Strukturen aus.

Um zudem zu prüfen, inwieweit die ersten frühneuhochdeutschen Texte, die nach dem Schreibsprachenwechsel entstehen, in grammatischer Hinsicht noch mittelniederdeutsch bestimmt sind, werden ebenfalls einige der ersten fru?hneuhochdeutschen Rechtstexte, die im 16. und 17. Jahrhundert im niederdeutschen Raum entstehen, analysiert. Untersucht werden kann auf diese Weise, ob es sich zun?chst um einen blo?en ?Lexikwechsel“ handelt.

  • Erfassung des konstruktionalen Ausbaus
  • Annotationen via human-in-the-loop
  • Abbildung von Ambiguit?t, Gradienz, Gradualit?t und Annotatorunsicherheit
  • Analysefortschritt durch maschinelles Lernen
  • Toolunterstützung basierend auf CorA

In­?ter?ak?ti?­ve Kon?struk?ti?­ons?ana?­ly?­se

Um eine qualitativ hochwertige, kontextsensitive Analyse unseres gesamten Korpus zu gew?hrleisten, die zudem die Dynamik der (historischen) Grammatikalit?t grunds?tzlich berücksichtigt, entwickeln wir ein interaktives Verfahren. Wir verfolgen einen Human-in-the-loop-Ansatz, der Methoden des Maschinellen Lernens mit Expertenfeedback kombiniert. In diesem Ansatz werden die folgenden zwei Phasen iterativ durchlaufen, bis eine zufriedenstellende Analyse des Korpus erreicht ist.

  • Phase 1: Auf der Grundlage einer partiellen, unsicheren Annotation soll das System grammatische Muster und m?gliche Grammatikregeln induzieren. Muster und Regeln haben dabei zun?chst rein hypothetischen Charakter, und der Unsicherheit der Annotation soll durch eine ad?quate Repr?sentation der Unsicherheit der induzierten Regeln Rechnung getragen werden.
  • Phase 2: Dem/der Experten/in wird die M?glichkeit gegeben, einzelne Vorschl?ge des Systems zu best?tigen oder zu verwerfen (oder unkommentiert und somit offen zu lassen). Auf diese Weise wird die bestehende Annotation erweitert und verbessert.  

Durch den Einsatz von Methoden des Maschinellen Lernens erreichen wir einen Analysefortschritt: Das Versehen eines Korpus mit Annotationen ist für Menschen eine anstrengende und zeitintensive Arbeit. Durch das Vorschlagen automatisch generierter Annotationen wollen wir die Annotierenden in ihrer Arbeit unterstützen und erhoffen uns zudem eine Zeitersparnis.

Um eine solche interaktive Konstruktionsanalyse zu realisieren, ben?tigen wir ein geeignetes Werkzeug. Das Annotationstool CorA hat sich bereits für die Annotation historischer Texte bew?hrt.  Aufgrund des Projektzieles, die Dynamik sprachlicher Entwicklungen zu fassen, nehmen wir Erweiterungen vor, die es erlauben

  • Ambiguit?t,
  • Gradienz und
  • Annotatorunsicherheit 

zu erfassen.

  • Diagrammatische Illustration der zeit-r?umlichen Entwicklung
  • Darstellung der zeit-r?umlichen Entwicklungsdynamiken
  • Entwicklung einer dynamischen Variante der Choroplethenkarte

Vi­su­a­li­sie­rung

Eine weiteres Ziel dieses Projekts ist die Entwicklung und Implementierung von Verfahren zur Visualisierung des Sprachausbaus, also zur visuellen Darstellung der zeitlichen Dynamik und ra?umlichen Ausbreitung der Ausbaupha?nomene. Die rein zeitliche Entwicklung kann dabei im einfachsten Fall durch Ha?ufigkeitsdiagramme abgebildet werden, in denen die Ha?ufigkeit der Verwendung bestimmter Konstruktionen als Funktion der Zeit abgetragen wird. Zur Darstellung der ra?umlichen Verteilung sollen Choroplethenkarten verwendet werden, in denen Areale entsprechend der Verwendungsha?ufigkeit farblich markiert sind. Um beide Aspekte gleichzeitig zu erfassen, den ra?umlichen und den zeitlichen, soll eine dynamische Variante der Choroplethenkarte entwickelt werden, die es erlaubt, die Zeit mithilfe eines Schiebereglers am Bildschirm einzustellen und die Darstellung der Karte entsprechend dynamisch anzupassen. 

Diese Werkzeuge zur Visualisierung der raum-zeitlichen Entwicklungsdynamik des syntaktischen Ausbaus sollen den Linguisten/innen helfen, die Ergebnisse zu interpretieren und vor dem Hintergrund spezieller sprachwissenschaftlicher Fragestellungen auszuwerten. Um diese Analyse noch besser zu unterstu?tzen, soll die rein visuelle Aufbereitung der Ergebnisse durch Methoden zur statistischen Analyse raum-zeitlicher Daten erga?nzt werden.