De­scrip­tion of the Re­search Pro­ject

This empirical research project investigates the language elaboration of Middle Low German from the 13th century to the written language shift in the 16th/17th century. At this time, Middle Low German lost its dominant position as a supraregional written language to Early New High German. This study makes an important contribution to the reconstruction of grammatical developments in written Middle Low German as historical written language, which are hitherto examined only to some extent. The investigation focuses on urban legal statutes for which there are several reasons: Processes of language elaboration are most likely found first in legal statutes as those need to construe complex (legal) issues understandable independently of contextual information. These legal issues specifically occur in the form of conditional relations; consequently, we are able to examine changes concerning the linguistic construction of conditionality during the investigation period. Furthermore, legal statutes are locatable and dateable, with the result that developmental dynamics of elaboration processes can be spatio-temporally reconstructed.

We are developing an interactive procedure that combines machine learning and expert feedback to solve one of the most central problems of existing annotation tools for historical texts. Existing parsing and tagging systems require static grammars and grammatical categories but these are of no use due to the historical dynamics of grammar. We want to discover an evolving, dynamic grammar by using rule-based text analysis techniques and machine learning methods. This enables us to reconstruct the language elaboration in an evidence-based way, which is a novelty. This requires knowledge about historical language and grammar as well as knowledge about computational linguistics and computer science. Therefore, this project is an interdisciplinary one that requires a close cooperation over the whole funding period.

  • Zunahme syntaktischer Komplexit?t?
  • Wachsende Pr?ferenz für verdichtende Konstruktionen?
  • Texttypenspezifik konditionaler Sachverhaltsdarstellungen?
  • Schreibsprachenwechsel zun?chst nur "Lexikwechsel"?

Frages­tel­lung

Im Zentrum unseres Forschungsinteresses stehen zwei Sprachausbauph?nomene, die den (komplexen) Satz betreffen. Vorarbeiten legen nahe, dass mit den folgenden Entwicklungen in den zu untersuchenden Rechtstexten zu rechnen ist:

  1. mit einer Zunahme an syntaktischer Komplexit?t: Wir interessieren uns also für das Aufkommen und die Verbreitung von subordinativen Konstruktionen. 365体育_足球比分网¥投注直播官网 kodieren nicht nur rechtsrelevante Relationssemantiken (Konditionalit?t, Negativ-Restriktivit?t, ....), sondern dienen auch deutlich grundlegender dem Explizieren von temporalen, lokalen Umst?nden etc.
  2. mit einer wachsenden Pr?ferenz, auf verdichtende Konstruktionen beim Schreiben von Rechtstexten zurückzugreifen: Beispielsweise versuchen wir zu rekonstruieren, wie sich (adverbial gebrauchte) Pr?positionalphrasen, deren nominaler Bestandteil deverbale Nomen sind, herausbilden, ggf. gegenüber anderen Kodierungsm?glichkeiten durchsetzen und mitunter den Rechtskontext verfestigen.

Unser Ziel ist es, diese konstruktionalen Entwicklungen in ihrer Qualit?t, Dynamik und r?umlichen Ausbreitung zu beschreiben.

Darüber hinaus interessiert uns die Frage, inwiefern einzelne konditionale Kodierungsm?glichkeiten texttypenspezifisch sind, also gepr?gt mit Blick auf das Schreiben von Rechtstexten. Dies liegt vor allem bei solchen sprachlichen Mustern nahe, die auf ein m?glichst explizites, dabei allerdings stark schematisches construal (Sachverhaltskonstruktion) zielen. Ein Vergleich mit Sprachgebrauchsmustern, wie sie in Arzneibüchern der damaligen Zeit auszumachen sind, soll in diesem Bereich Erhellung bringen. Denn auch diese instruktiven Texte zeichnen sich durch einen vermehrten Gebrauch konditionaler Strukturen aus.

Um zudem zu prüfen, inwieweit die ersten frühneuhochdeutschen Texte, die nach dem Schreibsprachenwechsel entstehen, in grammatischer Hinsicht noch mittelniederdeutsch bestimmt sind, werden ebenfalls einige der ersten fru?hneuhochdeutschen Rechtstexte, die im 16. und 17. Jahrhundert im niederdeutschen Raum entstehen, analysiert. Untersucht werden kann auf diese Weise, ob es sich zun?chst um einen blo?en ?Lexikwechsel“ handelt.

  • Erfassung des konstruktionalen Ausbaus
  • Annotationen via human-in-the-loop
  • Abbildung von Ambiguit?t, Gradienz, Gradualit?t und Annotatorunsicherheit
  • Analysefortschritt durch maschinelles Lernen
  • Toolunterstützung basierend auf CorA

In­?ter­?ak?ti?ve Kon?struk?ti?on­s?ana?ly?se

Um eine qualitativ hochwertige, kontextsensitive Analyse unseres gesamten Korpus zu gew?hrleisten, die zudem die Dynamik der (historischen) Grammatikalit?t grunds?tzlich berücksichtigt, entwickeln wir ein interaktives Verfahren. Wir verfolgen einen Human-in-the-loop-Ansatz, der Methoden des Maschinellen Lernens mit Expertenfeedback kombiniert. In diesem Ansatz werden die folgenden zwei Phasen iterativ durchlaufen, bis eine zufriedenstellende Analyse des Korpus erreicht ist.

  • Phase 1: Auf der Grundlage einer partiellen, unsicheren Annotation soll das System grammatische Muster und m?gliche Grammatikregeln induzieren. Muster und Regeln haben dabei zun?chst rein hypothetischen Charakter, und der Unsicherheit der Annotation soll durch eine ad?quate Repr?sentation der Unsicherheit der induzierten Regeln Rechnung getragen werden.
  • Phase 2: Dem/der Experten/in wird die M?glichkeit gegeben, einzelne Vorschl?ge des Systems zu best?tigen oder zu verwerfen (oder unkommentiert und somit offen zu lassen). Auf diese Weise wird die bestehende Annotation erweitert und verbessert.  

Durch den Einsatz von Methoden des Maschinellen Lernens erreichen wir einen Analysefortschritt: Das Versehen eines Korpus mit Annotationen ist für Menschen eine anstrengende und zeitintensive Arbeit. Durch das Vorschlagen automatisch generierter Annotationen wollen wir die Annotierenden in ihrer Arbeit unterstützen und erhoffen uns zudem eine Zeitersparnis.

Um eine solche interaktive Konstruktionsanalyse zu realisieren, ben?tigen wir ein geeignetes Werkzeug. Das Annotationstool CorA hat sich bereits für die Annotation historischer Texte bew?hrt.  Aufgrund des Projektzieles, die Dynamik sprachlicher Entwicklungen zu fassen, nehmen wir Erweiterungen vor, die es erlauben

  • Ambiguit?t,
  • Gradienz und
  • Annotatorunsicherheit 

zu erfassen.

  • Diagrammatische Illustration der zeit-r?umlichen Entwicklung
  • Darstellung der zeit-r?umlichen Entwicklungsdynamiken
  • Entwicklung einer dynamischen Variante der Choroplethenkarte

Visu­al­is­ier­ung

Eine weiteres Ziel dieses Projekts ist die Entwicklung und Implementierung von Verfahren zur Visualisierung des Sprachausbaus, also zur visuellen Darstellung der zeitlichen Dynamik und ra?umlichen Ausbreitung der Ausbaupha?nomene. Die rein zeitliche Entwicklung kann dabei im einfachsten Fall durch Ha?ufigkeitsdiagramme abgebildet werden, in denen die Ha?ufigkeit der Verwendung bestimmter Konstruktionen als Funktion der Zeit abgetragen wird. Zur Darstellung der ra?umlichen Verteilung sollen Choroplethenkarten verwendet werden, in denen Areale entsprechend der Verwendungsha?ufigkeit farblich markiert sind. Um beide Aspekte gleichzeitig zu erfassen, den ra?umlichen und den zeitlichen, soll eine dynamische Variante der Choroplethenkarte entwickelt werden, die es erlaubt, die Zeit mithilfe eines Schiebereglers am Bildschirm einzustellen und die Darstellung der Karte entsprechend dynamisch anzupassen. 

Diese Werkzeuge zur Visualisierung der raum-zeitlichen Entwicklungsdynamik des syntaktischen Ausbaus sollen den Linguisten/innen helfen, die Ergebnisse zu interpretieren und vor dem Hintergrund spezieller sprachwissenschaftlicher Fragestellungen auszuwerten. Um diese Analyse noch besser zu unterstu?tzen, soll die rein visuelle Aufbereitung der Ergebnisse durch Methoden zur statistischen Analyse raum-zeitlicher Daten erga?nzt werden.