In­ter­d­iszip­lin?res Forscher­team en­twick­elt neue Meth­ode zur Er­forschung der Gram­matik his­tor­ischer Texte

 |  Forschung

Forschungsprojekt im Bereich Digital Humanities an der Universit?t Paderborn abgeschlossen

Historischen Sprachwandel im Blick: Sprachen wandeln sich kontinuierlich im Gebrauch. Entstehen dabei neue grammatische Strukturen, die die M?glichkeiten der sprachlichen Darstellung erweitern, spricht man von einem Sprachausbau. Wissenschaftler*innen der Universit?t Paderborn haben untersucht, wie das Mittelniederdeutsche – im Sp?tmittelter die Schreibsprache im norddeutschen Raum – vom 14. bis 16. Jahrhundert ausgebaut wurde. Datenbasis bildete ein Korpus von lokalisierbaren und datierbaren st?dtischen Rechtstexten. Diese Textsorte wurde gew?hlt, da sie im Untersuchungszeitraum in besonderer Weise von Ausbauprozessen erfasst wird. Das Projekt ?InterGramm" (Interaktive Grammatikanalyse historischer Texte), das seit 2017 von der Deutschen Forschungsgemeinschaft (DFG) mit rund einer halben Million Euro gef?rdert wurde, ist jetzt abgeschlossen.

An dem Projekt waren Wissenschaftler*innen der Germanistik (Prof. Dr. Doris Tophinke, Prof. Dr. Marie-Luis Merten), der Informatik (Prof. Dr. Eyke Hüllermeier, Marcel Wever) und der Computerlinguistik (Prof. Dr. Michaela Geierhos, Dr. Nina Seemann) beteiligt. In der grammatischen Kategorisierung der sprachlichen Strukturen, der sogenannten Annotation, sowie in der weiteren Analyse der annotierten Texte des Korpus wurden in mehrfacher Hinsicht neue Wege beschritten: Unter Verwendung von Methoden des maschinellen Lernens wurden adaptive Verfahren entwickelt, die berücksichtigen, dass Sprachentwicklungen nur auf Basis dynamischer Beschreibungskategorien – z. B. Wortarten und syntaktische Konstruktionen – angemessen erfasst werden k?nnen. Zudem wurde ein Software-Tool entwickelt, das Annotationsunsicherheiten systematisch abbildet.

Sp?tmittelalterliche Texte sind – ?hnlich wie es bis heute für die gesprochene Sprache gilt – in hohem Ma?e variabel, sodass Standardverfahren der automatischen Annotation nicht funktionieren und Expert*innen ggf. zeitaufw?ndig manuell annotieren müssen. Im Projekt wurde versucht, die Annotation durch Nutzung von Verfahren des maschinellen Lernens zu unterstützen und zu optimieren. Der Annotationsprozess wurde zweiphasig gestaltet: Phase 1: Auf der Grundlage einer partiellen, unsicheren Annotation lernt das System, grammatische Muster und m?gliche Grammatikregeln zu induzieren. Es schl?gt eine Erweiterung der bestehenden Annotation vor, wobei die Unsicherheit der Vorschl?ge angemessen abgebildet wird. Phase 2: Unterstützt durch eine entsprechende Benutzungsoberfl?che, die im Projekt entwickelt wurde (upb@annotate), wird den Expert*innen die M?glichkeit gegeben, die einzelnen Vorschl?ge des Systems zu best?tigen oder zu verwerfen (oder unkommentiert und somit offen zu lassen). Auf diese Weise wird die bestehende Annotation erweitert und verbessert. Ziel dieses Vorgehens ist eine qualitativ hochwertige, kontextsensitive Analyse des gesamten Korpus, die die Fragen zum Sprachausbau im Mittelniederdeutschen evidenzbasiert beantwortet: Welche Ausbauprozesse finden sich? Wie weit geht der Ausbau? Wie schnell setzen sich welche Ausbauprozesse durch?

In der interdisziplin?ren Kooperation wurden – mit Blick auf den Forschungsstand in der Linguistik, Computerlinguistik und Informatik – neue theoretische und methodische Erkenntnisse gewonnen. Erstmals wurde der Unsicherheitsbegriff in der Annotation und Analyse historischer Texte f?cherübergreifend diskutiert, um Unsicherheit und Unsch?rfe auf verschiedenen Analyseebenen systematisch zu erfassen und für das maschinelle Lernen nutzbar zu machen. Auch wurden korpusbasiert vertiefte Einsichten in den Sprachausbau der mittelniederdeutschen Rechtssprache gewonnen. Besonders dynamische Bereiche des Sprachausbaus – vor allem auf Ebene der Wortarten – konnten identifiziert werden.

Weitere Informationen zum Projekt unter: www.uni-paderborn.de/forschungsprojekte/intergramm/.

Foto (Universit?t Paderborn): Das Projektteam (von links): Prof. Dr. Eyke Hüllermeier, Prof. Dr. Marie-Luis Merten und Prof. Dr. Doris Tophinke sowie Prof. Dr. Michaela Geierhos und Dr. Nina Seemann.

Contact