An­nota­tion

In InterGramm wurde das Annotationstool CorA (Bollmann u. a. 2014) weiterentwickelt. Zur Abgrenzung wurde die Weiterentwicklung CorAlie genannt. Das Tool CorAlie hat dabei folgende Zusatzfunktionen erhalten: 

  1. Annotation von (grammatischen) Mehrworteinheiten: Das Tool wurde um die
    M?glichkeit des Zusammenfassens und der Annotation von sog. komplexen Funktionsw?rtern, bestehend aus mehreren Token, erweitert.
  2. Annotation von Unsicherheit: Annotationen sind generell von Unsicherheiten betroffen. Daher wurde das Tool derart erweitert, dass der Unsicherheitstyp sowie eine zweite unsicher zutreffende Wortart angegeben werden k?nnen.
  3. Annotation von Konstruktionen: Für das Ausw?hlen und Annotieren von Konstruktionen musste ein komplett neues Interface implementiert werden, der sog. Phrasen-Editor. Anders als im Token-Editor, der den Text in einer tabellarischen Ansicht darstellt, werden hier die Token eines Textes in einem Feld als Flie?text angezeigt. Die Konstruktionen müssen in diesem Feld mit der Computermaus markiert werden. Die markierte Konstruktion wird in einer Tabelle oberhalb des Flie?textes gespeichert und kann dort annotiert werden. Es kann ebenfalls eine unsichere Annotation vergeben werden.

Die Arbeit erfolgt über die Benutzungsschnittstelle upb::Annotate, die folgende Anforderungen erfüllt: 

  1. Quellen-getreue Darstellung des Textes: Die Darstellung des Textes im graphischen Nutzer-Interface erfolgt entsprechend dem Layout der Prim?rquelle. 
  2. Multi-Layer-Annotationen: Sowohl Wortarten als auch Konstruktionen werden im gleichen Nutzer-Interface angezeigt und k?nnen somit gleichzeitig annotiert werden.
  3. Wortarten-Annotationen mit Unsicherheiten: Für die POS-Annotation stehen drei Annotationsebenen zur Verfügung: Wortart, unsichere Wortart mit Unsicherheitstyp und Kommentar. 
  4. Gruppen-Annotationen mit Unsicherheiten: Es wurden zwei verschiedene Arten von Gruppierungen implementiert: komplexe Token zum Zusammenfassen der komplexen Funktionsw?rter und Phrasen zum Zusammenfassen von Konstruktionen. Es stehen folgende Annotationsebenen zur Verfugung: Wortart, unsichere Wortart mit Unsicherheitstyp, Konstruktionstag, unsicheres Konstruktionstag mit Unsicherheitstyp und Kommentar. 
  5. Editierbarkeit der Token: Weiterhin sind die Token editierbar, um eine konsistente Annotation mit Wortarten vornehmen zu k?nnen.
  6. Anbindung zum Maschinellen Lernen: Es gibt eine einfache Anbindung fur die externe Komponenten des Maschinellen Lernens, mit denen der Zugriff auf die Datenbanksichergestellt wird. 
  7. Suche und Visualisierung: Die digitalisierten Texte sind durchsuchbar, die Ergebnisse k?nnen exportiert und/oder auf einer Landkarte dynamisch dargestellt werden.