Automatische Transkription von Gespr?chssituationen
?berblick
Das Projekt befasst sich mit der maschinenlesbaren Verschriftung von Gespr?chssituationen unter Verwendung von Raummikrofonen, seien es professionelle Besprechungen oder lockere Treffen unter Freunden. Derzeitige technische L?sungen erreichen bei weitem nicht die Erkennungsleistung eines Menschen. Dies hat vornehmlich drei Gründe: Zum einen ist die Signalqualit?t aufgrund von Raumhall und anderen h?ufig nichtstation?ren Ger?uschquellen im Raum schlecht. Weiterhin fallen sich gerade bei informellen Gespr?chssituationen die Personen h?ufig ins Wort, und in einem signifikanten Anteil der Zeit sprechen mehr als ein Sprecher gleichzeitig. Schlie?lich ist es die Dynamik einer Gespr?chssituation, die Probleme bereitet, da sich Segmente von Stille, Aktivit?t von einem oder gleichzeitig mehreren Sprechern abwechseln. Ein Transkriptionssystem sollte auf beliebig langen Eingangssignalen arbeiten k?nnen, Situationen mit keinem, einem oder mehreren Sprechern korrekt behandeln k?nnen und die Verschriftung der ?u?erungen unterschiedlicher Sprecher konsistent separaten Ausgaben zuordnen k?nnen. Existierende L?sungen bestehen aus mehr oder weniger unabh?ngig entwickelten Komponenten für die Segmentierung der Daten in homogene Bl?cke, für die Sprechertrennung und schlie?lich für die Erkennung. Wir sind überzeugt, dass eine signifikante Leistungssteigerung m?glich ist, wenn diese Aufgaben unter einem einheitlichen Optimierungskriterium gemeinsam betrachtet werden. Ziel dieses Projektes ist es, eine solche koh?rente Formulierung zu entwickeln. Wir entwickeln Verfahren zur Verschriftung von Gespr?chen, bei denen die Anzahl der aktiven Sprecher und das Ma? an Sprecherüberlapp vorab unbekannt und zeitver?nderlich sind. Die Algorithmen zur Bestimmung, wer wann spricht, zur Sprechertrennung und Signalverbesserung, und schlie?lich zur Erkennung werden unter einer einheitlichen Zielfunktion hergeleitet, um schlie?lich ein gemeinsames "Ende-zu-Ende" Training aller Komponenten zu erm?glichen. Wir streben auch eine "Ende-zu-Ende" Erkennung an, um vorl?ufige Entscheidungen, bei denen nicht alle Wissensquellen berücksichtigt wurden, zu vermeiden. Dabei werden unterschiedliche (g?nzlich neuronale, hybride, kaskadierte, integrierte) Architekturen betrachtet. Die entwickelten Verfahren werden bezüglich der erreichbaren Erkennungsgenauigkeit, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet.
DFG-Verfahren Sachbeihilfen
Antragsteller Professor Dr.-Ing. Reinhold H?b-Umbach; Privatdozent Dr. Ralf Schlüter
Key Facts
- Grant Number:
- 448568305
- Laufzeit:
- 05/2021 - 12/2024
- Gef?rdert durch:
- DFG
- Website:
-
DFG-Datenbank gepris