Projekt - Automatische Transkription von Gespr?chssituationen (Uni Paderborn) - Projekt | Paderborn University_365体育

?berblick

Das Projekt befasst sich mit der maschinenlesbaren Verschriftung von Gespr?chssituationen unter Verwendung von Raummikrofonen, seien es professionelle Besprechungen oder lockere Treffen unter Freunden. Derzeitige technische L?sungen erreichen bei weitem nicht die Erkennungsleistung eines Menschen. Dies hat vornehmlich drei Gründe: Zum einen ist die Signalqualit?t aufgrund von Raumhall und anderen h?ufig nichtstation?ren Ger?uschquellen im Raum schlecht. Weiterhin fallen sich gerade bei informellen Gespr?chssituationen die Personen h?ufig ins Wort, und in einem signifikanten Anteil der Zeit sprechen mehr als ein Sprecher gleichzeitig. Schlie?lich ist es die Dynamik einer Gespr?chssituation, die Probleme bereitet, da sich Segmente von Stille, Aktivit?t von einem oder gleichzeitig mehreren Sprechern abwechseln. Ein Transkriptionssystem sollte auf beliebig langen Eingangssignalen arbeiten k?nnen, Situationen mit keinem, einem oder mehreren Sprechern korrekt behandeln k?nnen und die Verschriftung der ?u?erungen unterschiedlicher Sprecher konsistent separaten Ausgaben zuordnen k?nnen. Existierende L?sungen bestehen aus mehr oder weniger unabh?ngig entwickelten Komponenten für die Segmentierung der Daten in homogene Bl?cke, für die Sprechertrennung und schlie?lich für die Erkennung. Wir sind überzeugt, dass eine signifikante Leistungssteigerung m?glich ist, wenn diese Aufgaben unter einem einheitlichen Optimierungskriterium gemeinsam betrachtet werden. Ziel dieses Projektes ist es, eine solche koh?rente Formulierung zu entwickeln. Wir entwickeln Verfahren zur Verschriftung von Gespr?chen, bei denen die Anzahl der aktiven Sprecher und das Ma? an Sprecherüberlapp vorab unbekannt und zeitver?nderlich sind. Die Algorithmen zur Bestimmung, wer wann spricht, zur Sprechertrennung und Signalverbesserung, und schlie?lich zur Erkennung werden unter einer einheitlichen Zielfunktion hergeleitet, um schlie?lich ein gemeinsames "Ende-zu-Ende" Training aller Komponenten zu erm?glichen. Wir streben auch eine "Ende-zu-Ende" Erkennung an, um vorl?ufige Entscheidungen, bei denen nicht alle Wissensquellen berücksichtigt wurden, zu vermeiden. Dabei werden unterschiedliche (g?nzlich neuronale, hybride, kaskadierte, integrierte) Architekturen betrachtet. Die entwickelten Verfahren werden bezüglich der erreichbaren Erkennungsgenauigkeit, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet.

DFG-Verfahren Sachbeihilfen

Antragsteller Professor Dr.-Ing. Reinhold H?b-Umbach; Privatdozent Dr. Ralf Schlüter

Key Facts

Grant Number:: 448568305

Art des Projektes:: Sonstiger Zweck

Laufzeit:: 05/2021 - 12/2024

Gef?rdert durch:: Deutsche Forschungsgemeinschaft (DFG)

Website:: DFG-Datenbank gepris

Detailinformationen

Projektleitung

Prof. Dr. Reinhold H?b-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person

Ralf Schlüter

Technische Hochschule Aachen

Zur Person (Orcid.org)

Publikationen

TS-SEP: Joint Diarization and Separation Conditioned on Estimated Speaker Embeddings

C. Boeddeker, A.S. Subramanian, G. Wichern, R. Haeb-Umbach, J. Le Roux, IEEE/ACM Transactions on Audio, Speech, and Language Processing 32 (2024) 1185–1197.

DOI PDF PDF PDF

Meeting Recognition with Continuous Speech Separation and Transcription-Supported Diarization

T. von Neumann, C. Boeddeker, T. Cord-Landwehr, M. Delcroix, R. Haeb-Umbach, in: 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing 365体育_足球比分网￥投注直播官网s (ICASSPW), IEEE, 2024.

DOI PDF

Once more Diarization: Improving meeting transcription systems through segment-level speaker reassignment

C. Boeddeker, T. Cord-Landwehr, R. Haeb-Umbach, in: Interspeech 2024, ISCA, 2024.

DOI

Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription

P. Vieting, S. Berger, T. von Neumann, C. Boeddeker, R. Schlüter, R. Haeb-Umbach, in: 2024 IEEE Spoken Language Technology 365体育_足球比分网￥投注直播官网 (SLT), 2024.

Simultaneous Diarization and Separation of Meetings through the Integration of Statistical Mixture Models

T. Cord-Landwehr, C. Boeddeker, R. Haeb-Umbach, in: ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024.

DOI

Alle Publikationen anzeigen

Gef?rdert durch:

Weitere Informationen zum Projekt:

DFG-Datenbank gepris