Lernen tiefer Sprachrepr?sentationen für die Phonetikforschung
?berblick
Neben dem linguistischen Inhalt enth?lt ein Sprachsignal weitere, extra/paralinguistische Informationen, wie beispielsweise Geschlecht, emotionaler Zustand, Alter, sozialer Status oder die Identit?t von Sprecherinnen oder Sprechern. Diese Charakteristika sind jedoch in komplexen, nicht unmittelbar transparenten Variationen des Sprachsignals verborgen und der phonetischen Forschung nur schwer zug?nglich. Mit der Verbesserung, die tiefe neuronale Netze, insbesondere tiefe generative Modelle, im Bereich der Sprachsynthese und der Sprecherkonversion erzielt haben, erwarten wir, dass diese Verfahren auch zu einem nützlichen Werkzeug für die Phonetikforschung werden k?nnen.Das übergreifende Ziel dieses Vorhabens ist daher, das Potenzial tiefer generativer Modelle als Werkzeug für die phonetische Grundlagenforschung auszuloten und ggf. zu etablieren. Dabei beschr?nken wir uns auf die gezielte Modifikation von existierenden Sprachbeispielen, um Signale mit gewünschten dedizierten Eigenschaften zu erzeugen, und betrachten nicht die Erzeugung von Sprachstimuli auf der Basis von Text. Es sollen tiefe generative Modelle entwickelt werden, die latente Variablen aus einem Sprachsignal berechnen, welche kompakt und informativ über das zugrundeliegende Sprachsignal sind, und welche verschiedene Ursachen von Variationen im Signal in verschiedenen Dimensionen der latenten Repr?sentation enkodieren. Weiterhin sollen sie eine dedizierte Manipulation des Sprachsignals entlang phonetisch plausibler Dimensionen erlauben und somit einer menschlichen Interpretation zug?nglich sein. Damit soll der Phonetik ein Werkzeug in die Hand gegeben werden, welches ihr Kontrolle sowohl über grunds?tzliche akustisch-phonetische Eigenschaften als auch über abstrakte Konzepte erm?glicht. Als Beispiele für solche abstrakten Konzepte werden hier die Entflechtung von vom Sprecher und vom linguistischen Inhalt hervorgerufenen Variationen im Signal sowie die Extraktion von von einem Dialekt hervorgerufenen Variationen im Signal betrachtet. Da die zu entwickelnden Verfahren datengetrieben sind, k?nnen sie jedoch auch auf andere Konzepte angewandt werden, wenn entsprechende Trainingsdaten vorhanden sind. Die Qualit?t und Nützlichkeit der entwickelten Methoden werden sowohl mit maschinellen Klassifikationstests als auch mit menschlichen Perzeptionsstudien bewertet, sowie durch Signalanalyse durch phonetische Expertinnen oder Experten.
DFG-Verfahren Sachbeihilfen
Antragstellerinnen / Antragsteller Professor Dr.-Ing. Reinhold H?b-Umbach; Professorin Dr. Petra Wagner
Key Facts
- Grant Number:
- 446378607
- Laufzeit:
- 04/2021 - 12/2024
- Gef?rdert durch:
- DFG