Ein systematischer Ansatz zur Ausnutzung von Korrelationen aufeinander folgender Merkmalsvektoren in der automatischen Spracherkennung
?berblick
Bekannte Schwachstellen heutiger automatischer Spracherkennungssysteme sind die mangelnde Robustheit gegenüber gest?rten (z.B. verrauschten) Eingangssignalen, ?Interframe-ASR“ 2 sowie die unzul?ngliche Modellierung einer Merkmalsvektortrajektorie aufgrund der üblichen conditional independence Annahme, die besagt, dass die Wahrscheinlichkeit für einen Merkmalsvektor lediglich vom Hidden Markov Modellzustand abh?ngt. Ausgehend von einer Erweiterung der Herleitung des Spracherkenners aus der Bayes’schen Entscheidungsregel, welche das Vorhandensein von gest?rten Merkmalsvektoren und Korrelationen aufeinander Sprachrahmen explizit berücksichtigt, wurden zun?chst Methoden der ger?uschrobusten Erkennung untersucht. Die Korrelationen aufeinander folgender Merkmalsvektoren wurden dabei mit schaltenden dynamischen Modellen erfasst. Der Schwerpunkt der Arbeiten im zweiten Projektabschnitt ist die Entwicklung hybrider Erkennerstrukturen, die die Vorteile der Modellierung mit dynamischen Modellen einerseits und hidden Markov Modellen andererseits vereinen sollen, um zu einer insgesamt h?heren Erkennungsrate zu gelangen.
DFG-Verfahren Sachbeihilfen
Key Facts
- Grant Number:
- 61519056
- Laufzeit:
- 01/2008 - 12/2011
- Gef?rdert durch:
- DFG
- Website:
-
DFG-Datenbank gepris
Detailinformationen
Ergebnisse
Bekannte Schwachstellen heutiger automatischer Spracherkennungssysteme sind die mangelnde Robustheit gegenüber gest?rten (z.B. verrauschten) Eingangssignalen, sowie die unzul?ngliche Modellierung einer Merkmalsvektortrajektorie aufgrund der üblichen conditional independence Annahme, die besagt, dass die Wahrscheinlichkeit für einen Merkmalsvektor lediglich vom momentanen Hidden Markov Modellzustand abh?ngt. Der Ausgangspunkt für dieses Projekt war eine Erweiterung der Herleitung des Spracherkenners aus der Bayes’schen Entscheidungsregel, welche das Vorhandensein von gest?rten Merkmalsvektoren und Korrelationen zwischen aufeinander folgenden Sprachrahmen explizit berücksichtigt. Die Interrahmenkorrelation von Merkmalsvektoren sollte dabei zum einen zur Erh?hung der Rauschrobustheit ausgenutzt werden, und zum anderen zu einer Verbesserung der Erkennungsrate selbst bei ungest?rten Eingangssignalen führen. Kernelement der rauschrobusten Erkennung durch Ausnutzung von Interrahmenkorrelation ist die Bestimmung der Posteriorverteilung des ungest?rten Merkmalsvektors, gegeben den momentanen und die vergangenen gest?rten Merkmalsvektoren. Die Sch?tzung dieser Posteriorverteilung erfolgt in einem Bayes’schen Inferenzverfahren, welches ein a priori Modell für ungest?rte Merkmalsvektortrajektorien und ein Beobachtungsmodell, welches die ungest?rten mit den gest?rten Merkmalsvektoren in Beziehung setzt, auswertet. Hierzu wurden im Berichtszeitraum folgende Fortschritte erzielt: ? Schaltende lineare dynamische Modelle (SLDM) als a priori Modell für die Merkmalstrajektorien unverrauschter Sprache sind, im Gegensatz zu Gau?-Mischungsverteilungen (GMM), in der Lage, die Interrahmenkorrelation zu erfassen. Für das unüberwachte Training dieser Modelle mit dem EM-Algorithmus wurde ein neues Verfahren zur Auswahl der Initialmodelle basierend auf dem k-means++ Algorithmus entwickelt, welches insgesamt zu einer verbesserten Erkennungsrate führte. ? Es wurde ein phasensensitives Beobachtungsmodell entwickelt, welches den Zusammenhang zwischen den Merkmalsvektoren der Sprache und des Rauschens und denen der verrauschten Sprache genauer beschreibt als die bisher in der Literatur vorgeschlagenen phaseninsensitiven und alternativen phasensensitiven Modelle. ? Der Linearisierungsfehler des Beobachtungsmodells wurde reduziert, indem die Gau?verteilung vor der Nichtlinearit?t durch ein GMM ersetzt wurde. Damit wird der Fehler durch die Taylorreihenapproximation der nichtlinearen Beziehung zwischen dem Sprach- und Rauschmerkmalsvektor und dem Merkmalsvektor der verrauschten Sprache reduziert. Die beiden letzten Ma?nahmen haben insbesondere die Erkennungsgenauigkeiten bei niedrigen Signal-zu-Rauschleistungsverh?ltnissen (SNR um 0 dB) deutlich verbessert. Bei den Untersuchungen zur Verbesserung der Erkennung bei ungest?rten Merkmalsvektoren durch Ausnutzung von Interrahmenkorrelation wurden folgende Ergebnisse erzielt: ? Es wurde ein hybrider Phonemklassifikator entwickelt, in dem bei vorgegebenen Segmentgrenzen die Bewertung des Phonems zum einem mit dem akustischen Modell eines traditionellen HMM-basierten Erkenners und zum anderen mit linearen dynamischen Modellen (LDM) erfolgt. Verschiedene Alternativen zur Kombination der Likelihoods oder Posteriorwahrscheinlichkeiten wurden untersucht. Auf TIMIT wurden Klassifikationsraten erzielt, die über denen eines LDM- oder HMM-basierten Erkenners alleine lagen. ? Es wurden Spracherkennungstests mit einem hybriden LDM/HMM Erkenner auf der Aurora IV Datenbasis durchgeführt. W?hrend der hybride Erkenner die Erkennungsrate eines Monophon HMM-Erkenners verbessert, war er nicht in der Lage, die Ergebnisse eines triphonbasierten HMM-Erkenners zu verbessern. Dazu müssten vermutlich auch kontextabh?ngige LDM-Modelle verwendet werden, was jedoch die Komplexit?t des Erkenners deutlich erh?ht h?tte und daher verworfen wurde. Von den beiden eingangs erw?hnten Zielen, der Ausnutzung der Interrahmenkorrelation zur Verbesserung der Rauschrobustheit einerseits und zur Verbesserung der Erkennungsgenauigkeit selbst bei ungest?rter Sprache andererseits, kann zusammenfassend festgestellt werden, dass das erste Ziel eindeutig erreicht wurde, w?hrend die Untersuchungen zeigten, dass das zweite nicht zu erreichen war. Wir glauben, dass wir mit diesem Projekt einen wichtigen Schritt hin zu einer allgemeinen Theorie der robusten Erkennung gest?rter Sprache mittels Merkmalsvektorverbesserung getan haben. Die bereits erw?hnte Sch?tzung der Posteriorverteilung des ungest?rten Sprachmerkmalsvektors, gegeben die beobachteten gest?rten Merkmalsvektoren, kann als Merkmalsentst?rung aufgefasst werden, denn der Mittelwert der Posteriorverteilung ist gleich dem Minimum Mean Squared Error (MMSE) Sch?tzwert für den ungest?rten Merkmalsvektor. Dieser Ansatz ist im Prinzip bei beliebigen Arten von St?rungen anwendbar. Mittlerweile haben wir ihn auch für die Erkennung von verhallter Sprache angewendet. Mit diesem Ansatz konnten bis zu 75% der durch den Hall verursachten Erkennungsfehler vermieden werden. Damit z?hlt das Verfahren nach unserem Kenntnisstand zu den leistungsf?higsten Ans?tzen für die Erkennung verhallter Sprache. Da bei der ?bertragung des Verfahrens zur Erkennung verrauschter Sprache auf die Erkennung verhallter Sprache lediglich das Beobachtungsmodell, welches ungest?rte und gest?rte Merkmalsvektoren in Beziehung setzt, ausgetauscht werden muss, war es naheliegend, die beiden Beobachtungsmodelle zu kombinieren, um damit auch die Erkennung verhallter und verrauschter Sprache zu erm?glichen. Erste Untersuchungen in diese Richtung sind erfolgt. Allerdings ist das Potenzial noch bei weitem nicht ausgesch?pft, und weitere Untersuchungen sollen folgen. Als besonderen Vorteil unseres Ansatzes zur robusten Spracherkennung sehen wir an, dass die Merkmalsverbesserung zwischen die Merkmalsextraktion und die Spracherkennung geschaltet wird und damit im Prinzip beide Bl?cke, Merkmalsextraktion und Dekoder, nicht modifiziert werden müssen. Damit kann das Verfahren auch unmittelbar auf sehr gro?e Erkennungsaufgaben mit aufw?ndigen akustischen und Sprachmodellen angewendet werden, was bei Robustheitsans?tzen, die das akustische Modell modifizieren, sicherlich nicht ohne Weiteres m?glich w?re. Künftige Arbeiten sollen verifizieren, dass diese Hypothese in der Tat korrekt ist. Anwendungen sehen wir daher vor allem bei Spracherkennungssystemen mit einer Freispecheinrichtung, d.h. Szenarien, in denen ein gro?er Abstand zwischen Sprecher und Sensor vorhanden ist, etwa in der Ger?testeuerung oder in intelligenten Umgebungen. Diese Anwendungen erfordern Erkenner mit einer hohen Hall- und Rauschrobustheit. “An Analytic Derivation of a Phase-Sensitive Observation Model for Noise Robust Speech Recognition”, in Proc. Interspeech 2009, Brighton, U.K., Sept. 2009 V. Leutnant, R. Haeb-Umbach “On the Exploitation of Hidden Markov Models and Linear Dynamic Models in a Hybrid Decoder Architecture for Continuous Speech Recognition”, in Proc. Interspeech 2010, Makuhari, Japan, Okt. 2010 V. Leutnant, R. Haeb-Umbach “On the Initialization of Dynamic Models for Speech Features”, in ITG Fachtagung Sprachkommunikation, Bochum , Okt. 2010 A. Krueger, V. Leutnant, R. Haeb-Umbach, M. Ackermann, J. Bl?mer “Options for Modelling Temporal Statistical Dependencies in an Acoustic Model for ASR”, in Proc. 36. Deutsche Jahrestagung für Akustik, DAGA-2010, Berlin, M?rz 2010 V. Leutnant, R. Haeb-Umbach Robust Speech Recognition of Uncertain or Missing Data – Theory and Applications, Springer 2011 D. Kolossa, R. Haeb-Umbach “Conditional Bayesian Estimation Employing a Phase- Sensitive Observation Model for Noise Robust Speech Recognition”, in D. Kolossa und R. Haeb-Umbach (Hrsg.) Robust Speech Recognition of Uncertain or Missing Data – Theory and Applications, Springer, 2011 V. Leutnant, R. Haeb-UmbachProjektbezogene Publikationen (Auswahl)