Contributions to statistical modeling and effecient decoding in automatic speech recognition |
Schlüsselwörter:
Automatische Spracherkennung, Mensch-Maschine-Kommunikation, Akustische Modellierung, Diskriminatives Training, Effiziente Dekodierung, Modelladaption
Automatic Speech Recognition, Man-Machine-Communication, Acoustic Modeling, Discriminative Training, Effecient Decoding, Adaptation
Sachgruppe der DNBAbstract
The thesis deals with different aspects of automatic speech recognition. After an introduction, which describes the most important
fundamental ideas, methodologies and algorithms, some new approaches are outlined and evaluated, which aim for the optimization of the
acoustic modeling component of a speech recognition system. The target is the fine adjustment of the selected modeling structure to the
quantity and type of the available acoustic training data. In experimental investigations on internationally known speech recognition tasks the
presented new modeling scheme outperforms conventional systems by approximately 10% in recognition performance. In addition, the
approach of tree-based clustering of context-dependent model states is extended in such a way that the specification of phonetic categories
can be avoided. The recognition system clustered with the help of this procedure achieves a similar recognition performance as the best
systems of the official evaluation of the Wall Street Journal large vocabulary recognition task with 5,000 words. Furthermore, discriminative
training procedures for acoustic modeling are discussed and evaluated. The approach of vocabulary-based discriminative training is proposed
and the extension to vocabulary- and language model-based training is outlined in detail. The experimental results prove the suitability of the
approach for better parameter estimates in contrast to Maximum-Likelihood training and the conventional frame-based discriminative
training. Additionally, new hybrid recognition systems with a discriminatively trained preprocessing are presented. The hybrid recognition
system with context-depending modeling set up in the experiments with the Resource Management database achieves one of the best ever
reported error rates obtained with comparable systems. In the following paragraph, the two most common forms of organizing the decoding
procedure are presented and the contributions of the author within this area are presented and evaluated. Time-synchronous
Viterbi-decoding with a tree-structured recognition network that makes use of partial tree copies and language model smearing proved to be
a powerful and efficient decoding approach in case of a bi-gram language model. With the proposed A-Posteriori pruning and
A-Posteriori-Lookahead pruning a further acceleration of the decoding can be achieved, which only causes a relatively small additional
search error. Moreover, the principle of decoding with stacks is illustrated, which is of great advantage when making use of language models
of higher context depth. The developed stack-decoder "DUcoder" is introduced. In evaluations, decoding with a 95,000 words vocabulary and
a tri-gram language model in almost real-time is achieved. This, however, still comes along with a substantial search error. Finally, the
German large vocabulary speech recognition system "DuDeutsch" developed by the author is presented. It allows the speaker-independent
and the speaker-dependent recognition with a vocabulary of up to 95,000 words. For acoustic modeling the clustering and structure optimization procedures presented in
the thesis are applied; decoding is performed with the presented stack-decoder. The speaker-dependent models are gained from the
speaker-dependent ones using adaptation techniques. The proposed discriminative adaptation approach results in approximately 15%
improved error reduction compared to the common Maximum-Likelihood approach.
Die Arbeit beschäftigt sich mit verschiedenen Fragestellungen der automatischen Spracherkennung. Nach einer Einführung, die die
wichtigsten Grundbegriffe, Vorgehensweisen und Algorithmen erläutert, werden einige neuartige Ansätze aufgezeigt und evaluiert, die zur
Optimierung der akustischen Modellierungskomponente eines Spracherkennungssystems eingesetzt werden können. Das Ziel dabei ist die
feine Anpassung der gewählten Modellierungsstruktur an die Menge und Art der zur Verfügung stehenden akustischen Trainingsdaten. In
experimentellen Untersuchungen mit Hilfe von international anerkannten Spracherkennungsaufgaben gelingt es mit den vorgestellten
neuartigen Modellierungsstrukturen die Erkennungsleistung herkömmlicher Systeme um etwa 10% zu übertreffen. Darüberhinaus wird der
Ansatz der baumförmigen Modellzustandsverknüpfung derart erweitert, daß die Vorgabe phonetischer Kategorien vermieden werden kann.
Das mit Hilfe dieses Verfahrens aufgebaute Erkennungssystem liegt mit seiner Erkennungsleistung im Bereich der besten Systeme der
offiziellen Evaluierung zur Wall-Street-Journal-Erkennungsaufgabe mit 5.000 Worten. Des weiteren werden diskriminative
Trainingsverfahren für die akustische Modellierung diskutiert und evaluiert. Der Ansatz des vokabularbasierten diskriminativen Trainings
wird vorgeschlagen und die Weiterführung zu vokabular- und sprachmodellbasiertem Training wird detailliert dargestellt. Die experimentellen
Ergebnisse belegen die Eignung des Ansatzes zur Gewinnung im Sinne der Erkennungsrate besserer Parameterschätzungen im Gegensatz
zum Maximum-Likelihood-Training und dem herkömmlichen lokal diskriminativen Trainingsansatz. Darüberhinaus werden neuartige hybride
Erkennungssysteme mit diskriminativ trainierter Vorverarbeitung vorgestellt. Das in den Experimenten mit der
Resource-Management-Datenbasis aufgestellte hybride Erkennungssystem mit kontextabhängiger Modellierung erreicht eine der besten je
mit vergleichbaren Systemen erzielten Fehlerraten. Im weiteren Verlauf werden die beiden verbreitetsten Organisationsformen der
Dekodierung vorgestellt und die wichtigsten Beiträge des Autors in diesem Bereich dargestellt und evaluiert. In einigen Versuchsreihen hat
sich die zeitsynchrone Viterbi-Dekodierung mit baumförmig organisiertem Erkennungsnetzwerk, partiellen Baumkopien und
Sprachmodellverschmierung als äußerst gut geeignet erwiesen, im Fall eines Bigram-Sprachmodells eine effiziente Dekodierung zu
bewerkstelligen. Durch das eingeführte A-Posteriori-Pruning und -Projektionspruning kann eine weitere Beschleunigung der Dekodierung
erreicht werden, die mit verhältnismäßig kleinem zusätzlichen Suchfehler verbunden ist. Des weiteren wird das Prinzip der Dekodierung mit
Stacks dargelegt, das vor allem beim Einsatz von Sprachmodellen höherer Kontexttiefe von großem Vorteil ist. Der im Rahmen der Arbeit
entwickelte Stackdekoder "DUcoder" wird vorgestellt. In Evaluierungen kann eine Dekodierung mit 95.000-Worte-Vokabular und
Trigram-Sprachmodell in nahezu Echtzeit erreicht werden. Diese ist allerdings noch mit erheblichem Suchfehler verbunden. Abschließend
wird das vom Autor entwickelte deutschsprachige Erkennungssystem "DuDeutsch" vorgestellt. Es erlaubt die sprecherunabhängige aber
auch die sprecherabhängige Erkennung bei einem Wortschatz von bis zu 95.000 Worten. Zur akustischen Modellierung werden die in der
Arbeit dargestellten Verfahren eingesetzt; die Dekodierung realisiert der vorgestellte Stackdekoder. Die sprecherabhängigen Modelle
wurden durch Adaptionsmethoden aus den sprecherabhängigen gewonnen. Die vorgeschlagene diskriminative Adaptionsmethode erzielt
dabei eine um etwa 15% bessere Fehlerreduktion als der übliche Maximum-Likelihood-Adaptionsansatz.
Betreuer | Prof. Dr.-Ing. habil. Gerhard Rigoll |
Gutachter | Prof. Dr.-Ing. habil. Gerhard Rigoll |
Gutachter | Prof. Dr. Wolfram Luther |
Upload: | 2001-05-04 |
URL of Theses: | http://duepublico.uni-duisburg-essen.de/servlets/DerivateServlet/Derivate-5019/willettdiss.pdf |