Willett, Daniel

Beiträge zur statistischen Modellierung und effizienten Dekodierung in der automatischen Spracherkennung

Contributions to statistical modeling and effecient decoding in automatic speech recognition

Thesis

Filetyp: PDF (.pdf)
Size: Kb

Schlüsselwörter:

Automatische Spracherkennung, Mensch-Maschine-Kommunikation, Akustische Modellierung, Diskriminatives Training, Effiziente Dekodierung, Modelladaption

Automatic Speech Recognition, Man-Machine-Communication, Acoustic Modeling, Discriminative Training, Effecient Decoding, Adaptation

Sachgruppe der DNB
28 Informatik, Datenverarbeitung

Doctoral Dissertation accepted by: University of Duisburg , Department of electrical engineering, 2000-11-02

Abstract

The thesis deals with different aspects of automatic speech recognition. After an introduction, which describes the most important fundamental ideas, methodologies and algorithms, some new approaches are outlined and evaluated, which aim for the optimization of the acoustic modeling component of a speech recognition system. The target is the fine adjustment of the selected modeling structure to the quantity and type of the available acoustic training data. In experimental investigations on internationally known speech recognition tasks the presented new modeling scheme outperforms conventional systems by approximately 10% in recognition performance. In addition, the approach of tree-based clustering of context-dependent model states is extended in such a way that the specification of phonetic categories can be avoided. The recognition system clustered with the help of this procedure achieves a similar recognition performance as the best systems of the official evaluation of the Wall Street Journal large vocabulary recognition task with 5,000 words. Furthermore, discriminative training procedures for acoustic modeling are discussed and evaluated. The approach of vocabulary-based discriminative training is proposed and the extension to vocabulary- and language model-based training is outlined in detail. The experimental results prove the suitability of the approach for better parameter estimates in contrast to Maximum-Likelihood training and the conventional frame-based discriminative training. Additionally, new hybrid recognition systems with a discriminatively trained preprocessing are presented. The hybrid recognition system with context-depending modeling set up in the experiments with the Resource Management database achieves one of the best ever reported error rates obtained with comparable systems. In the following paragraph, the two most common forms of organizing the decoding procedure are presented and the contributions of the author within this area are presented and evaluated. Time-synchronous Viterbi-decoding with a tree-structured recognition network that makes use of partial tree copies and language model smearing proved to be a powerful and efficient decoding approach in case of a bi-gram language model. With the proposed A-Posteriori pruning and A-Posteriori-Lookahead pruning a further acceleration of the decoding can be achieved, which only causes a relatively small additional search error. Moreover, the principle of decoding with stacks is illustrated, which is of great advantage when making use of language models of higher context depth. The developed stack-decoder "DUcoder" is introduced. In evaluations, decoding with a 95,000 words vocabulary and a tri-gram language model in almost real-time is achieved. This, however, still comes along with a substantial search error. Finally, the German large vocabulary speech recognition system "DuDeutsch" developed by the author is presented. It allows the speaker-independent and the speaker-dependent recognition with a vocabulary of up to 95,000 words. For acoustic modeling the clustering and structure optimization procedures presented in the thesis are applied; decoding is performed with the presented stack-decoder. The speaker-dependent models are gained from the speaker-dependent ones using adaptation techniques. The proposed discriminative adaptation approach results in approximately 15% improved error reduction compared to the common Maximum-Likelihood approach.

Die Arbeit beschäftigt sich mit verschiedenen Fragestellungen der automatischen Spracherkennung. Nach einer Einführung, die die wichtigsten Grundbegriffe, Vorgehensweisen und Algorithmen erläutert, werden einige neuartige Ansätze aufgezeigt und evaluiert, die zur Optimierung der akustischen Modellierungskomponente eines Spracherkennungssystems eingesetzt werden können. Das Ziel dabei ist die feine Anpassung der gewählten Modellierungsstruktur an die Menge und Art der zur Verfügung stehenden akustischen Trainingsdaten. In experimentellen Untersuchungen mit Hilfe von international anerkannten Spracherkennungsaufgaben gelingt es mit den vorgestellten neuartigen Modellierungsstrukturen die Erkennungsleistung herkömmlicher Systeme um etwa 10% zu übertreffen. Darüberhinaus wird der Ansatz der baumförmigen Modellzustandsverknüpfung derart erweitert, daß die Vorgabe phonetischer Kategorien vermieden werden kann. Das mit Hilfe dieses Verfahrens aufgebaute Erkennungssystem liegt mit seiner Erkennungsleistung im Bereich der besten Systeme der offiziellen Evaluierung zur Wall-Street-Journal-Erkennungsaufgabe mit 5.000 Worten. Des weiteren werden diskriminative Trainingsverfahren für die akustische Modellierung diskutiert und evaluiert. Der Ansatz des vokabularbasierten diskriminativen Trainings wird vorgeschlagen und die Weiterführung zu vokabular- und sprachmodellbasiertem Training wird detailliert dargestellt. Die experimentellen Ergebnisse belegen die Eignung des Ansatzes zur Gewinnung im Sinne der Erkennungsrate besserer Parameterschätzungen im Gegensatz zum Maximum-Likelihood-Training und dem herkömmlichen lokal diskriminativen Trainingsansatz. Darüberhinaus werden neuartige hybride Erkennungssysteme mit diskriminativ trainierter Vorverarbeitung vorgestellt. Das in den Experimenten mit der Resource-Management-Datenbasis aufgestellte hybride Erkennungssystem mit kontextabhängiger Modellierung erreicht eine der besten je mit vergleichbaren Systemen erzielten Fehlerraten. Im weiteren Verlauf werden die beiden verbreitetsten Organisationsformen der Dekodierung vorgestellt und die wichtigsten Beiträge des Autors in diesem Bereich dargestellt und evaluiert. In einigen Versuchsreihen hat sich die zeitsynchrone Viterbi-Dekodierung mit baumförmig organisiertem Erkennungsnetzwerk, partiellen Baumkopien und Sprachmodellverschmierung als äußerst gut geeignet erwiesen, im Fall eines Bigram-Sprachmodells eine effiziente Dekodierung zu bewerkstelligen. Durch das eingeführte A-Posteriori-Pruning und -Projektionspruning kann eine weitere Beschleunigung der Dekodierung erreicht werden, die mit verhältnismäßig kleinem zusätzlichen Suchfehler verbunden ist. Des weiteren wird das Prinzip der Dekodierung mit Stacks dargelegt, das vor allem beim Einsatz von Sprachmodellen höherer Kontexttiefe von großem Vorteil ist. Der im Rahmen der Arbeit entwickelte Stackdekoder "DUcoder" wird vorgestellt. In Evaluierungen kann eine Dekodierung mit 95.000-Worte-Vokabular und Trigram-Sprachmodell in nahezu Echtzeit erreicht werden. Diese ist allerdings noch mit erheblichem Suchfehler verbunden. Abschließend wird das vom Autor entwickelte deutschsprachige Erkennungssystem "DuDeutsch" vorgestellt. Es erlaubt die sprecherunabhängige aber auch die sprecherabhängige Erkennung bei einem Wortschatz von bis zu 95.000 Worten. Zur akustischen Modellierung werden die in der Arbeit dargestellten Verfahren eingesetzt; die Dekodierung realisiert der vorgestellte Stackdekoder. Die sprecherabhängigen Modelle wurden durch Adaptionsmethoden aus den sprecherabhängigen gewonnen. Die vorgeschlagene diskriminative Adaptionsmethode erzielt dabei eine um etwa 15% bessere Fehlerreduktion als der übliche Maximum-Likelihood-Adaptionsansatz.

Betreuer	Prof. Dr.-Ing. habil. Gerhard Rigoll
Gutachter	Prof. Dr.-Ing. habil. Gerhard Rigoll
Gutachter	Prof. Dr. Wolfram Luther

Upload:	2001-05-04
URL of Theses:	http://duepublico.uni-duisburg-essen.de/servlets/DerivateServlet/Derivate-5019/willettdiss.pdf

University of Duisburg , Library
Lotharstr.65 , 47048 Duisburg, Germany