Stefan Eickeler :

Automatische Bildfolgenanalyse mit statistischen Mustererkennungsverfahren

Dissertation angenommen durch: Gerhard-Mercator-Universität Duisburg, Fakultät für Ingenieurwissenschaften, Abteilung Elektrotechnik und Informationstechnik, 2001-11-05

BetreuerIn: Prof. Dr.-Ing. Gerhard Rigoll , Gerhard-Mercator-Universität Duisburg, Fakultät für Ingenieurwissenschaften, Abteilung Elektrotechnik und Informationstechnik

GutachterIn: Prof. Dr.-Ing. Gerhard Rigoll , Gerhard-Mercator-Universität Duisburg, Fakultät für Ingenieurwissenschaften, Abteilung Elektrotechnik und Informationstechnik
GutachterIn: Prof. Dr. Martin Reiser , Fraunhofer Institut Medienkommunikation, St. Augustin,

Schlüsselwörter in Deutsch: Videoindexierung, Gesichtserkennung, Gesichtsdetektion, Gestikerkennungs, Hidden Markov Modelle
Schlüsselwörter in Englisch: Video Indexing, Face Recognition, Face Detection, Gesture Recognition, Hidden Markov Models

 
   
 Klassifikation     
    Sachgruppe der DNB: 28 Informatik, Datenverarbeitung
 
   
 Abstrakt     
   

Abstrakt in Deutsch

Im Rahmen dieser Arbeit werden automatische Methoden zur Erkennung des Inhalts von Bildfolgen mit statistischen Mustererkennungsverfahren vorgestellt. Lösungen für folgende Teilprobleme der Bildfolgenanalyse werden entwickelt: die temporale Segmentierung einer Bildfolge in Szenen und die Klassifikation der Szenen, sowie die Erkennung von Personen und Personenbewegungen in der Bildfolge. Die temporale Segmentierung und die Segmentklassifikation einer Bildfolge können bei strukturierten Bildfolgen (z.B. Fernsehnachrichten) angewendet werden. Diese Bildfolgen zeichnen sich durch einen vorgegebenen Ablauf von Szenenkategorien aus. Für die Erkennung werden die Inhaltsklassen und die übergeordnete Struktur der Bildfolge durch verschachtelte Hidden Markov Modelle repräsentiert. Eine weitere Anwendung der Hidden Markov Modelle ist die Klassifikation von Objektbewegungen in Bildfolgen. Hierbei wird die Erkennung von menschlichen Gesten für die Anwendung der Mensch-Maschine-Kommunikation untersucht. Das Erkennungssystem kann eine Menge von vordefinierten Gesten klassifizieren, die eine Person im Sichtbereich der Kamera durchführt. Bei undefinierten Bewegungen kann das System diese als unbekannt identifizieren und verwechselt sie nicht mit den definierten Gesten. Außerdem werden Methoden zur Erkennung der Personen innerhalb der Bildfolge vorgestellt. Das Problem der Personenerkennung wird anhand ihrer Gesichter gelöst. Die Indexierung der Gesichter einer Bildfolge besteht aus den Teilproblemen des Findens der Gesichter in der Bildfolge (Gesichtsdetektion) und dem Zuordnen der Gesichter zu den Personen (Gesichtserkennung). Es wird gezeigt, dass eine gesichtsbasierte Videoindexierung sowohl für die Suche von bekannten Personen innerhalb einer Bildsequenz als auch für die unüberwachte Gruppierung von Gesichtern zu Personen verwendet werden kann.

Abstrakt in Englisch

In this thesis new methods for the automatic recognition of the content of image sequences are presented. Solutions to the following video sequences analysis tasks are developed: temporal decomposition of an image sequence into scenes and classification of the scenes, and the recognition of people and their movements in the image sequence. The temporal segmentation of a image sequence and the classification of the segments can be used for image sequences with a given content structure, like broadcast news. The image sequences have a defined chronology of scenes, which belong to certain content classes. The content classes and their chronology are represented by nested Hidden Markov models during the recognition. Another application of the Hidden Markov Modells are the classification of movements of objects in the image sequence. The recognition of human gestures for the application of human-computer-interaction is investigated. The recognition system is capable of recognizing a set of pre-defined gestures that are performed in the viewing area of a camera. The system is able to identify undefined movements and can distinguish them from the gestures. The final task is recognizing people visible in image sequences. The recognition of the people is done by recognizing their faces. The indexing of the faces is composed of the two sub-tasks: detection of the faces and recognition of the faces. It is shown that the face-based video indexing can be used to find known persons in the image sequence as well as to group the people in the sequence unsupervised.