Text-Suffix-Fragment-Features : Eine neue Textrepräsentation für das Klassifizieren und Clustern natürlichsprachlicher Texte

Ein großer Anteil der Daten eines Unternehmens besteht aus unstrukturierten Daten in textueller Form. Die Verarbeitung dieser Daten ist mit Kosten verbunden. In dieser Dissertation wird anhand eines Testdatensatzes gezeigt, auf welche Weise und mit welcher Qualität eine automatische Klassifizierung und ein automatisches Clustern durchgeführt werden können. Dabei wird eine neue Vorverarbeitung der Daten verwendet, die auf Suffix Arrays basiert und wortübergreifende Textfragmente zur Repräsentation der textuellen Daten ermittelt. Anhand des Einsatzes verschiedener Algorithmen zur Klassifizierung und zum Clustern und der Bewertung der erreichten Qualität wird die Vorverarbeitung evaluiert. Eine Kostenabschätzung zeigt die möglichen Einsparungspotenziale bei Anwendung der automati­sierten Klassifizierung und des automatisierten Clusterns in der beschriebenen Form.
A good deal of organizational data is unstructured textual data. The processing of this data is expensive. This thesis shows in which way and with what quality an automatic categorization and an automatic clustering can be applied by using a test collection. Within this process a new data preprocessing technique is used which is based on suffix arrays. It determines fragments of text independent of word boundaries to represent the textual data. The preprocessing is evaluated by applying different categorization and clustering algorithms and by reviewing the measured quality. A cost estimation shows the potential savings which can be achieved by using the automatic categorization and the automatic clustering in combination with the new preprocessing technique.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten