DuEPublico 2

Dies ist unser neues Repositorium, derzeit für E-Dissertationen und ausgewählte weitere Publikationen. Weitere Informationen...

Text-Suffix-Fragment-Features : Eine neue Textrepräsentation für das Klassifizieren und Clustern natürlichsprachlicher Texte

Salmen, Julia

Ein großer Anteil der Daten eines Unternehmens besteht aus unstrukturierten Daten in textueller Form. Die Verarbeitung dieser Daten ist mit Kosten verbunden. In dieser Dissertation wird anhand eines Testdatensatzes gezeigt, auf welche Weise und mit welcher Qualität eine automatische Klassifizierung und ein automatisches Clustern durchgeführt werden können. Dabei wird eine neue Vorverarbeitung der Daten verwendet, die auf Suffix Arrays basiert und wortübergreifende Textfragmente zur Repräsentation der textuellen Daten ermittelt. Anhand des Einsatzes verschiedener Algorithmen zur Klassifizierung und zum Clustern und der Bewertung der erreichten Qualität wird die Vorverarbeitung evaluiert. Eine Kostenabschätzung zeigt die möglichen Einsparungspotenziale bei Anwendung der automati­sierten Klassifizierung und des automatisierten Clusterns in der beschriebenen Form.

A good deal of organizational data is unstructured textual data. The processing of this data is expensive. This thesis shows in which way and with what quality an automatic categorization and an automatic clustering can be applied by using a test collection. Within this process a new data preprocessing technique is used which is based on suffix arrays. It determines fragments of text independent of word boundaries to represent the textual data. The preprocessing is evaluated by applying different categorization and clustering algorithms and by reviewing the measured quality. A cost estimation shows the potential savings which can be achieved by using the automatic categorization and the automatic clustering in combination with the new preprocessing technique.

Teilen und Zitieren

Zitierform:

Salmen, Julia: Text-Suffix-Fragment-Features. Eine neue Textrepräsentation für das Klassifizieren und Clustern natürlichsprachlicher Texte. 2013.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export