Text-Suffix-Fragment-Features: Eine neue Textrepräsentation für das Klassifizieren und Clustern natürlichsprachlicher Texte

Salmen, Julia

Veröffentlicht

Text-Suffix-Fragment-Features : Eine neue Textrepräsentation für das Klassifizieren und Clustern natürlichsprachlicher Texte

Deutsch
Englisch

Ein großer Anteil der Daten eines Unternehmens besteht aus unstrukturierten Daten in textueller Form. Die Verarbeitung dieser Daten ist mit Kosten verbunden. In dieser Dissertation wird anhand eines Testdatensatzes gezeigt, auf welche Weise und mit welcher Qualität eine automatische Klassifizierung und ein automatisches Clustern durchgeführt werden können. Dabei wird eine neue Vorverarbeitung der Daten verwendet, die auf Suffix Arrays basiert und wortübergreifende Textfragmente zur Repräsentation der textuellen Daten ermittelt. Anhand des Einsatzes verschiedener Algorithmen zur Klassifizierung und zum Clustern und der Bewertung der erreichten Qualität wird die Vorverarbeitung evaluiert. Eine Kostenabschätzung zeigt die möglichen Einsparungspotenziale bei Anwendung der automatisierten Klassifizierung und des automatisierten Clusterns in der beschriebenen Form.

A good deal of organizational data is unstructured textual data. The processing of this data is expensive. This thesis shows in which way and with what quality an automatic categorization and an automatic clustering can be applied by using a test collection. Within this process a new data preprocessing technique is used which is based on suffix arrays. It determines fragments of text independent of word boundaries to represent the textual data. The preprocessing is evaluated by applying different categorization and clustering algorithms and by reviewing the measured quality. A cost estimation shows the potential savings which can be achieved by using the automatic categorization and the automatic clustering in combination with the new preprocessing technique.

Vorschau

Einordnung

Titelübersetzung:

Text-suffix-fragment-features : A new text representation for the categorization and clustering of textual data (Englisch)

Akademische Betreuung:

Zelewski, Stephan

Datum der Erstellung:

20.12.2013

Datum der Einreichung:

12.10.2012

Datum der Promotion:

10.04.2013

Datum der Veröffentlichung:

27.12.2013

URN:

urn:nbn:de:hbz:464-20131227-091450-1

Sprache:

Deutsch

Ressourcentyp:

Text

Schlagwörter:

Klassifizierung; Clustering; Suffix Arrays; Text Mining

Kollektion:

E-Dissertationen

Sachgruppen der Deutschen Nationalbibliographie:

004 Informatik

Sachgruppen der Deutschen Nationalbibliographie:

330 Wirtschaft

Dewey Dezimal-Klassifikation:

005 Programmierung, Programme, Daten

Dewey Dezimal-Klassifikation:

330 Wirtschaft

Einrichtung:

Fakultät für Wirtschaftswissenschaften

auf die Merkliste

Zitieren

Zitierform:

urn:nbn:de:hbz:464-20131227-091450-1
Zitier-Link kopieren

Rechte

Nutzung und Vervielfältigung:

Export

BibTeX, Endnote, MODS, MARCXML, RIS, ISI, PICA, DC, CSV

DuEPublico 2

Duisburg-Essen Publications online