Clusteranalyseverfahren für hochdimensionale binäre Daten : Algorithmen und Performanz für Big Data Anwendungen

Die vorliegende Dissertation stellt eine Simulationsstudie dar, welche die
Performanz verschiedener Clusteralgorithmen für hochdimensionale binäre
Datensätze evaluiert. Bei binären Daten handelt es sich um Daten, die nur
2 Ausprägungen annehmen können. In der Regel sind dies 0 und 1. Dabei
wird der Einfluss der Dimensionalität der Daten, der Anzahl der Cluster, der
Prävalenz der Einsen und der Korrelationsstruktur analysiert. Die Art und
Weise, wie das Datenmaterial simuliert wird und die damit einhergehende
Clusterstruktur ist ebenfalls Ziel der Analyse. Aufgrund der Tatsache, dass
es sich um simulierte Daten handelt, sind die tatsächlichen Clusterzugehörigkeiten
der einzelnen Beobachtungen bekannt. Auf dieser Grundlage kann
daher die Güte der Clusterlösungen bewertet werden. Da im Kontext von
Big Data Anwendungen die Laufzeit der Algorithmen und der Speicherbedarf
ebenfalls wichtige Faktoren sind, die über die Praktikabilität von Algorithmen
entscheiden können, werden auch Laufzeit und Speicherbedarf betrachtet.
Die qualitativ besten Clusterlösungen bringt in der Simulation der Algorithmus
SCALE hervor. Sind jedoch Laufzeit und Speicherbedarf von Relevanz,
schneiden die Algorithmen Proximus und BUBBLE am besten ab. Ist die
Clusterstruktur jedoch nicht klar getrennt und es befindet sich eine größere
Menge an Rauschen in den Daten, findet sich kein Algorithmus, der konstant
gute Ergebnisse liefert.
This dissertation represents a simulation study that evaluates the performance
of different clusteralgorithms for high-dimensional binary datasets.
Binary data consists of 2 different categories. Usually these are 0 and 1. The
influence of the dimensionality of the data, the number of clusters, the prevalence
of the ones and the correlation structure is analyzed. The way, the data
is simulated and the resulting clusterstructure is also part of the analysis. Due
to the fact that the data is simulated, the actual cluster memberships of the individual observations are known. On this basis, the quality of the cluster
solutions can be evaluated. Since in the context of Big Data applications the
runtime of the algorithms and the memory requirements are also important
factors that can determine the usefulness of algorithms, runtime and memory
requirements are also considered. The qualitatively best clusterings in the
simulation are produced by the algorithm SCALE. If runtime and memory
requirements are of relevance, algorithms Proximus and BUBBLE perform best.
However, if clusters are not clearly separated and there is a decent amount of
noise in the data, no algorithm is able to produce good clusterings consistently.

Cite

Citation style:
Could not load citation form.

Rights

Use and reproduction:
All rights reserved