
In diesem Beitrag erfahren Sie mehr über die Grundlagen der Clusteranalyse in der Statistik und Ökonometrie. Folgenden Fragen zu den Grundlagen der Clusteranalyse werden in diesem Beitrag beantwortet:
- Was ist eine Clusteranalyse und wozu verwenden wir wird die Clusternalyse?
- Zu welchen Fachbereich gehört die Clusteranalyse?
- Welche Methoden gibt es in der Clusternalyse?
- Was sind die Grundkriterien für die Verwendung von Methoden der Clusteranalyse?
Was ist eine Clusteranalyse und wozu verwenden wir sie?
Zurerst verstehen wir Clusteranalyse als die Gesamtheit von statistischen Methoden der Interdependenzanalyse von Daten mittels Bildung von kriterienbasierten Gruppen. Somit verfolgt eine Clusteranalyse das Ziel, Daten in der statistischen Auswertung so zu gruppieren, dass die Messwerten bestimmten Kriterien der Ähnlichkeiten erfüllen. Die dadurch gebildeten Clustern können wir aus als kriterienbasierten Gruppen oder Aggregaten. Ein einfacher Beispiel dazu ist die Analyse von Lernmotivation von Studierenden an einer Universität. Die Studierenden als Merkmalsträgerinnen (statistischer Einheit) verkörpern verschiedene Merkmalen (Eigenschaften) z. B. Geschlecht, Alter, Geburtsjahr, Studienfach, Studienschwerpunkt, Fakultät, Noten, Umfragedaten über Lernmotivation, …, etc, die wir aus der Analyse ziehen können. Daraus kämen Sie auf die Idee kommen die Daten am einfachsten nach Geschlecht, Geburtsjahr, Studienfach, Schwerpunkt, oder nach sonstigen Merkmal zu clustern.
Zu welchem Fachbereich gehört Clusteranalyse?
Clusternanalyse gehört zur Forschungsmethoden der Interdependenzanalyse und genauer zur statistischen Methoden der Datenanalyse in allen Fachbereiche und Wissenschaften. In den Wirtschaftswissenschaften werden häufig Clusternalyse in der Interdependenzanalyse von gesellschaftlichen Faktoren, um gesellschaftliche Strukturen zu entdecken.
Methoden der Clusternalyse
Zu den Methoden der Clusternalyse gehören zwei Typen von Clusterverfahren:
- Hierachische Clusterverfahren teile sich in Agglomerative und Divisive Clustermethoden.
- Agglomerativ bedeutet, dass Cluster von einzelnen Beobachungen bis hin zur gesamten Stichprobe gebildet werden. Darunter befinden sich eine Reihe von agglomerative Clusterverfahren, nämlich:
- Varianzmethoden (Die Ward-Methode)
- Linkagemethoden (z. B. “Single”, “Complete”, “Average”, Median Clusterbidlung)
- Divisiv bedeutet hingegen, dass von gesamten Stichprobe als Cluster bis zur einzelnen Beobachtungen bei Clusterbildung hingearbeitet wird. Zum den divisiven Clusterverfahren gehören folgende Methoden:
- K-Mittelwert-Methode
- Agglomerativ bedeutet, dass Cluster von einzelnen Beobachungen bis hin zur gesamten Stichprobe gebildet werden. Darunter befinden sich eine Reihe von agglomerative Clusterverfahren, nämlich:
- Partionierende Clusterverfahren ist eine nicht-hierachische Clustermethode
Von der Universität Zürich erhalten Sie einen guten Überblick über die Methoden der Clusternalyse mit Rechenbeispiel für Berechnung in SPSS-Syntax sowie eine Vorgehensweise. Für die Implementierung in R finden Sie eine Einführung beim Blog von IMWT Statistic über Clusteranalyse in R.
Grundkrieterien für die Verwendung der Clusteranalyse
Die Grundkriterien für eine möglichst valide Verwendung der Clusternanalyse sind:
- Eine große Stichprobe ist hilfreich für die annähende Erklärung der Grundgesamtheit.
- Fehlende Werte im Datensatz sollten Sie mit geeigneten Methoden filtern oder ersetzen.
- Standardisierung der Merkmalsausprägungen erhöht die Vergleichbartkeit von unterschiedlichen streuenden Merkmale.
Du muss angemeldet sein, um einen Kommentar zu veröffentlichen.