Unsupervised Learning in R
Der Kurs kann im Rahmen unseres Machine Learning Bootcamp in R (siehe Modul 2) separat gebucht werden.
Während beim überwachten maschinellen Lernen (engl. supervised machine learning) Vorhersagemodelle und das Erstellen akkurater Prognosen für eine bestimmte Zielgröße im Vordergrund ist, steht im unüberwachten maschinellen Lernen (engl. unsupervised machine learning) das Auffinden von Strukturen und Erkennen von Mustern in den Daten (ohne Kenntnisse über die Zielgröße) im Vordergrund. Hauptkomponentenanalyse (PCA) und Clusteranalyse sind bekannte Verfahren aus dem Bereich des Unsupervised Machine Learning und werden in diesem Kurs ausführlich behandelt.
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ermöglichst es viele (potentiell miteinander korrelierte) Variablen durch eine geringere Anzahl unkorrelierter Hauptkomponenten zu ersetzen (Dimensionsreduktion). Eine Dimensionsreduktion ist immer mit einem Informationsverlust verbunden. PCA versucht einen Informationsverlust bezüglich der “Variabilität in den Daten” möglichst gering zu halten.
Clusteralgorithmen befassen sich mit dem Auffinden von Gruppen (sog. Cluster) bzw. Ähnlichkeitsstrukturen in Daten. Hierbei sind die Gruppen im Vorfeld nicht bekannt. Die Einteilung in Gruppen soll so erfolgen, dass sich Beobachtungen innerhalb eines Clusters möglichst ähnlich sind und gleichzeitig die Cluster untereinander möglichst stark unterscheiden.
Die zugrundeliegenden Prinzipien der Verfahren werden verständlich eingeführt und anhand von kleinen Anwendungsbeispielen illustriert. Der Schwerpunkt des Kurses liegt auf der Anwendung der Methoden mit Hilfe von R.
Der Kurs behandelt folgende Themen:
Zur Wiederholung: Kurze Einführung in die univariate und multivariate Datenanalyse mit R.
Abgrenzung zwischen Supervised Machine Learning und Unsupervised Machine Learning, insbesondere zwischen Klassifikation und Clustering.
Clusteranalyse - Auffinden von Gruppen bzw. Ähnlichkeitsstrukturen in Daten:
Hierarchische Clusteranalyse: Distanzmaße für Beobachtungen und Cluster (Linkage-Methoden), Dendrogramme und deren Interpretation
Partitionierende Clusteralgorithmen: k-Means, k-Median, k-Medoids
Probabilistische und dichtebasierte Clusteralgorithmen: EM-Clustering, DBSCAN
Kennzahlen für die Evaluation der Ergebnisse von Clusteralgorithmen (bzw. Indizes zur Clustervalidierung).
Eigenschaften, Vergleich, sowie Vor- und Nachteile verschiedener Clusterverfahren
Outlier Detection - Verfahren zur Identifikation von univariaten und multivariaten Ausreißern.
Dimensionsreduktion mittels Hauptkomponentenanalyse (PCA) und die Erweiterung auf sparse und hochdimensionale Daten.
Voraussetzungen:
Kenntnisse in R (Im Umfang des 2-tägigen R Basiskurs bzw. 1-tägigen R Crashkurses)
Allgemeines Grundverständnis in der Datenanalyse / Statistik.