Kursbeschreibung
Der Machine Learning Bootcamp in R vermittelt in einzeln buchbaren Modulen Kenntnisse im überwachten maschinellen Lernen (engl. supervised machine learning) in Modul 1 und im unüberwachten maschinellen Lernen (engl. unsupervised machine learning) in Modul 2, sowie praktisches Wissen zum interpretierbaren maschinellen Lernen in Modul 3. Für die Anwendungsbeispiele und praktische Übungsaufgaben kommt die statistische Software R zum Einsatz.
Ziel: Vermittlung von Kenntnissen zur Anpassung und Verbesserung von Vorhersagemodellen, zum Auffinden von Strukturen in den Daten und zur Interpretation von Algorithmen und Methoden aus dem Bereich des maschinellen Lernen mit praktischen Beispielen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Vorhersagemodelle zu optimieren und Projekte zielgerichtet bearbeiten zu können, ohne sich tagelang selber in bestimmte Themen einarbeiten zu müssen. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.
Beschreibung der Module (diese können auch einzeln gebucht werden):
Modul 1: Supervised Machine Learning in R
Modul 2: Unsupervised Learning in R
Modul 3: Interpretable Machine Learning in R
Anmeldeformular
Module können einzeln gebucht werden, beachten Sie die Vorraussetzungen aus der jeweiligen Kursbeschreibung. Jetzt unverbindlich Voranmelden und Platz sichern:
Modul 1: Supervised Machine Learning in R (3-tägig)
Themenschwerpunkte Teil 1: Einführung in Machine Learning und Predictive Modeling
Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen des maschinellen Lernens vertraut gemacht werden, sowie erste einfache überwachte Lernmodelle trainieren und evaluieren. Folgende Themen werden behandelt:
Allgemeine Fragestellungen im maschinellen Lernen (Regression, Klassifikation, Clustering, …)
Einführung allgemeiner Begriffe (Verlustfunktion, Risikominimierung, Overfitting, Hyper- und Modelparameter, Training- und Testdaten, …)
Lineare und Logistische Regression aus der Perspektive des maschinellen Lernens
K-nächste Nachbarn Verfahren
Wichtige Evaluationmaße für Regression und Klassifikation und deren Eigenschaften
Resampling Methoden (Kreuzvalidierung, Bootstrap, …) und deren Vor- und Nachteile
Themenschwerpunkte Teil 2: Praktisches Machine Learning - Evaluation und Tuning
In diesem Kursteil werden verschiedene Algorithmen des überwachten maschinellen Lernens eingeführt. Dabei werden Vor- und Nachteile der Modelle diskutiert. Zudem werden weitere fortgeschrittene Konzepte für (überwachtes) maschinelles Lernen vermittelt um praktische Probleme besser und effizienter lösen zu können. Folgende Themen werden behandelt:
Funktionsweise wichtiger Machine Learning Algorithmen:
Regressions- und Klassifikationsbäume
Random Forests, ggf. Ausblick auf (Gradienten) Boosting
Hyperparameter Optimierung (Zufallssuche und Gittersuche)
Genestete Kreuzvalidierung zur optimalen Modellwahl
Fallstricke und praxisrelevante Tipps bei der Modell-Evaluation und Modellwahl
Themenschwerpunkte Teil 3: Machine Learning Pipelines, Datenvorverarbeitung und Feature Engineering
Die Kursteilnehmer lernen praktische Methoden kennen, um häufig auftretende Probleme und Herausforderungen in Daten zu lösen und komplizierte machine learning pipelines anzuwenden. Folgende Themen werden behandelt:
Einfache Vorverarbeitungsmethoden (z.B. konstante und gedoppelte Feature identifizieren und entfernen)
Feature Transformationen (Skalierung, Zentrierung, ...)
Umgang mit kategorialen Features (Dummy und Impact Kodierung)
Fehlende Werte und Imputation
Unbalancierte Daten (Over/Undersampling)
Ausblick: Automatic Machine Learning
Software R: mlr3, mlr3tuning, mlr3pipelines, ranger
Voraussetzungen:
Kenntnisse in R (etwa im Umfang von Modul 1 aus unserem Data Analysis Bootcamp)
Allgemeines Grundverständnis in der Datenanalyse / Statistik (etwa im Umfang von Modul 2 aus unserem Data Analysis Bootcamp)
Modul kann einzeln gebucht werden.
Modul 2: Unsupervised Learning in R (1-tägig)
Während beim überwachten maschinellen Lernen (engl. supervised machine learning) Vorhersagemodelle und das Erstellen akkurater Prognosen für eine bestimmte Zielgröße im Vordergrund ist, steht im unüberwachten maschinellen Lernen (engl. unsupervised machine learning) das Auffinden von Strukturen und Erkennen von Mustern in den Daten (ohne Kenntnisse über die Zielgröße) im Vordergrund. Hauptkomponentenanalyse (PCA) und Clusteranalyse sind bekannte Verfahren aus dem Bereich des Unsupervised Machine Learning und werden in diesem Kurs ausführlich behandelt. Die Themenschwerpunkte sind:
Zur Wiederholung: Kurze Einführung in die univariate und multivariate Datenanalyse mit R.
Abgrenzung zwischen Supervised Machine Learning und Unsupervised Machine Learning, insbesondere zwischen Klassifikation und Clustering.
Clusteranalyse - Auffinden von Gruppen bzw. Ähnlichkeitsstrukturen in Daten:
Hierarchische Clusteranalyse: Distanzmaße für Beobachtungen und Cluster (Linkage-Methoden), Dendrogramme und deren Interpretation
Partitionierende Clusteralgorithmen: k-Means, k-Median, k-Medoids
Kennzahlen für die Evaluation der Ergebnisse von Clusteralgorithmen (bzw. Indizes zur Clustervalidierung).
Eigenschaften, Vergleich, sowie Vor- und Nachteile verschiedener Clusterverfahren
Dimensionsreduktion mittels Hauptkomponentenanalyse (PCA) und die Erweiterung auf sparse und hochdimensionale Daten.
Voraussetzungen:
Kenntnisse in R (etwa im Umfang von Modul 1 aus unserem Data Analysis Bootcamp)
Allgemeines Grundverständnis in der Datenanalyse / Statistik (etwa im Umfang von Modul 2 aus unserem Data Analysis Bootcamp)
Modul kann einzeln gebucht werden.
Modul 3: Interpretable Machine Learning in R (1-tägig)
Im Gegensatz zu Modelle aus der klassischen Statistik wie beispielsweise das lineare Regressionsmodell werden Machine Learning Modelle oft als intransparente Blackbox bezeichnet, da ihre Vorhersagen in der Regel nicht leicht nachvollziehbar sind. Um dennoch Machine Learning Modelle und ihre Vorhersagen besser verstehen zu können, wurden in den letzten Jahren zahlreiche post-hoc Methoden aus dem Bereich des interpretierbaren maschinellen Lernen (auch eXplainable Artificial Intelligence bzw. XAI genannt) entwickelt.
In diesem Modul lernen Teilnehmer die aktuell bekanntesten und wichtigsten modell-agnostischen Methoden für die Interpretation von Prognosemodellen, ihr Nutzen in der Praxis, sowie ihre Vor- und Nachteile. Der Fokus der Anwendungsbeispiele liegt dabei auf Machine Learning Modelle, die auf klassische tabulare Daten trainiert wurden. Die Themenschwerpunkte sind:
Motivation modell-agnostischer Interpretierbarkeit und deren Eingliederung in globaler und lokaler Methoden
Permutation feature importance um die Wichtigkeit von Variablen zu quantifizieren
Partial dependence (PD) plots um den erwarteten Variablen-Effekt zu visualisieren
Individual conditional expectation (ICE) plots um den Variablen-Effekt einzelner Beobachtungen zu visualisieren
Überblick über weitere Methoden wie LIME und Shapley values.
Diskussion allgemeiner Fallstricke im bei der Anwendung von Machine Learning.
Software R: iml
Voraussetzungen:
Kenntnisse in R (etwa im Umfang von Modul 1 aus unserem Data Analysis Bootcamp)
Grundkenntnisse in Machine Learning (etwa im Umfang von Modul 1)
Modul kann einzeln gebucht werden.