Zurück zu allen Events

Hybrid: Data Analysis Bootcamp in R


Kursbeschreibung

Der Data Analysis Bootcamp in R vermittelt in einzeln buchbaren Modulen Grundkenntnisse in R (Modul 1), praktisches Wissen zur deskriptiven Datenanalyse, der statisischen Inferenz und Modellierung in R (Modul 2), sowie fortgeschrittene Kenntnisse zur effizienten Nutzung von R (Modul 3). Für die Anwendungsbeispiele und praktische Übungsaufgaben kommt die statistische Software R zum Einsatz.

Ziel: Vermittlung von theoretischen Statistik-Kenntnissen sowie technischen und praktischen Wissen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Analysen und Projekte zielgerichteter und effizienter bearbeiten zu können, ohne sich tagelang selber in bestimmte Themen einarbeiten zu müssen. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.

Beschreibung der Module (diese können auch einzeln gebucht werden):


Anmeldeformular

Module können einzeln gebucht werden, beachten Sie die Vorraussetzungen aus der jeweiligen Kursbeschreibung. Jetzt anmelden:


Modul 1: R Crashkurs (1-tägig)

In diesem Tag werden Grundkenntnisse der Programmiersprache R vermittelt. Der Fokus liegt dabei auf die technische Einführung in R, das Erlernen der grundlegenden R-Syntax und das Arbeiten mit R zur Datenanalyse. Dieser Kurs ist sowohl für Teilnehmer ohne R Kenntnisse als auch zur Auffrischung der Grundlagen in geeignet. 

Die Themenschwerpunkte sind:

  • Arbeiten mit R und R Studio, eine der beliebtesten und mächtigsten graphischen Benutzeroberfläche (GUIs) für R.

  • Installation und Nutzung von Erweiterungspaketen in R.

  • Einführung in Hilfeseiten und Tipps zur Selbsthilfe.

  • Erläuterung der wichtigsten Datentypen, Operatoren (arithmetische und logische Operatoren) und Funktionen in R.

  • Import und Export von Daten (z.B. Dateiformate wie CSV, Excel etc.)

  • Arbeiten mit Dataframes und Vektoren (numeric, logical, character, factors), z.B. das Indizieren, Aufteilen und Umwandeln von Variablen bzw. Datensätzen.

  • Berechnen von einfachen statistischen Kennzahlen in R (z.B.: Median, Mittelwert, Quantile, Varianz, etc.).

Voraussetzungen: keine
Modul kann einzeln gebucht werden.


Modul 2: Praktische Datenanalyse in R (2-tägig)

Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen in Data Science, Statistik und der Datenanalyse vertraut gemacht werden und lernen erste explorative Analysen in verschiedenen Datensituationen durchzuführen. 

Themenschwerpunkte Teil 1: Grundlagen der Statistik und Datenanalyse in R

  • Definition von Data Science und weiterer Grundbegriffe

  • Einführung in ggplot2 zur Visualisierung von Daten

  • Univariate Deskriptive Statistik und Datenvisualisierung in R: Häufigkeitstabellen, Balkendiagramme, Histogramme, Kerndichteschätzung, Boxplots, Dichten und Verteilungen, QQ-Plots, etc.

  • Multivariate Deskriptive Statistik und Datenvisualisierung in R: Kreuztabellen, Scatter-Plots, Korrelation

Themenschwerpunkte Teil 2: Statistische Inferenz und Modellierung in R

  • Einführung in die statistische Inferenz: Punktschätzung, Intervallschätzung und Konfidenzintervalle

  • Statistische Hypothesentests: 

    • Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests

    • Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.

    • Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest,  Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)

    • Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)

  • Statistische Modellierung:

    • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.

    • Modellevaluation und Modelldiagnose: MSE, R-squared, QQ-plots und Residuenanalyse

    • Ausblick: Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression

Software R: ggplot2

Voraussetzungen: Kenntnisse in R (etwa im Umfang von Modul 1)
Modul kann einzeln gebucht werden.


Modul 3: Effiziente Datenverarbeitung und Programmierung in R (2-tägig)

Datenmanipulation und Verarbeitung  kann oft eine der zeitaufwendigsten Tätigkeiten in einer statistischen Analyse sein. In diesem Kurs werden Fähigkeiten vermittelt um effizient auch mit größeren Datenmengen in R arbeiten zu können. Nach dem Kurs sollen Teilnehmer in der Lage sein effizient in R arbeiten zu können, sowie Datenvorverarbeitung klarer, einfacher und schneller durchführen zu können.

Themenschwerpunkte Teil 1: Effiziente Datenverarbeitung in R

  • Kurzer Überblick wichtiger R packages für fortgeschrittene Datenanalyse 

  • Schnelle und intuitive Datenmanipulation mit dem dplyr Package:
    Wenn viele Datenvorverarbeitungsschritte nacheinander durchgeführt werden, wird Programmcode schnell unübersichtlich und ineffizient (z.B. durch abspeichern unnötiger Zwischenschritte). Das dplyr Package erlaubt sog. chaining-Operatoren, womit R Code wesentlich effizienter und übersichtlicher dargestellt werden kann.

  • Split / Apply / Combine in R: Allgemeinen Vorgang einen Datensatz in kleine Teildatensätze aufzuteilen, auf jedem Teildatensatz Operationen auszuführen und die Ergebnisse wieder zusammenzufügen.

  • Datenbanken in R

    • Einführung in das DBI package und der Nutzung von SQL Anfragen direkt in R

    • Vereinfachte Datenbankanbindung mit dplyr und dbplyr

    • Kurzer Ausblick zu weiteren R Paketen für spezielle Datenbanken

  • Automatisierte Berichterstellung, Reporting und literate Programming

    • Einführung in die Markdown Syntax mit Hilfe der Erweiterungspakete rmarkdown bzw. knitr.

    • Automatisierte Erstellung von dynamischen Berichten und Präsentationen, um wiederkehrende Analysen zeitsparend zu produzieren und voll reproduzierbar zu gestalten.

    • Professionelle Präsentation von Analyseergebnissen durch das gleichzeitige Einbinden von Grafiken, Tabellen und R-Code in Berichten ohne Copy & Paste, z.B. in Dateiformate wie PDF, Word oder HTML.

Themenschwerpunkte Teil 2: Fortgeschrittene R Programmierung

  • Programming with R: Basics

    • Anwenden von Kontrollstrukturen (if, else) für bedingte Anweisungen (sog. WENN-DANN-SONST Funktionalität).

    • Anwenden von Schleifen (for, while) und apply Funktionen für das effiziente Ausführen von repetitiven und iterativem R-Code.

    • Debugging, Exception und Error Handling

    • Einführung in die objektorientierte Programmierung mit R mit den beiden beliebtesten Klassensystemen S3 und R6.

  • Effizientes Arbeiten mit tabularen Daten und dem data.table Package: Filtering, Selecting, Grouping, Reshaping.

  • Effiziente Datenverarbeitung mit funktionaler Programmierung und dem purrr Package: Arbeiten mit Listen und genesteten Datenstrukturen.

  • Parallelisierung von R Code

Software R: dplyr, data.table, DBI, tidyverse, R6, purrr, future, foreach, knitr

Voraussetzungen:

  • Kenntnisse in R (etwa im Umfang von Modul 1)

  • Allgemeines Grundverständnis in der Datenanalyse / Statistik (etwa im Umfang von Modul 2)

  • Hilfreich (aber nicht zwingend nötig) sind Vorkenntnisse in einfache SQL-Befehle.

Modul kann einzeln gebucht werden.


Frühere Events: 26. Februar
Webinar: Machine Learning Bootcamp in R
Späteres Event: 12. Dezember
Hybrid: Python Basiskurs