Statistische Modellierung und Inferenz in R
Der Kurs kann im Rahmen unseres Data Analysis Bootcamp in R (siehe Modul 2) separat gebucht werden.
Dieser Kurs wurde für Personen konzipiert, die bereits über erste Erfahrungen im Umgang mit R verfügen und nun sowohl die theoretischen als auch praktischen Grundlagen für die Informationsgewinnung aus Daten mit den Methoden der klassischen Statistik kennenlernen wollen.
Ziel dieses Kurses ist es, ein solides Verständnis der Grundbegriffe statistischer Deskription und Inferenz zu vermitteln, sodass die erlernten Methoden selbständig auf die jeweiligen Arbeitsgebiete und Daten angewandt werden können.
Der Kurs behandelt folgende Themen:
Wiederholung der Grundlagen
Univariate und multivariate deskriptive Statistik
Statistische Kennzahlen: Lage- und Streuungsmaße, Odds und Odds-Ratios, Korrelation
Wahrscheinlichkeitsverteilungen und -dichten, z.B. Normalverteilung, t-Verteilung, Gleichverteilung
Statistische Inferenz
Punkt- und Intervallschätzung bzw. Konfidenzintervalle
Statistische Hypothesentests:
Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests
Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.
Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest, Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)
Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)
Statistische Modellierung
Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.
Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression
Generalisierte additive Modelle: Splines zur Modellierung von nicht-linearen Effekten
Modelldiagnose: QQ-plots, Residuenanalyse, Identifikation von Ausreißern (z.B. Cook’s distance)
Modellevaluation (MSE, R-squared, Konfusionsmatrix, ROC-Kurve (engl. Receiver Operating Characteristic), AUC: Area Under the Curve)
Alle verwendeten statistischen Verfahren werden zur Auffrischung erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die inhaltliche Interpretation der Ergebnisse eingegangen.
Voraussetzungen: Kenntnisse in R (Im Umfang des 2-tägigen R Basiskurs bzw. 1-tägigen R Crashkurses)