Posts getaggt mit Methoden
Statistik Grundlagenkurs

Dieser Kurs ist für Personen konzipiert, die Interesse an methodische Grundlagen der Statistik und Datenanalyse haben und einen allgemeinen Einblick in deren Anwendungsgebiete gewinnen möchten. Ziel dieses Kurses ist es, ein solides Verständnis der Grundbegriffe statistischer Deskription und Inferenz zu vermitteln.

In diesem Kurs kommt keine explizite Data Science Software wie z.B. R oder Python zum Einsatz. Alle Themen werden allgemein behandelt. Kleine interaktive Quizzes während des Kurses sollen das Verständnis der Kursinhalte festigen. Die beigebrachten Methoden, Beispiele und Aufgaben sind unabhängig von der später verwendeten Software und werden anschaulich mit Praxisbeispielen motiviert. Ein vergleichbarer Kurs, der Anwendungsbeispiele mit R ist unser Statistische Modellierung und Inferenz mit R.

Der Kurs behandelt folgende Themen:

Grundlagen der deskriptiven Statistik und Datenvisualisierung

  • Begriffserklärung: Skalentypen (Nominal-, Ordinal-, Intervall- und Verhältnisskala)

  • Univariate Datenanalyse: Barplots, Boxplots, Histogram, Wahrscheinlichkeitsverteilungen und -dichten z.B. Normalverteilung, t-Verteilung, Gleichverteilung.

  • Berechnung einfacher statistischer Kennzahlen: Mittelwert, Median, Quantile, Standardfehler des Mittelwerts, Standardabweichung, Varianz, Häufigkeitsverteilungen, Kontingenztafeln, Odds und Odds-Ratios.

  • Multivariate Datenanalyse: Visualisierung von zwei kategorialen Variablen, einer kategorialen und einer numerischen Variablen sowie zwei numerischen Variablen (Scatterplots).

  • Korrelation und Interpretation aller erlernten statistischen Kennzahlen und Grafiken.

Statistische Inferenz

  • Punkt- und Intervallschätzung bzw. Konfidenzintervalle

  • Statistische Hypothesentests:

    • Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests

    • Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.

    • Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest, Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)

  • Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)

Statistische Modellierung

  • Das einfache lineare Regressionsmodell (Aufbau, Anpassung, Annahmen, Goodness of Fit).

  • Erweiterungen des linearen Modells wie, z.B. multiple Regression, Verwendung von kategorischen Einflussgrößen durch Dummykodierung und Interaktionseffekte.

  • Modelldiagnose: QQ-plots, Residuenanalyse, Identifikation von Ausreißern (z.B. Cook’s distance).

  • Ausblick: Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression.

  • Modellevaluation (MSE, R-squared, Konfusionsmatrix, ROC-Kurve (engl. Receiver Operating Characteristic), AUC: Area Under the Curve)

  • Wissenswertes: Erläuterung von Problemen und Fallstricken (z.B. Under-/Overfitting, Nichtlineare Effekte, Kolinearität, Confounder-Variablen, etc.)

Alle verwendeten statistischen Verfahren werden zur Auffrischung erklärt, an echten Datenbeispielen motiviert, demonstriert und deren Funktionsweise bzw. Anwendung mit Hilfe von kurzen Quizzes verdeutlich. Zudem wird auch auf die inhaltliche Interpretation der Ergebnisse der Methoden eingegangen.

Weiterlesen
Data Science Methodenkurs

Im Data Science Methodenkurs werden Methoden aus dem Bereich Data Science und Machine Learning, sowie die statistischen Grundlagen, die zum Verständnis dieser Methoden nötig sind, vorgestellt. Der Kurs gibt einen breiten Überblick über das Themengebiet, ohne zu tief in die mathematischen Details einzutauchen. Zwei Case Studies am Ende demonstrieren die praktische Umsetzung der gelernten Konzepte.

In diesem Kurs kommt keine explizite Data Science Software wie z.B. R oder Python zum Einsatz. Alle Themen werden allgemein behandelt. Die beigebrachten Methoden, Beispiele und Aufgaben sind unabhängig von der später verwendeten Software.

Der Kurs behandelt folgende Themen:

Statistische Grundlagen

  • Einführung in die deskriptive Statistik und statistische Inferenz (z.B. Hypothesen-Tests und deren Interpretation)

  • Das lineare Regressionsmodell (Aufbau, Anpassung, Annahmen, Goodness of Fit)

  • Generalisierte Lineare Modelle (z.B. Logit - Modell) und generalisierte additive Modelle (z.B. Modellierung nicht-linearer Effekte mit Splines).

  • Gütemaße, Modellwahl und Variablenselektion

  • Wissenswertes: Erläuterung von Problemen und Fallstricken (z.B. Under-/Overfitting, Bias-Varianz-Tradeoff, Kolinearität, Confounder-Variablen, etc.)

Machine Learning Grundlagen

  • Einführung in Data Science und Machine Learning

  • Überblick diverser Machine Learning Algorithmen, insbesondere wird hier kurz der Funktionsweise und Intuition der folgenden Algorithmen kurz erläutert:

    • k-Nearest-Neighbors

    • Lineare und Quadratische Diskriminanzanalyse

    • Support Vector Machines

    • Entscheidungsbäume (Classification and Regression Trees) und Random Forests

    • Neuronale Netze und Deep Learning

    • Ensemble-Methoden: Bagging, Boosting, Stacking.

    • Modellwahl-/ und Validierung: Performance Maße, Trainings- vs. Testfehler und Kreuzvalidierung

  • Praxistipps: Workflow und bewährte Vorgehensweisen für die Entwicklung von Vorhersagemodellen (Erfahrungen aus Kaggle) und Checkliste für eine ordentliche Datenanalyse.

  • Präsentation von zwei Data Science Projekten als Fallbeispiele: Analyse von Flugdaten und die Vorhersage von Überleben beim Titanic-Unglück.

Weiterlesen