Die Datenaufbereitung und das Zusammenführen verschiedener Datenquellen machen rund 80% der Arbeitszeit eines Data Scientists aus. Zudem ist eine adäquate Datenaufbereitung essentiell für die darauf folgende Modellierung und die Ableitung von Handlungsempfehlungen.
In diesem praxisorientierten Kurs werden Fähigkeiten und Techniken für eine effektive und effiziente Datenaufbereitung vermittelt. Der Fokus liegt hierbei auf der Verwendung von Pandas - dem de facto Standard für die Datenaufbereitung in Python. Behandelte Themen und Beispiele spiegeln tatsächliche Aufgabenstellungen aus dem Alltag eines Data Scientists wider. Zudem werden “Best Practices” vermittelt, u.a., das Schreiben von einfachen, gut lesbaren und modular erweiterbaren Code, der für die Arbeit in Teams unabdingbar ist. Alle Themen werden anhand von Übungen unter Anleitung demonstriert und vertieft.
Der Kurs behandelt folgende Themen:
Je nach Bedarf Wiederholung von Python Grundlagen: built-in structures, numpy, IPython, jupyter notebook, package management, jupytext
Series und DataFrames: Generierung, Bedeutung des Zeilenindex, Filtern, Zeiger vs. Kopie
Import und Export von Daten aus Textdateien und (unstrukturierten) Excel Tabellen, sowie der Zugriff auf Datenbanken mittels Python
Datenbereinigung: Behandlung von fehlenden Werten, Bearbeitung von Zeichenketten, Entfernen von Duplikaten
Transformieren von Daten durch vektorisierte Operationen wie map oder apply
Zusammenfügen verschiedener Datenquelle und das Erzeugen einer “guten” Tabellenstruktur der Daten
Gruppieren von Daten und Aggregationen: Split-Apply-Combine
Zeitreihen und Datum-Zeit Objekte
Pandas mit eigenem Code erweitern
Voraussetzungen:
Grundkenntnisse in Python (Im Umfang des 1-tägigen Python Crashkurses).
Weiterlesen