Posts getaggt mit Python-Wrangling
Data Wrangling in Python

Die Datenaufbereitung und das Zusammenführen verschiedener Datenquellen machen rund 80% der Arbeitszeit eines Data Scientists aus. Zudem ist eine adäquate Datenaufbereitung essentiell für die darauf folgende Modellierung und die Ableitung von Handlungsempfehlungen.

In diesem praxisorientierten Kurs werden Fähigkeiten und Techniken für eine effektive und effiziente Datenaufbereitung vermittelt. Der Fokus liegt hierbei auf der Verwendung von Pandas - dem de facto Standard für die Datenaufbereitung in Python. Behandelte Themen und Beispiele spiegeln tatsächliche Aufgabenstellungen aus dem Alltag eines Data Scientists wider. Zudem werden “Best Practices” vermittelt, u.a., das Schreiben von einfachen, gut lesbaren und modular erweiterbaren Code, der für die Arbeit in Teams unabdingbar ist. Alle Themen werden anhand von Übungen unter Anleitung demonstriert und vertieft.

Der Kurs behandelt folgende Themen:

  • Je nach Bedarf Wiederholung von Python Grundlagen: built-in structures, numpy, IPython, jupyter notebook, package management, jupytext

  • Series und DataFrames: Generierung, Bedeutung des Zeilenindex, Filtern, Zeiger vs. Kopie

  • Import und Export von Daten aus Textdateien und (unstrukturierten) Excel Tabellen, sowie der Zugriff auf Datenbanken mittels Python

  • Datenbereinigung: Behandlung von fehlenden Werten, Bearbeitung von Zeichenketten, Entfernen von Duplikaten

  • Transformieren von Daten durch vektorisierte Operationen wie map oder apply

  • Zusammenfügen verschiedener Datenquelle und das Erzeugen einer “guten” Tabellenstruktur der Daten

  • Gruppieren von Daten und Aggregationen: Split-Apply-Combine

  • Zeitreihen und Datum-Zeit Objekte

  • Pandas mit eigenem Code erweitern

Voraussetzungen:

Grundkenntnisse in Python (Im Umfang des 1-tägigen Python Crashkurses).

Weiterlesen