Data Preparation

3.3. Data Preparation#

In dieser Phase geht es darum die Daten in eine Form zu bringen, die für die Erstellung von Analytics-Modellen geeignet ist. Das typische Format mit einer Zeile je Beobachtung und einer Spalte je Feature haben wir bereits kennengelernt:

	Feature 1	Feature 2	...	Feature n	Zielvariable
1	X[1,1]	X[1,2]	...	X[1,n]	Y[1]
2	X[2,1]	X[2,2]	...	X[2,n]	Y[2]
...	...	...	...	...	...
m	X[m,1]	X[m,2]	...	X[m,n]	Y[m]

Die praktische Umsetzung der Phase “Data Preparation” ist ein Fokus-Thema im weiteren Verlauf des Kurs. In diesem Abschnitt geht es nur um eine Kurzübersicht der notwendigen Schritte:

Erstellung der Daten entsprechend der Struktur: hierbei müssen die Informationen ggfs. aus verschiedenen Datensätzen vereinigt werden (vergleiche Join bei relationalen Datenbanken). Zuvor müssen einzelne Datensätze transformiert werden, z.B.
- Gruppierung: Jede Zeile soll eine Beobachtung zu einem Monat sein - in einer anderen Tabelle liegen Information auf Tagesebene vor
- Pivotierung: Informationen über einzelne Features liegen in verschiedenen Zeilen vor (z.B. eine Zeile je Produktkategorie - die Produktkategorien sollen Features für eine gemeinsame Beobachtung sein)
- Extraktion: Zu jeder Beobachtung liegt ein Bild vor - daraus sollen relevante Features extrahiert und in die Tabelle übernommen werden, z.B. die Anzahl der Personen auf einem Bild
Datenbereinigung - hier werden insbesondere die festgestellten Probleme der Datenqualität korrigiert oder ausgefiltert
Feature Engineering und Selektion: es werden Features explizit generiert, die bisher nur implizit in den Daten vorhanden sind - ggfs. über mehrere Zeilen verteilt. Beispielsweise kann bei einer Zeitreihe als Feature der rollierende Durchschnitt der letzten 7 Tage gebildet werden. Hierbei kann eine sehr große Anzahl an Features entstehen. Je nach Algorithmus ist ggfs. eine Vorauswahl notwendig.