3.3. Data Preparation#

In dieser Phase geht es darum die Daten in eine Form zu bringen, die für die Erstellung von Analytics-Modellen geeignet ist. Das typische Format mit einer Zeile je Beobachtung und einer Spalte je Feature haben wir bereits kennengelernt:

Feature 1 Feature 2 ... Feature n Zielvariable
1 X[1,1] X[1,2] ... X[1,n] Y[1]
2 X[2,1] X[2,2] ... X[2,n] Y[2]
... ... ... ... ... ...
m X[m,1] X[m,2] ... X[m,n] Y[m]

Die praktische Umsetzung der Phase “Data Preparation” ist ein Fokus-Thema im weiteren Verlauf des Kurs. In diesem Abschnitt geht es nur um eine Kurzübersicht der notwendigen Schritte:

  • Erstellung der Daten entsprechend der Struktur: hierbei müssen die Informationen ggfs. aus verschiedenen Datensätzen vereinigt werden (vergleiche Join bei relationalen Datenbanken). Zuvor müssen einzelne Datensätze transformiert werden, z.B.

    • Gruppierung: Jede Zeile soll eine Beobachtung zu einem Monat sein - in einer anderen Tabelle liegen Information auf Tagesebene vor

    • Pivotierung: Informationen über einzelne Features liegen in verschiedenen Zeilen vor (z.B. eine Zeile je Produktkategorie - die Produktkategorien sollen Features für eine gemeinsame Beobachtung sein)

    • Extraktion: Zu jeder Beobachtung liegt ein Bild vor - daraus sollen relevante Features extrahiert und in die Tabelle übernommen werden, z.B. die Anzahl der Personen auf einem Bild

  • Datenbereinigung - hier werden insbesondere die festgestellten Probleme der Datenqualität korrigiert oder ausgefiltert

  • Feature Engineering und Selektion: es werden Features explizit generiert, die bisher nur implizit in den Daten vorhanden sind - ggfs. über mehrere Zeilen verteilt. Beispielsweise kann bei einer Zeitreihe als Feature der rollierende Durchschnitt der letzten 7 Tage gebildet werden. Hierbei kann eine sehr große Anzahl an Features entstehen. Je nach Algorithmus ist ggfs. eine Vorauswahl notwendig.