3.3. Data Preparation#
In dieser Phase geht es darum die Daten in eine Form zu bringen, die für die Erstellung von Analytics-Modellen geeignet ist. Das typische Format mit einer Zeile je Beobachtung und einer Spalte je Feature haben wir bereits kennengelernt:
Feature 1 | Feature 2 | ... | Feature n | Zielvariable | |
---|---|---|---|---|---|
1 | X[1,1] | X[1,2] | ... | X[1,n] | Y[1] |
2 | X[2,1] | X[2,2] | ... | X[2,n] | Y[2] |
... | ... | ... | ... | ... | ... |
m | X[m,1] | X[m,2] | ... | X[m,n] | Y[m] |
Die praktische Umsetzung der Phase “Data Preparation” ist ein Fokus-Thema im weiteren Verlauf des Kurs. In diesem Abschnitt geht es nur um eine Kurzübersicht der notwendigen Schritte:
Erstellung der Daten entsprechend der Struktur: hierbei müssen die Informationen ggfs. aus verschiedenen Datensätzen vereinigt werden (vergleiche Join bei relationalen Datenbanken). Zuvor müssen einzelne Datensätze transformiert werden, z.B.
Gruppierung: Jede Zeile soll eine Beobachtung zu einem Monat sein - in einer anderen Tabelle liegen Information auf Tagesebene vor
Pivotierung: Informationen über einzelne Features liegen in verschiedenen Zeilen vor (z.B. eine Zeile je Produktkategorie - die Produktkategorien sollen Features für eine gemeinsame Beobachtung sein)
Extraktion: Zu jeder Beobachtung liegt ein Bild vor - daraus sollen relevante Features extrahiert und in die Tabelle übernommen werden, z.B. die Anzahl der Personen auf einem Bild
Datenbereinigung - hier werden insbesondere die festgestellten Probleme der Datenqualität korrigiert oder ausgefiltert
Feature Engineering und Selektion: es werden Features explizit generiert, die bisher nur implizit in den Daten vorhanden sind - ggfs. über mehrere Zeilen verteilt. Beispielsweise kann bei einer Zeitreihe als Feature der rollierende Durchschnitt der letzten 7 Tage gebildet werden. Hierbei kann eine sehr große Anzahl an Features entstehen. Je nach Algorithmus ist ggfs. eine Vorauswahl notwendig.