9. Abschluss#
In den vorherigen Kapiteln sind wir teilweise recht tief in die Daten eingetaucht. Zum Abschluss der Phasen “Data Understanding” und “Data Preparation” treten wir hier noch mal einen Schritt zurück, um zu reflektieren was wir erreicht haben.
Data Understanding
Wir haben die Datensätze untersucht, um sowohl die Datenstruktur zu verstehen (Bedeutung der Spalten, Kodierungen, Skalen, etc.), die Daten zu verstehen (Verteilungen der Werte, Korrelationen, Statistiken) als auch die geschäftliche Domäne zu verstehen (wie viele Städte gibt es?, wie alt und lang sind deren Liniennetze?). Dazu haben wir folgende Techniken angewandt:
Zusammenfassungen und Anordnungen der Daten: Gruppierungen, Sortierungen, Pivotierungen, etc.
Korrelationsanalysen inkl. einfacher linearer Regressionen
Visualisierungen (Histogramme, Liniencharts, Barcharts, Scatter-Plots)
Data Preparation
Wir haben ein DataFrame erzeugt, das in jeder Zeile eine Beobachtung hat. Dieses DataFrame kann nun für weitere explorative Datenanalyse oder insbesondere für die Entwicklung eines Analytics-Modells verwendet werden. Eine Beobachtung in unserem Falle ist eine Stadt mit Informationen über ihren öffentlichen Nahverkehr. Diese Informationen ist in Spalten strukturiert - so genannte Features, die wir für jeden einzelne Beobachtungen in einem einheitlich Format haben. Dies haben wir erreicht durch:
Datentransformationen, z.B. die Umwandlung von Zeilen (eine Zeile je Kombination Transport-Modus und Stadt) in Spalten (eine Zeile je Stadt und eine Spalte je Transport-Modus)
Passender Kodierung für nachfolgende Modelle, z.B. die One-Hot-Kodierung von Kategorien für die Verwendung mit linearen Modellen (u.a.)
Extraktion von Features aus Rohdaten, z.B. die Ableitung des Wochentags aus einem Datum
Anreicherung mit Daten aus weiteren Datensätzen, z.B. anfügen eines Datensatzes über Haltestellen, der auf Stadtebene aggregiert wurde