# Datentransformation

Bestimmte Auswertungen und Visualisierungen sind viel einfacher, wenn die Daten in einer bestimmten Struktur angeordnet sind. Erste Beispiele haben wir im Kapitel Datenexploration gesehen:
- Wenn wir die Daten sortieren, dann ist es einfach auf die größten/kleinsten Einträge zuzugreifen
- Wenn wir die Daten gruppieren, dann können wir einfach Statistiken für bestimmte Untergruppen berechnen

Die vorherigen Operationen ordnen die einzelnen Zeilen anders an (`sort_values`) oder fassen sie zusammen (`groupby` und `agg`) lassen aber die generelle Form des DataFrame mehr oder minder in Takt (bei Gruppierungen können Spalten hinzukommen oder wegfallen und der Index verändert werden).
In diesem Kapitel gehen wir auf Methoden ein, die zu DataFrames mit anderem Aufbau führen, z.B.
- Beim Pivotieren führen wir im Prinzip eine zweidimensionale Gruppierung durch, so dass aus Werten in Zeilen im Ergebnis Spalten werden (z.B. von einer Zeile pro Transporttyp (Bahn, Bus) zu einer Zeile pro Stadt mit Transporttypen als Spalten)
- Mit `melt` erreichen wir das Gegenteil und machen aus Spalten Werte in Zeilen (z.B. aus 3 Spalten mit den 3 größten Städten pro Land werden 3 Zeilen pro Land mit je einer Stadt)
- Mit `merge` führen wir unterschiedliche DataFrames in eins zusammen (z.B. aus Datensätzen über Städte und Liniennetze wird ein Datensatz mit mit Infos über beides)




<div class="alert alert-info"><b>INFO</b>
    <p>Die Übungen und Beispiele basieren auf Daten über 
    weltweite Systeme des öffentlichen Nahverkehrs von <a href="https://www.citylines.co">https://www.citylines.co</a></p>
</div>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Datensätze zusammenführen

Bei der Einführung in pandas haben wir bereits einen Blick auf `pd.concat` geworfen, um DataFrames "nebeneinander" oder "untereinander" zu packen.

Zur Wiederholung noch mal einfache Beispiele:

In [None]:
dfa = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]}, index=[0, 1, 2])
dfa

In [None]:
dfb = pd.DataFrame({'a': [7, 8, 9], 'b': [10, 11, 12]}, index=[3, 4, 5])
dfb

In [None]:
# "Untereinander" zusammenfügen:
dfab = pd.concat([dfa, dfb])
dfab

In [None]:
# "Nebeneinander" zusammenfügen
dfc = pd.DataFrame({'c': [13, 14, 15, 16, 17, 18]})
pd.concat([dfab, dfc], axis=1)

Die Besonderheit beim letzten Beispiel ist, dass wir a) gleich viele Zeilen in beiden DataFrames haben (dfab und dfc) und die Indexe übereinstimmen. Für generischere Zusammenführungen (nicht nur 1:1, sondern 1:n oder n:m) im Stile von SQL-Joins oder Excel-vlookups gibt es die Methode `merge`. Siehe den [User Guide](https://pandas.pydata.org/docs/user_guide/merging.html#) für umfangreiche Beispiele der einzelnen Methoden.

Wir laden als erstes neben unserer cities-Datenbank drei weitere Datensätze:
- `lines`: enthält die Linien (z.B. S1, Bus 42) der einzelnen Systeme
- `transport_modes`: enthält die textuellen Bezichnungen, der verschiedenen Arten von ÖPNV-Systemen (z.B. "tram" (Strassenbahn) oder "bus")
- `sections`: enthält Abschnitte im Liniennetz also z.B. die Schienen zwischen zwei Haltestellen
- `section_lines`: enthält die Zuordnung der Abschnitte zur einer Linie, ggfs. mit Einschränkung des Zeitraums

In [None]:
cities = pd.read_csv('data/cities_non_zero.csv', index_col='id')
cities.head()

In [None]:
# Cached version of https://data.heroku.com/dataclips/pzyttqskrypbmrycmyzgfiyiazzj.csv
# Datum: 19.07.2021
lines = pd.read_csv("data/lines.csv", index_col='id')
lines.head()

In [None]:
# Cached version of https://data.heroku.com/dataclips/laduqgisvogcjargoqgcvgdjibxl.csv
# Datum: 19.07.2021
transport_modes = pd.read_csv('data/transport_modes.csv', index_col='id')
transport_modes

In [None]:
# Cached version of https://data.heroku.com/dataclips/jpimoyzuunvntdmjgheiscrzahls.csv
# Datum: 19.07.2021
sections = pd.read_csv("data/sections.csv", index_col='id')
sections.head()

In [None]:
# Cached version of https://data.heroku.com/dataclips/egetzfbhwqhqjbpedplrgppjlerc.csv
# Datum: 19.07.2021
section_lines = pd.read_csv("data/section_lines.csv", index_col='id')
section_lines.head()

Die einzelnen Datensätze sind zu einem gewissen Ausmaß [normalisiert](https://de.wikipedia.org/wiki/Normalisierung_(Datenbank)). Für die Datenanalyse bevorzugen wir im Allgemeinen eine denormalisierte Form, die pro Zeile eine Beobachtung/ein Objekt mit allen zugehörigen Informationen enthält - z.B. eine Stadt mit dem Namen des zugehörigen Landes. Ausnahmen gibt es bei Speichermangel oder insbesondere, wenn die Daten für Machine Learning vorbereitet werden, wo wir bestimmte Daten wieder numerisch ähnlich einem Index kodieren. 
Im Folgenden nutzen wir die `merge`-Methode, um das `cities`-DataFrame nach und nach mit den Informationen der anderen DataFrames anzureichern. Die `merge`-Methode wird auf dem *linken* DataFrame aufgerufen und bekommt als ersten Parameter das *rechte* DataFrame. Das Ergebnis ist eine Kombination aus *linkem* und *rechtem* DataFrame, das entsprechend der weiteren Parameter zusammengesetzt wird:
- Mit `on` wird eine Spalte angegeben, die in beiden DataFrames vorhanden sein muss - neue Zeilen entstehen aus den Kombinationen aus linken und rechten Zeilen, die in der `on`-Spalte übereinstimmen
- Mit `left_on` und `right_on` können unterschiedliche Spaltennamen im linken und rechten DataFrame angegeben werden
- Statt Spalten kann mit `left_index` und `right_index` auch angegeben werden, dass der Index genutzt werden soll
- Standardmäßig werden nur Zeilen ausgegeben zu denen übereinstimmende Werte in beiden DataFrames existieren (Parameter `how='inner'`). Alternativ können alle Zeilen aus dem linken (`how='left'`), rechten (`how='right'`) oder beiden (`how='outer'`) DataFrames übernommen werden - die fehlenden Daten werden dann mit `np.NaN` aufgefüllt.
- Mit `suffixes` kann eine Liste von Strings übergeben werden, die an Spaltennamen gehängt werden, wenn die Namen in beiden DataFrames vorkommen

Als Erstes überlegen wir das Ziel der Analyse: Wir wollen pro Stadt rausfinden, wie viele Kilometer auf verschiedene Transportarten (Schiene, Bus, etc.) fallen.

Wir fangen "unten" bei den Streckenabschnitten an und kommen dann zu den Städten:

In [None]:
# Zusammenfügen von sections und zugehöriger Line
line_sections = sections.merge(section_lines, left_index=True, right_on='section_id', suffixes=['','_sections'])
# Anfügen der Infos aus lines

line_sections = line_sections.merge(lines, left_on='line_id', suffixes=['','_lines'], right_index=True)
line_sections.head()

Nun können wir die Abschnitte auf Transport-Modus-Ebene agreggieren. Dabei filtern wir auch alle Zuordnungen raus, die entweder ein Startdatum (`fromyear`) in der Zukunft oder ein Enddatum (`toyear`) in der Vergangenheit haben. Ebenso gehen wir bei `opening` und `closing` der Sections vor. Da wir hier viele `NaN`-Werte haben ersetzen wir mit passenden "Randwerten". 

In [None]:
# Ersetzen der NaNs mit passenden Randwerten
# Wir wählen die Werte so, dass bei NaN angenommen wird:
# - die Zuordnung besteht schon immer (Jahr 0)
# - und bis in alle Ewigkeit (Jahr 9999)
line_sections['fromyear'].fillna(value=0, inplace=True)
line_sections['toyear'].fillna(value=9999, inplace=True)
# Ausfiltern der Zuordnungen, die nicht aktuell sind
year = 2021
line_sections = line_sections[(line_sections['fromyear'] <= year) & (line_sections['toyear'] >= year)]

# Gleiches Vorgehen bezüglich opening und closing der sections
line_sections['opening'].fillna(value=0, inplace=True)
line_sections['closure'].fillna(value=9999, inplace=True)
# Ausfiltern der Sections, die nicht aktuell sind
year = 2021
line_sections = line_sections[(line_sections['opening'] <= year) & (line_sections['closure'] >= year)]



# Reduzieren des Datensatzes auf Stadt, Section und Transport-Modus
# Entfernen von Duplikaten - ein Abschnitt kann von Mehreren Linien
# befahren werden und würde sonst doppelt gezählt
line_sections = line_sections[['city_id', 'section_id', 'transport_mode_id', 'length']].drop_duplicates()

# Aggregation auf Transport-Modus-Ebene
mode_lengths = line_sections.groupby(['city_id', 'transport_mode_id'], as_index=False).agg({'length': 'sum'})
mode_lengths.head()

Nun fügen wir die Labels der Transport-Modi hinzu:

In [None]:
mode_lengths = mode_lengths.merge(transport_modes, left_on='transport_mode_id', right_index=True)
mode_lengths.rename(columns={'name': 'transport_mode'},inplace=True)
mode_lengths.drop(columns=['transport_mode_id'],inplace=True)
mode_lengths.head()

Und schließlich die Transportmodi an die Städte:

In [None]:
city_modes = cities.merge(mode_lengths, left_index=True,right_on='city_id')
city_modes.head()

Hier sehen wir schon einen Nachteil der denormalisierten Daten: die Gesamtlänge (`length_km`) des Systems der Stadt wird zu jeder Transportart gespeichert:
- Man muss sich merken, bzw. dokumentieren, dass die Länge sich auf die gesamte Stadt und nicht auf das System bezieht
- Bei einer Aggregation, darf man keinesfalls die Summe der Längen bilden

Ferner ist zu beachten, dass ein Eintrag im DataFrame jetzt keine Stadt mehr beschreibt, sondern viel mehr eine Kombination aus Stadt und Transport-Modus.

Nun haben wir eine Tabelle, die wie gewünscht die Länge pro Transport-Modus je Stadt hat.

<div class="alert alert-warning">
<b>ÜBUNG: </b> Aggregation und Merging
<p>Erstellen Sie Bar-Chart , das den Anteil der verschiedenen Transport-Modi je Land darstellt. Gehen Sie wie folgt vor:</p>
    <ol><li>Erstellen Sie einen Datensatz mit der Gesamtlänge pro Land indem Sie nach Ländern gruppieren</li></li>
        <li>Mergen Sie den neuen Datensatz mit einer Version von sich selbst, wo über alle Transport-Modi hinweg gruppiert wird</li>
        <li>Erstellen Sie ein Bar-Chart, das den Anteil von `bus` am Gesamtsystem je Land ausgibt</li></ol>
</div>

In [None]:
#

## Pivottabellen

In der vorherigen Gruppierung haben wir zwar ggfs. mehrere Linien und Abschnitte pro Stadt zusammengefasst, aber wir haben immer noch mehrere Zeilen je Stadt. Um das umgehen verwenden wir die Methode `pivot_table` ([API Referenz](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html#pandas.pivot_table)). Diese Methode ist am ähnlichsten zu dem, was viele Benutzer aus Excel oder Business-Intelligence-Tools kennen - es gibt auch die Methoden `pivot` und `stack` auf denen `pivot_table` teilweise aufbaut. Der [User Guide](https://pandas.pydata.org/docs/user_guide/reshaping.html) geht auf genauer auf die Verwendung ein.

Vereinfacht gesagt kann hier zweidimensional gruppiert werden:
- per `index`-Parameter wird angegeben welche Spalte(n) gruppiert werden sollen, um als Zeilen-Labels verwendet zu werden 
- per `columns`-Parameter wird angeben welche Spalte(n) gruppiert werden sollen, um als Spaltennamen verwendet zu werden
- per `values` wird angebenen aus welcher Spalte die Werte zur Aggregation geholt werden sollen
- per `aggfunc` wird angegeben wie die Werte aggregiert werden sollen

Beispiel:

In [None]:
city_modes.pivot_table(index='name', columns='transport_mode', values='length', aggfunc='sum').head()

In der Tabelle sehen wir viele `NaN` Werte - immer wenn zur Kombination Stadt und Transportmodus keine Werte vorliegen. Je nach Anwendung bietet es sich hier an einene konstanten Wert einzusetzen. In unserem Fall erscheint eine Länge von 0 als sinnvoll:

In [None]:
city_system_lengths = city_modes.pivot_table(index='name', columns='transport_mode',
                                             values='length', aggfunc='sum',
                                            fill_value=0.0)
city_system_lengths.head()

An dieser Stelle bietet sich ein Test an, ob die Daten konsistent und unsere bisherigen Schritte korrekt waren. Wir wollen die Summe über alle Transportarten (generiert aus den `lines` und `sections` Tabellen) mit der Gesamtlänge im DataFrame `cities` vergleich. Wir kennen bereits die `.sum()`-Methode:

In [None]:
city_system_lengths.sum()

Hierbei handelt es sich jedoch um die zeilenweisen Summen über alle Städte. `.sum()` nimmt einen Axis-Parameter und der ist als default immer 0/'rows'. Hier wollen wir jedoch die Summe über alle Spalten:

In [None]:
city_system_lengths['total'] = city_system_lengths.sum(axis='columns')
city_system_lengths.head()

In [None]:
# Anpassen der Längen auf km um Vergleichbarkeit zu cities-Tabelle herzustellen
city_system_lengths /= 1000.0
# Mergen der `lengths_km` aus der cities Tabelle. Wir haben keine city_id also über Namen der Stadt
city_system_lengths = city_system_lengths.merge(cities[['name', 'length_km']], left_index=True,right_on='name')
city_system_lengths.head()

In [None]:
city_system_lengths['diff_abs'] = (city_system_lengths['total'] - city_system_lengths['length_km']).abs()
# Anzeige der 10 Städte mit der größten Differenz
city_system_lengths[['name', 'total', 'length_km', 'diff_abs']].sort_values('diff_abs', ascending=False).head(10)

Wie wir sehen sind hier teilweise größere Differenzen für einzelne Städte. Das ist ein durchaus typisches Phänomen bei Datensätzen, die sowohl die Detaildaten (Länge aller Sections und (indirekte) Zuordnung zu Städten) als auch schon aggregierte Daten beinhalten (Länge in cities DataFrame). Dies kann verschiedene Ursachen haben:
- Aggregierte Daten wurden nicht aktualisiert, nachdem Detaildaten verändert wurden
- Unterschiedliche Berechnungsweisen - wir haben hier schon einiges an Annahmen reingesteckt, z.B. bzgl. Opening, Closure und Section Zuordnungsdaten. Diese können von der Berechnung des Datenproviders abweichen

Da die Abweichung auf das gesamte Datenset recht gering ist, akzeptieren wir diese Abweichung. Bis zu welchem Wert etwas gering oder akzeptabel ist. Da es uns hier nur um die Verteilung zwischen den Transportarten geht und nicht um die absoluten Werte sind wir recht grosszügig.

In [None]:
print(f'Abweichungen über alle Städte {city_system_lengths["diff_abs"].sum() / city_system_lengths["total"].sum() * 100:.2f} %')

Sollten wir höhere Präzision brauchen können wir je nach konkreter Situation:
- Explorative Datenanalyse der Städte mit größter Abweichung, um Ursachen einzugrenzen
- Klärung der Berechnungslogik oder bekannter Abweichung mit Anbieter der Daten
- Untersuchung des Codes, der die Daten berechnet

Wir speichern das erzeugte DataFrame in die Datei `city_system_lengths.csv`:

In [None]:
city_system_lengths.drop(columns=['length_km', 'diff_abs']).to_csv('data/city_system_lengths.csv')

<div class="alert alert-warning">
<b>ÜBUNG: </b> Pivot-Tabelle
    <ol><li>Erstellen Sie eine neue Spalte in cities, das die Längen in Kategorien einteilt ('kurz', wenn im unteresten Quartil, 'normal', wenn im 2. oder 3. Quartil, sonst 'lang')</li>
        <li>Erstellen Sie eine Pivot-Tabelle mit Ländern als Zeilen und Längenkategorien als Spalten - die Werte soll die Anzahl der Städte sein</li>
        <li>Erstellen Sie ein <a href="https://matplotlib.org/stable/gallery/lines_bars_and_markers/bar_stacked.html#sphx-glr-gallery-lines-bars-and-markers-bar-stacked-py">stacked Bar Chart</a></li>
</ol>
</div>

In [None]:
#

## Spalten in Zeilen umwandeln (melt)

Die umgekehrte Operation zum Pivotieren ist `melt`. Hierbei können Werte in Spalten in separate Zeilen umgewandelt werden. Standardmäßig werden alle Spalten zu Zeilen gemacht - der ursprüngliche Zeilenverbund geht verloren. Mit dem Parameter `id_vars` können Spalten angeben werden, die weiterhin als Spalten übernommen werden und die Zusammengehörigkeit verschiedener Spalten herstellt.

Das einfachste Beispiel ist, wenn wir eine vorherige Pivotierung rückgänging machen:

In [None]:
pivoted = city_system_lengths.drop(columns=['total', 'length_km', 'diff_abs'])
pivoted.head()

In [None]:
pivoted.melt(id_vars=['name'])

Schauen wir uns komplexeres Beispiel an: die geometrischen Punkte der Sections. Diese sind als String abgespeichert, wo die einzelnen Punkte per Komma separiert sind. Um die einzelnen Koordinaten zu bekommen, können wir per `.str.split` die Koordinaten in Spalten umwandeln und dann mit melt eine Zeile pro Koordinate bilden:

In [None]:
sections.head()

In [None]:
# Slice entfernt "LINESTRING" und die schliessende Klammer
# Split erzeugt eine neue Spalte
section_paths = sections['geometry'].str.slice(11,-1).str.split(',', expand=True)
section_paths.head()

In [None]:
# Nun wandeln wir Spalten in Zeilen um
# Die Spaltennamen werden nun die Reihenfolge der Punkte
# In der gleichen Zeile entfernen wir None Werte - diese
# entstehen weil die Anzahl der Spalten nach der Section
# mit den meisten Punkten bestimmt wurde
section_paths = section_paths.melt(ignore_index=False).dropna()
# section_id aus Index in Spalte
section_paths.reset_index(inplace=True)
section_paths.head()

In [None]:
# Nun splitten wir nach long und lat
long_lats = section_paths['value'].str.split(' ', expand=True)
# Convert long/lat to number or NaN if not a valid number and add to DataFrame
section_paths['long'] = pd.to_numeric(long_lats[0], errors='coerce')
section_paths['lat'] = pd.to_numeric(long_lats[1], errors='coerce')
# Drop errors
section_paths.dropna(inplace=True)
# Drop Textual Column
section_paths.drop(columns=['value'], inplace=True)
# Und sortieren erst nach id und Variable 
section_paths.sort_values(['id', 'variable'], inplace=True)
section_paths.head()

In [None]:
# Benennen der Spalten
section_paths.columns = ['section_id', 'order', 'long', 'lat']
section_paths.head()

Die matplotlib Funktion `plot` zeichnet Linien entlang Punkten, wenn als erster Parameter, die x-Koordinaten und als zweiter Parameter, die y-Koordinaten übergeben werden. Dies nutzen wir, indem wir für eine Section sämtliche Koordinaten auswählen, dann das Array transposen und mit dem `*`-Operator die Einträge als Parameter zur Plot-Funktion übergeben. Wir schreiben eine Funktion, die dies für alle Sections einer gegebenen Stadt macht:

In [None]:
# Draw Sections of City by name

def draw_sections(cityname):
    city_id = cities[cities['name'] == cityname].index.values[0]

    for section_id in sections[sections['city_id'] == city_id].index:
        plt.plot(*section_paths.loc[section_paths['section_id'] == section_id, 'long':'lat'].values.T)

    plt.title('Public transport sections of ' + cityname)
    plt.xlabel('Longitude')
    plt.ylabel('Latitude')
    plt.show()

In [None]:
draw_sections('London')

In [None]:
draw_sections('New York')