1. Modellierung Übersicht#
Wir beschäftigen uns nun mit konkreten Strategien für die deskriptive und präskriptive Modellierung von Daten. Ziel ist, den Nutzen und mögliche Anwendungsfälle verschiedener Lernalgorithmen kennenzulernen. Da die Algorithmen bereits effizient implementiert und getestet in Bibliotheken vorliegen, implementieren wir sie nicht selbst. Sie können also am Ende je nach Anwendungsfall das richtige Werkzeug auswählen und anwenden (Gabel, Löffel, Hummerzange, …), bedienen sich aber an der Besteckschublade, statt selber zu schmieden.
Die Algorithmen lassen sich grob in vier Gruppen aufteilen, wie es die folgende Grafik von scikit-learn sehr anschaulich tut:
Die Gruppen teilen sich anhand von zwei Dimensionen: Die beiden oberen Gruppen (Regression und Klassifikation) sind sogenannte überwachte Ansätze, die beiden unteren unüberwachte Ansätze. “Überwacht” (engl. supervised) bedeutet in diesem Fall, dass Trainingsdaten mit Annotation der Zielklasse bzw. der beobachteten Ergebniswerte vorliegen. Die Algorithmen lernen also eine Funktion von den Eingabefeatures in den Raum der gewünschten Klassen bzw. in den korrekten Zahlenraum (üblicherweise die reellen Zahlen). Die beiden unteren Gruppen (Clustering und Dimensionsreduktion) enthalten Algorithmen für die explorative, deskriptive Modellierung. Wichtige Eigenschaften der Daten sollen vom Algorithmus aufgedeckt werden (es besteht aber keine Garantie, dass die Regelmäßigkeiten für den Menschen interpretierbar sind oder den erwarteten Regelmäßigkeiten entsprechen…)
Die zweite Dimension (auf der vertikalen Achse) teilt die Ansätze, die Klassen verwenden, und diejenigen, die Zahlenwerte verwenden. Klassen beschreiben die Einsortierung der Datenpunkte in relevante Kategorien, zum Beispiel Spam/kein Spam beim Email-Junkfilter. Sie werden bei überwachten Verfahren vom Nutzer ermittelt und bei unüberwachten Verfahren vom Algorithmus induziert. Wenn Zahlenwerte vorliegen, werden bei überwachten Verfahren die Zielwerte mitgegeben (z.B. die Gesamtzahl der pro Tag erhaltenen Emails) und bei unüberwachten Verfahren die Relevanz der verschiedenen Features geprüft (z.B. sei die Geschwindigkeit der Datenverbindung hoch prädiktiv für andere Dimensionen des Nutzungsverhaltens bei einem Streamingdienst).
Tabelle 1 zeigt Beispiele für Anwendungen in den vier Algorithmengruppen.
`
überwacht? | Klassifikation | Numerische Vorhersage |
---|---|---|
ja | Email-Junkfilter | Email-Aufkommen pro Tag |
nein | Kundentypen anhand des Nutzungsverhaltens | relevante Faktoren für die Nutzungshäufigkeit |
Die vier Gruppen sind nicht nur für die Auswahl des richtigen Algorithmus je nach vorhandenen Daten und Analyseziel relevant, sondern auch für die korrekten Evaluationsmethoden. Überwachte Ansätze werden evaluiert, indem man die Vorhersage des Modells für einen neuen Datensatz mit den vorliegenden überwachten Zieldaten vergleicht. Unüberwachte Ansätze sind schwer direkt zu evaluieren; man definiert nach Einsatzzweck jeweils neue Evaluationskriterien. Für unüberwachte Klassifikation kann das die menschliche Interpretierbarkeit der Klassen sein, die ausgewogene Größe der Klassen oder ihre kompakte Form. Alternativ kann man die Erkenntnisse aus unüberwachten Verfahren auch an der intendierten Stelle in eine Prädiktionspipeline einbauen und aufgabenbasiert entscheiden, welcher Ansatz dem globalen Ziel besser nützt. Zum Beispiel könnte sich herausstellen, dass der Fokus auf Features 1, 3 und 7 in der Entscheidungspipeline größere Nutzerzufriedenheit erzeugt als der Fokus auf 1,2,3,4 und 5. Wir werden in den Abschnitten zu den überwachten Algorithmen jeweils angemessene Evaluationsverfahren vorstellen und im Abschnitt Evaluation und Erklärbarkeit das Thema noch einmal globaler anschauen.
Wir probieren nun aus jeder Gruppe Algorithmen aus.