3. Ablauf eines Analytics-Projekts#

Bisher haben wir Beispiele für Analytics-Modelle gesehen, die in mehreren Dimensionen recht einfach waren:

  1. Das zu lösende Problem war klar und konnte mit einem einzelnen Modelltyp gelöst werden - eine Untersuchung der Daten hat weder die Relevanz des Problems noch den Analytics-Ansatz in Frage gestellt

  2. Es waren genug Daten vorhanden und diese waren gut dokumentiert - es mussten keine weiteren Datenbeschaffungen oder Qualitätssicherungsmaßnahmen ausgeführt werden

  3. Die Daten waren wohlgeformt, es waren passende Features vorhanden - es mussten weder neue Features generiert werden, noch welche herausgeworfen werden

  4. Es konnten einfache Algorithmen mit Standardparametern verwendet werden - es gabe keine Einschränkungen oder nicht-funktionalen Anforderungen

  5. Die Performance des Modells wurde auf einem Testdatensatz bestimmt - eine Anwendung in der realen Welt war nicht notwendig

  6. Der Betrieb des Modells erfolgte aus der Programmierumgebung hinaus - es war keine Einbettung in einen operativen Prozess notwendig

Wie die Aufzählung bereits andeutet, ist das in realen Projekten nicht immer der Fall. Mit CRISP-DM gibt es einen Standardprozess, um mit der Komplexität von solchen Projekten umzugehen [CCK+00]. Der Prozess besteht aus 6 Phasen, die ungefähr die oben genannten Aspekte abdecken. Abbildung 3.1 stellt die Phasen und Übergänge dar:

CRISP-DM Prozess-Diagramm aus {cite}`crisp-dm-figure`

Fig. 3.1 CRISP-DM Prozess-Diagramm aus [Jen12]#

Auch wenn der exakte Ablauf eines Projekts sich nicht immer genau diesen Phasen zuordnen lässt, ist CRISP-DM eine gute Orientierungshilfe. Ein paar Beobachtungen:

  • Das Vorgehen ist oft explorativ und iterativ

  • Die Ziele konkretisieren sich im Verlauf des Projekts

  • Die Modellierungs-Phase ist im Normalfall zeitlich der kürzeste Teil

  • Es gibt einen entsprechenden Vorlauf bis zu ersten Ergebnissen aus der Modellierung

  • Eine Modell ist nur erfolgreich, wenn es in der Praxis funktioniert und sinnvoll zu betreiben ist

Im Folgenden gehen wir durch die einzelnen Phasen im Detail.