3. Ablauf eines Analytics-Projekts#
Bisher haben wir Beispiele für Analytics-Modelle gesehen, die in mehreren Dimensionen recht einfach waren:
Das zu lösende Problem war klar und konnte mit einem einzelnen Modelltyp gelöst werden - eine Untersuchung der Daten hat weder die Relevanz des Problems noch den Analytics-Ansatz in Frage gestellt
Es waren genug Daten vorhanden und diese waren gut dokumentiert - es mussten keine weiteren Datenbeschaffungen oder Qualitätssicherungsmaßnahmen ausgeführt werden
Die Daten waren wohlgeformt, es waren passende Features vorhanden - es mussten weder neue Features generiert werden, noch welche herausgeworfen werden
Es konnten einfache Algorithmen mit Standardparametern verwendet werden - es gabe keine Einschränkungen oder nicht-funktionalen Anforderungen
Die Performance des Modells wurde auf einem Testdatensatz bestimmt - eine Anwendung in der realen Welt war nicht notwendig
Der Betrieb des Modells erfolgte aus der Programmierumgebung hinaus - es war keine Einbettung in einen operativen Prozess notwendig
Wie die Aufzählung bereits andeutet, ist das in realen Projekten nicht immer der Fall. Mit CRISP-DM gibt es einen Standardprozess, um mit der Komplexität von solchen Projekten umzugehen [CCK+00]. Der Prozess besteht aus 6 Phasen, die ungefähr die oben genannten Aspekte abdecken. Abbildung 3.1 stellt die Phasen und Übergänge dar:
Auch wenn der exakte Ablauf eines Projekts sich nicht immer genau diesen Phasen zuordnen lässt, ist CRISP-DM eine gute Orientierungshilfe. Ein paar Beobachtungen:
Das Vorgehen ist oft explorativ und iterativ
Die Ziele konkretisieren sich im Verlauf des Projekts
Die Modellierungs-Phase ist im Normalfall zeitlich der kürzeste Teil
Es gibt einen entsprechenden Vorlauf bis zu ersten Ergebnissen aus der Modellierung
Eine Modell ist nur erfolgreich, wenn es in der Praxis funktioniert und sinnvoll zu betreiben ist
Im Folgenden gehen wir durch die einzelnen Phasen im Detail.