Evaluation

3.5. Evaluation#

Während der Modellierung wird viel Wert auf Validierung gelegt und mit verschiedenen Datensätzen für Training und Test gearbeitet. Jedoch wird im Normalfall nur mit historischen Daten gearbeitet und z.B. eine Vorhersage mit dem tatsächlichen Ergebnis verglichen. Bevor eine Entscheidung zum Einsatz des Modells getroffen wird, muss die Leistung in der Praxis getestet werden. Interessant ist hier icht mehr so sehr ein statistisches Gütemaß, sondern die Verbesserung einer oder mehrerer Geschäftsmetriken (z.B. Umsatz, Kundenzufriedenheit, etc.). Wie bei den Gütemaßen muss bei der Auswahl der Metriken darauf geachtet werden, dass dereb Optimierung kein Selbstzweck wird. Eine Abhandlung zu diesem Thema findet sich im Paper “Reliance on Metrics is a Fundamental Challenge for AI” von Thomas und Uminsky [TU20].

Die Ergebnisse in der Praxis können vom Test auf historischen Daten stark abweichen, u.a. wegen:

Historische Daten sind nur eine unvollständige Abbildung der Realität
Die gewählten Geschäftsmetriken hängen noch von vielen anderen Faktoren ab
Ein Modellergebnis muss in der Praxis zu einer Aktion führen - die Aktion kann wiederum begrenzte Umsetzungs- und Erfolgswahrscheinlichkeiten haben

Typischerweise erfolgt eine Pilotierung für eine Teilmenge der tatsächlichen Prozessdurchführungen, z.B.

A-B-Testing auf einer Webseite: 5% der Besucher werden auf eine Version mit dem (neuen) Modell weitergeleitet - der Rest bleibt auf der ursprünglichen Version. Es wird eine Geschäftsmetrik gemessen (z.B. Conversion Rate von Besucher zu Käufern bei Onlineshop) für beide Gruppen und die Verbesserung (oder das Gleichbleiben oder die Verschlechterung) des neuen Modells quantifiziert.
Es werden eine Menge von Pilotnutzern ausgewählt - z.B. bestimmte Versicherungsvertreten bei einem Modell zur Kündigungsprävention. Die Performance der Pilotnutzer wird gegenüber deren historischer Performance und der zeitgleichen Performance einer Vergleichsgruppe gemessen.
Es wird eine Menge von Pilotfillialen/-niederlassungen/-ländern/-produkten/-abteilungen etc. gewählt in denen das Modell getestet wird. Die Auswahl einer passenden Vergleichsgruppe kann hierbei sehr komplex sein, da oftmals viele andere Faktoren die Ergebnisse der Pilot- und Vergleichsgruppen bestimmen.

Der Geschäftsbereich entscheidet, ob der quantifizierte Mehrwert eine Hürde übersteigt, die den Einsatz rechtfertigt. Es ist zu bedenken, dass durch die Einführung eines Modells in einen Prozess auch Nachteile entstehen:

Der Prozess wird im Normalfall komplexer
Ein optimierter Prozess ist ggfs. weniger robust gegen Veränderungen
Das Modell und die zugehörige IT müssen laufend überwacht und gepflegt werden - die Pflege ist ähnlich wie bei Softwaresystemen im Normalfall deutlich teurer als die initiale Erstellung

Im Normalfall wurde die Hürde schon in der ersten Phase “Business Understanding” festgelegt. Andernfalls läuft man in die Gefahr, dass die Hürde nachträglich an das im Projekt erreichte angepasst wird, um ein erfolgreiches Projekt vorweisen zu können und nicht in die Gefahr zu laufen bereits getane Arbeit umsonst durchgeführt zu haben.