1. Motivation#

Die Idee hinter Data Analytics ist vermutlich so alt wie die erste Datenbank: durch die Analyse von Daten sollen Entscheidungen automatisiert werden, die besser, schneller und objektiver sind als die von erfahrenen menschlichen Entscheidungsträgern. Es gab viele Anläufe und Hypecycles diese Probleme zu lösen. Immer wieder musste man in der Praxis feststellen, dass der gewählte Ansatz scheitert. Seit ca. 2010 gibt es eine neue Welle. Diese ist bisher nicht gebrochen und das ist auch unwahrscheinlich, denn im Gegensatz zu früheren Versuchen gibt es schon lange umfassende Erfolgsgeschichten in der realen Welt (wozu wir das Internet großzügig dazuzählen).

Was ist dieses Mal anders? Anstatt Technologien zu entwickeln, die eine generelle künstliche Intelligenz ermöglichen, wird an konkreten und spezifischen Anwendungen gearbeitet. Das heißt statt zu versuchen das menschliche Denken nachzuempfinden werden einzelne Lösungen gebaut, um z.B.

  • Verkehrszeichen in Bildern zu erkennen,

  • betrügerische Kreditkartentransaktionen zu identifizieren oder

  • zu erraten welches Wort ein Nutzer als nächstes in einer Email schreiben möchte.

Dabei wird auf lernende Algorithmen gesetzt. Also Machine Learning im Vergleich zu traditioneller Programmierung. Die traditionalle Programmierung von Expertensystemen geht wie folgt vor:

  • Durch Erfahrung und Recherche werden einzelne Menschen zu Domänenexperten

  • Durch Modellierung ggfs. mit Hilfe von Modellierungsspezialisten wird das Domänenwissen in explizite Regeln modelliert

  • Um eine Vorhersage zu machen werden die Regeln auf die entsprechende Situation angewandt

Beim maschinellen Lernen wird auf Algorithmen gesetzt, die Muster in historischen Daten erkennen. Die Muster können je nach Algorithmus unterschiedliche Formen annehmen - inklusive Entscheidungsbäumen, die oft das Ergebnis manueller Expertenmodellierung sind. Für Vorhersagen werden nun die Muster gesucht, die am besten zur Situation passen.

Die Ansätze klingen an vielen Stellen ähnlich. Der Hauptunterschied ist, dass beim maschinellen Lernen direkt auf objektive und vollständige Daten zugegriffen wird. Bei traditionellen Modellen werden die Fakten von Menschen zu Regeln aggregiert - ein Vorgang, der oft subjektiv und durch Heuristiken geprägt ist.

Der Fokus auf Anwendungen, der zu den aktuellen Erfolgen führt, ist möglich, weil sich drei Voraussetzungen ergeben haben:

  • Datenverfügbarkeit: immer mehr Daten sind verfügbar in allen Bereichen. Dies ist insbesondere der Digitalisierung und Sensoren (IoT) zu verdanken, die dazu geführt haben, dass jegliche Menschen und Gegenständige Datenspuren hinterlassen - automatisch. Das sorgt nicht nur für größere Datenmengen, sondern auch für realistischer Daten. Die tatsächliche Zahlungshistorie im Fast-Food-Restaurant sagt mehr über die Essgewohnheiten einer Person als ein ausgefüllter Umfragebogen.

  • Rechen- und Speicherkapazitäten: das jahrzehntelange exponentielle Wachstum hat zu Kapazitäten geführt, die eine Speicherung und Verarbeitung der enormen Datenmengen ermöglicht. Mittlerweile ist per Cloud Computing für jeden der Zugriff auf praktisch unlimitierte Rechenkapazitäten möglich.

  • Frei verfügbare Algorithmen und Tools: wenn ein Unternehmen Data Analytics einsetzen will, muss es nicht erst Algorithmen entwickeln oder große Investionen in Software tätigen. Die Software für Analyse-Algorithmen, Datenhaltung, Verarbeitung, Visualisierung usw. wird größtenteils als Open Source zur Verfügung gestellt.

Der letzte Punkt macht auch deutlich, dass Differenzierung aus der Verfügbarkeit der richtigen Daten und der Kompetenz die Brücke zwischen Analytics-Methoden und Anwendungen zu schlagen. Sonst würden Technologiekonzerne wie Google, Facebook oder Microsoft diese Software nicht freigeben. Der Anwendung als Erfolgsfaktor bei Analytics-Vorhaben ist auch ein Grundstein für unseren Ansatz: wir gehen nicht so sehr darauf ein, wie einzelne Algorithmen funktionieren, sondern vielmehr darauf wie und welchen Situationen diese anzuwenden sind.

INFO

Dieser Abschnitt wird aktuell als interaktive Präsentation in der Vorlesung abgehandelt. Hierbei werden Praxis-Beispiele anhand Materials der entsprechenden Firmen besprochen. Um das Copyright zu beachten, werden diese Materialien hier nicht öffentlich zur Verfügung gestellt. Soweit möglich sind einige dieser Beispiele hier verlinkt.

Eine Auswahl an Praxis-Beispielen: