Advanced Predictive Analytics – Wenn traditionelle BI nicht genug ist (Part 2)


Im ersten Teil unserer Serie über Predictive Analytics stand eine grobe Einordnung des Themas im Mittelpunkt. In Part 2 betrachten wir die verschiedenen Phasen, aus denen sich im Allgemeinen Predictive Analytics Projekte zusammensetzen. Ebenfalls erfolgt ein erster Überblick über die Vielfalt an Methoden, die im betrachteten Umfeld zum Einsatz kommen.

Predictive Analytics: CRISP-DM
CRISP-DM: Predictive Analytics Standard

Phasen und Methoden von Predictive Analytics: Schritt für Schritt zum Wettbewerbsvorteil

Für die Durchführung von Predictive Analytics Projekten hat sich in den letzten Jahren mit dem „Cross Industry Standard Process for Data Mining“ (kurz: CRISP-DM) ein Standard etabliert, der laut Umfragen in den meisten Projekten im Predictive Analytics und Data Mining Umfeld zum Einsatz kommt. Die Entstehung dieses Ansatzes ist auf das Jahr 1996 zurückzuführen, als ein Konsortium im Bereich Data Mining führender Unternehmen (unter ihnen z. B. Daimler und Teradata) eine Arbeitsgemeinschaft gründete und bis zum Jahr 1999 die erste Version des danach mehrfach optimierten Ansatzes entwickelte.

Der äußere Kreis der Grafik von oben verdeutlicht den zyklischen Charakter von Predictive Analytics. Ein Data Mining Prozess hört nach der Inbetriebnahme nicht auf:

Auch nach der Inbetriebnahme ist es essenziell, die Geltung der getroffenen Annahmen zu überprüfen und gegebenenfalls anzupassen. Die Verantwortlichen sollten sich stets darüber im Klaren sein, auf welchen Annahmen sie ihr Modell aufgebaut haben und unter welchen Voraussetzungen diese nicht mehr zuträfen. Ebenso ist darauf zu achten, dass keine wichtigen Einflussvariablen bei der Modellierung vergessen wurden. Derartige Lessons Learned machen eine kontinuierliche Anpassung der Modelle notwendig.

Das Innere der Grafik zeigt, dass nach CRISP-DM 6 Phasen unterschieden werden, die im Folgenden näher beleuchtet werden sollen.

Business Understanding – Vor der Antwort kommt die Frage

In dieser Phase gilt es die Rahmenbedingungen zu verstehen und die wirtschaftlichen Ziele des Projektes zu klären. Anschließend sind die wirtschaftlichen Fragestellungen in Predictive-Analytics-Problemstellungen zu transferieren. Hierbei handelt es sich um den wahrscheinlich wichtigsten Schritt im Predictive Analytics/ Data Mining Prozess. Ohne gut durchdachte Problemstellungen ist es so gut wie unmöglich die richtigen Daten zu sammeln und die richtigen Algorithmen anzuwenden.

Data Understanding – Den Wald vor lauter Bäumen sehen

In dieser Phase steht die initiale Datensammlung am Anfang. Daraufhin macht man sich mit dem Datenbestand vertraut und macht sich auf die Suche nach Problemen in der Datenqualität.

Data Preparation – Was nicht passt, wird passend gemacht

Hat man in der Phase zuvor einen Überblick über die Rohdaten erlangt, gilt es nun diese Daten in eine Form zu bringen, mit der unsere Predictive-Analytics-Modelle arbeiten können. Neben der Auswahl der benötigten Tabellen, Attribute und Einträge, gehören hierzu auch die Datenbereinigung (Cleansing) und die Transformation der Daten in die benötigten Formate.

Modeling – Viele Wege führen nach Rom

Diese Phase beinhaltet die Anwendung der ausgewählten Modellierungstechniken. Frei nach dem Motto „viele Wege führen nach Rom“ wird es in der Regel eine Vielzahl von Ansätzen für die gleiche Problemstellung geben. In diesem Zusammenhang besteht die Herausforderung, die beste Modellierungsmethode für das vorliegende Predictive-Analytics-Problem zu identifizieren. Da unterschiedliche Modellierungsmethoden unter Umständen andere Anforderungen an die Form der Daten haben, ist es nicht unüblich, die Data Preparation anzupassen, bevor man mit der eigentlichen Modellierung eines Alternativansatzes fortfährt.

Die Vielzahl an Modellen abzuhandeln, die in diesem Rahmen einsatzfähig sind, würde bei Weitem den Rahmen sprengen. Wir möchten hier nur einen kurzen Auszug der riesigen Bandbreite an Modellen widerspiegeln:

  • Klassifikationsmethoden
    • Entscheidungsbäume
    • Künstliche Neuronale Netze
    • Bayessche Netze
    • Support Vector Maschinen
    • Ensemble Modelle
  • Regressionsmethoden
  • Assoziationsanalysen (z. B . Warenkorbanalysen)
  • Zeitreihenanalysen

Alle Techniken vereint eins: Der Ansatz die vorhandenen Daten in Trainingsdaten und Testdaten aufzuteilen (partitionieren). Dem zu Grunde liegt die Annahme, dass die vorhandenen Daten adäquat die Voraussetzungen repräsentieren, die sowohl in der Vergangenheit als auch in der Zukunft vorherrschen. Dabei ist darauf zu achten, dass die Partitionierung zufällig (in einem zuvor definierten Verhältnis z. B. 70% zu 30%) erfolgt, um zu verhindern, dass die Zusammensetzung einer oder beider Gruppen in Teilen einem Muster folgt. Die Trainingsdaten (auch als Lerndaten bezeichnet) werden zu der Erstellung des Modells herangezogen. Durch die Masse an Daten „lernt“ das Modell dazu bzw. „trainiert“ seine Effektivität. Die Testdaten dienen der Evaluierung und schließlich der Auswahl der Modelle (Welches der betrachteten Modelle liefert statistisch die besten Ergebnisse?). Insgesamt stellt die Partitionierung der Daten eine wichtige Voraussetzung dar, um gewährleisten zu können, dass das schließlich ausgewählte Modell akkurate und verlässliche Vorhersagen liefert.

Evaluation – Vertrauen ist gut, Kontrolle ist besser

Auf die Phase der Modellierung folgt die Evaluation. In dieser Phase soll die Frage beantwortet werden, ob das ausgewählte Modell in angemessener Art und Weise die dem Projekt zu Grunde liegenden wirtschaftlichen Fragestellungen beantworten.

Für Klassifikationsmethoden sind oft Wahrheitsmatrizen (auch Konfusionsmatrizen genannt) im Einsatz. Aus ihnen werden Kennzahlen wie Sensitivität, Spezifität, Genauigkeit oder Trefferquote errechnet. Für weitergehende Analysen sind sog. ROC-Kurven (Receiver-Operating-Characteristic-Kurve) und Lift-Charts beliebt.

 Deployment – Nicht reden sondern handeln

Hat das Modell auch der Evaluation standgehalten, so gilt es die erlangten Erkenntnisse in die Entscheidungsprozesse des Unternehmens zu integrieren. Das Ausmaß dieser Phase kann dabei sehr unterschiedlich sein und von der Erstellung eines einfachen Reports bis hin zur automatisierten Umsetzung der bewerteten Handlungsoptionen (Prescriptive Analytics) gehen.

Im nächsten Teil unserer Serie werden wir unseren Fokus auf Use Cases, also dem Einsatz von Predictive Analytics in der Praxis verlagern.

Weiterführende Links zu Predictive Analytics

  1. Advanced Predictive Analytics – Wenn traditionelle BI nicht genug ist (Part 1)

Quellen

  1. CRISP-DM Grafik