Irrtümer über Predictive Analytics: Datenvorbereitung


Fehleinschätzungen, Vorurteile und Irrtümer prägen das Bild von Predictive Analytics im Berufsalltag, auf Messen oder in Fachartikeln. Dieser Beitrag zu dem Thema „Irrtümer über Predictive Analytics“ beschäftigt sich mit der Datenvorbereitung.

Heile Datenwelt bei den Toolanbietern

Ich war mit meinem Kollegen Ende September auf der BARC-Konferenz „Advanced und Predictive Analytics“ in Frankfurt. Neben spannenden Praxisvorträgen von Anwendern war natürlich auch eine ganze Reihe an Technologieherstellern mit Referenten vertreten. Die Toolstrategie der Anbieter spaltet sich dabei in zwei Lager auf. Entweder handelte es sich um einfach zu bedienende Drag&Drop-Lösungen für den Endanwender aus dem Fachbereich oder vor Toolumfang fast platzende Lösungen für den DataMining-Experten. Interessant war, dass ausnahmslos alle Toolpräsentationen mit einem perfekt vorbereiteten Datensatz starteten und der Fokus auf die reine Modellierung gelegt wurde. Dabei macht in der Praxis nachweislich die Datenvorbereitung mindestens 80% der Projektzeit aus.

Data Understanding und Preparation bilden den Kern eines Predictive Analytics Projekt

Der Fokus der Konferenz verzerrt hier in meinen Augen die Realität des Data Minings. Bei einem unerfahrenen Interessenten kann es die Überzeugung wecken, dass das ja alles ganz einfach sei. Auf der Bühne werden Live in ein paar Minuten Modelle zusammengeklickt, die dem Kunden, so wird es suggeriert, direkt einen Mehrwert bieten können.

So einfach ist es aber leider in der Praxis nicht. Nachdem feststeht, welche Ziele eine Vorhersage mittels Predictive Analytics verfolgen soll, müssen zuerst die vorhandenen Daten beschafft, gesichtet und auf eine sinnvolle Verwendung für den Use Case analysiert werden. Für Predictive Analytics benötigt man die Einträge auf Datensatzebene. Aggregierten Sichten aus der klassischen BI sind wenig zielführend. Dabei ist die Datenbeschaffung bereits die erste Hürde, wenn beispielsweise Zugriffsberechtigungen nicht eindeutig geklärt sind oder historisierte Daten erst wiederhergestellt werden müssen. Dies kann je nach Unternehmensgröße mit einer erheblichen Wartezeit verbunden sein und gegebenenfalls auch mehrere Anläufe benötigen.

Liegen Daten in ausreichender Menge vor, dann werden diese gesichtet und in den richtigen Kontext für die Vorhersagen gebracht. An dieser Stelle ist große Sorgfalt und Expertise gefragt, weil alle Fehler bei der Datenvorbereitung später mit in die Modellierung wandern. Die Obergrenze für die Genauigkeit und der Mehrwert eines Modells wird bereits im Zuge der Datenvorbereitung festgelegt. Das Label (Zielvariable) darf zum Beispiel niemals einen rückwirkenden Einfluss auf die verwendeten Variablen haben – andernfalls wird das Modell übertrainiert und liefert in der Anwendung keine zufriedenstellenden Ergebnisse.

Die ausgewählte Struktur speichert man am besten als Datenkatalog mit allen notwendigen Informationen wie Datenbeschreibung, Herkunft, Berechnungsinfo, Verwendungszweck und allen noch offenen Bearbeitungsschritten

Anschließend werden die Daten so aufbereitet, dass sie sich im Zuge der Analyse verwerten lassen.

  • Wie sollen Missing Values behandelt werden, wie Freitextfelder gruppiert werden?
  • Existieren systematische Fehler in den Daten und können diese behoben werden?

Für die Ausführung dieser Aufgaben benötigt es auf der einen Seite ein gutes Verständnis für die Dateninhalte. Auf der anderen Seite Kenntnisse über die statistischen Auswirkungen verschiedener Glättungsverfahren.

Weiterhin können je nach Modellierungsverfahren nur bestimmte Datentypen für die Analyse verwendet werden. Aus diesem Grund müssen Daten gegebenenfalls angepasst werden. So kann eine klassische lineare Regression beispielsweise keine polynominalen Daten analysieren, welche deshalb vorher in Binärvariablen umgewandelt werden müssen.

Fokus auf Datenvorbereitung legen

Die Datenvorbereitung kostet in einem Predictive Analytics Projekt im Regelfall die meiste Zeit und damit auch das meiste Budget. Darüber hinaus ziehen sich Fehler bei der Präparation bis zum Vorhersageergebnis durch und minimieren oder verfälschen die Qualität.

Ein Großteil der Gedanken bei der Planung eines Predictive Analytics Projektes kreisen um die möglichen Use Cases, die verschiedenen Modellierungsverfahren oder die spätere grafische Darstellung der Ergebnisse. Die Datenvorbereitung wird dabei gerne etwas vernachlässigt. Natürlich ist die Datenpräparation nicht gerade der „sexy“ Part von Predictive Analytics, aber wahrscheinlich der wichtigste.