Ein Handelsunternehmen setzte ein Machine-Learning-Modell zur Absatzprognose ein, das über mehrere Monate stark abweichende Ergebnisse lieferte. Der IT-Sachverständige wurde beauftragt, die Datenbasis, Modellstruktur und Trainingsmethodik einer umfassenden technischen Validierung zu unterziehen und die Ursachen der Fehlprognosen transparent zu dokumentieren.
Ausgangssituation
Das Handelsunternehmen betrieb eine datengetriebene Absatzplanung auf Grundlage historischer Verkaufs-, Lager- und Wetterdaten. Das Prognosemodell, ein intern entwickelter Random-Forest-Algorithmus, sollte wöchentliche Absatzmengen für mehrere tausend Produkte vorhersagen. Nach wiederholten Fehlprognosen – teils mit Abweichungen von über 25 % – stellte das Management die Zuverlässigkeit des Systems infrage. Zugleich konnten die Entwickler keine konsistente Dokumentation der Trainingsdaten, Parameter oder Modellversionen vorlegen. Es bestand der Verdacht, dass sowohl unvollständige Datenimporte als auch methodische Schwächen in der Modellpflege zu systematischen Fehlverhalten führten.
Problemstellung
Ziel der sachverständigen Begutachtung war es, die Ursachen der Abweichungen technisch nachvollziehbar zu identifizieren. Im Mittelpunkt standen folgende Prüfziele:
- Bewertung der Datenqualität, -vollständigkeit und -vorverarbeitung im Hinblick auf Modellstabilität,
- Überprüfung der Modellarchitektur auf Overfitting, Bias und methodische Schwächen,
- Validierung der Reproduzierbarkeit und Dokumentation der Trainingsläufe,
- und Beurteilung, ob organisatorische Versäumnisse (z. B. fehlendes MLOps-Konzept) zum Fehlverhalten beigetragen haben.
Vorgehen des IT-Sachverständigen
Die Untersuchung erfolgte nach einem methodisch strukturierten Vorgehen gemäß dem Data-Science-Prozessmodell CRISP-DM sowie den Qualitätsanforderungen nach [NORM_PLATZHALTER]:
- 1. Datenanalyse: Vollständigkeitsprüfung von 3,8 Mio. Datensätzen aus vier Quellsystemen. Identifikation von Nullwerten, Ausreißern, fehlerhaften Zeitstempeln und Dubletten. Statistische Bewertung der Datenqualität nach gängigen DQ-Metriken (Completeness, Accuracy, Consistency).
- 2. Modellanalyse: Überprüfung der Modellarchitektur (Random Forest mit 500 Bäumen) auf Overfitting durch k-fold-Cross-Validation und Vergleich von Trainings- und Testfehlern. Untersuchung der Feature-Importance und möglicher Multikollinearität.
- 3. Reproduzierbarkeit & Dokumentation: Nachvollzug der Trainingsläufe und Hyperparameter-Änderungen anhand der verfügbaren Logfiles. Prüfung, ob Versionskontrolle und Modelltracking (z. B. Git, MLflow) eingesetzt wurden.
- 4. Organisationsbewertung: Bewertung der Prozesse zur Modellpflege, Freigabe und Deployment. Analyse, ob ein strukturiertes MLOps-Framework implementiert war.
Analyseergebnisse
Die Analyse zeigte ein vielschichtiges Ursachenbild:
- Datenqualität: 12,3 % der Datensätze enthielten unbereinigte Nullwerte in Schlüsselattributen (Verkaufsmenge, Standort, Datum). Zudem waren mehr als 8 % der Wetterdaten fehlerhaft aggregiert.
- Modellvalidität: Das Modell zeigte ein deutliches Overfitting (Trainingsfehler = 0,05; Testfehler = 0,24). Die Feature-Selektion war inkonsistent, mehrere Variablen korrelierten stark miteinander (r > 0,8).
- Dokumentation: Die Trainingsläufe waren nicht versioniert. Hyperparameter-Änderungen (z. B. max_depth, n_estimators) wurden in keiner Änderungsdokumentation festgehalten.
- Prozessmanagement: Es existierte kein durchgängiger Freigabeprozess für neue Modellversionen. Modelle wurden teilweise ohne Retraining auf aktualisierten Daten produktiv geschaltet.
Erkenntnisse & Empfehlungen
Auf Grundlage der Befunde empfahl der Sachverständige die Einführung eines strukturierten Data-Science-Governance-Modells:
- Aufbau einer Data-Quality-Pipeline mit automatisierten Validierungsregeln (Outlier Detection, Nullwertprüfung, Schema Enforcement),
- Einrichtung eines MLflow-gestützten Modellmanagementsystems zur Versionierung und Nachvollziehbarkeit sämtlicher Trainingsläufe,
- Implementierung eines kontinuierlichen Retrainingszyklus mit unabhängigen Validierungsdatensätzen,
- Definition klarer Freigabeprozesse (Model Approval Gate) für produktive Modelle,
- und jährliche externe Revalidierung kritischer Prognosemodelle zur Sicherstellung langfristiger Stabilität.
Reflexion
Diese Fallstudie verdeutlicht exemplarisch, dass datengetriebene Systeme nur so verlässlich sind wie ihre Datengrundlage und Pflegeprozesse. Der IT-Sachverständige trägt durch methodisch fundierte Analyse und objektive Bewertung entscheidend dazu bei, algorithmische Systeme transparent, reproduzierbar und vertrauenswürdig zu gestalten. Die Verbindung von technischer Prüftiefe und organisatorischer Bewertung schafft nachhaltige Qualitätssicherung im Sinne regulatorischer und wirtschaftlicher Anforderungen.