Data-Science- und KI-Gutachten

Technische Bewertung von Datenmodellen, Algorithmen und Machine-Learning-Verfahren hinsichtlich Qualität, Fairness und Nachvollziehbarkeit.

Gutachten zu datengetriebenen Systemen

Data-Science- und KI-Systeme basieren auf komplexen mathematischen und datengetriebenen Modellen. Ihre Bewertung erfordert technisches Verständnis, methodische Präzision und Kenntnis der regulatorischen Rahmenbedingungen. Als IT-Sachverständiger bewerte ich solche Systeme neutral und nachvollziehbar hinsichtlich ihrer Datenqualität, Modellstruktur und algorithmischen Integrität.

Schwerpunkte der Analyse

Methodischer Ansatz

Das Gutachten folgt einer strukturierten, wissenschaftlich fundierten Methodik. Neben technischen Prüfungen werden statistische Verfahren, Modellmetriken und Audit-Frameworks angewendet, um die Leistungsfähigkeit und Nachvollziehbarkeit datengetriebener Systeme objektiv zu bewerten.

KI-Systeme müssen nachvollziehbar, fair und technisch verlässlich sein. Das Gutachten stellt sicher, dass verwendete Modelle, Daten und Prozesse diesen Anforderungen entsprechen – nachvollziehbar dokumentiert und methodisch überprüfbar.

Typische Anwendungsfälle

Zielsetzung

Ziel eines Data-Science-Gutachtens ist es, technische Transparenz und methodische Sicherheit zu schaffen. Das Gutachten liefert nachvollziehbare Grundlagen für unternehmerische, regulatorische oder juristische Entscheidungen und fördert das Vertrauen in datenbasierte Systeme.

Fallstudie: Methodischer Ablauf eines Data-Science- und KI-Gutachtens

Strukturierte Bewertung von Datenmodellen, Algorithmen und Machine-Learning-Verfahren nach dem Problemlösungszyklus von Nicolai Andler

1. Diagnose – Daten- und Modelllage erfassen

Zu Beginn der Fallstudie wird das datengetriebene System technisch und methodisch erfasst. Analysiert werden Datenquellen, Datenflüsse, Modellarchitekturen und Trainingsprozesse. Ziel ist es, die Qualität, Herkunft und Eignung der verwendeten Daten zu bewerten und zu erkennen, ob Verzerrungen (Bias), Datenlücken oder methodische Schwächen vorliegen. Diese Phase schafft die faktische Grundlage für jede weitere Bewertung.

2. Zielformulierung – Bewertungsrahmen und Prüfkriterien definieren

Anschließend werden die konkreten Bewertungsziele festgelegt: Welche Aspekte des Systems stehen im Fokus – Fairness, Nachvollziehbarkeit, Robustheit oder regulatorische Konformität? Auf dieser Basis werden Prüfkriterien formuliert, etwa:
  • Datenqualität (Vollständigkeit, Konsistenz, Aktualität)
  • Modellintegrität (Trainingsmethodik, Overfitting, Reproduzierbarkeit)
  • Algorithmische Fairness und Transparenz
  • Übereinstimmung mit regulatorischen Anforderungen (z. B. DSGVO, EU-KI-Verordnung)
Diese Phase definiert den Bewertungsrahmen und sorgt für methodische Vergleichbarkeit.

3. Analyse – Technische und statistische Untersuchung

In dieser Phase werden Daten, Modelle und Algorithmen systematisch geprüft: Statistische Tests, Modellvalidierungen und Audit-Frameworks werden eingesetzt, um Leistungsfähigkeit, Bias, Robustheit und Nachvollziehbarkeit zu bewerten. Der Fokus liegt auf Reproduzierbarkeit: Kann das Modell unter denselben Bedingungen dieselben Ergebnisse liefern? Ebenso wird geprüft, ob Dokumentation, Trainings- und Testverfahren den Stand der Technik erfüllen.

4. Entscheidungsfindung – Bewertung und Gutachtenbericht

Die Ergebnisse der Analyse werden zu einem strukturierten Gutachtenbericht zusammengeführt. Er enthält:
  • eine Bewertung der Datenqualität und Modellvalidität,
  • eine Analyse der algorithmischen Fairness und Erklärbarkeit,
  • eine Einschätzung der regulatorischen und ethischen Konformität,
  • und konkrete Empfehlungen zur Verbesserung von Transparenz und Nachvollziehbarkeit.
Das Ergebnis dient als objektive Grundlage für unternehmerische, regulatorische oder juristische Entscheidungen und stärkt das Vertrauen in datengetriebene Systeme.
Quelle:
Nicolai Andler: Tools für Projektmanagement, Workshops und Consulting – Kompendium der wichtigsten Techniken und Methoden, Volume 6, Publicis, Erlangen, 2015.

Praxisnahe Fallstudien

Die folgenden Fallstudien zeigen praxisnahe Beispiele aus der Gutachtenpraxis. Sie verdeutlichen, wie ein IT-Sachverständiger typische technische und organisatorische Herausforderungen strukturiert analysiert, bewertet und nachvollziehbar dokumentiert.

Fehlerhafte Prognosen – Validierung eines Machine-Learning-Modells zur Absatzvorhersage

Ein Handelsunternehmen setzte ein Machine-Learning-Modell zur Absatzprognose ein, das über mehrere Monate stark abweichende Ergebnisse lieferte. Der IT-Sachverständige wurde beauftragt, die Datenbasis, Modellstruktur und Trainingsmethodik einer umfassenden technischen Validierung zu unterziehen und die Ursachen der Fehlprognosen transparent zu dokumentieren.

Ausgangssituation

Das Handelsunternehmen betrieb eine datengetriebene Absatzplanung auf Grundlage historischer Verkaufs-, Lager- und Wetterdaten. Das Prognosemodell, ein intern entwickelter Random-Forest-Algorithmus, sollte wöchentliche Absatzmengen für mehrere tausend Produkte vorhersagen. Nach wiederholten Fehlprognosen – teils mit Abweichungen von über 25 % – stellte das Management die Zuverlässigkeit des Systems infrage. Zugleich konnten die Entwickler keine konsistente Dokumentation der Trainingsdaten, Parameter oder Modellversionen vorlegen. Es bestand der Verdacht, dass sowohl unvollständige Datenimporte als auch methodische Schwächen in der Modellpflege zu systematischen Fehlverhalten führten.

Problemstellung

Ziel der sachverständigen Begutachtung war es, die Ursachen der Abweichungen technisch nachvollziehbar zu identifizieren. Im Mittelpunkt standen folgende Prüfziele:

  • Bewertung der Datenqualität, -vollständigkeit und -vorverarbeitung im Hinblick auf Modellstabilität,
  • Überprüfung der Modellarchitektur auf Overfitting, Bias und methodische Schwächen,
  • Validierung der Reproduzierbarkeit und Dokumentation der Trainingsläufe,
  • und Beurteilung, ob organisatorische Versäumnisse (z. B. fehlendes MLOps-Konzept) zum Fehlverhalten beigetragen haben.
Das Gutachten sollte zudem aufzeigen, in welchem Umfang die Modellvalidierung dem Stand der Technik entsprach und welche Verbesserungsmaßnahmen zur nachhaltigen Qualitätssicherung erforderlich waren.

Vorgehen des IT-Sachverständigen

Die Untersuchung erfolgte nach einem methodisch strukturierten Vorgehen gemäß dem Data-Science-Prozessmodell CRISP-DM sowie den Qualitätsanforderungen nach [NORM_PLATZHALTER]:

  • 1. Datenanalyse: Vollständigkeitsprüfung von 3,8 Mio. Datensätzen aus vier Quellsystemen. Identifikation von Nullwerten, Ausreißern, fehlerhaften Zeitstempeln und Dubletten. Statistische Bewertung der Datenqualität nach gängigen DQ-Metriken (Completeness, Accuracy, Consistency).
  • 2. Modellanalyse: Überprüfung der Modellarchitektur (Random Forest mit 500 Bäumen) auf Overfitting durch k-fold-Cross-Validation und Vergleich von Trainings- und Testfehlern. Untersuchung der Feature-Importance und möglicher Multikollinearität.
  • 3. Reproduzierbarkeit & Dokumentation: Nachvollzug der Trainingsläufe und Hyperparameter-Änderungen anhand der verfügbaren Logfiles. Prüfung, ob Versionskontrolle und Modelltracking (z. B. Git, MLflow) eingesetzt wurden.
  • 4. Organisationsbewertung: Bewertung der Prozesse zur Modellpflege, Freigabe und Deployment. Analyse, ob ein strukturiertes MLOps-Framework implementiert war.
Alle Prüfungen wurden protokolliert, bewertet und mit Referenzwerten aus anerkannten Best Practices abgeglichen.

Analyseergebnisse

Die Analyse zeigte ein vielschichtiges Ursachenbild:

  • Datenqualität: 12,3 % der Datensätze enthielten unbereinigte Nullwerte in Schlüsselattributen (Verkaufsmenge, Standort, Datum). Zudem waren mehr als 8 % der Wetterdaten fehlerhaft aggregiert.
  • Modellvalidität: Das Modell zeigte ein deutliches Overfitting (Trainingsfehler = 0,05; Testfehler = 0,24). Die Feature-Selektion war inkonsistent, mehrere Variablen korrelierten stark miteinander (r > 0,8).
  • Dokumentation: Die Trainingsläufe waren nicht versioniert. Hyperparameter-Änderungen (z. B. max_depth, n_estimators) wurden in keiner Änderungsdokumentation festgehalten.
  • Prozessmanagement: Es existierte kein durchgängiger Freigabeprozess für neue Modellversionen. Modelle wurden teilweise ohne Retraining auf aktualisierten Daten produktiv geschaltet.
Die Fehlprognosen waren somit nicht auf eine einzelne technische Ursache zurückzuführen, sondern auf ein Zusammenwirken aus mangelhafter Datenvorbereitung, unzureichender Modellpflege und fehlender organisatorischer Steuerung.

Erkenntnisse & Empfehlungen

Auf Grundlage der Befunde empfahl der Sachverständige die Einführung eines strukturierten Data-Science-Governance-Modells:

  • Aufbau einer Data-Quality-Pipeline mit automatisierten Validierungsregeln (Outlier Detection, Nullwertprüfung, Schema Enforcement),
  • Einrichtung eines MLflow-gestützten Modellmanagementsystems zur Versionierung und Nachvollziehbarkeit sämtlicher Trainingsläufe,
  • Implementierung eines kontinuierlichen Retrainingszyklus mit unabhängigen Validierungsdatensätzen,
  • Definition klarer Freigabeprozesse (Model Approval Gate) für produktive Modelle,
  • und jährliche externe Revalidierung kritischer Prognosemodelle zur Sicherstellung langfristiger Stabilität.
Nach Umsetzung dieser Maßnahmen konnte die Prognosegenauigkeit im Re-Audit um 18 Prozentpunkte verbessert werden, die Fehlerrate sank von 24 % auf 9 %. Zudem wurde ein internes MLOps-Framework etabliert, das fortan revisionssichere Nachvollziehbarkeit gewährleistete.

Reflexion

Diese Fallstudie verdeutlicht exemplarisch, dass datengetriebene Systeme nur so verlässlich sind wie ihre Datengrundlage und Pflegeprozesse. Der IT-Sachverständige trägt durch methodisch fundierte Analyse und objektive Bewertung entscheidend dazu bei, algorithmische Systeme transparent, reproduzierbar und vertrauenswürdig zu gestalten. Die Verbindung von technischer Prüftiefe und organisatorischer Bewertung schafft nachhaltige Qualitätssicherung im Sinne regulatorischer und wirtschaftlicher Anforderungen.

Algorithmische Verzerrung – Prüfung eines KI-basierten Bewerbungs-Scorings

Ein Unternehmen setzte ein KI-System zur automatisierten Bewerbervorauswahl ein. Nach Hinweisen auf mögliche Diskriminierung durch das Scoring-Modell wurde der IT-Sachverständige beauftragt, eine unabhängige technische und methodische Prüfung auf algorithmische Fairness, Transparenz und Nachvollziehbarkeit durchzuführen.

Ausgangssituation

Das untersuchte Scoring-System kam im Bewerbungsprozess eines internationalen Unternehmens zum Einsatz und bewertete Bewerber:innen auf Basis von Lebenslaufdaten, Qualifikationen, Ausbildungshistorien und Soft-Skill-Indikatoren. Das Modell diente als Vorfilterung für Personalentscheidungen und beeinflusste maßgeblich, welche Kandidaten zu Interviews eingeladen wurden. Nach Medienberichten über potenzielle Benachteiligungen bestimmter Bewerbergruppen (u. a. Frauen, Bewerber über 50 Jahre, Personen mit nicht-deutscher Ausbildung) leitete die Geschäftsführung ein internes Audit ein und beauftragte anschließend einen externen IT-Sachverständigen mit einer objektiven Prüfung des Systems.

Problemstellung

Im Rahmen des Gutachtens sollten folgende Kernfragen beantwortet werden:

  • Weist das eingesetzte Machine-Learning-Modell systematische Verzerrungen (Bias) gegenüber bestimmten Personengruppen auf?
  • Wurden die Trainingsdaten ausreichend geprüft, bereinigt und repräsentativ für die Bewerberpopulation zusammengestellt?
  • Ist das Scoring-Verfahren nachvollziehbar dokumentiert und erfüllt es die Anforderungen an Transparenz gemäß [GESETZ_PLATZHALTER]?
  • Welche Maßnahmen sind erforderlich, um Fairness, Nachvollziehbarkeit und Compliance langfristig sicherzustellen?
Ziel war eine umfassende technische, statistische und regulatorische Bewertung des KI-Systems im Hinblick auf Fairness, Reproduzierbarkeit und Governance.

Vorgehen des IT-Sachverständigen

Die sachverständige Untersuchung erfolgte nach einem mehrstufigen Prüfkonzept, das technische, statistische und regulatorische Aspekte kombinierte:

  • 1. Daten- und Feature-Analyse: Prüfung der Trainingsdaten (ca. 240.000 Bewerberdatensätze) auf Vollständigkeit, Konsistenz, Repräsentativität und potenzielle Proxy-Attribute. Insbesondere wurden Attribute wie Postleitzahl, Hochschulort und Beschäftigungshistorie auf indirekte Korrelationen mit sensiblen Merkmalen (Geschlecht, Herkunft, Alter) untersucht.
  • 2. Modellprüfung: Untersuchung des eingesetzten Random-Forest-Modells hinsichtlich Gewichtungen, Feature-Importance und Entscheidungslogiken. Durchführung einer Sensitivitätsanalyse und Anwendung von Explainable-AI-Techniken (SHAP, LIME) zur Identifikation einflussreicher Merkmale.
  • 3. Fairness-Tests: Statistische Überprüfung des Modells anhand von Fairness-Metriken:
    • Demographic Parity (Vergleich der Auswahlraten zwischen Gruppen)
    • Equal Opportunity Difference (Unterschied in True-Positive-Rates)
    • Disparate Impact Ratio (Verhältnis von Entscheidungswahrscheinlichkeiten, Schwellenwert 0,8 nach US-EEOC-Standard)
  • 4. Dokumentations- und Compliance-Prüfung: Bewertung der vorhandenen technischen Dokumentation, Daten-Governance-Prozesse und Transparenzberichte gemäß [GESETZ_PLATZHALTER] sowie [GESETZ_PLATZHALTER].
Sämtliche Analysen wurden mit statistisch nachvollziehbaren Methoden durchgeführt und protokolliert.

Analyseergebnisse

Die Überprüfung ergab deutliche Indikatoren für algorithmische Verzerrungen:

  • Demographic Parity: Bewerberinnen erhielten im Durchschnitt eine um 12 % geringere Wahrscheinlichkeit für eine positive Bewertung, bei ansonsten gleichen Qualifikationsparametern.
  • Proxy-Korrelationen: Der Hochschulort (Feature) korrelierte signifikant mit dem Geschlecht der Bewerber (p < 0,01), da Frauen häufiger bestimmte Hochschulen gewählt hatten, die im Trainingsdatensatz unterrepräsentiert waren.
  • Feature-Importance: Nicht-relevante Merkmale wie Wohnort und Dauer der letzten Beschäftigung wurden vom Modell überproportional stark gewichtet und beeinflussten das Ergebnis erheblich.
  • Dokumentation: Es lag keine konsistente Modellhistorie oder Versionierung vor; Änderungen in der Feature-Selection wurden nicht nachvollziehbar dokumentiert.
Das System verletzte damit die Grundsätze algorithmischer Fairness und Transparenz und hätte in dieser Form keine Zulassung nach der künftigen [GESETZ_PLATZHALTER] erhalten.

Erkenntnisse & Empfehlungen

Der IT-Sachverständige empfahl ein umfassendes Maßnahmenpaket zur Wiederherstellung der Fairness und regulatorischen Konformität:

  • Implementierung eines Fairness-by-Design-Ansatzes in allen Entwicklungsphasen, inklusive Bias-Kontrolle bereits bei der Datensammlung.
  • Einführung automatisierter Fairness-Audits im Rahmen der MLOps-Pipeline vor jeder Produktivsetzung.
  • Anwendung von Bias-Mitigation-Techniken wie Reweighing, Fair Re-Sampling und Adversarial Debiasing.
  • Erstellung einer Model Card mit Beschreibung des Modells, Datengrundlagen, Limitierungen und ethischer Bewertung (nach Google AI Ethics Framework).
  • Schulung aller beteiligten Entwickler und HR-Fachkräfte zu algorithmischer Fairness und rechtlicher Verantwortlichkeit ([GESETZ_PLATZHALTER], [GESETZ_PLATZHALTER] EU-KI-VO).
Nach Umsetzung dieser Maßnahmen konnte in einem Re-Audit die Fairness-Metrik Disparate Impact auf einen Wert von 0,92 verbessert werden, was den internationalen Richtwerten entspricht.

Reflexion

Diese Fallstudie zeigt exemplarisch, dass algorithmische Systeme nicht nur technisch, sondern auch ethisch und rechtlich bewertet werden müssen. Der IT-Sachverständige leistet hierbei einen wesentlichen Beitrag zur Vertrauenswürdigkeit datengetriebener Entscheidungsverfahren, indem er objektive Prüfmethoden anwendet, Bias nachweist und regulatorische Transparenz sicherstellt. Im Kontext zunehmender Regulierung durch die [GESETZ_PLATZHALTER] gewinnen solche Gutachten an erheblicher Bedeutung für Compliance, Qualitätssicherung und gesellschaftliche Verantwortung.

Nachvollziehbarkeit von Prognosemodellen – Reproduzierbarkeitsprüfung im Finanzsektor

Ein Finanzdienstleister setzte mehrere KI-Modelle zur Bonitäts- und Ausfallwahrscheinlichkeitsprognose ein. Im Rahmen einer aufsichtsrechtlichen Compliance-Prüfung wurde der IT-Sachverständige beauftragt, die Reproduzierbarkeit, Nachvollziehbarkeit und regulatorische Konformität der Modelle umfassend zu bewerten.

Ausgangssituation

Der Finanzdienstleister nutzte verschiedene neuronale Netze und Gradient-Boosting-Modelle zur Bewertung von Kreditrisiken im Privat- und Firmenkundengeschäft. Die Modelle basierten auf historischen Finanzdaten, Kontoaktivitäten und externen Bonitätsmerkmalen. Im Zuge einer internen Revision fiel auf, dass frühere Modellversionen nicht eindeutig dokumentiert und Trainingsdaten nicht konsistent versioniert waren. Aufgrund verschärfter regulatorischer Anforderungen der [REG_PLATZHALTER] und der European Banking Authority (EBA) wurde eine externe, unabhängige Überprüfung der Modellreproduzierbarkeit angeordnet.

Problemstellung

Im Mittelpunkt der Begutachtung standen folgende Fragen:

  • Liefern die eingesetzten Modelle bei identischen Eingangsdaten reproduzierbare Ergebnisse?
  • Sind Trainingsdaten, Hyperparameter und Modellartefakte (Weights, Seeds) vollständig und nachvollziehbar dokumentiert?
  • Erfüllt das Modellmanagement die Anforderungen der [REG_PLATZHALTER] (Bankaufsichtliche Anforderungen an IT), der [REG_PLATZHALTER] AT 7.3 und der [GESETZ_PLATZHALTER] hinsichtlich Nachvollziehbarkeit, Transparenz und Governance?
  • Wie kann die Modellverwaltung künftig regulatorisch konform und technisch robust gestaltet werden?
Das Ziel war die objektive Beurteilung, ob das Modellverhalten den Prinzipien von Transparenz, Erklärbarkeit und Reproduzierbarkeit genügt – als Grundlage für die aufsichtsrechtliche Bewertung der Gesamtbanksteuerung.

Vorgehen des IT-Sachverständigen

Der Sachverständige führte ein strukturiertes Reproduzierbarkeits- und Nachvollziehbarkeits-Audit durch, angelehnt an [NORM_PLATZHALTER] und [NORM_PLATZHALTER]. Das Vorgehen umfasste vier Kernprüfbereiche:

  • 1. Daten- und Modellversionierung: Analyse der Datengrundlage (10 Mio. Kreditdatensätze) auf Konsistenz, Änderungsverfolgung und Dokumentationsstatus. Prüfung, ob Datenquellen eindeutig referenziert und Snapshots archiviert wurden.
  • 2. Technische Reproduzierbarkeit: Durchführung von fünf Wiederholungstests mit identischen Trainingsdatensätzen und Hyperparametern. Kontrolle der Zufallsinitialisierung (Seeds), numerischen Stabilität und Floating-Point-Deterministik.
  • 3. Governance & Prozessbewertung: Bewertung der organisatorischen Abläufe zur Modellfreigabe, Überwachung und Dokumentation. Analyse der Rollenverteilung (Modellentwickler, Validierer, Risikocontrolling) und der Einhaltung des Vier-Augen-Prinzips gemäß [REG_PLATZHALTER].
  • 4. Regulatorische Konformität: Abgleich der Modell- und Auditdokumentation mit den Anforderungen aus [REG_PLATZHALTER] RS 10/2021, [REG_PLATZHALTER] on Model Risk Management (EBA/GL/2022/05) und [GESETZ_PLATZHALTER] (Transparenzpflichten).
Sämtliche Analyseschritte wurden in einem standardisierten Prüfprotokoll dokumentiert, einschließlich Datensatzreferenzen, Prüfläufen und Konfigurationsparametern.

Analyseergebnisse

Das Audit ergab mehrere technische und organisatorische Schwachstellen:

  • Datenversionierung: Die verwendeten Trainingsdatensätze wurden zwar archiviert, jedoch ohne eindeutige Hash-Referenzen oder Änderungsprotokolle. Dadurch war eine exakte Nachverfolgung von Datenständen nicht möglich.
  • Reproduzierbarkeit: Drei von fünf Re-Trainingsläufen führten zu leicht abweichenden Scoring-Ergebnissen (mittlere Abweichung 0,8 %), bedingt durch nicht fixierte Random-Seeds und nicht deterministische GPU-Operationen.
  • Dokumentation: Änderungen an Hyperparametern (z. B. Learning Rate, Batch Size) wurden nicht nachvollziehbar versioniert. Die Dokumentation entsprach nur teilweise den Anforderungen aus [REG_PLATZHALTER] RS 10/2021, Tz. 62–65 (Modellrisikomanagement).
  • Compliance: Eine formale Risikoanalyse nach [NORM_PLATZHALTER] lag nicht vor. Die Modelle waren daher nicht als „kritische KI-Systeme“ im Sinne der [GESETZ_PLATZHALTER] klassifiziert worden, obwohl sie in Entscheidungsprozesse mit rechtlicher Wirkung eingriffen (Kreditbewilligung).
Insgesamt war die technische Performance der Modelle stabil, jedoch nicht vollumfänglich revisionssicher reproduzierbar.

Erkenntnisse & Empfehlungen

Der Sachverständige empfahl ein umfassendes Maßnahmenpaket zur Sicherstellung der Reproduzierbarkeit und regulatorischen Konformität:

  • Einführung eines MLOps-basierten Modellmanagementsystems (z. B. MLflow, Kubeflow) zur zentralen Versionierung von Modellen, Trainingsdaten, Parametern und Artefakten.
  • Verwendung deterministischer Trainingsverfahren durch Seed-Fixierung und standardisierte Framework-Konfigurationen (z. B. NumPy, TensorFlow, PyTorch mit deterministischen Backends).
  • Implementierung eines Modellregisters mit Audit-Trail, Änderungsverfolgung und automatisierter Dokumentation aller Trainings- und Deployment-Vorgänge.
  • Jährliche Durchführung unabhängiger Reproduzierbarkeits-Audits durch externe Sachverständige unter Einbindung des internen Risikocontrollings.
  • Formale Integration des KI-Risikomanagements in die [REG_PLATZHALTER] AT 4.3.4–Prozesse der Banksteuerung.
Nach Implementierung der Maßnahmen bescheinigte die Aufsichtsbehörde im Folgejahr die formale Konformität mit den Anforderungen aus [REG_PLATZHALTER] RS 10/2021 und bestätigte die Reproduzierbarkeit aller geprüften Modellversionen.

Reflexion

Diese Fallstudie verdeutlicht, dass Reproduzierbarkeit im Finanzsektor nicht nur ein technischer, sondern ein regulatorischer Imperativ ist. Fehlende Nachvollziehbarkeit kann erhebliche Compliance-Risiken nach sich ziehen. Durch eine sachverständige Begutachtung und den Aufbau einer klaren Modell-Governance-Struktur können Institute die Anforderungen an Transparenz, Dokumentation und Stabilität sowohl aus technischer als auch aus aufsichtsrechtlicher Sicht erfüllen. Die Rolle des IT-Sachverständigen liegt dabei in der objektiven, normenkonformen Bewertung und der Vermittlung zwischen technischer Realität und regulatorischer Erwartungshaltung.

Beispiel für ein Gutachtenangebot

Ein typisches Angebot für ein Data-Science- und KI-Gutachten umfasst:

  • Analyse von Datenquellen und Modellarchitekturen
  • Überprüfung von Trainings- und Testdaten auf Bias, Fairness und Datenqualität
  • Bewertung der Modellvalidität, Dokumentation und Reproduzierbarkeit
  • Bericht mit Befunden, technischen Bewertungen und Handlungsempfehlungen

Der Umfang richtet sich nach Systemkomplexität, Datenbasis und gewünschtem Detailgrad. Nach Sichtung der Unterlagen erhalten Sie ein individuelles, unverbindliches Angebot.

Typischer Kostenrahmen:
ca. 1.500 € – 4.000 € netto
Abhängig von Modellkomplexität, Datenvolumen und Analyseaufwand.

Hinweis: Die genannten Beträge dienen der Orientierung und stellen kein verbindliches Angebot dar.

IT-Sachverständiger Mathias Ellmann

Kontakt zu IT-Sachverständigen Mathias Ellmann

Benötigen Sie ein unabhängiges Data-Science- oder KI-Gutachten zur objektiven Bewertung von Datenqualität, Modellvalidität und algorithmischer Fairness?

Kontakt aufnehmen

Häufige Fragen zu Data-Science- und KI-Gutachten

Was ist ein Data-Science- oder KI-Gutachten?

Ein Data-Science- oder KI-Gutachten bewertet datengetriebene Systeme hinsichtlich Datenqualität, Modellvalidität, Fairness und technischer Nachvollziehbarkeit.

Welche Systeme werden untersucht?

Untersucht werden Machine-Learning-Modelle, KI-basierte Entscheidungsverfahren, Scoring-Systeme und Data-Science-Prozesse.

Welche Kriterien werden geprüft?

Datenqualität, algorithmische Transparenz, Fairness, Bias, Reproduzierbarkeit sowie regulatorische und ethische Konformität.

Wie kann das Gutachten genutzt werden?

Es dient als technische und methodische Entscheidungsgrundlage, beispielsweise für Audits, Compliance-Verfahren oder rechtliche Bewertungen.