Interne Revision und Audit

KI-Modell-Audit (Modell-Risiko-Validierung)

anymize pseudonymisiert Mandanten-IDs in Trainings-Samples, Modell-Owner-Funktionen und Data-Scientist-Bezüge, bevor das Validierungs-Material an GPT, Claude oder Gemini geht. So entsteht eine MaRisk-BTR- und EU-AI-Act-konforme Modell-Validierung — strukturell sauber, ohne § 26 BDSG-, § 43 KWG- oder Schufa-EuGH-Risiken.

Schwierigkeit: Spezialist · Datenklasse: Mandantendaten · Letztes Review:

Zur Orientierung gedacht. Die anwaltliche Würdigung im Einzelfall bleibt selbstverständlich bei Ihnen — KI-Outputs sind vor jeder Verwendung zu prüfen. Mehr dazu am Ende.

01

Anwendungsbereich

Worum geht es hier?

KI in der Internen Revision und Compliance-Auditierung

BaFin Orientierungshilfe vom 18.12.2025 verlangt KI-Inventar, Lifecycle-Management und Validierung. Die Innenrevision prüft als dritte Verteidigungslinie die KI-Modell-Governance. Der EU AI Act (Annex III Nr. 5b Kreditwürdigkeit) verschärft die Anforderungen; das Schufa-Urteil (EuGH C-634/21) verlangt menschliche Aufsicht bei automatisierter Bonitätsbewertung. Modell-Audits sind hochsensible Dokumente mit Mandanten- und Mitarbeiter-Bezug.

02

Für wen passt das?

Zielgruppe und Kontext

Rolle
Senior Auditor Modell-Risiko, IT-Auditor, Data-Scientist-Auditor, KI-Beauftragter.
Seniorität
Senior — MaRisk BTR Modellrisiko, EU AI Act (Annex III Nr. 5b), Schufa-Urteil EuGH C-634/21, BCBS 239, Validierungs-Metriken (AUC, F1, Precision, Recall, KS-Statistik), Drift-Detection (PSI, KL-Divergenz), XAI (SHAP, LIME).
Kanzleigröße
Alle Institute mit produktivem KI-Einsatz (Kreditscoring, Fraud, AML-Transaktionsmonitoring, KYC).
Spezifische Kontexte
Kreditscoring (EU-AI-Act-Hochrisiko Annex III Nr. 5b), Fraud-Detection, AML-Transaktionsmonitoring, KYC-Risiko-Klassifikation, ESG-Scoring.
03

Die Situation in der Kanzlei

So bringen Sie Tempo und Sorgfalt zusammen

Bank-KI-Modelle müssen geprüft werden auf: Datenbasis (BCBS 239), Trainings-Daten-Bias (Disparate-Impact-Ratio), Validierungs-Metriken (AUC, Precision, Recall, F1), Drift-Monitoring (PSI), Erklärbarkeit (SHAP, LIME), Mensch-Aufsicht-Anteil, Re-Training-Frequenz, Modell-Risiko-Inventar-Eintrag, EU-AI-Act-Klassifikation. Manueller Audit-Aufwand: 30–60 h pro Modell. Inhaltlich enthalten Audit-Berichte Trainings-Daten-Samples mit Mandanten-Bezug (Klasse A) und Mitarbeiter-Bezüge (Modell-Owner, Data-Scientist). Falsche Validierungs-Aussage gefährdet den aufsichtsrechtlichen Schutz (BaFin-Inventar, EU-AI-Act-Konformitäts-Erklärung).

04

Was Sie davon haben

Zeit, Wert, Vertraulichkeit

Zeit pro Modell-Audit

8–16 h

Pro Modell-Audit-Entwurf. Bei 5–10 KI-Modellen mit jährlicher Validierung ≈ 40–160 h p.a.

Validierungs-Dimensionen

9

Datenbasis, Bias, Metriken, Drift, XAI, Mensch-Aufsicht, Re-Training, Inventar, EU-AI-Act — keine Lücke im Validierungs-Skelett.

Vertraulichkeit

strukturell

anymize pseudonymisiert Mandanten-IDs in Trainings-Samples und Modell-Owner-Funktionen.

Schufa-EuGH-Konformität

geprüft

Der CRAFT-Prompt prüft systematisch die menschliche Aufsicht bei automatischer Ablehnung (EuGH C-634/21).

05

So gehen Sie vor

In 5 Schritten zum Antrag

1

Modell-Steckbrief erfassen: Modell-Typ, Use Case, Datenquellen, Algorithmus, Modell-Owner, letzte Validierung.

Sie

Methodik

2

Daten-Sammlung: Trainings-Doku, Validierungs-Reports, Drift-Monitoring-Stand, XAI-Beispiele, Modell-Inventar-Eintrag.

Sie + Tools

Substanz

3

Klasse-Entscheidung: Trainings-Daten-Samples = Klasse A; Modell-Owner-Name = Klasse A.

Sie

Datenschutz

4

anymize pseudonymisiert Mandanten-IDs in Trainings-Samples, Modell-Owner-Funktionen (bei kleinen Teams) und Data-Scientist-Bezüge.

anymize

§ 26 BDSG · § 43 KWG

5

LLM-Audit-Bewertung pro Validierungs-Dimension (Datenbasis, Bias, Metriken, Drift, XAI, Mensch-Aufsicht, Re-Training, Inventar, EU-AI-Act).

GPT / Claude / Gemini in anymize

Strukturierung

6

Statistische Tests gegen Validierungs-Report; Plausibilität Modell-Owner-Stellungnahme; Schufa-EuGH-Konformität bei Bonitätsbewertung.

Sie

Aufsichts-Substanz

7

Senior-Audit-Review; KI-Beauftragter-Stellungnahme; Leiter-Interne-Revision-Sign-off.

Sie

Verantwortung

8

Bei Material Change: BaFin-Inventar-Update; ggf. EU-AI-Act-Konformitäts-Erklärung-Update.

Sie

Aufsicht

06

Womit Sie arbeiten

So setzen Sie anymize konkret ein

Was anymize tut

  • Pseudonymisiert Mandanten-IDs in Trainings-Samples konsistent.
  • Erkennt Modell-Owner-Funktionen bei kleinen Teams und Data-Scientist-Bezüge.
  • Bidirektionale Re-Identifikation pro Validierungs-Dimension.
  • Verarbeitung in deutschen Rechenzentren (Hetzner); AVV nach Art. 28 DSGVO.

Was Sie als Revision tun

  • Statistische Tests gegen Validierungs-Report durchführen (KI hilft bei Synthese, nicht beim Rechnen).
  • Schufa-EuGH-Konformität bei automatischer Bonitätsbewertung explizit prüfen.
  • EU-AI-Act-Klassifikation (Annex III Nr. 5b) verifizieren.
  • KI-Beauftragter-Stellungnahme einholen; Leiter-Interne-Revision-Sign-off.

Daten-Input

Modell-Steckbrief, Trainings-Doku, Validierungs-Reports, Drift-Monitoring-Stand, XAI-Beispiele, Modell-Inventar-Eintrag, BCBS-239-Datenqualitäts-Bericht.

Output-Kontrolle

Pseudonymisierter Korpus geht an die KI. Re-identifizierte Bewertungs-Tabelle mit Status pro Validierungs-Dimension, Beobachtungen, [VERIFY: …]-Markern und Maßnahmen-Vorschlägen kommt zurück.

Freigabeprozess

Drafter → Senior → KI-Beauftragter → Leiter Interne Revision. Bei Material Change: BaFin-Inventar-Update.

07

Die KI-Anweisung

Prompt zum Kopieren

So nutzen Sie diesen Prompt:

1. Validierungs-Report, Modell-Steckbrief und Drift-Monitoring-Stand in anymize einfügen.

2. Diesen Prompt anhängen; im Thinking-Modus starten.

3. Statistische Tests menschlich gegen den Validierungs-Report prüfen; KI hilft bei der Synthese.

4. KI-Beauftragter-Stellungnahme einholen; Leiter-Interne-Revision-Sign-off.

Reasoning-Modus: Thinking-Modus; Max-Modus bei komplexen ML-Modellen mit mehreren Sub-Modellen.
# Context (C)
Du unterstuetzt einen Modell-Risiko-Audit eines produktiven Bank-KI-
Modells nach MaRisk BTR Modellrisiko und BaFin Orientierungshilfe
IKT-Risiken/KI (18.12.2025). Rechtsstand: <heutiges Datum>. Eingabe
ist pseudonymisiert; Mandanten-IDs in Trainings-Samples, Modell-
Owner-Funktion als [[Kategorie-Hash]].

# Role (R)
Du agierst als Modell-Audit-Drafting-Assistenz. Du kennst MaRisk
BTR Modellrisiko, BaFin Orientierungshilfe Dez. 2025, EU AI Act
(Annex III Nr. 5b Kreditwuerdigkeit), EuGH C-634/21 Schufa-Urteil,
BCBS 239, Validierungs-Metriken (AUC, F1, Precision, Recall,
KS-Statistik), Drift-Detection (PSI, KL-Divergenz), XAI (SHAP, LIME).

# Action (A)
Pro Validierungs-Dimension:
1. Status-Bewertung: angemessen / teilweise / nicht angemessen.
2. Beobachtungen 2–4 Saetze.
3. "[VERIFY: ...]"-Marker fuer quantitative Aussagen.
4. Bei "nicht angemessen": Finding mit Verantwortlichem (Funktion!),
   Frist, Prioritaet.

# Format (F)
Tabelle: | Dimension | Status | Beobachtungen | VERIFY | Massnahme |
Dimensionen: Datenbasis (BCBS 239) | Trainings-Daten-Bias |
Validierungs-Metriken | Drift-Monitoring | Erklaerbarkeit (XAI) |
Mensch-Aufsicht | Re-Training-Frequenz | Modell-Inventar |
EU-AI-Act-Klassifikation.

# Target Audience (T)
Senior Auditor, KI-Beauftragter, Vorstand.

# Verbote
KEINE Validierungs-Aussage ohne Bezug auf Validierungs-Report.
KEIN EU-AI-Act-Bezug ohne Klassifikations-Begruendung.
KEINE Schufa-EuGH-Konformitaets-Aussage ohne Mensch-Aufsicht-Beleg.
08

So sieht der Sachverhalt aus

Pseudonymisierter Eingabetext

Modell-Audit-Korpus nach anymize-Anonymisierung. Modell-Owner-Funktion pseudonymisiert; Validierungs-Metriken bleiben sichtbar.
Modell-Audit-Briefing — KI-Modell 'Privatkundenkredit-Scoring v3.1'
Modell-Typ: Gradient Boosting (XGBoost)
Use Case: Kreditscoring Privatkunden (EU AI Act Annex III Nr. 5b —
  Hochrisiko)
Modell-Owner: [[Mitarbeiter-a3f9]] (Leitung Credit Risk Analytics)
Letzte Validierung: 11/2025

Validierungs-Report 11/2025:
 - Datenbasis: 5,2 Mio. Kredite 2020–2024; BCBS-239-Datenqualitäts-
   Bericht vorhanden.
 - Bias-Tests: Disparate-Impact-Ratio 0,88 (>0,80 Schwelle); Gender-
   Bias akzeptabel.
 - Performance: AUC 0,87 (Test-Set), F1 0,72.
 - Drift: PSI Q3/2025 0,18 (Schwelle 0,20).
 - XAI: SHAP-Werte für jeden Score verfügbar.
 - Mensch-Aufsicht: Score <0,3 = automatische Ablehnung; >0,3 =
   Mensch-Review (98 % manuelle Bestätigung Q3/2025).

Aktuelle Beobachtungen 2026-Q1:
 - PSI Q1/2026: 0,22 (über Schwelle!); Drift-Indikator aktiv.
 - Modell-Inventar-Eintrag: vorhanden, letzte Aktualisierung 12/2025.
 - EU-AI-Act-Konformitäts-Erklärung: in Bearbeitung.
 - 14 Vorperiode-Findings: 12 geschlossen, 2 offen (Drift-Schwellen-
   Definition, XAI-User-Doku).
09

So liefert anymize zurück

Der Antrags-Entwurf

KI-Output (Beispiel). Die statistische Validierung bleibt menschlich; die KI synthetisiert die Bewertung.
| Dimension | Status | Beobachtungen | VERIFY | Maßnahme |
|---|---|---|---|---|
| Datenbasis (BCBS 239) | **angemessen** | 5,2 Mio. Kredite 2020–2024; Datenqualitäts-Bericht vorhanden | [VERIFY: BCBS-239-Vollständigkeit pro Datenfeld] | — |
| Trainings-Daten-Bias | **angemessen** | Disparate-Impact-Ratio 0,88 > Schwelle 0,80 | [VERIFY: Schwellen-Begründung gegen EU-AI-Act-Empfehlung] | — |
| Validierungs-Metriken | **angemessen** | AUC 0,87, F1 0,72 (Test-Set) | [VERIFY: Out-of-time-Validierung neben Out-of-sample] | — |
| Drift-Monitoring | **teilweise** | PSI Q1/2026 0,22 > Schwelle 0,20; Drift-Indikator aktiv | [VERIFY: Eskalations-Workflow bei Drift-Aktivierung] | Re-Training planen; Verantw. [[Mitarbeiter-a3f9]] Credit-Risk-Analytics; Frist 30.06.2026; Priorität hoch |
| Erklärbarkeit (XAI) | **angemessen** | SHAP-Werte pro Score; User-Doku in Erarbeitung | [VERIFY: User-Doku Vollständigkeit] | User-Doku finalisieren; Frist 30.06.2026; Priorität mittel |
| Mensch-Aufsicht | **angemessen** | Score-Threshold-Mechanik; 98 % manuelle Bestätigung | [VERIFY: Schufa-EuGH-Konformität bei automatischer Ablehnung Score<0,3] | Schufa-EuGH-Stellungnahme dokumentieren; Frist 31.07.2026; Priorität hoch |
| Re-Training-Frequenz | **teilweise** | Letztes Re-Training 11/2025; Drift erfordert vorgezogenes Re-Training | [VERIFY: Re-Training-Policy gegen Modell-Risk-Manual] | Re-Training-Policy bei Drift-Aktivierung verbindlich; Frist 30.06.2026; Priorität hoch |
| Modell-Inventar | **angemessen** | BaFin-Orientierungshilfe-konformer Eintrag; aktualisiert 12/2025 | [VERIFY: Konformität mit Schatten-KI-Verbot] | — |
| EU-AI-Act-Klassifikation | **teilweise** | Hochrisiko (Annex III Nr. 5b); Konformitäts-Erklärung in Bearbeitung | [VERIFY: AI Act Inkrafttreten-Stichtag gegen aktuellen Stand] | Konformitäts-Erklärung finalisieren; Verantw. KI-Beauftragter; Frist Q3/2026; Priorität hoch |

## Zusammenfassung
- 5 angemessen, 4 teilweise, 0 nicht angemessen.
- Kritisch: Drift-Aktivierung erfordert vorgezogenes Re-Training;
  Schufa-EuGH-Konformität bei automatischer Ablehnung explizit
  dokumentieren.
10

Was das Berufsrecht verlangt

Pflichten — und wie anymize sie abdeckt

MaRisk BTR Modellrisiko

Modell-Validierung und Modell-Risiko-Management sind MaRisk-Pflicht; Selbst-Validierung durch den Modell-Owner ohne unabhängige Prüfung ist unzureichend.

BaFin Orientierungshilfe IKT/KI 18.12.2025 (SRC-0119)

KI-Inventar, Lifecycle-Management, Material-Change-Doku. KI-Audit-Tool selbst ist im KI-Inventar zu führen.

EU AI Act Annex III Nr. 5b — Kreditwürdigkeit

Kreditscoring ist Hochrisiko-KI nach EU AI Act; Konformitäts-Erklärung Pflicht; Risiko-Management-System und Mensch-Aufsicht zwingend.

EuGH C-634/21 Schufa-Urteil

Automatisierte Bonitätsbewertung mit erheblicher Wirkung gegenüber dem Betroffenen ist nur mit substanzieller menschlicher Aufsicht zulässig. Die Score-Threshold-Logik (<0,3 = automatische Ablehnung) muss Schufa-EuGH-konform begründet sein.

BCBS 239 (SRC-0205)

Trainings-Daten-Qualität ist Validierungs-Grundlage; lückenhafte Daten = lückenhafte Validierung.

§ 26 BDSG (SRC-0144)

Modell-Owner- und Data-Scientist-Bezüge in Validierungs-Berichten sind Beschäftigtendaten. Pseudonymisierung bei kleinen Teams Pflicht.

11

Datenschutz und Vertraulichkeit

So funktioniert das mit anymize

Rechtsgrundlage Art. 6 Abs. 1 lit. c DSGVO i.V.m. § 25a KWG und MaRisk BTR Modellrisiko; für Mitarbeiter-Bezüge § 26 BDSG; bei Bonitäts-Modellen zusätzlich Art. 22 DSGVO (automatisierte Einzelentscheidung) und das Schufa-Urteil (EuGH C-634/21). Der EU AI Act verlangt für Hochrisiko-KI (Annex III Nr. 5b) eine Konformitäts-Erklärung. anymize läuft in deutschen Rechenzentren (Hetzner); AVV nach Art. 28 DSGVO mit Auslagerungs-Annex nach § 25b KWG.

Was anymize konkret leistet

  • Pseudonymisiert Mandanten-IDs in Trainings-Samples konsistent.
  • Erkennt Modell-Owner-Funktionen bei kleinen Teams.
  • Re-Identifikation pro Validierungs-Dimension kontrolliert.
  • Verarbeitung in deutschen Rechenzentren (Hetzner); AVV nach Art. 28 DSGVO.
12

Sicherheitscheck vor der Einreichung

Was anymize liefert — was Sie souverän entscheiden

Vor dem KI-Aufruf

  • Modell-Steckbrief vollständig?
  • Validierungs-Report aktuell?
  • Drift-Monitoring-Stand aktuell?
  • EU-AI-Act-Klassifikation dokumentiert?

Nach der KI-Antwort

  • Statistische Tests menschlich gegen Validierungs-Report geprüft?
  • Schufa-EuGH-Konformität bei automatischer Ablehnung dokumentiert?
  • Drift-Eskalations-Workflow definiert?
  • XAI-Erklärbarkeit operativ nutzbar?

Vor dem Sign-off

  • KI-Beauftragter-Stellungnahme eingeholt?
  • BaFin-Inventar-Eintrag aktualisiert?
  • Bei Material Change: EU-AI-Act-Konformitäts-Erklärung-Update?

Typische Fehlermuster — und wie anymize gegensteuert

  • KI bewertet angemessen trotz aktiver Drift-Indikator-Aktivierung — Konsistenz prüfen.
  • KI vergisst Schufa-EuGH-Konformitäts-Check bei automatischer Ablehnung.
  • KI halluziniert EU-AI-Act-Artikel-Nummer.
  • KI verzichtet auf [VERIFY: …]-Marker bei statistischen Metriken.
  • KI bewertet Bias-Test ohne Bezug auf konkrete Disparate-Impact-Ratio-Schwelle.
13

Rechtsgrundlagen

Normen, Urteile, Belege

Aufsichtsrechtliche Primärnormen

  • Modell-Validierung Pflicht (SRC-0115)
  • IKS-Letztverantwortung (SRC-0106)
  • Datenqualität (SRC-0205)
  • KI-Inventar (SRC-0119)
  • Agentic AI Schwerpunkt (SRC-0125)

EU-AI-Act und Rechtsprechung

  • Kreditwürdigkeit Hochrisiko-KI
  • Mensch-Aufsicht Bonitätsbewertung
  • Automatisierte Einzelentscheidung

Datenschutz

  • Beschäftigtendatenschutz (SRC-0144)
  • Bankgeheimnis (SRC-0109)
  • AVV (SRC-0142)

Tool-Markt

  • Audit-Plattform (SRC-0200)
  • Audit-Plattform (SRC-0200)
  • ML in Banking Supervision
  • GenAI-Audit Top-3 (SRC-0152)

Stand: · Nächste Überprüfung:

Hinweis zur Nutzung

Zur Orientierung — nicht als Mandatsersatz

Diese Anleitung beschreibt einen Arbeitsablauf, den Sie mit anymize umsetzen können. Sie ist zur Orientierung gedacht und ersetzt weder die anwaltliche Würdigung im Einzelfall noch eine fachanwaltliche Prüfung. Welche Rechtsprechung einschlägig ist, wie der Sachverhalt rechtlich zu bewerten ist, welche Anträge in Ihrem konkreten Mandat richtig sind — das bleibt selbstverständlich bei Ihnen.

KI-Outputs müssen vor jeder Verwendung anwaltlich geprüft werden. Insbesondere Urteils-Aktenzeichen, Norm-Verweise und Fristen sind gegen Primärquellen zu verifizieren. anymize gewährleistet die Vertraulichkeit der Mandantendaten gegenüber dem KI-Anbieter; die fachliche Richtigkeit des Outputs liegt in Ihrer Verantwortung.

Jetzt starten.
14 Tage kostenlos testen.

Alle Modelle. Alle Features. Keine Kreditkarte.

Wir sind überzeugt von anymize. Und wir wissen: Bei einem KI-Werkzeug, das Mandanten-, Patienten- oder Mitarbeiter-Daten berührt, reicht ein Demo-Video nicht. Deshalb 14 Tage voller Zugang – alle Modelle, alle Features, keine Kreditkarte. Genug Zeit, um sicher zu sein, bevor du uns vertraust.

Dein KI-Arbeitsplatz wartet.