KI-Erkennung
in drei Stufen.
Nicht ein Modell. Eine Pipeline.
Personenbezogene Daten zuverlässig erkennen klingt einfach – ist es aber nicht. Namen können auch Eigenschaftsworte sein, Adressen tauchen in Fließtext auf, Aktenzeichen folgen keinem universellen Muster. anymize löst das mit einer dreistufigen Pipeline: algorithmische Vor-Erkennung, ein eigenes feingetuntes Klein-Modell, und ein größeres Modell zur Nachverifikation. Zusammen über 95 % Erkennungsrate auf deutschsprachigen Dokumenten – mit voller Transparenz, was wo erkannt wurde.
Die drei Stufen
Von 60 % zu 95 %.
In drei Durchläufen.
Ein einzelnes Modell würde entweder zu viel falsch-positiv erkennen (dann wird dein Vertrag zu einer Wüste aus Platzhaltern) oder zu viel übersehen (dann landen sensible Daten bei externen Modellen). Die Kunst: drei spezialisierte Schichten, jede überprüft und korrigiert die vorherige.
Algorithmische Erkennung
Schnell. Deterministisch. Kostenneutral.
Reguläre Ausdrücke, Named-Entity-Wörterbücher, Format-Validatoren (IBAN-Prüfsummen, Personalausweis-Strukturen, Telefonnummern-Patterns). Erfasst rund 60 bis 70 Prozent der personenbezogenen Daten in typischen Dokumenten – alles, was klar strukturiert ist.
Sehr schnell, kostenneutral, hundertprozentig reproduzierbar.
Namen und kontextabhängige Entitäten werden verfehlt, weil Regex keine Semantik kennt.
Eigenes Fine-Tuning-Modell
Semantisch. Iterativ. Deutsche Fachdomänen.
Ein kleines, auf PII-Erkennung spezialisiertes Sprach-Modell, das wir auf deutschsprachigen Fachtexten nachtrainiert haben (juristisch, medizinisch, kaufmännisch). Es läuft in mehreren Iterationen über das Dokument und identifiziert alles, was Stufe 1 verfehlt hat: kontextabhängige Namen („Dr. Weber hat entschieden …“), Aktenzeichen mit untypischer Form, eingebettete Diagnose-Kürzel, Organisationen.
Versteht Semantik und Kontext, lernt aus deutschen Fachdomänen.
Nicht perfekt – einzelne seltene Fälle rutschen durch.
Prompt-basierte Nachverifikation
Reasoning-Layer. Sieht das ganze Bild.
Ein größeres Modell übernimmt die dritte und letzte Instanz: Es bekommt das Dokument plus die Markierungen aus Stufe 1 und 2 und prüft per strukturiertem Prompt, ob etwas fehlt oder falsch markiert ist. Fängt die Fälle ab, die den feinkörnigeren Stufen entgangen sind – und räumt false positives auf, bevor sie den Textfluss stören.
Sieht das ganze Bild, kann reasoning-basiert entscheiden.
Rechenintensiver – deshalb als letzte Stufe und nicht als einziger Schritt.
Das Ergebnis
Erkennungsrate
Die Kombination der drei Stufen liefert in der Praxis eine Erkennungsrate von über 95 % auf deutschsprachigen Dokumenten – deutlich mehr, als jede einzelne Stufe für sich. Und gleichzeitig weniger false positives, weil jede Schicht die vorherige validiert.
Warum nicht gleich ein einziges, großes Modell?
Geschwindigkeit. Stufe 1 erledigt den Großteil in Millisekunden – das große Modell läuft nur auf den noch offenen Fällen.
Erklärbarkeit. Wir können zeigen, in welcher Stufe welches Ergebnis entstand. Das ist bei Audits wichtig.
Über 40 Kategorien
Was wir
erkennen.
Die Kategorien-Abdeckung wächst kontinuierlich. Aktuell erkennt anymize mehr als 40 Klassen personenbezogener und geschäftssensibler Daten, gegliedert in fünf Gruppen.
Identifikatoren
- Namen (Vorname, Nachname, Titel)
- E-Mail-Adressen
- Telefonnummern
- Adressen (Straße, PLZ, Stadt)
- Organisationen
- Geburtsdaten
Behörden- und Vertragskennzeichen
- Steuer-IDs
- Sozialversicherungs- und Rentenversicherungsnummern
- Personal-, Reisepass-, Führerscheinnummern
- KFZ-Kennzeichen
- Aktenzeichen, Vertrags-IDs
Finanzdaten
- IBANs (mit Prüfsummen-Validierung)
- BICs
- Kreditkartennummern
- Kontonummern
- Steuernummern
Branchen-spezifische Kennzeichen
- Mandats- und Versicherungsnummern
- Schadennummern
- Patienten-IDs
- ICD-Diagnose-Codes (in Vorbereitung)
- Patent-Registrierungen (in Vorbereitung)
Kontextdaten
- Krankheitsbilder, medizinische Fachbegriffe
- Branchenspezifisches Vokabular (wenn als sensibel markiert)
- Geo-Referenzen in Kombination
Warum nicht Regex?
Klassische Ansätze
im Realitäts-Test.
Viele PII-Tools am Markt arbeiten rein regelbasiert – mit regulären Ausdrücken und statischen Wörterbüchern. Das funktioniert bei klar strukturierten Daten (IBAN, Telefonnummer), aber scheitert an dem, was den Großteil sensibler Inhalte ausmacht: freier Text mit Kontext.
„Frau Weber unterschreibt am Montag.“
Erkennt „Weber“ nur, wenn im Dictionary – sonst: Miss.
Erkennt den Kontext „Frau + Nachname“ und markiert sicher.
„Der Mandant, Herr Schmidt aus Mainz, …“
Erkennt „Schmidt“ eventuell, aber nicht den Zusammenhang mit „Mandant“.
Erkennt den Klientel-Bezug und markiert vollständig.
„Anton“ (als Vorname) vs. „Hotel Anton“
Kann nicht unterscheiden – entweder beides anonymisieren (false positive) oder gar nichts (miss).
Trifft kontextgestützte Entscheidung.
Die Konsequenz
Regex-Systeme kommen selten über 70–80 % Erkennung – und produzieren entweder viele false positives (das anonymisierte Dokument ist unleserlich) oder zu viele misses (sensible Daten landen doch beim externen Modell). Beides ist im Compliance-Kontext inakzeptabel.
anymize nutzt Regex als erste Stufe – weil sie schnell und deterministisch ist – und ergänzt sie mit zwei KI-Schichten, die genau dort greifen, wo Regex versagt. Das ist der Grund für die über 95 % Erkennungsrate.
Sprachen & Kontext
Fünf Sprachen,
viele Domänen.
Deutsch hat die höchste Erkennungsqualität, weil unser Fine-Tuning-Modell explizit auf deutschen Fachtexten trainiert wird. Für die übrigen Sprachen liegt die Rate typischerweise im Bereich von 88–93 % – je nach Domäne und Dokumentstruktur.
- Primärer TrainingsfokusDE
Deutsch
Zielwert > 95 %
- EN
Englisch
88–93 %
- FR
Französisch
88–93 %
- ES
Spanisch
88–93 %
- IT
Italienisch
88–93 %
Domänen-Abdeckung
Das Fine-Tuning-Dataset umfasst drei Fachdomänen mit hohem Anforderungsprofil:
Juristisch
Schriftsätze, Verträge, Gerichtsentscheidungen, Rechtsprechungs-Datenbanken.
Medizinisch
Behandlungsleitlinien, Befunde, Fachpublikationen, Therapiedokumentation.
Kaufmännisch
Jahresabschlüsse, Verträge, Steuerliteratur, betriebswirtschaftliches Vokabular.
Für andere Domänen (z. B. Engineering, Architektur, spezialisierte Wissenschaften) erreicht das System weiterhin die beworbene Rate – weil die Basis-Modelle generalistisch gut sind – zeigt aber weniger Domänen-spezifische Finesse. Für Hochspezial-Domänen bieten wir im Enterprise-Plan individuell feingetunte Modelle an.
Transparenz
Die Vier-Augen-Kontrolle
eingebaut.
Eine Erkennungsrate von „über 95 %“ heißt: In fünf von hundert Fällen kann etwas durchrutschen. Für compliance-kritische Prozesse ist das zu viel – deshalb baut anymize Transparenz fest in den Workflow ein.
Vor dem Senden: die Review-Ansicht
Vor jeder Anfrage an ein externes Modell siehst du im Interface, was erkannt wurde und was nicht. Hervorhebungen im Originaltext, Kategorien pro Fund, Anzahl pro Kategorie. Wenn dir etwas Wichtiges fehlt, markierst du es manuell nach. Wenn etwas zu viel markiert wurde, korrigierst du es ebenfalls – und die KI merkt sich das für deinen Workspace.
Der 12-Sekunden-Countdown (erzwingbar)
Admins können einen Review-Countdown vor jedem Senden erzwingen: Das Interface zeigt die anonymisierte Version, läuft 12 Sekunden, dann geht sie raus. Der Nutzer hat Zeit zu überprüfen und abzubrechen. Für vollständig wachsame Nutzung.
Audit-Log
Jede Erkennung (was, wann, welches Modell, welche Stufe) wird im Audit-Log festgehalten. Für Compliance-Nachweise und interne Qualitätssicherung.
Roadmap
Woran wir gerade
arbeiten.
Erkennung personenbezogener Daten ist kein gelöstes Problem – drei aktuelle Entwicklungslinien zeigen, wohin die Reise geht.
Mittelbare personenbezogene Daten
Ein Satz wie „Der Bürgermeister von Stadt X hat entschieden …“ enthält keinen Namen, aber eine Person ist eindeutig identifizierbar. Die DSGVO behandelt solche Angaben als personenbezogen (Erwägungsgrund 26). Wir entwickeln eine Kombinations-Analyse, die solche identifizierenden Kontexte erkennt – Rolle + Ort, Funktion + Organisation, einzigartige Eigenschaften.
Geschäftsgeheimnisse, Patente, Formeln
Personenbezogene Daten sind nicht das einzige Schutzgut. Unternehmen haben genauso Interesse daran, dass Patent-Ideen, chemische Formeln, Produkt-Prototypen und Betriebsabläufe nicht ungewollt an ein externes Modell gelangen. Wir erweitern die Erkennung um Kategorien für diese Inhalte – als optionaler Layer über der PII-Erkennung.
Individuell feingetunte Modelle
Jedes Unternehmen hat eigene Begriffe, Kürzel, Produkt-Codes, die als sensibel gelten sollen. Im Enterprise-Plan bieten wir an, ein individuelles Fine-Tuning auf deine Betriebsgeheimnisse zu setzen – das Erkennungs-Modell lernt deine Firmenspezifika und markiert sie zusätzlich zu den Standard-Kategorien. Interessenten sprechen uns direkt an.
Für wen
Wer von präziser Erkennung
besonders profitiert.
Für alle diese Kontexte gilt: Regex reicht nicht. Menschliche Nach-Redaktion dauert Stunden. KI-basierte Erkennung auf dem Stand eines dreistufigen Systems ist die einzige praktikable Antwort.
Mandantenname im Fließtext, Aktenzeichen in untypischer Form, mittelbare Hinweise im Schriftsatz.
Patientenname in Befundtext, medizinische Fachsprache mit Personenbezug, Diagnose-Kombinationen.
Schadenmeldungen mit gemischtem Format, Beschreibungen mit mittelbaren Identifikatoren.
Bewerbungen mit narrativer Struktur (keine Formulare), Arbeitszeugnisse.
Interview-Transkripte, Research-Notizen, frei formulierte Due-Diligence-Berichte.
Bürgerdaten in Prosa-Bescheiden, Sozialdaten mit mittelbaren Hinweisen.
Was du über die Erkennung wissen solltest.
Häufige Fragen
Drei Gründe: (1) Geschwindigkeit – Stufe 1 (Regex) erfasst den Großteil in Millisekunden, das große Modell läuft nur auf den noch offenen Fällen. (2) Kosten – reine Prompt-Erkennung auf einem großen Modell wäre pro Dokument um ein Vielfaches teurer. (3) Erklärbarkeit – für Audits können wir zeigen, in welcher Stufe welche Entität erkannt wurde, mit welcher Begründung.
Jetzt starten.
14 Tage kostenlos testen.
Alle Modelle. Alle Features. Keine Kreditkarte.
Wir sind überzeugt von anymize. Und wir wissen: Bei einem KI-Werkzeug, das Mandanten-, Patienten- oder Mitarbeiter-Daten berührt, reicht ein Demo-Video nicht. Deshalb 14 Tage voller Zugang – alle Modelle, alle Features, keine Kreditkarte. Genug Zeit, um sicher zu sein, bevor du uns vertraust.
Dein KI-Arbeitsplatz wartet.