KI-Erkennung
in drei Stufen.

Nicht ein Modell. Eine Pipeline.

Personenbezogene Daten zuverlässig erkennen klingt einfach – ist es aber nicht. Namen können auch Eigenschaftsworte sein, Adressen tauchen in Fließtext auf, Aktenzeichen folgen keinem universellen Muster. anymize löst das mit einer dreistufigen Pipeline: algorithmische Vor-Erkennung, ein eigenes feingetuntes Klein-Modell, und ein größeres Modell zur Nachverifikation. Zusammen über 95 % Erkennungsrate auf deutschsprachigen Dokumenten – mit voller Transparenz, was wo erkannt wurde.

Die drei Stufen

Von 60 % zu 95 %.
In drei Durchläufen.

Ein einzelnes Modell würde entweder zu viel falsch-positiv erkennen (dann wird dein Vertrag zu einer Wüste aus Platzhaltern) oder zu viel übersehen (dann landen sensible Daten bei externen Modellen). Die Kunst: drei spezialisierte Schichten, jede überprüft und korrigiert die vorherige.

Stage01

Algorithmische Erkennung

Schnell. Deterministisch. Kostenneutral.

Reguläre Ausdrücke, Named-Entity-Wörterbücher, Format-Validatoren (IBAN-Prüfsummen, Personalausweis-Strukturen, Telefonnummern-Patterns). Erfasst rund 60 bis 70 Prozent der personenbezogenen Daten in typischen Dokumenten – alles, was klar strukturiert ist.

0 %60 – 70 %100 %
Stärken

Sehr schnell, kostenneutral, hundertprozentig reproduzierbar.

Grenzen

Namen und kontextabhängige Entitäten werden verfehlt, weil Regex keine Semantik kennt.

Stage02

Eigenes Fine-Tuning-Modell

Semantisch. Iterativ. Deutsche Fachdomänen.

Ein kleines, auf PII-Erkennung spezialisiertes Sprach-Modell, das wir auf deutschsprachigen Fachtexten nachtrainiert haben (juristisch, medizinisch, kaufmännisch). Es läuft in mehreren Iterationen über das Dokument und identifiziert alles, was Stufe 1 verfehlt hat: kontextabhängige Namen („Dr. Weber hat entschieden …“), Aktenzeichen mit untypischer Form, eingebettete Diagnose-Kürzel, Organisationen.

0 %+ 10 – 15 %100 %
Stärken

Versteht Semantik und Kontext, lernt aus deutschen Fachdomänen.

Grenzen

Nicht perfekt – einzelne seltene Fälle rutschen durch.

Stage03

Prompt-basierte Nachverifikation

Reasoning-Layer. Sieht das ganze Bild.

Ein größeres Modell übernimmt die dritte und letzte Instanz: Es bekommt das Dokument plus die Markierungen aus Stufe 1 und 2 und prüft per strukturiertem Prompt, ob etwas fehlt oder falsch markiert ist. Fängt die Fälle ab, die den feinkörnigeren Stufen entgangen sind – und räumt false positives auf, bevor sie den Textfluss stören.

0 %+ 13 – 30 %100 %
Stärken

Sieht das ganze Bild, kann reasoning-basiert entscheiden.

Grenzen

Rechenintensiver – deshalb als letzte Stufe und nicht als einziger Schritt.

Das Ergebnis

> 95 %

Erkennungsrate

Die Kombination der drei Stufen liefert in der Praxis eine Erkennungsrate von über 95 % auf deutschsprachigen Dokumenten – deutlich mehr, als jede einzelne Stufe für sich. Und gleichzeitig weniger false positives, weil jede Schicht die vorherige validiert.

Warum nicht gleich ein einziges, großes Modell?

  • Geschwindigkeit. Stufe 1 erledigt den Großteil in Millisekunden – das große Modell läuft nur auf den noch offenen Fällen.

  • Erklärbarkeit. Wir können zeigen, in welcher Stufe welches Ergebnis entstand. Das ist bei Audits wichtig.

Über 40 Kategorien

Was wir
erkennen.

Die Kategorien-Abdeckung wächst kontinuierlich. Aktuell erkennt anymize mehr als 40 Klassen personenbezogener und geschäftssensibler Daten, gegliedert in fünf Gruppen.

01

Identifikatoren

  • Namen (Vorname, Nachname, Titel)
  • E-Mail-Adressen
  • Telefonnummern
  • Adressen (Straße, PLZ, Stadt)
  • Organisationen
  • Geburtsdaten
02

Behörden- und Vertragskennzeichen

  • Steuer-IDs
  • Sozialversicherungs- und Rentenversicherungsnummern
  • Personal-, Reisepass-, Führerscheinnummern
  • KFZ-Kennzeichen
  • Aktenzeichen, Vertrags-IDs
03

Finanzdaten

  • IBANs (mit Prüfsummen-Validierung)
  • BICs
  • Kreditkartennummern
  • Kontonummern
  • Steuernummern
04

Branchen-spezifische Kennzeichen

  • Mandats- und Versicherungsnummern
  • Schadennummern
  • Patienten-IDs
  • ICD-Diagnose-Codes (in Vorbereitung)
  • Patent-Registrierungen (in Vorbereitung)
05

Kontextdaten

  • Krankheitsbilder, medizinische Fachbegriffe
  • Branchenspezifisches Vokabular (wenn als sensibel markiert)
  • Geo-Referenzen in Kombination

Warum nicht Regex?

Klassische Ansätze
im Realitäts-Test.

Viele PII-Tools am Markt arbeiten rein regelbasiert – mit regulären Ausdrücken und statischen Wörterbüchern. Das funktioniert bei klar strukturierten Daten (IBAN, Telefonnummer), aber scheitert an dem, was den Großteil sensibler Inhalte ausmacht: freier Text mit Kontext.

„Frau Weber unterschreibt am Montag.“

Regex

Erkennt „Weber“ nur, wenn im Dictionary – sonst: Miss.

anymize

Erkennt den Kontext „Frau + Nachname“ und markiert sicher.

„Der Mandant, Herr Schmidt aus Mainz, …“

Regex

Erkennt „Schmidt“ eventuell, aber nicht den Zusammenhang mit „Mandant“.

anymize

Erkennt den Klientel-Bezug und markiert vollständig.

„Anton“ (als Vorname) vs. „Hotel Anton“

Regex

Kann nicht unterscheiden – entweder beides anonymisieren (false positive) oder gar nichts (miss).

anymize

Trifft kontextgestützte Entscheidung.

Die Konsequenz

Regex-Systeme kommen selten über 70–80 % Erkennung – und produzieren entweder viele false positives (das anonymisierte Dokument ist unleserlich) oder zu viele misses (sensible Daten landen doch beim externen Modell). Beides ist im Compliance-Kontext inakzeptabel.

anymize nutzt Regex als erste Stufe – weil sie schnell und deterministisch ist – und ergänzt sie mit zwei KI-Schichten, die genau dort greifen, wo Regex versagt. Das ist der Grund für die über 95 % Erkennungsrate.

Sprachen & Kontext

Fünf Sprachen,
viele Domänen.

Deutsch hat die höchste Erkennungsqualität, weil unser Fine-Tuning-Modell explizit auf deutschen Fachtexten trainiert wird. Für die übrigen Sprachen liegt die Rate typischerweise im Bereich von 88–93 % – je nach Domäne und Dokumentstruktur.

Unterstützte Sprachen
  • Primärer Trainingsfokus
    DE

    Deutsch

    Zielwert > 95 %

  • EN

    Englisch

    88–93 %

  • FR

    Französisch

    88–93 %

  • ES

    Spanisch

    88–93 %

  • IT

    Italienisch

    88–93 %

Domänen-Abdeckung

Das Fine-Tuning-Dataset umfasst drei Fachdomänen mit hohem Anforderungsprofil:

Juristisch

Schriftsätze, Verträge, Gerichtsentscheidungen, Rechtsprechungs-Datenbanken.

Medizinisch

Behandlungsleitlinien, Befunde, Fachpublikationen, Therapiedokumentation.

Kaufmännisch

Jahresabschlüsse, Verträge, Steuerliteratur, betriebswirtschaftliches Vokabular.

Für andere Domänen (z. B. Engineering, Architektur, spezialisierte Wissenschaften) erreicht das System weiterhin die beworbene Rate – weil die Basis-Modelle generalistisch gut sind – zeigt aber weniger Domänen-spezifische Finesse. Für Hochspezial-Domänen bieten wir im Enterprise-Plan individuell feingetunte Modelle an.

Transparenz

Die Vier-Augen-Kontrolle
eingebaut.

Eine Erkennungsrate von „über 95 %“ heißt: In fünf von hundert Fällen kann etwas durchrutschen. Für compliance-kritische Prozesse ist das zu viel – deshalb baut anymize Transparenz fest in den Workflow ein.

A

Vor dem Senden: die Review-Ansicht

Vor jeder Anfrage an ein externes Modell siehst du im Interface, was erkannt wurde und was nicht. Hervorhebungen im Originaltext, Kategorien pro Fund, Anzahl pro Kategorie. Wenn dir etwas Wichtiges fehlt, markierst du es manuell nach. Wenn etwas zu viel markiert wurde, korrigierst du es ebenfalls – und die KI merkt sich das für deinen Workspace.

B

Der 12-Sekunden-Countdown (erzwingbar)

Admins können einen Review-Countdown vor jedem Senden erzwingen: Das Interface zeigt die anonymisierte Version, läuft 12 Sekunden, dann geht sie raus. Der Nutzer hat Zeit zu überprüfen und abzubrechen. Für vollständig wachsame Nutzung.

C

Audit-Log

Jede Erkennung (was, wann, welches Modell, welche Stufe) wird im Audit-Log festgehalten. Für Compliance-Nachweise und interne Qualitätssicherung.

Roadmap

Woran wir gerade
arbeiten.

Erkennung personenbezogener Daten ist kein gelöstes Problem – drei aktuelle Entwicklungslinien zeigen, wohin die Reise geht.

01In Entwicklung

Mittelbare personenbezogene Daten

Ein Satz wie „Der Bürgermeister von Stadt X hat entschieden …“ enthält keinen Namen, aber eine Person ist eindeutig identifizierbar. Die DSGVO behandelt solche Angaben als personenbezogen (Erwägungsgrund 26). Wir entwickeln eine Kombinations-Analyse, die solche identifizierenden Kontexte erkennt – Rolle + Ort, Funktion + Organisation, einzigartige Eigenschaften.

02In Arbeit

Geschäftsgeheimnisse, Patente, Formeln

Personenbezogene Daten sind nicht das einzige Schutzgut. Unternehmen haben genauso Interesse daran, dass Patent-Ideen, chemische Formeln, Produkt-Prototypen und Betriebsabläufe nicht ungewollt an ein externes Modell gelangen. Wir erweitern die Erkennung um Kategorien für diese Inhalte – als optionaler Layer über der PII-Erkennung.

03Enterprise

Individuell feingetunte Modelle

Jedes Unternehmen hat eigene Begriffe, Kürzel, Produkt-Codes, die als sensibel gelten sollen. Im Enterprise-Plan bieten wir an, ein individuelles Fine-Tuning auf deine Betriebsgeheimnisse zu setzen – das Erkennungs-Modell lernt deine Firmenspezifika und markiert sie zusätzlich zu den Standard-Kategorien. Interessenten sprechen uns direkt an.

Für wen

Wer von präziser Erkennung
besonders profitiert.

Für alle diese Kontexte gilt: Regex reicht nicht. Menschliche Nach-Redaktion dauert Stunden. KI-basierte Erkennung auf dem Stand eines dreistufigen Systems ist die einzige praktikable Antwort.

Rechtsanwältinnen und Anwälte

Mandantenname im Fließtext, Aktenzeichen in untypischer Form, mittelbare Hinweise im Schriftsatz.

Ärztinnen und Ärzte

Patientenname in Befundtext, medizinische Fachsprache mit Personenbezug, Diagnose-Kombinationen.

Versicherungen

Schadenmeldungen mit gemischtem Format, Beschreibungen mit mittelbaren Identifikatoren.

HR-Abteilungen

Bewerbungen mit narrativer Struktur (keine Formulare), Arbeitszeugnisse.

Beratungen

Interview-Transkripte, Research-Notizen, frei formulierte Due-Diligence-Berichte.

Öffentliche Verwaltung

Bürgerdaten in Prosa-Bescheiden, Sozialdaten mit mittelbaren Hinweisen.

Was du über die Erkennung wissen solltest.

Häufige Fragen

Drei Gründe: (1) Geschwindigkeit – Stufe 1 (Regex) erfasst den Großteil in Millisekunden, das große Modell läuft nur auf den noch offenen Fällen. (2) Kosten – reine Prompt-Erkennung auf einem großen Modell wäre pro Dokument um ein Vielfaches teurer. (3) Erklärbarkeit – für Audits können wir zeigen, in welcher Stufe welche Entität erkannt wurde, mit welcher Begründung.

Jetzt starten.
14 Tage kostenlos testen.

Alle Modelle. Alle Features. Keine Kreditkarte.

Wir sind überzeugt von anymize. Und wir wissen: Bei einem KI-Werkzeug, das Mandanten-, Patienten- oder Mitarbeiter-Daten berührt, reicht ein Demo-Video nicht. Deshalb 14 Tage voller Zugang – alle Modelle, alle Features, keine Kreditkarte. Genug Zeit, um sicher zu sein, bevor du uns vertraust.

Dein KI-Arbeitsplatz wartet.