Technologie

Technologie

Technologie

anymize nutzt ein dreistufiges Verfahren zur Dokumentenanonymisierung. Die Kombination aus algorithmischer Erkennung und spezialisierten Sprachmodellen ermöglicht eine präzise Identifikation personenbezogener Daten.

Aufbau

Aufbau

Aufbau

Das System verarbeitet Dokumente im Arbeitsspeicher. Originale werden nicht gespeichert. Nach der Anonymisierung existieren nur Hash-Zuordnungen für die spätere Wiederherstellung.

Das System verarbeitet Dokumente im Arbeitsspeicher. Originale werden nicht gespeichert. Nach der Anonymisierung existieren nur Hash-Zuordnungen für die spätere Wiederherstellung.

Dokumenteneingang

Dokumenteneingang

Dokumenteneingang

API oder Web

Verarbeitung

Verarbeitung

Verarbeitung

Isolierte Container

Hash-Speicher

Hash-Speicher

Hash-Speicher

Mit Kundentrennung

Ausgabe

Ausgabe

Ausgabe

Anonymisiert

Erkennungsverfahren

Musterbasierte Erkennung

Reguläre Ausdrücke und Algorithmen identifizieren strukturierte Daten:

Telefonnummern, E-Mail-Adressen

IBAN, Steuernummern

Datumsformate, Postleitzahlen

Kompaktes Sprachmodell

Ein fein abgestimmtes Modell erkennt:

Namen in verschiedenen Kontexten

Unstrukturierte Personenbezüge

Indirekte Identifikatoren

Kontextmodell

Das größere Modell prüft das Gesamtdokument:

Validierung der bisherigen Erkennungen

Kontextuelle Zusammenhänge

Versteckte Referenzen

Erkennungsverfahren

Musterbasierte Erkennung

Reguläre Ausdrücke und Algorithmen identifizieren strukturierte Daten:

Telefonnummern, E-Mail-Adressen

IBAN, Steuernummern

Datumsformate, Postleitzahlen

Kompaktes Sprachmodell

Ein fein abgestimmtes Modell erkennt:

Namen in verschiedenen Kontexten

Unstrukturierte Personenbezüge

Indirekte Identifikatoren

Kontextmodell

Das größere Modell prüft das Gesamtdokument:

Validierung der bisherigen Erkennungen

Kontextuelle Zusammenhänge

Versteckte Referenzen

Erkennungsverfahren

Musterbasierte Erkennung

Reguläre Ausdrücke und Algorithmen identifizieren strukturierte Daten:

Telefonnummern, E-Mail-Adressen

IBAN, Steuernummern

Datumsformate, Postleitzahlen

Kompaktes Sprachmodell

Ein fein abgestimmtes Modell erkennt:

Namen in verschiedenen Kontexten

Proprietäre Anonymisierungs-technologie

Indirekte Identifikatoren

Kontextmodell

Das größere Modell prüft das Gesamtdokument:

Validierung der bisherigen Erkennungen

Kontextuelle Zusammenhänge

Versteckte Referenzen

Verschlüsselung

Verschlüsselung

Verschlüsselung

• AES-256 für gespeicherte Hash-Paare
• TLS 1.3 für Übertragungen

Datentrennung

Datentrennung

Datentrennung

• Kunde A kann nicht auf Daten von Kunde B zugreifen
• Separate Verschlüsselungsschlüssel
• API-Key-basierte Authentifizierung

Löschfristen

Löschfristen

Löschfristen

• Konfigurierbar von 24 Stunden bis unbegrenzt
• Automatische Löschung nach Ablauf

Dokumentenverarbeitung

Dokumentenverar-beitung

Große Dokumente

Große Dokumente

Dokumente werden in Abschnitte aufgeteilt (Chunks). Jeder Abschnitt wird einzeln verarbeitet. Das Kontextmodell betrachtet trotzdem das gesamte Dokument.

Dokumente werden in Abschnitte aufgeteilt (Chunks). Jeder Abschnitt wird einzeln verarbeitet. Das Kontextmodell betrachtet trotzdem das gesamte Dokument.

Unterstützte Formate

Unterstützte Formate

PDF (auch gescannt)

PDF (auch gescannt)

Word, Excel

Bilder (JPG, PNG)

Bilder (JPG, PNG)

Reiner Text

Reiner Text

Fehlerbehandlung

Fehlerbehandlung

Bei Verarbeitungsfehlern erhalten Sie eine detaillierte Fehlermeldung. Teilweise verarbeitete Dokumente werden verworfen.

Bei Verarbeitungsfehlern erhalten Sie eine detaillierte Fehlermeldung. Teilweise verarbeitete Dokumente werden verworfen.

Technische Grundlagen

Wir nutzen etablierte Komponenten:

Wir nutzen etablierte Komponenten:

Wir nutzen etablierte Komponenten:

• Moderne Sprachmodelle (fein abgestimmt für Datenschutz)
• Standard-OCR für Texterkennung
• Bewährte Verschlüsselungsverfahren

Die Einzigartigkeit entsteht durch:

Die Einzigartigkeit entsteht durch:

Die Einzigartigkeit entsteht durch:

• Spezifisches Training der Modelle
• Kombination der drei Erkennungsstufen
• Integration mit LLM-Instruktionen

API

API

API

Integration

Die API verwendet JSON über HTTPS mit Bearer Token Authentifizierung.

Detaillierte Dokumentation und Endpunkte finden Sie in unserer API-Dokumentation.

Features

• Synchrone und asynchrone Verarbeitung
• Webhook-Benachrichtigungen
• Fair Use Rate Limiting
• Umfassende Fehlerbehandlung

Häufige technische Fragen

Häufige technische Fragen

Wie lange dauert die Verarbeitung?

Abhängig von Dokumentengröße und Auslastung. Die API gibt Statusinformationen zurück.

Gibt es Größenlimits?

Welche Sprachen werden unterstützt?

Kann ich eigene Erkennungsregeln definieren?

Wie lange dauert die Verarbeitung?

Abhängig von Dokumentengröße und Auslastung. Die API gibt Statusinformationen zurück.

Gibt es Größenlimits?

Welche Sprachen werden unterstützt?

Kann ich eigene Erkennungsregeln definieren?

Wie lange dauert die Verarbeitung?

Abhängig von Dokumentengröße und Auslastung. Die API gibt Statusinformationen zurück.

Gibt es Größenlimits?

Welche Sprachen werden unterstützt?

Kann ich eigene Erkennungsregeln definieren?