Why three stages instead of a single large model?

Three reasons: (1) Speed – stage 1 (regex) catches the bulk in milliseconds, the large model only runs on the remaining open cases. (2) Cost – pure prompt-based detection on a large model would be many times more expensive per document. (3) Explainability – for audits we can show in which stage each entity was detected, with which reasoning.

How did you arrive at “over 95 %” detection rate?

Validated internally on curated German-language expert-text corpora with manual ground-truth annotation. The value is a target, not a guarantee level – depending on document type and language, the rate may be higher or lower. For compliance-critical processes, we additionally recommend the four-eyes control before sending.

Which languages are supported?

German (highest quality, primary training focus), English, French, Spanish, Italian. Mixed-language documents are recognized without manual switching.

Is indirectly personal data also detected?

Currently with limitations. Pure name and ID detection works reliably, but indirect identification (e.g. “the mayor of city X”) is a research area we're working on. We're extending detection with a combination analysis that catches such contextual identifiers. In the Enterprise plan we can grant early access on request.

Can trade secrets be detected as well?

In progress. We're extending the detection system with optionally enabled layers for patents, formulas, product codes and internal process descriptions. For Enterprise customers we also offer individual fine-tuning – the model learns your company-specific sensitive terms.

What happens to false positives (over-marked)?

In the review view before sending, you can undo markings – the corresponding entry is then marked as a false positive, and the feedback loop improves the model for your workspace. This is in addition to the global training loop.

What happens to misses (under-marked)?

In the review view you can manually add markings. These corrections also feed into quality assurance. The optional 12-second review countdown (enforceable at the admin level) prevents a miss from slipping through unnoticed.

How does this compare to AWS Comprehend, Azure PII Detection, Google DLP?

The cloud-native PII tools of US hyperscalers are optimized for English standard formats – credit cards, SSN, US addresses. For European professional texts – case numbers, IBANs, lawyer-confidentiality contexts (e.g. § 43e BRAO in Germany), medical terminology – their detection rate is noticeably below specialized systems like anymize. Added to that: the tools themselves are cloud services in the US – you merely shift the privacy problem instead of solving it.

Can I add my own categories?

In the Enterprise plan, yes. Alongside standard categories, you can define company-specific markers (e.g. internal project codes, customer keys, product variants). These are treated like PII and anonymized before the document goes to an external model.

AI detection
in three stages.

Ikke én modell. En pipeline.

Å oppdage personopplysninger pålitelig høres enkelt ut – men det er det ikke. Navn kan også være adjektiver, adresser dukker opp i løpende tekst, saksnumre følger ikke noe universelt mønster. anymize løser dette med en tretrinns pipeline: algoritmisk forhåndsdeteksjon, vår egen finjusterte lille modell, og en større modell for etterverifisering. Til sammen over 95 % deteksjonsrate på tyskspråklige dokumenter – med full åpenhet om hva som ble oppdaget hvor.

De tre trinnene Kom i gang gratis

De tre trinnene

Fra 60 % til 95 %.
På tre gjennomkjøringer.

En enkelt modell ville enten gi for mange falske positiver (og kontrakten din blir en ørken av plassholdere) eller overse for mye (og sensitive data havner hos eksterne modeller). Kunsten: tre spesialiserte lag, der hvert lag verifiserer og korrigerer det forrige.

Stage01

Algoritmisk gjenkjenning

Raskt. Deterministisk. Kostnadsnøytralt.

Regulære uttrykk, ordbøker for navngitte enheter, formatvalidatorer (IBAN-kontrollsummer, ID-kortstrukturer, telefonnummermønstre). Fanger opp rundt 60 til 70 prosent av persondataene i typiske dokumenter – alt som er klart strukturert.

0 %60 – 70 %100 %

Styrker

Svært raskt, kostnadsnøytralt, hundre prosent reproduserbart.

Grenser

Navn og kontekstavhengige enheter glipper, fordi regex ikke kjenner semantikk.

Stage02

Vår egen finjusteringsmodell

Semantisk. Iterativ. Tyske fagdomener.

En liten språkmodell spesialisert på PII-gjenkjenning, ettertrent på tyskspråklige fagtekster (juridiske, medisinske, kommersielle). Den kjører flere iterasjoner over dokumentet og identifiserer alt trinn 1 overså: kontekstavhengige navn (“Dr. Berg bestemte …”), saksnummer med atypisk form, innebygde diagnosekoder, organisasjoner.

0 %+ 10 – 15 %100 %

Styrker

Forstår semantikk og kontekst, lærer fra tyske fagdomener.

Grenser

Ikke perfekt – noen få sjeldne tilfeller glipper.

Stage03

Promptbasert etterverifisering

Resonneringslag. Ser hele bildet.

En større modell tar den tredje og siste gjennomkjøringen: den mottar dokumentet pluss markeringene fra trinn 1 og 2 og sjekker via en strukturert prompt om noe mangler eller er feilmarkert. Fanger opp tilfeller som unnslapp de mer finkornede trinnene – og rydder opp i falske positiver før de forstyrrer tekstflyten.

0 %+ 13 – 30 %100 %

Styrker

Ser hele bildet, kan ta avgjørelser basert på resonnement.

Grenser

Mer beregningskrevende – derfor er det siste trinn og ikke det eneste steget.

Resultatet

> 95 %

gjenkjenningsrate

I praksis gir kombinasjonen av de tre trinnene en gjenkjenningsrate på over 95 % på tyskspråklige dokumenter – betydelig mer enn noe enkelt trinn alene. Og samtidig færre falske positiver, fordi hvert lag validerer det forrige.

Hvorfor ikke bare én eneste, stor modell?

Hastighet. Trinn 1 håndterer mesteparten på millisekunder – den store modellen kjører kun på de gjenværende åpne tilfellene.
Forklarbarhet. Vi kan vise i hvilket trinn hvert resultat oppstod. Det er viktig ved revisjoner.

Mer enn 40 kategorier

Det vi
oppdager.

Kategoridekningen vokser kontinuerlig. I dag oppdager anymize mer enn 40 klasser av personlige og forretningssensitive data, gruppert i fem familier.

Identifikatorer

Navn (fornavn, etternavn, tittel)
E-postadresser
Telefonnumre
Adresser (gate, postnummer, by)
Organisasjoner
Fødselsdatoer

Offentlige ID-er og avtale-ID-er

Skatte-ID-er
Trygde- og pensjonsforsikringsnumre
ID-, pass- og førerkortnumre
Bilskilt
Saksnumre, avtale-ID-er

Finansielle data

IBAN-er (med kontrollsumvalidering)
BIC-er
Kredittkortnumre
Kontonumre
Skattenumre

Bransjespesifikke identifikatorer

Mandat- og forsikringsnumre
Skadenumre
Pasient-ID-er
ICD-diagnosekoder (under utarbeidelse)
Patentregistreringer (under utarbeidelse)

Kontekstuelle data

Sykdommer og medisinsk terminologi
Bransjespesifikt vokabular (når merket som sensitivt)
Geo-referanser i kombinasjon

Full liste med plassholderformater

Hvorfor ikke regex?

Klassiske tilnærminger
i virkelighetstesten.

Mange PII-verktøy på markedet er rent regelbaserte – med regulære uttrykk og statiske ordbøker. Det fungerer for klart strukturerte data (IBAN, telefonnummer), men feiler på det som utgjør hovedtyngden av sensitivt innhold: fritekst med kontekst.

Eksempel	Regex-system	KI-gjenkjenning
“Fru Olsen signerer på mandag.”	Fanger “Olsen” kun hvis det er i ordboken – ellers: bom.	Gjenkjenner konteksten “Fru + etternavn” og markerer sikkert.
“Klienten, herr Hansen fra Bergen, …”	Fanger kanskje “Hansen”, men ikke sammenhengen med “klient”.	Gjenkjenner klientforholdet og markerer fullstendig.
“Anton” (som fornavn) vs. “Hotel Anton”	Kan ikke skille – enten anonymisere begge (falsk positiv) eller ingen av dem (bom).	Tar en kontekstbevisst avgjørelse.

“Fru Olsen signerer på mandag.”

Regex

Fanger “Olsen” kun hvis det er i ordboken – ellers: bom.

anymize

Gjenkjenner konteksten “Fru + etternavn” og markerer sikkert.

“Klienten, herr Hansen fra Bergen, …”

Regex

Fanger kanskje “Hansen”, men ikke sammenhengen med “klient”.

anymize

Gjenkjenner klientforholdet og markerer fullstendig.

“Anton” (som fornavn) vs. “Hotel Anton”

Regex

Kan ikke skille – enten anonymisere begge (falsk positiv) eller ingen av dem (bom).

anymize

Tar en kontekstbevisst avgjørelse.

Konsekvensen

Regex-systemer overstiger sjelden 70–80 % gjenkjenning – og produserer enten mange falske positiver (det anonymiserte dokumentet er uleselig) eller for mange bom (sensitive data havner likevel hos den eksterne modellen). Begge deler er uakseptable i en compliance-sammenheng.

anymize bruker regex som første trinn – fordi det er raskt og deterministisk – og supplerer det med to KI-lag som fanger nettopp der regex feiler. Det er grunnen til gjenkjenningsraten på over 95 %.

Språk og kontekst

Fem språk,
mange domener.

Tysk har den høyeste gjenkjenningskvaliteten fordi finjusteringsmodellen vår er trent eksplisitt på tyske fagtekster. For de øvrige språkene ligger raten typisk mellom 88–93 % – avhengig av domene og dokumentstruktur.

Støttede språk

Primært treningsfokus
DE
Tysk
Mål > 95 %
EN
Engelsk
88–93 %
FR
Fransk
88–93 %
ES
Spansk
88–93 %
IT
Italiensk
88–93 %

Domenedekning

Finjusteringsdatasettet dekker tre fagdomener med høye krav:

Juridisk

Prosesskriv, kontrakter, rettsavgjørelser, rettspraksisdatabaser.

Medisinsk

Behandlingsretningslinjer, funn, fagpublikasjoner, terapidokumentasjon.

Kommersiell

Årsregnskap, kontrakter, skattelitteratur, forretningsterminologi.

For andre domener (f.eks. ingeniørfag, arkitektur, spesialiserte vitenskaper) når systemet fortsatt den oppgitte raten – fordi grunnmodellene er generalister – men viser mindre domenespesifikk finesse. For svært spesialiserte domener tilbyr vi individuelt finjusterte modeller i Enterprise-planen.

Åpenhet

Fireøyne-kontroll
innebygd.

En deteksjonsrate på “over 95 %” betyr: i fem av hundre tilfeller kan noe slippe gjennom. For compliance-kritiske prosesser er det for mye – derfor bygger anymize åpenhet fast inn i arbeidsflyten.

Før sending: gjennomgangsvisningen

Før hver forespørsel til en ekstern modell viser grensesnittet deg hva som ble oppdaget og hva som ikke ble det. Uthevinger i originalteksten, kategorier per funn, antall per kategori. Hvis noe viktig mangler, markerer du det manuelt. Hvis noe ble overmarkert, korrigerer du det – og KI-en husker det for arbeidsområdet ditt.

12-sekunders nedtellingen (kan håndheves)

Administratorer kan håndheve en gjennomgangs-nedtelling før hver sending: grensesnittet viser den anonymiserte versjonen, teller ned i 12 sekunder, og så sendes den. Brukeren har tid til å gjennomgå og avbryte. For fullt årvåken bruk.

Revisjonslogg

Hver deteksjon (hva, når, hvilken modell, hvilket trinn) registreres i revisjonsloggen. For compliance-dokumentasjon og intern kvalitetssikring.

Mer om compliance-kontroller

Veikart

Dette jobber vi
med nå.

Gjenkjenning av personopplysninger er ikke et løst problem – tre pågående utviklingsspor viser hvor veien går videre.

01Under utvikling

Indirekte personopplysninger

En setning som “Ordføreren i by X bestemte …” inneholder ikke noe navn, men en person er tydelig identifiserbar. GDPR behandler slike opplysninger som personopplysninger (fortalepunkt 26). Vi utvikler en kombinasjonsanalyse som fanger opp slike identifiserende sammenhenger – rolle + sted, funksjon + organisasjon, unike egenskaper.

02Pågår

Forretningshemmeligheter, patenter, formler

Personopplysninger er ikke det eneste som er verdt å beskytte. Bedrifter har samme interesse i å sikre at patentidéer, kjemiske formler, produktprototyper og interne prosesser ikke havner hos en ekstern modell utilsiktet. Vi utvider gjenkjenningen med kategorier for dette innholdet – som et valgfritt lag oppå PII-gjenkjenningen.

03Enterprise

Individuelt finjusterte modeller

Hver bedrift har sine egne begreper, forkortelser og produktkoder som bør regnes som sensitive. I Enterprise-planen tilbyr vi individuell finjustering på dine forretningshemmeligheter – gjenkjenningsmodellen lærer dine bedriftsspesifikke begreper og markerer dem i tillegg til standardkategoriene. Interesserte tar direkte kontakt.

For hvem

Hvem som har størst nytte
av presis gjenkjenning.

For alle disse sammenhengene gjelder: regex er ikke nok. Manuell etterredigering tar timer. KI-basert gjenkjenning på nivå med et tretrinns system er det eneste praktiske svaret.

Yrke	Hvorfor KI-basert i stedet for regex
Advokater og jurister	Klientnavn i løpende tekst, saksnumre i utypisk form, indirekte hint i prosesskriv.
Leger	Pasientnavn i journaltekst, medisinsk fagspråk med personreferanser, diagnosekombinasjoner.
Forsikringsselskaper	Skademeldinger med blandet format, beskrivelser med indirekte identifikatorer.
HR-avdelinger	Søknader med narrativ struktur (ingen skjemaer), attester.
Konsulentselskaper	Intervjutranskripsjoner, researchnotater, fritt formulerte due diligence-rapporter.
Offentlig forvaltning	Innbyggerdata i vedtak skrevet i prosa, sosiale data med indirekte hint.

Advokater og jurister

Klientnavn i løpende tekst, saksnumre i utypisk form, indirekte hint i prosesskriv.

Leger

Pasientnavn i journaltekst, medisinsk fagspråk med personreferanser, diagnosekombinasjoner.

Forsikringsselskaper

Skademeldinger med blandet format, beskrivelser med indirekte identifikatorer.

HR-avdelinger

Søknader med narrativ struktur (ingen skjemaer), attester.

Konsulentselskaper

Intervjutranskripsjoner, researchnotater, fritt formulerte due diligence-rapporter.

Offentlig forvaltning

Innbyggerdata i vedtak skrevet i prosa, sosiale data med indirekte hint.

Det du bør vite om gjenkjenning.

Ofte stilte spørsmål

Drei Gründe: (1) Geschwindigkeit – Stufe 1 (Regex) erfasst den Großteil in Millisekunden, das große Modell läuft nur auf den noch offenen Fällen. (2) Kosten – reine Prompt-Erkennung auf einem großen Modell wäre pro Dokument um ein Vielfaches teurer. (3) Erklärbarkeit – für Audits können wir zeigen, in welcher Stufe welche Entität erkannt wurde, mit welcher Begründung.

Kom i gang nå.
14 dagers gratis prøveperiode.

Alle modeller. Alle funksjoner. Uten kredittkort.

Start gratis Slik fungerer det

Vi står bak anymize. Og vi vet – når et KI-verktøy berører klient-, pasient- eller ansattdata, holder det ikke med en demovideo. Derfor gir vi deg 14 dager med full tilgang – alle modeller, alle funksjoner, uten kredittkort. Nok tid til å bli trygg, før du stoler på oss.

KI-arbeidsplassen din venter.

AI detectionin three stages.

Fra 60 % til 95 %.På tre gjennomkjøringer.

Algoritmisk gjenkjenning

Vår egen finjusteringsmodell

Promptbasert etterverifisering

Det vioppdager.

Identifikatorer

Offentlige ID-er og avtale-ID-er

Finansielle data

Bransjespesifikke identifikatorer

Kontekstuelle data

Klassiske tilnærmingeri virkelighetstesten.

Fem språk,mange domener.

Juridisk

Medisinsk

Kommersiell

Fireøyne-kontrollinnebygd.

Før sending: gjennomgangsvisningen

12-sekunders nedtellingen (kan håndheves)

Revisjonslogg

Dette jobber vimed nå.

Indirekte personopplysninger

Forretningshemmeligheter, patenter, formler

Individuelt finjusterte modeller

Hvem som har størst nytteav presis gjenkjenning.

Det du bør vite om gjenkjenning.

Kom i gang nå.14 dagers gratis prøveperiode.

AI detection
in three stages.

Fra 60 % til 95 %.
På tre gjennomkjøringer.

Det vi
oppdager.

Klassiske tilnærminger
i virkelighetstesten.

Fem språk,
mange domener.

Fireøyne-kontroll
innebygd.

Dette jobber vi
med nå.

Hvem som har størst nytte
av presis gjenkjenning.

Kom i gang nå.
14 dagers gratis prøveperiode.