AI detection
in three stages.

Ikke én modell. En pipeline.

Å oppdage personopplysninger pålitelig høres enkelt ut – men det er det ikke. Navn kan også være adjektiver, adresser dukker opp i løpende tekst, saksnumre følger ikke noe universelt mønster. anymize løser dette med en tretrinns pipeline: algoritmisk forhåndsdeteksjon, vår egen finjusterte lille modell, og en større modell for etterverifisering. Til sammen over 95 % deteksjonsrate på tyskspråklige dokumenter – med full åpenhet om hva som ble oppdaget hvor.

De tre trinnene

Fra 60 % til 95 %.
På tre gjennomkjøringer.

En enkelt modell ville enten gi for mange falske positiver (og kontrakten din blir en ørken av plassholdere) eller overse for mye (og sensitive data havner hos eksterne modeller). Kunsten: tre spesialiserte lag, der hvert lag verifiserer og korrigerer det forrige.

Stage01

Algoritmisk gjenkjenning

Raskt. Deterministisk. Kostnadsnøytralt.

Regulære uttrykk, ordbøker for navngitte enheter, formatvalidatorer (IBAN-kontrollsummer, ID-kortstrukturer, telefonnummermønstre). Fanger opp rundt 60 til 70 prosent av persondataene i typiske dokumenter – alt som er klart strukturert.

0 %60 – 70 %100 %
Styrker

Svært raskt, kostnadsnøytralt, hundre prosent reproduserbart.

Grenser

Navn og kontekstavhengige enheter glipper, fordi regex ikke kjenner semantikk.

Stage02

Vår egen finjusteringsmodell

Semantisk. Iterativ. Tyske fagdomener.

En liten språkmodell spesialisert på PII-gjenkjenning, ettertrent på tyskspråklige fagtekster (juridiske, medisinske, kommersielle). Den kjører flere iterasjoner over dokumentet og identifiserer alt trinn 1 overså: kontekstavhengige navn (“Dr. Berg bestemte …”), saksnummer med atypisk form, innebygde diagnosekoder, organisasjoner.

0 %+ 10 – 15 %100 %
Styrker

Forstår semantikk og kontekst, lærer fra tyske fagdomener.

Grenser

Ikke perfekt – noen få sjeldne tilfeller glipper.

Stage03

Promptbasert etterverifisering

Resonneringslag. Ser hele bildet.

En større modell tar den tredje og siste gjennomkjøringen: den mottar dokumentet pluss markeringene fra trinn 1 og 2 og sjekker via en strukturert prompt om noe mangler eller er feilmarkert. Fanger opp tilfeller som unnslapp de mer finkornede trinnene – og rydder opp i falske positiver før de forstyrrer tekstflyten.

0 %+ 13 – 30 %100 %
Styrker

Ser hele bildet, kan ta avgjørelser basert på resonnement.

Grenser

Mer beregningskrevende – derfor er det siste trinn og ikke det eneste steget.

Resultatet

> 95 %

gjenkjenningsrate

I praksis gir kombinasjonen av de tre trinnene en gjenkjenningsrate på over 95 % på tyskspråklige dokumenter – betydelig mer enn noe enkelt trinn alene. Og samtidig færre falske positiver, fordi hvert lag validerer det forrige.

Hvorfor ikke bare én eneste, stor modell?

  • Hastighet. Trinn 1 håndterer mesteparten på millisekunder – den store modellen kjører kun på de gjenværende åpne tilfellene.

  • Forklarbarhet. Vi kan vise i hvilket trinn hvert resultat oppstod. Det er viktig ved revisjoner.

Mer enn 40 kategorier

Det vi
oppdager.

Kategoridekningen vokser kontinuerlig. I dag oppdager anymize mer enn 40 klasser av personlige og forretningssensitive data, gruppert i fem familier.

01

Identifikatorer

  • Navn (fornavn, etternavn, tittel)
  • E-postadresser
  • Telefonnumre
  • Adresser (gate, postnummer, by)
  • Organisasjoner
  • Fødselsdatoer
02

Offentlige ID-er og avtale-ID-er

  • Skatte-ID-er
  • Trygde- og pensjonsforsikringsnumre
  • ID-, pass- og førerkortnumre
  • Bilskilt
  • Saksnumre, avtale-ID-er
03

Finansielle data

  • IBAN-er (med kontrollsumvalidering)
  • BIC-er
  • Kredittkortnumre
  • Kontonumre
  • Skattenumre
04

Bransjespesifikke identifikatorer

  • Mandat- og forsikringsnumre
  • Skadenumre
  • Pasient-ID-er
  • ICD-diagnosekoder (under utarbeidelse)
  • Patentregistreringer (under utarbeidelse)
05

Kontekstuelle data

  • Sykdommer og medisinsk terminologi
  • Bransjespesifikt vokabular (når merket som sensitivt)
  • Geo-referanser i kombinasjon

Hvorfor ikke regex?

Klassiske tilnærminger
i virkelighetstesten.

Mange PII-verktøy på markedet er rent regelbaserte – med regulære uttrykk og statiske ordbøker. Det fungerer for klart strukturerte data (IBAN, telefonnummer), men feiler på det som utgjør hovedtyngden av sensitivt innhold: fritekst med kontekst.

“Fru Olsen signerer på mandag.”

Regex

Fanger “Olsen” kun hvis det er i ordboken – ellers: bom.

anymize

Gjenkjenner konteksten “Fru + etternavn” og markerer sikkert.

“Klienten, herr Hansen fra Bergen, …”

Regex

Fanger kanskje “Hansen”, men ikke sammenhengen med “klient”.

anymize

Gjenkjenner klientforholdet og markerer fullstendig.

“Anton” (som fornavn) vs. “Hotel Anton”

Regex

Kan ikke skille – enten anonymisere begge (falsk positiv) eller ingen av dem (bom).

anymize

Tar en kontekstbevisst avgjørelse.

Konsekvensen

Regex-systemer overstiger sjelden 70–80 % gjenkjenning – og produserer enten mange falske positiver (det anonymiserte dokumentet er uleselig) eller for mange bom (sensitive data havner likevel hos den eksterne modellen). Begge deler er uakseptable i en compliance-sammenheng.

anymize bruker regex som første trinn – fordi det er raskt og deterministisk – og supplerer det med to KI-lag som fanger nettopp der regex feiler. Det er grunnen til gjenkjenningsraten på over 95 %.

Språk og kontekst

Fem språk,
mange domener.

Tysk har den høyeste gjenkjenningskvaliteten fordi finjusteringsmodellen vår er trent eksplisitt på tyske fagtekster. For de øvrige språkene ligger raten typisk mellom 88–93 % – avhengig av domene og dokumentstruktur.

Støttede språk
  • Primært treningsfokus
    DE

    Tysk

    Mål > 95 %

  • EN

    Engelsk

    88–93 %

  • FR

    Fransk

    88–93 %

  • ES

    Spansk

    88–93 %

  • IT

    Italiensk

    88–93 %

Domenedekning

Finjusteringsdatasettet dekker tre fagdomener med høye krav:

Juridisk

Prosesskriv, kontrakter, rettsavgjørelser, rettspraksisdatabaser.

Medisinsk

Behandlingsretningslinjer, funn, fagpublikasjoner, terapidokumentasjon.

Kommersiell

Årsregnskap, kontrakter, skattelitteratur, forretningsterminologi.

For andre domener (f.eks. ingeniørfag, arkitektur, spesialiserte vitenskaper) når systemet fortsatt den oppgitte raten – fordi grunnmodellene er generalister – men viser mindre domenespesifikk finesse. For svært spesialiserte domener tilbyr vi individuelt finjusterte modeller i Enterprise-planen.

Åpenhet

Fireøyne-kontroll
innebygd.

En deteksjonsrate på “over 95 %” betyr: i fem av hundre tilfeller kan noe slippe gjennom. For compliance-kritiske prosesser er det for mye – derfor bygger anymize åpenhet fast inn i arbeidsflyten.

A

Før sending: gjennomgangsvisningen

Før hver forespørsel til en ekstern modell viser grensesnittet deg hva som ble oppdaget og hva som ikke ble det. Uthevinger i originalteksten, kategorier per funn, antall per kategori. Hvis noe viktig mangler, markerer du det manuelt. Hvis noe ble overmarkert, korrigerer du det – og KI-en husker det for arbeidsområdet ditt.

B

12-sekunders nedtellingen (kan håndheves)

Administratorer kan håndheve en gjennomgangs-nedtelling før hver sending: grensesnittet viser den anonymiserte versjonen, teller ned i 12 sekunder, og så sendes den. Brukeren har tid til å gjennomgå og avbryte. For fullt årvåken bruk.

C

Revisjonslogg

Hver deteksjon (hva, når, hvilken modell, hvilket trinn) registreres i revisjonsloggen. For compliance-dokumentasjon og intern kvalitetssikring.

Veikart

Dette jobber vi
med nå.

Gjenkjenning av personopplysninger er ikke et løst problem – tre pågående utviklingsspor viser hvor veien går videre.

01Under utvikling

Indirekte personopplysninger

En setning som “Ordføreren i by X bestemte …” inneholder ikke noe navn, men en person er tydelig identifiserbar. GDPR behandler slike opplysninger som personopplysninger (fortalepunkt 26). Vi utvikler en kombinasjonsanalyse som fanger opp slike identifiserende sammenhenger – rolle + sted, funksjon + organisasjon, unike egenskaper.

02Pågår

Forretningshemmeligheter, patenter, formler

Personopplysninger er ikke det eneste som er verdt å beskytte. Bedrifter har samme interesse i å sikre at patentidéer, kjemiske formler, produktprototyper og interne prosesser ikke havner hos en ekstern modell utilsiktet. Vi utvider gjenkjenningen med kategorier for dette innholdet – som et valgfritt lag oppå PII-gjenkjenningen.

03Enterprise

Individuelt finjusterte modeller

Hver bedrift har sine egne begreper, forkortelser og produktkoder som bør regnes som sensitive. I Enterprise-planen tilbyr vi individuell finjustering på dine forretningshemmeligheter – gjenkjenningsmodellen lærer dine bedriftsspesifikke begreper og markerer dem i tillegg til standardkategoriene. Interesserte tar direkte kontakt.

For hvem

Hvem som har størst nytte
av presis gjenkjenning.

For alle disse sammenhengene gjelder: regex er ikke nok. Manuell etterredigering tar timer. KI-basert gjenkjenning på nivå med et tretrinns system er det eneste praktiske svaret.

Advokater og jurister

Klientnavn i løpende tekst, saksnumre i utypisk form, indirekte hint i prosesskriv.

Leger

Pasientnavn i journaltekst, medisinsk fagspråk med personreferanser, diagnosekombinasjoner.

Forsikringsselskaper

Skademeldinger med blandet format, beskrivelser med indirekte identifikatorer.

HR-avdelinger

Søknader med narrativ struktur (ingen skjemaer), attester.

Konsulentselskaper

Intervjutranskripsjoner, researchnotater, fritt formulerte due diligence-rapporter.

Offentlig forvaltning

Innbyggerdata i vedtak skrevet i prosa, sosiale data med indirekte hint.

Det du bør vite om gjenkjenning.

Ofte stilte spørsmål

Drei Gründe: (1) Geschwindigkeit – Stufe 1 (Regex) erfasst den Großteil in Millisekunden, das große Modell läuft nur auf den noch offenen Fällen. (2) Kosten – reine Prompt-Erkennung auf einem großen Modell wäre pro Dokument um ein Vielfaches teurer. (3) Erklärbarkeit – für Audits können wir zeigen, in welcher Stufe welche Entität erkannt wurde, mit welcher Begründung.

Kom i gang nå.
14 dagers gratis prøveperiode.

Alle modeller. Alle funksjoner. Uten kredittkort.

Vi står bak anymize. Og vi vet – når et KI-verktøy berører klient-, pasient- eller ansattdata, holder det ikke med en demovideo. Derfor gir vi deg 14 dager med full tilgang – alle modeller, alle funksjoner, uten kredittkort. Nok tid til å bli trygg, før du stoler på oss.

KI-arbeidsplassen din venter.