Chunks
Deine Dokumente werden in semantisch sinnvolle Abschnitte zerlegt (typischerweise einige hundert bis wenige tausend Zeichen). Das können einzelne Paragraphen, Abschnitte eines Vertrags oder Absätze eines Protokolls sein.
Retrieval, nicht Copy-Paste. Deine Dokumente als zweite Wissensquelle jeder KI-Antwort.
Verträge, Richtlinien, Fallakten, Produktdokumentation, Forschungsnotizen – leg sie einmal in eine Wissensdatenbank, und die KI greift in jedem Gespräch darauf zu. Intelligent, zielgerichtet, nur die Passagen, die gerade relevant sind. Kein manuelles Hochladen bei jedem Chat. Kein vergessener Kontext. Und alles DSGVO-konform, teilbar im Team, verwendbar auch mit unseren eigenen deutschen Modellen.
Was ist eine Wissensdatenbank?
Eine Wissensdatenbank in anymize ist ein Speicher für deine Dokumente, der für KI-Anwendungen vorbereitet ist. Technisch basiert er auf Retrieval-Augmented Generation (RAG) – einer Architektur, die in der KI-Welt als Standard für den Umgang mit großen internen Wissensbeständen gilt.
Die drei Kern-Bausteine
Deine Dokumente werden in semantisch sinnvolle Abschnitte zerlegt (typischerweise einige hundert bis wenige tausend Zeichen). Das können einzelne Paragraphen, Abschnitte eines Vertrags oder Absätze eines Protokolls sein.
Jeder Chunk wird in eine mathematische Repräsentation (einen Vektor) übersetzt, die seine Bedeutung erfasst. Sinnverwandte Chunks liegen im Vektor-Raum nah beieinander.
Speichert alle Chunks und ihre Embeddings. Wenn du später eine Frage stellst, wird deine Frage ebenfalls in einen Vektor übersetzt, und die Datenbank liefert die inhaltlich nächstliegenden Chunks zurück.
Das Ergebnis: Die KI bekommt nur die Passagen deines Wissens, die zu deiner Frage passen. Nicht alles auf einmal. Nicht irrelevante Seiten. Zielgerichtet.
In der Praxis merkst du davon nichts. Du lädst Dokumente hoch, aktivierst die Datenbank im Chat, stellst Fragen. Den Rest erledigt anymize.
RAG vs. Context Window
Frontier-Modelle haben beeindruckend große Kontextfenster – hunderttausend Tokens, manchmal über eine Million. In der Theorie könntest du ein komplettes Firmenarchiv in einen einzigen Prompt packen. In der Praxis hat das drei harte Probleme:
Einzelne Dokumente, die du für eine Analyse aufmachst – direkt in den Chat hochladen. Alles, was du immer wieder brauchst – in eine Wissensdatenbank.
Wie du sie nutzt
Jede deiner Wissensdatenbanken erscheint als Toggle im Chat-Interface. Ein Klick – und ab jetzt bezieht die KI bei jeder Antwort passende Passagen aus deiner Datenbank. Mehrere Datenbanken parallel aktivierbar: z. B. „Mandant-XY“ + „Rechtsprechungs-Archiv“ + „Kanzlei-Standards“.
Arbeitest du regelmäßig an einem bestimmten Fall, Mandanten oder Thema? Dann ordne die passenden Wissensdatenbanken deinem Projekt zu. Neue Chats in diesem Projekt haben sie automatisch aktiviert. Kein Aktivieren, kein Vergessen.
Für automatisierte Workflows: Die anymize-API erlaubt Retrieval direkt aus einer Wissensdatenbank – inkl. Quellen-Metadaten, Chunk-Scores und optionaler KI-Antwort in einem Request. Einbindung in eigene Anwendungen, CRM-Systeme, Agent-Workflows (n8n, Make.com, Zapier, Flowise, MCP-Server).
Anonymisierung in Wissensdatenbanken
Beim Hochladen jedes Dokuments wählst du, wie es gespeichert werden soll:
Das Dokument wird vor der Indexierung automatisch anonymisiert – über 40 Kategorien personenbezogener und geschäftssensibler Daten werden durch Platzhalter ersetzt (Namen, Adressen, IBANs, Aktenzeichen etc.). Die Chunks und Embeddings in der Datenbank enthalten nur Platzhalter-Versionen. Wenn die KI später aus dieser Datenbank zitiert, bekommst du die Antwort mit deinen Originaldaten zurück – dank bidirektionaler Anonymisierung.
Folge: Selbst wenn ein internationales Frontier-Modell (GPT, Claude, Gemini) für die Antwort benutzt wird, sieht es nur Platzhalter. Kein personenbezogenes Datum verlässt die anymize-Plattform.
Interne Handbücher ohne Personenbezug, öffentliche Studien, Produktdokumentation, Unternehmensrichtlinien – für solche Inhalte kannst du die Anonymisierung überspringen. Das spart Verarbeitungszeit und vermeidet unnötige Platzhalter in Kontexten, wo sie den Sinn verzerren würden.
Du entscheidest pro Upload, nicht pro Datenbank. Innerhalb derselben Datenbank können manche Dokumente anonymisiert sein und andere nicht – je nach Inhalt.
Mit eigenen Modellen
Wissensdatenbanken funktionieren mit allen Modellen in anymize – den internationalen Frontier-Modellen (GPT, Claude, Gemini, Mistral, Perplexity, Kimi) ebenso wie mit unseren eigenen Modellen anymize Waterfall und anymize Fountain.
Für besonders sensible Szenarien entsteht dadurch ein Setup, das in Deutschland bisher nur schwer verfügbar war:
Daten in Deutschland.
Retrieval in Deutschland.
Modell in Deutschland.
Antwort in Deutschland.
Wenn du deine Wissensdatenbank mit Waterfall oder Fountain kombinierst, verlässt kein Byte deiner Daten deutsches Gebiet. Keine Anonymisierung nötig, weil die Modelle ohnehin bei uns laufen. Keine Drittland-Übermittlung, kein zusätzlicher DPA, keine Compliance-Grauzone. Für Berufsgeheimnisträger, sensible Branchen und Hochsicherheits-Compliance ist das der härteste verfügbare Standard.
Einsatzgebiete
Sechs prototypische Use-Cases – aus echten Arbeitskontexten unserer Kunden:
Mandanten-Akten, Vertragsvorlagen, Rechtsprechung
„Wie haben wir das letzte Mal argumentiert, als …?“ — sofort mit Zitaten aus deinen eigenen Schriftsätzen.
Frühere Due-Diligence-Reports, Marktstudien, Interview-Transkripte
Musteranalysen über mehrere Kundenprojekte hinweg, ohne dass jeder einzelne Report neu gelesen werden muss.
Behandlungsleitlinien, interne Standards, Fachpublikationen
„Wie ist unser Standardprotokoll für …?“ — Antworten mit Verweis auf die interne SOP.
Interne Research-Reports, Compliance-Vorgaben, Regulatorik-Updates
Tagesaktuelle Einschätzungen mit Rückgriff auf euer gesamtes internes Wissen.
Arbeitsverträge, Betriebsvereinbarungen, Richtlinien
„Was sagt unsere Betriebsvereinbarung zu Homeoffice?“ — Antwort mit der exakten Klausel.
API-Dokumentation, interne Standards, Post-Mortems
Code-Reviews mit Bezug auf eure eigenen Konventionen; Debugging mit Blick auf frühere Fehler-Muster.
Das Muster: Überall dort, wo das Modell-Allgemeinwissen nicht reicht, weil die Antwort dein spezifischer Kontext ist – Mandanten-Historie, Firmen-Standards, interne Prozesse. Wissensdatenbanken liefern genau das.
Häufige Fragen
Eine Sammlung deiner Dokumente, die für KI-Nutzung vorbereitet ist. Technisch basiert sie auf Retrieval-Augmented Generation (RAG): Dokumente werden in Chunks zerlegt, als Embeddings in einer Vektor-Datenbank abgelegt und bei Fragen gezielt abgerufen. Die KI bekommt nur die relevanten Passagen als Kontext – nicht das gesamte Archiv. Das spart Kosten, verbessert die Antwortqualität und macht dein Firmenwissen zur zweiten Wissensquelle jeder Konversation.
Alle Modelle. Alle Features. Keine Kreditkarte.
Wir sind überzeugt von anymize. Und wir wissen: Bei einem KI-Werkzeug, das Mandanten-, Patienten- oder Mitarbeiter-Daten berührt, reicht ein Demo-Video nicht. Deshalb 14 Tage voller Zugang – alle Modelle, alle Features, keine Kreditkarte. Genug Zeit, um sicher zu sein, bevor du uns vertraust.
Dein KI-Arbeitsplatz wartet.