Pseudonymisierung — Ihre Daten sehen keine KI

Das Problem: KI und personenbezogene Daten

Eine juristische Anfrage steckt voller personenbezogener Daten — Namen, Adressen, Kontodaten, Aktenzeichen. Gibt man diesen Text unverändert an eine KI, verlassen personenbezogene Daten das Haus und landen bei einem externen Modellanbieter. Das ist datenschutzrechtlich heikel und in einer Rechtsabteilung schlicht nicht akzeptabel.

LEGALinhouse löst das an der Wurzel: Das Sprachmodell bekommt die personenbezogenen Daten gar nicht erst zu sehen. Es arbeitet ausschließlich mit Platzhaltern und kann Mandantendaten deshalb unmöglich preisgeben — es hat sie nie gesehen.

17 Arten personenbezogener Daten

3 Phasen

0 Klardaten an die KI

Pseudonymisierung — und ausdrücklich nicht Anonymisierung

Die echten Werte werden durch konsistente Platzhalter ersetzt: „Hans Bauer" wird zu [PERSON_A], „ACME GmbH" zu [UNTERNEHMEN_A], eine IBAN zu [IBAN_A]. Konsistent heißt: Derselbe Name bekommt im ganzen Vorgang denselben Platzhalter — die KI kann also weiterhin nachvollziehen, wer mit wem zu tun hat, ohne die echten Namen zu kennen.

Am Ende werden die Platzhalter wieder in die echten Werte zurückübersetzt, bevor der Mitarbeiter die Antwort sieht. Genau weil dieser Schritt möglich ist, handelt es sich um Pseudonymisierung im Sinne von Art. 4 Nr. 5 DSGVO — die Zuordnung ist reversibel — und nicht um Anonymisierung (die wäre endgültig und nicht umkehrbar). Wir benennen das bewusst korrekt: Pseudonymisierte Daten bleiben personenbezogene Daten und unterliegen weiterhin der DSGVO — die Zuordnungstabelle wird deshalb geschützt und nie an die KI übergeben.

Die drei Phasen

Jeder Text durchläuft dieselbe dreistufige Pipeline, bevor und nachdem eine KI beteiligt ist:

Text mit personenbezogenen Daten → Phase 1: Erkennen & Ersetzen (eigene Server in Deutschland) → Phase 2: KI sieht nur Platzhalter (EU-Region Frankfurt) → Phase 3: Rückübersetzung beim Mitarbeiter → Antwort mit echten Daten — nur auf dem Bildschirm

Was in jeder Phase passiert

Phase 1 — Erkennen & Ersetzen. Auf unserer eigenen Infrastruktur in Deutschland werden personenbezogene Daten erkannt und durch Platzhalter ersetzt. Die Erkennung kombiniert die bekannten Fallkontakte, Mustererkennung (z. B. IBAN, E-Mail, Telefonnummer) und eine KI-gestützte Namenserkennung. Die Zuordnung Platzhalter ⇄ Originalwert bleibt bei uns in der EU-Infrastruktur.
Phase 2 — KI-Verarbeitung. Nur der pseudonymisierte Text geht an das Sprachmodell (Datacenter in der EU-Region Frankfurt, keine Nutzung der Eingaben zum Training). Das Modell sieht ausschließlich Platzhalter.
Phase 3 — Rückübersetzung. Die KI-Antwort enthält dieselben Platzhalter. Sie werden anhand der Zuordnung wieder in die echten Werte übersetzt, bevor der Mitarbeiter die Antwort sieht.

Was erkannt wird

Erkannt und ersetzt werden derzeit 17 Arten personenbezogener Daten, unter anderem:

Erkannte Datenarten (Auswahl)

Personennamen und Firmennamen
Adressen und Postleitzahl/Ort
E-Mail-Adressen und Telefonnummern
IBAN-, Konto- und Kreditkartendaten
Steuer-IDs und Umsatzsteuer-IDs
Geburtsdaten, Sozialversicherungs- und Krankenversicherungsnummern
Aktenzeichen und weitere Nummern-Kennungen

Die Erkennung ist bewusst vorsichtig eingestellt: Im Zweifel wird ein möglicher Name lieber ersetzt als übersehen. Reine juristische Fachbegriffe (etwa „BGB" oder „Hafenverordnung") werden dabei nicht fälschlich als Namen behandelt.

Was das für die DSGVO bedeutet

Die Konsequenzen

Personenbezogene Daten verlassen die EU nicht. Erkannt und ersetzt wird auf eigenen Servern in Deutschland; die KI-Verarbeitung läuft in der EU-Region Frankfurt.
Die KI-Plattform ist Auftragsverarbeiter — sieht aber keine Klardaten. Selbst bei einem theoretischen Leck der KI-Plattform wäre kein Mandantendatum betroffen: dort lagen nie welche.
Die Zuordnung bleibt geschützt und getrennt. Die Zuordnungstabelle (das „zusätzliche Wissen" im Sinne der DSGVO) liegt in Ihrer Mandanten-Datenbank, wird nie an die KI übergeben und mit dem Fall gelöscht.
Alles ist protokolliert. Der Audit-Trail dokumentiert jede Pseudonymisierung — wer, wann, wie viele Datenarten.

Kontrolle & KI-freier Weg

Die Pseudonymisierung ist pro Fall überprüfbar: In einem eigenen Bereich sehen berechtigte Mitarbeiter die erkannten Paare (Original ⇄ Platzhalter) und können sie korrigieren — einen fälschlich erkannten Begriff freigeben oder einen zusätzlichen Namen ergänzen, wahlweise nur für den Fall oder hausweit.

Und wer für einen bestimmten Vorgang gar keine KI einsetzen möchte, kann sie abschalten: LEGALinhouse bietet einen vollständig KI-freien Weg, bei dem kein Text an ein Sprachmodell übergeben wird.

Tiefer einsteigen? Die technische Einordnung — samt Infrastruktur und Datenstandort — steht in der KI-Architektur. Den Gesamtüberblick zu Schutz und Compliance gibt die Seite Sicherheit.