KI-Architektur

Das Halluzinationsproblem in juristischer KI

Generative Sprachmodelle erfinden Quellen. Im juristischen Kontext ist das nicht harmlos: ein erfundenes BGH-Urteil in einem Schriftsatz, ein nicht existentes Aktenzeichen in einer Mandantenkommunikation oder eine falsch zitierte Norm können fachliche, haftungsrechtliche und reputationsschädigende Konsequenzen haben. Universelle Chatbots haben dieses Problem strukturell — sie generieren Sprache statistisch, nicht aus einer geprüften Wissensbasis.

LEGALinhouse löst das Problem auf zwei Ebenen: jede juristische Aussage muss sich auf einen Eintrag im internen Knowledge Graph zurückführen lassen, und jede Quellenangabe wird vor und nach der Generierung gegen die Urteilsdatenbank geprüft. Das ist kein Filter über einem generischen Modell, sondern eine Architektur-Entscheidung, die das ganze System durchzieht.

Hintergrund: Stanford-Studie 2024, dokumentierte Halluzinationen vor Gericht und wie verbreitet das Problem in freien KI-Assistenten ist — Wenn KI Recht erfindet (ceaveo.com).

Der juristische Knowledge Graph

Im Zentrum von LEGALinhouse steht ein selbst aufgebauter Knowledge Graph deutscher Rechtsquellen. Er ist die einzige Wahrheit, auf die die KI bei juristischen Fragen zugreifen darf.

98.431 Gesetzesnormen

83.281 Urteile

256.085 Urteil-Beziehungen

Der Graph enthält Bundes- und Landesnormen mit Inkrafttretens- und Aufhebungsdatum sowie Urteile der höchsten Instanzen (BVerfG, BGH, BVerwG, BFH, BSG, BAG) und der Oberlandesgerichte. Jedes Urteil ist mit den im Sachverhalt zitierten Normen verknüpft — daraus entsteht das Zitatnetz, das die KI bei einer Recherche entlanglaufen kann, statt im Volltext zu raten.

Praktisch heißt das: Wenn die KI auf eine Frage zur Kündigung eines Werkvertrags antwortet, ruft sie nicht aus dem Modellgedächtnis ab, sondern lädt §§ 648, 648a BGB plus die zitatstärksten Urteile der letzten Jahre und schreibt die Antwort gegen diese Quellen. Wird ein Paragraph aufgehoben oder ein Urteil aufgehoben, ändert sich die Antwort automatisch.

Normanalyse — belegte Rechtsauslegung

Eine Norm zu kennen ist das eine; zu wissen, was sie im konkreten Fall bedeutet, das andere. Aus dem Knowledge Graph erzeugt LEGALinhouse zu jeder Norm eine strukturierte, vollständig belegte Auslegung — ausschließlich aus dem eigenen Rechtskorpus (deutsches Primärrecht + Rechtsprechung), ohne lizenzpflichtige Kommentarliteratur. Nichts wird frei erzeugt; jede Aussage verweist auf eine Quelle, die im System liegt.

Geordnet nach den fünf Auslegungsmethoden

Grammatisch — die Legaldefinitionen, die der Normtext selbst mitbringt.
Systematisch — die Verweisungen in und aus der Norm, samt verfassungs- und unionsrechtlicher Bezüge.
Historisch — die Fassungshistorie der Norm.
Teleologisch — die Zweckbestimmung, belegt aus den amtlichen, gemeinfreien Gesetzesmaterialien: bei EU-Verordnungen aus den Erwägungsgründen, bei deutschem Recht aus der Gesetzesbegründung der Bundestags-Drucksachen — für viele zentrale Kodifikationen (u. a. BGB, VVG, FamFG, Marken- und Sozialrecht), fortlaufend erweitert.
Rechtsprechung — die Entscheidungen, die die Norm anwenden.

Ehrlich statt selbstsicher. Jede Normanalyse trägt eine Vertrauensangabe in vier Stufen — von „gefestigte Rechtsprechung" bis „keine gefestigte Rechtsprechung". Eine Norm, zu der im Bestand keine Rechtsprechung vorliegt, wird ausdrücklich als solche gekennzeichnet, statt eine Sicherheit vorzutäuschen.

Aktuell. Ein Beziehungsgraph über die Urteile macht sichtbar, welche Entscheidungen andere zitieren, bestätigen, abgrenzen oder aufheben — so erscheint keine überholte Rechtsprechung als geltendes Recht, und Meinungsstreite werden als solche erkennbar. Die Recherche kombiniert dafür Volltext- und semantische Suche, sodass auch paraphrasierte Fragen die passenden Stellen finden.

Die Normanalyse arbeitet nicht nur in der Recherche, sondern fundiert auch die KI-Entwürfe (Briefe, Schriftsätze, Chat). Sie ist ein belegter Entwurf zur Prüfung — kein Ersatz für anwaltliche Beratung und, bei rein dogmatischen Fragen ohne Rechtsprechung, kein Ersatz für einen Kommentar (siehe RDG und Grenzen).

Assistenten-Routing

Ein generischer Prompt bringt generische Antworten. LEGALinhouse routet jede Anfrage an einen von 19 deutschen Rechtsassistenten — spezialisierte System-Prompts mit eigenem Vokabular, eigener Standardliteratur und eigener Retrieval-Konfiguration. Beispiele: Arbeitsrecht, Mietrecht, Gesellschaftsrecht, Vertragsrecht, IT-Recht, Datenschutzrecht, Steuerrecht, Strafrecht, Verwaltungsrecht. Hinzu kommen weitere Assistentenprofile für internationale Rechtsordnungen — über 140 Profile insgesamt.

So funktioniert das Routing

Klassifizierung: Ein leichter Vorlauf-Schritt erkennt das relevante Rechtsgebiet aus der Anfrage und dem Fallkontext.
Assistent laden: Der zugehörige System-Prompt mit Vokabular, Retrieval-Regeln und Output-Schemata wird aktiviert.
Quellen-Retrieval: Knowledge-Graph-Abfrage nach den für dieses Rechtsgebiet relevanten Normen und Urteilen.
Generierung: Die Antwort wird gegen den geladenen Assistenten-Kontext geschrieben.

Der Vorteil ist nicht nur Sprachqualität — der Assistent weiß, welche Normen für eine Frage relevant sind, kennt die typische Argumentationsstruktur und unterscheidet zwischen Rechtsprechung und herrschender Meinung in Kommentaren.

Agentische Workflows

Eine reine Chat-KI beantwortet Fragen. Agentische KI handelt. In LEGALinhouse heißt das: Die KI kann mehrere Schritte über einen Fall hinweg autonom verketten — innerhalb eines kontrollierten Korridors und mit Human-in-the-Loop an jedem Übergabepunkt.

Sachverhalt erfassen → Klassifizierung (Rechtsgebiet, Vorgangsart) → Recherche im Knowledge Graph → Entwurf: Schreiben an Gegenseite → Fristenvorschlag in den Kalender → Mensch prüft und gibt frei

Die Schritte sind nicht hartcodiert — die KI plant sie aus dem Sachverhalt heraus. Aber jeder Schritt ist nachvollziehbar protokolliert (welcher Assistent, welche Quellen, welches Modell, welche Eingaben), und jeder produzierte Output ist als Entwurf gekennzeichnet, bis ein berechtigter Mitarbeiter ihn freigibt. Es gibt keine Auto-Versand-Funktion für KI-Output.

Diese Entwurfs-Kennzeichnung ist nicht kosmetisch, sondern RDG-relevant: LEGALinhouse ist ein Produktivitätswerkzeug, keine Rechtsdienstleistung. Die fachliche Verantwortung bleibt beim Menschen — die KI beschleunigt nur den Weg dorthin.

Urteils-Zitatschutz (zweistufig)

Quellenangaben sind der häufigste Halluzinationsfehler in juristischer KI. Wir verhindern ihn auf zwei Ebenen.

1. Constraint zur Generierungszeit

Bevor die KI eine Antwort schreibt, lädt sie eine konkrete Liste retrievter Urteile aus dem Knowledge Graph. Sie kann ausschließlich aus dieser Liste zitieren. Aktenzeichen, Datum und Gericht stammen strukturiert aus dem Graph-Eintrag — nicht aus dem freien Text der Generierung. Das eliminiert die Hauptquelle erfundener Zitate.

2. Post-hoc-Validierung

Nach der Generierung wird die Antwort gescannt: jedes Aktenzeichen, das im Text steht, wird gegen die Urteilsdatenbank verifiziert. Stimmt Gericht-Datum-Aktenzeichen-Kombination nicht überein, wird die Zitierung im Output markiert und der Mitarbeiter wird zur manuellen Prüfung aufgefordert. Eine nicht verifizierbare Quelle wird nicht stillschweigend ausgegeben.

Ergebnis

In der Praxis bedeutet das: Ein Aktenzeichen in einer LEGALinhouse-Antwort kommt entweder aus der echten Urteilsdatenbank — oder es ist explizit als unverifiziert markiert. Halluzinierte Zitate, die als echt erscheinen, kann das System strukturell nicht produzieren.

3-Phasen-Pseudonymisierung

Bevor irgendein Mandantentext eine KI berührt, läuft er durch eine dreistufige Pipeline. Ziel: Das Sprachmodell sieht keine identifizierenden Daten — nur Platzhalter. Die personenbezogenen Daten verbleiben in der EU-Infrastruktur des Mandanten.

Phase 1 — Pseudonymisierung auf eigenen Servern in Deutschland

Ein Erkennungs-Layer auf unserer eigenen Infrastruktur in Deutschland ersetzt 17 Entitätstypen durch konsistente Platzhalter. Erkannt werden u. a. Personennamen, Firmen, Adressen, E-Mail-Adressen, Telefonnummern, IBAN- und Kontodaten, Geburtsdaten, Steuer-IDs, Aktenzeichen, Kfz-Kennzeichen, URLs und weitere. Die Zuordnung Platzhalter ⇄ Originalwert bleibt in einer flüchtigen Mapping-Tabelle bei uns.

Phase 2 — KI-Verarbeitung

Der pseudonymisierte Text wird an eine Inferenz-Plattform mit Datacenter in der EU-Region Frankfurt übergeben. Diese Plattform verarbeitet keine Eingaben für Trainingszwecke und unterliegt vollständig dem EU-Datenschutzrecht. Das Modell sieht nur den pseudonymisierten Text und kann unmöglich Mandantendaten leaken — es hat sie nie gesehen.

Phase 3 — Re-Personalisierung

Die Antwort der KI enthält dieselben Platzhalter. Sie werden anhand der Mapping-Tabelle zurückübersetzt, bevor der Mitarbeiter den Output sieht. Anschließend wird die Mapping-Tabelle verworfen.

Konsequenzen für die DSGVO

Personenbezogene Daten verlassen die EU nicht.
Die KI-Plattform ist Auftragsverarbeiter, sieht aber keine PII.
Auch bei einem theoretischen Leck der Inferenz-Plattform wäre kein Mandantendatum betroffen.
Der Audit-Trail dokumentiert jede Pseudonymisierung — wer, wann, was, wie viele Entitäten.

KI-freier Importpfad

Manche Dokumente will man grundsätzlich nicht durch eine KI laufen lassen — etwa hochsensible Personalakten, Whistleblower-Meldungen oder strafrechtliche Mandate. Für diesen Fall bietet LEGALinhouse einen vollständig KI-freien Importpfad: DOCX, TXT, EML, MSG, HTML und RTF werden lokal geparst, indexiert und in den Fall einsortiert, ohne dass die Inferenz-Pipeline berührt wird. Auch OCR für reine Textextraktion läuft KI-frei; nur die Kategorisierung würde KI brauchen — und wird in diesem Pfad ausgelassen.

Der Mitarbeiter sieht das Dokument im Fall, kann es lesen, weiterleiten und referenzieren — und hat die Gewissheit, dass es nie in ein externes Modell gegangen ist.

Audit-Trail & EU AI Act

Der EU AI Act stuft juristische KI-Anwendungen als Hochrisiko-Systeme ein. Das setzt Anforderungen an Protokollierung, menschliche Aufsicht und Transparenz, die LEGALinhouse von Grund auf erfüllt:

Vollständiges Logging: Jede KI-Operation — welcher Assistent, welche Quellen, welche Eingaben, welches Modell, welche Tokens — wird protokolliert und ist im Audit-Log des Mandanten einsehbar.
Verpflichtende menschliche Freigabe: Kein KI-Output verlässt das System ohne menschliche Prüfung. Auto-Versand existiert nicht.
Entwurfs-Kennzeichnung: KI-generierte Inhalte sind im UI und im Audit-Log explizit als KI-Entwurf markiert, bis ein berechtigter Mitarbeiter die Freigabe protokolliert.
Erklärbarkeit: Zu jeder KI-Antwort lassen sich Knowledge-Graph-Quellen und der verwendete Assistent nachvollziehen.

Souveränität & Datenstandort

Die gesamte Infrastruktur liegt in der EU. Mandantendaten werden in einem Datacenter in Frankfurt verarbeitet. KI-Inferenz läuft über eine Plattform in der EU-Region Frankfurt — kein Datenfluss in Drittstaaten, keine Sub-Auftragsverarbeitung außerhalb der EU.

Wir benennen die Komponenten unserer Infrastruktur bewusst funktional statt nach Anbieter — Eigenständigkeit bedeutet auch, nicht unkündbar an einen einzelnen Hyperscaler oder Modellanbieter gebunden zu sein. Die Architektur ist so gebaut, dass Inferenz-Plattform und Speicher austauschbar bleiben, solange sie in der EU liegen.

Bereit für die Praxis? Fragen Sie einen Beta-Zugang an oder lesen Sie weiter zu Waffengleichheit für den Mittelstand und Sicherheit & Compliance.