Redaktion ist ein Versprechen.
Architektur ist eine Garantie.
Vier Ansätze, PII aus KI-Inferenz herauszuhalten: anbieterseitige Filter, clientseitige Redaktions-Bibliotheken, KI-Gateway-Proxies oder infrastrukturelle Split-Knowledge. Drei davon sind Software-Versprechen — ein Bug leakt PII. Der vierte ist eine architektonische Eigenschaft: die KI kann Identität nicht sehen, weil der Pfad nicht existiert.
Redaktion ist ein Software-Versprechen: Code liest Eingaben, entfernt Identifikatoren, sendet dann den Rest an das Modell. Ein Bug, ein Regex-Treffer, ein kontextabhängiger Identifikator, den der Matcher nicht erfasst hat — und PII erreicht das Modell. Split-Knowledge ist eine architektonische Eigenschaft: Identitätsdaten leben in Sandbox A, Inferenz läuft in Sandbox B, und es gibt keinen Netzwerkpfad von B zurück nach A. Der Unterschied zählt, wenn ein Prüfer nicht fragt "versuchen Sie, PII herauszuhalten?", sondern "können Sie beweisen, dass PII nie übergegangen ist?"
Wie Teams PII heute
aus dem Modell heraushalten.
Drei Software-Ansätze und einer architektonisch. Jeder schützt vor einem anderen Fehlermodus; jeder versagt bei einem anderen. Wählen Sie den leichtesten Ansatz, der die Aufsichtsprüfung übersteht.
Anbieterseitiger Privacy-Modus
Vom Anbieter bereitgestellte Privacy-Modi: die Content-Filter und Datenverarbeitungs-Einstellungen des LLM-Anbieters. Der Anbieter verspricht, Ihre Daten nicht zu loggen oder darauf zu trainieren. Inferenz sieht weiterhin die volle Eingabe inklusive PII. Compliance ist policy-gebunden, nicht architektonisch.
In Ordnung für nicht-reguliertes Tooling. Versagt bei jeder Prüfung, die verlangt, dass die KI Identität nachweisbar nicht sieht.
Clientseitige Redaktions-Bibliotheken
Presidio, spaCy NER, Regex-Matcher, eigenes Python. Ihre Anwendung entfernt Identifikatoren vor dem LLM-Aufruf. Mappings (Token → echter Wert) liegen typisch im App-Speicher oder einer Side-DB. Abdeckung ist matcher-qualitätsgebunden; kontextabhängige PII oft verfehlt.
Standard für frühe Produktphasen. Versagt, wenn ein Prüfer Beweis verlangt, dass Redaktion bei jedem Aufruf passiert ist.
KI-Gateway-Proxy-Redaktion
Cloudflare AI Gateway, Lakera, Robust Intelligence — Middleware zwischen Ihrer App und dem LLM, redaktioniert beim Hinausgehen, re-hydriert beim Zurückkommen. Zentralisierte Redaktions-Policy; besser als clientseitig. Immer noch Software, immer noch bug-förmig.
Richtig, wenn clientseitig nicht mehr handhabbar ist. Versagt, wenn das Gateway selbst die Vertrauensgrenze ist, auf die der Prüfer drückt.
Infrastrukturelle Split-Knowledge
Sandbox A hält Identität (WER). Sandbox B führt Inferenz aus (WAS). Es gibt keinen Netzwerkpfad von B nach A. Selbst Lucairn-Operatoren mit vollem Zone-B-Zugriff können keine einzige Antwort re-identifizieren. Plus: jede Entscheidung erzeugt einen signierten Beleg, verankert in einem öffentlichen Log.
Richtig, wenn Procurement architektonische Evidenz verlangt, keine Anbieter-Versprechen.
Acht Kriterien,
vier Ansätze.
Die Kriterien unten sind, worauf ein DSB, CISO oder externer Prüfer tatsächlich drücken wird. Lucairns Split-Knowledge-Architektur gewinnt fünfmal, gleichauf zweimal, verliert einmal (operativer Aufwand).
Jeder Ansatz ist
irgendwo die richtige Antwort.
Ehrliche Einordnung: Nicht jede Workload braucht Split-Knowledge. Wählen Sie den leichtesten Ansatz, den Ihre Prüfung akzeptiert.
- Internes Tooling, keine kundenseitige Entscheidungsfindung
- Keine Aufsichtsbehörde mit Prüfungsautorität über den Datenpfad
- Anbieter-Datenschutzvertrag ist akzeptable Evidenz
- Engineering-Komfort überwiegt Compliance-Tiefe
- PII-Erkennung ist Defence-in-Depth-Schicht, keine primäre Kontrolle
- Ihr Prüfer akzeptiert software-basierte Redaktion mit Logs
- Interne Nutzung; PII-Kategorien sind durch Patterns gut begrenzt
- Sie müssen liefern, bevor die architektonische Option operativ machbar ist
- Kundenseitige KI-Entscheidungen in regulierten Branchen
- Ein externer Prüfer wird die Redaktions-Integrität herausfordern
- Kontextabhängige PII ist im Scope (klinische Notizen, Verträge)
- DORA Art. 28 oder KI-Verordnung Art. 12 in Ihrer Zukunft
- Procurement verlangt architektonische Evidenz, keine Anbieter-Versprechen
Redaktion vs. Split-Knowledge — Fragen,
beantwortet.
Reicht eine gute Redaktions-Bibliothek nicht aus?
Es kommt darauf an, wogegen Sie schützen. Für pattern-gebundene PII (IBANs, Telefonnummern, Namen in strukturierten Feldern) erwischt eine gute Library 95 %+. Für kontextabhängige PII (medizinischer Zustand an einen Freitext-Identifikator gebunden, Transaktionsdetails, die einen Kunden quasi-identifizieren), übersieht Pattern-Matching. Das tiefere Problem ist nicht die Matcher-Qualität — es ist der Fehlermodus. Wenn Redaktion versagt, erreicht PII das Modell. Wenn Split-Knowledge "versagt", lebt der Bug weiterhin in Sandbox A; das Modell kann es trotzdem nicht sehen, weil der Netzwerkpfad nicht existiert.
Was ist mit Anbieter-Privacy-Modi — reichen die nicht?
Anbieter-Privacy-Modi garantieren, dass der Anbieter Ihre Daten nicht loggen oder darauf trainieren wird. Sie ändern nicht, was das Modell während der Inferenz sieht. Das Modell verarbeitet weiterhin die Roh-Eingabe einschließlich Identität. Für regulierte Arbeit, in der die Frage des Aufsehers ist "beweisen Sie, dass die KI keine personenbezogenen Daten gesehen hat", ist das Versprechen eines Anbieters, dass er nichts speichert, nicht dasselbe wie der Beweis, dass es nie den Inferenzpfad erreicht hat. KI-Verordnung Art. 13 Transparenz und DSGVO Art. 25 Datenschutz durch Technikgestaltung handeln vom Datenpfad, nicht von der Logging-Policy des Anbieters.
Ist Lucairns Architektur Overkill für typisches SaaS?
Für nicht-reguliertes SaaS, ja — der operative Aufwand, ein Gateway, eine Bridge und einen Witness zu betreiben, lohnt sich nicht, wenn Ihre KI internes Tooling ist und kein Prüfer den Datenpfad untersuchen wird. Für regulierte Arbeit kehrt sich das Kalkül um: anbieterseitige Redaktion oder clientseitige Bibliotheken hinterlassen Sie damit, ein Software-Versprechen vor einem Prüfer zu verteidigen, was nicht der Ort ist, an dem Sie sein wollen. Lucairn ist gegenüber Gateway-Redaktion vielleicht 20 % schwerer in operativer Komplexität, aber es verändert das Gespräch von "vertrauen Sie uns" zu "hier ist der Beleg".
Kann ich Redaktions-Bibliotheken mit Lucairn kombinieren?
Ja — das ist der Produktions-Default. Lucairns Sanitiser nutzt Presidio plus eine Quasi-Identifikator-Risiko-Engine innerhalb von Sandbox A. Die Redaktions-Bibliotheken sind der Matcher; die architektonische Eigenschaft macht sie tragfähig. Zusammen bekommen Sie sowohl pattern-gebundene als auch architektonische Abdeckung. Ein auf Ihren Domain-Korpus zugeschnittenes, individuell trainiertes PII-Schild-Modell ist als Enterprise-only-Option verfügbar (Preis nach Scope).
Was, wenn ein kontextabhängiger Identifikator durch den Sanitiser schlüpft?
Zwei Dinge passieren. Erstens, der Bug bleibt in Sandbox A — das Modell in Sandbox B kann es trotzdem nicht sehen, weil die Bridge nur die de-identifizierte Payload trägt (was auch immer der Sanitiser produziert hat). Zweitens, der Beleg zeichnet das verwendete Sanitiser-Schema auf. Falls eine Klasse von Identifikatoren sich als untererfasst herausstellt, können Sie die betroffenen Belege rückwirkend identifizieren, indem Sie nach der Schema-Version filtern — die Audit-Kette hilft Ihnen, den Vorfall einzugrenzen, statt ihn zu komplizieren.
Funktioniert Split-Knowledge für kontextreiche Eingaben (klinische Notizen, juristische Verträge)?
Ja, und genau dort zählt die architektonische Eigenschaft am meisten. Klinische Notizen und Verträge sind voll kontextabhängiger PII, die Pattern-Matching übersieht. Lucairns Drei-Schichten-Sanitiser (Presidio + Quasi-Identifikator-Risiko + ein optionales individuell trainiertes PII-Schild auf der Enterprise-Stufe) bewältigt ~90 %+ dieser Fälle. Die 10 %, die durchschlüpfen, bleiben in Sandbox A — das Modell sieht sie nie. Das ist der architektonische Gewinn in der Praxis.
Vom Assessment
in die Produktion.
Lassen Sie das Self-Service-Assessment gegen Ihren KI-Workflow laufen und sehen Sie, ob software-basierte Redaktion ausreicht oder ob Split-Knowledge die richtige Wahl ist. 15 Minuten. Ergebnis geht an Ihren DSB.