Zusammenfassung:
RAG-Systeme markieren einen Wendepunkt in der Entwicklung datenschutzkonformer KI-Anwendungen. Sie können für Unternehmen zu einer effizienteren, kundenorientierteren und auch sicheren Arbeitsweise führen. Services können transparenter und auch besser kontrollierbar werden.
Doch Unternehmen sollten RAG-Systeme nicht als endgültige Lösung betrachten. Es bleiben datenschutzrechtliche Risiken. Der folgende Blogbeitrag wird die Funktion von RAG-Systemen erläutern und Ihnen als Unternehmen wertvolle Tipps für Ihren Einsatz geben.
Was ist ein RAG-System?
Zunächst widmen wir uns der Frage, was RAG-Systeme eigentlich sind. RAG-Systeme bestehen aus zwei Hauptkomponenten: dem Retriever, der Datenquellen wie Vektordatenbanken, Dokumentensammlungen oder Webseiten nach relevanten Informationen durchsucht, und dem Generator, der ein Sprachmodell, wie GPT nutzt, um die gefundenen Informationen in eine kontextbezogene Antwort zu formulieren.
RAG-Systeme kombinieren als generative Sprachmodelle mit zusätzlichen Wissensquellen. Dadurch erhält das Sprachmodell relevante Informationen, die es für seine Antwort nutzen kann. Die durch das LLM generierte Antwort stammt also nicht von dem Sprachmodell, sondern von den durchsuchten externen Quellen.
Ein Unternehmens-Chatbot könnte beispielsweise auf interne Richtlinien, Verträge oder FAQs zugreifen. Die Informationen müssen dabei nicht in das Modelltraining einfließen.
RAG-Systeme haben zentrale Vorteile. Die genutzten Informationen sind aktuell und können jederzeit geändert oder gelöscht werden. Das Risiko von fehlerhaften und halluzinierten Antworten sinkt. Die Antworten werden dadurch präziser und sicherer. Zudem bleiben die Daten unter der Kontrolle des jeweiligen Unternehmens.
Künstliche Intelligenz ist aus dem privaten und beruflichen Alltag nicht mehr wegzudenken. Sie kommt vielfältig zum Einsatz und erleichtert Prozesse.
RAG-Systeme kombinieren die Stärke von LLMs mit der Fähigkeit, externe Wissensquellen dynamisch zu durchsuchen und einzubeziehen. Die generierten Antworten werden so sprachlich präzise, faktenbasiert und aktuell.
Zudem können die Daten in RAG-Systemen besser kontrolliert werden, indem Daten gezielt gelöscht und aktualisiert werden können. So lassen sich Betroffenenrechte einfacher umsetzen als bei einem trainierten LLM.
Datenschutzrechtliche Relevanz
Neben ihren Vorteilen für Unternehmen haben RAG-Systeme auch eine gewisse datenschutzrechtliche Relevanz, welche beachtet werden sollte.
Im Gegensatz zu einem „klassischen“ KI-Modell, das mit großen externen Datensätzen trainiert wird und das Erlernte später für das Generieren von Antworten nutzt, nutzen RAG-Systeme vorhandene interne Dokumente. Diese werden in kleine Textabschnitte („Chunks“) zerlegt, als Vektoren in einer Datenbank gespeichert und bei Anfragen durchsucht.
Dabei findet auch eine Verarbeitung personenbezogener Daten statt. In der Regel handelt es sich um personenbezogene Daten, die in Dokumenten enthalten sind.
Eine Einwilligung für diese Verarbeitung ist nicht zwingend erforderlich, wenn die Verarbeitung auf eine andere Rechtsgrundlage gestützt werden kann. Infrage kommt hier insbesondere das berechtigte Interesse gemäß Art. 6 Abs. 1 lit. f) DSGVO. Sobald die Daten jedoch zu Analyse- oder Trainingszwecken verwendet werden, ist regelmäßig eine Einwilligung (Art. 6 Abs. 1 lit. a) DSGVO) erforderlich.
Wichtig ist zudem zu beachten, dass ein RAG-Modell nichts daran ändert, wie in LLM trainiert wurde. Wurde es rechtswidrig trainiert, bleibt es ein rechtswidrig trainiertes KI-Modell. An seinen Einsatz müssen entsprechend hohe Anforderungen gestellt werden, damit die Verarbeitungen rechtskonform stattfinden.
Die Datenschutzkonferenz betont, dass RAG-Systeme die Umsetzung zentraler DSGVO-Grundsätze im Vergleich zu herkömmlichen LLMs erleichtern können:
- Richtigkeit: Durch den Zugriff auf aktuelle und geprüfte Quellen sinkt die Gefahr falscher und halluzinierter KI-Antworten.
- Transparenz: Nutzer*innen können durch Quellenangaben nachvollziehen, aus welchen Quellen Informationen stammen.
- Integrität und Vertraulichkeit: RAG-Systeme können durch lokale Verarbeitung (on-premise) verhindern, dass personenbezogene Daten an externe KI-Anbieter übertragen werden und technische und organisatorische Maßnahmen (z.B. Trennung von Daten, Rechte- und Rollenkonzept) können einfacher umgesetzt werden.
Die DSK weist jedoch auf einige Risiken von RAG-Systemen hin:
- Zweckbindung: Personenbezogene Daten dürfen nur zu dem festgelegten Verarbeitungszweck genutzt werden. Durch die Übertragung von Daten aus der Datenbank an das LLM kann es zu einer Verletzung dieser Zweckbindung kommen. Verantwortliche müssen wissen, welche personenbezogenen Daten in dem verwendeten KI-Modell des LLM verwendet werden.
- Datenminimierung: In den Datenbanken sollten nur notwendige Dokumente gespeichert werden. Werden unnötig viele personenbezogene Daten gespeichert, kann dies einen Verstoß gegen den Grundsatz der Datenminimierung darstellen.
- Rechtsgrundlage: Verantwortliche können sich bei der Rechtsgrundlage nicht pauschal auf ihr berechtigtes Interesse stützen. Überwiegen die Interessen der Gegenseite, muss eine Einwilligung eingeholt werden.
- Intransparenz des Sprachmodells: Auch mit RAG bleibt es unklar, wie genau das LLM Entscheidungen trifft.
- Verkettung von Daten: Eine Verbindung von Daten aus der Vektordatenbank mit im Modell enthaltenen Informationen kann neue Datenschutzrisiken erzeugen.
Umsetzungstipps für Ihr Unternehmen
Unternehmen bleiben Verantwortliche im Sinne der DSGVO, auch wenn Teile des Systems extern betrieben werden. Daher ist es wichtig, insbesondere die folgenden Punkte zu beachten:
- Dokumentation der Datenschutzmaßnahmen und technischen Architektur (LLM, Retriever, Datenquelle)
- Klassifizierung der Daten in personenbezogene und besondere personenbezogene Daten
- Rechtsgrundlage festlegen: Vor jedem Einsatz muss geprüft werden, auf welcher Rechtsgrundlage die Verarbeitung beruht.
- Gegebenenfalls muss eine Datenschutzfolgenabschätzung vorgenommen werden
- Technische und organisatorische Maßnahmen umsetzen: Besondere Aufmerksamkeit sollte in diesem Zusammenhang die Zugriffskontrolle in Form von einem Rollenkonzept zur Trennung von Datenquellen und Verwendungszwecken bekommen. Zudem müssen die Datenbereiche strikt getrennt werden und Mitarbeitende sollen im Umgang mit RAG-Systemen sensibilisiert und geschult werden.
- Transparenz sicherstellen und Nutzer über Datenverarbeitung informieren. Nutzende müssen klar darüber informiert werden welche Daten verarbeitet werden, zu welchem Zweck diese verarbeitet werden, wie lange sie gespeichert werden und welche Rechte betroffene geltend machen können.
- Regelmäßige Kontrolle der Referenzdokumente
Für Unternehmen bieten RAG-Systeme viele Vorteile. Neben der Effizienzsteigerung durch automatisierte Kundensupport-Systeme und ein effektives Wissensmanagement bieten RAG-Systeme auch mehr Sicherheit und Kontrolle über die Informationen. Unternehmen können die Qualität durch kontrollierte Datenquellen sichern und so für mehr Richtigkeit und Verlässlichkeit sorgen.
