Einleitung
Stellen Sie sich vor, Sie könnten eine unsichtbare Superheldenmaske auf Ihre persönlichen Daten setzen – eine Maske, die Ihre Identität verbirgt und dennoch wichtige Einblicke ermöglicht, die unsere Welt verbessern können. Klingt das nach Science-Fiction?
Hier kommt die Anonymisierung von Daten ins Spiel. Mit der Anonymisierung von Daten können Unternehmen das Beste aus beiden Welten haben – den Datenschutz einhalten und die Möglichkeit, mit Daten auf eine sichere und verantwortungsvolle Weise Innovationen zu erzielen. In diesem Beitrag werden wir tiefer in das Thema der Anonymisierung eintauchen. Wir werden untersuchen, wie es funktioniert, warum es wichtig ist und wie es uns dabei hilft, das Gleichgewicht zwischen Datenschutz und dem Nutzen von Daten in einer immer stärker vernetzten Welt zu finden.
Was ist die Anonymisierung?
Die Anonymisierung von Daten ist ein Prozess, bei dem alle persönlich identifizierbaren Informationen aus Datensätzen entfernt werden, um die Privatsphäre der Personen zu schützen, auf die sich die Daten beziehen.
In bestimmten Kontexten, beispielsweise in der medizinischen Forschung oder bei dem Training von künstlichen Intelligenzen durch Unternehmen, ist es oft notwendig, Daten zu sammeln, die potenziell auf einzelne Personen zurückgeführt werden könnten. Um die Vertraulichkeit dieser Informationen zu gewährleisten und die Privatsphäre der betroffenen Personen zu schützen, werden diese Daten anonymisiert. Durch die Anonymisierung entfällt ebenfalls der Anwendungsbereich der Datenschutz-Grundverordnung (DSGVO). Wichtig ist dabei zu beachten, dass der Prozess zur Anonymisierung noch in den Anwendungsbereich der DSGVO fällt.
Dies geschieht typischerweise durch die Entfernung oder Verschlüsselung von spezifischen Datenpunkten wie Namen, Adressen, Telefonnummern und anderen Informationen, die verwendet werden könnten, um eine Person zu identifizieren. Aus Sicht der DSGVO ist die Anonymisierung ein technisches Verfahren, das auf personenbezogene Daten angewendet wird, damit natürliche Personen nicht oder nicht mehr identifiziert werden können.
Anforderungen an eine Anonymisierung
Die DSGVO legt nicht explizit fest, welche Methoden zur Anonymisierung zu verwenden sind. Sie ergibt sich aber im Umkehrschluss aus der Definition der personenbezogenen Daten in Art. 4 Nr. 1 DSGVO sowie aus ErwG 26. Eine wirksame Anonymisierung von personenbezogenen Daten lässt sich allerdings nach der DSGVO indirekt ableiten, so müssen mehrere Anforderungen erfüllt sein:
- Irreversibilität: Eine Re-Identifizierung der betroffenen Personen darf praktisch nicht mehr möglich sein. Die DSGVO verlangt dabei keine absolute, sondern eine faktische Unumkehrbarkeit: Maßstab ist nach Erwägungsgrund 26 DSGVO, ob eine Identifizierung „nach allgemeinem Ermessen wahrscheinlich“ möglich wäre – also unter Berücksichtigung von Kosten, Zeitaufwand und verfügbarer Technologie. Eine theoretisch denkbare Re-Identifizierung mit unverhältnismäßigem Aufwand reicht nicht aus, um den Personenbezug zu begründen.
- Einzigartigkeit: Die Daten müssen so verändert werden, dass sie nicht auf eine eindeutige oder identifizierbare Person hinweisen können. Dies bedeutet, dass auch „singuläre“ Merkmale, die nur eine sehr kleine Gruppe von Personen oder sogar eine einzelne Person beschreiben, entfernt oder modifiziert werden müssen.
Es ist wichtig zu betonen, dass, wenn personenbezogene Daten effektiv anonymisiert wurden, die DSGVO nicht mehr gilt, da sie keine personenbezogenen Daten mehr sind. Allerdings ist die Messlatte für „effektive“ Anonymisierung ziemlich hoch und sollte unter Berücksichtigung sowohl des aktuellen als auch des zukünftigen technologischen Fortschritts betrachtet werden. Denn was heute als sicher gilt, könnte in der Zukunft möglicherweise entschlüsselt werden. Gerade für eine “faktische Anonymisierung” (s.u.) ist dieser Aspekt sehr wichtig.
Wie werden Daten anonymisiert?
Die Anonymisierung von Daten kann auf verschiedene Weisen erreicht werden, abhängig von den spezifischen Anforderungen und dem Kontext. Im Folgenden werden einige der gängigsten Methoden zur Anonymisierung beschrieben.
Absolute Anonymisierung
Die absolute Anonymisierung gilt als stärkste Form, ist in der Praxis aber kaum dauerhaft zu erreichen. Mit jeder neuen Datenquelle und jedem Sprung in der Rechenleistung verschiebt sich die Messlatte nach oben. Genau aus diesem Grund verlangt die DSGVO keine absolute, sondern eine faktische Anonymisierung.
Faktische Anonymisierung
Die faktische oder relative Anonymisierung ist der Maßstab, den die DSGVO tatsächlich anlegt. Sie ist erreicht, wenn eine Re-Identifizierung der betroffenen Person zwar theoretisch denkbar wäre, in der Praxis aber nur mit unverhältnismäßig hohem Aufwand gelingen würde. Der Maßstab steht direkt in Erwägungsgrund 26 DSGVO: Für die Frage der Identifizierbarkeit sind „alle Mittel zu berücksichtigen, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden“. Drei objektive Faktoren nennt die Verordnung ausdrücklich:
- Kosten der Identifizierung: Steht der finanzielle Aufwand in einem vernünftigen Verhältnis zum möglichen Nutzen einer Re-Identifizierung?
- Zeitaufwand: Würde eine Re-Identifizierung Wochen oder Monate spezialisierter Arbeit erfordern?
- Verfügbare Technologie: Welche Verfahren stehen heute zur Verfügung und welche sind absehbar?
Die faktische Anonymisierung ist damit kein Hilfskonstrukt der Praxis, sondern vom Gesetzgeber bewusst vorgesehen. Eine absolute Unmöglichkeit der Re-Identifizierung verlangt die DSGVO ausdrücklich nicht. Ein zentraler Punkt der jüngeren Rechtsprechung: Die Bewertung erfolgt empfängerbezogen. Dasselbe Datum kann beim Sender personenbezogen sein und beim Empfänger anonym – wenn dem Empfänger die realistischen Mittel zur Re-Identifizierung fehlen. Wer Daten an Dritte weitergibt (etwa für Forschung, Analyse oder KI-Training), sollte die Anonymitätsfrage immer aus Sicht des konkreten Empfängers beurteilen.
Wann der Punkt der Unverhältnismäßigkeit erreicht ist, lässt sich nicht pauschal sagen. Maßgeblich sind Art der Daten, Verarbeitungskontext und die Mittel, die dem konkreten Empfänger zur Verfügung stehen. Diese Bewertung sollte dokumentiert sein. Sie ist der Nachweis gegenüber Aufsichtsbehörden und Gerichten, dass die Schwelle der faktischen Anonymisierung tatsächlich erreicht ist. Eine Abstimmung mit dem Datenschutzbeauftragten ist hier dringend zu empfehlen.
Aktuelle Rechtsprechung zur Anonymisierung
Seit 2018 haben mehrere Leitentscheidungen den Umgang mit Anonymisierung und Personenbezug deutlich geschärft. Wer heute ein belastbares Anonymisierungskonzept aufsetzt, sollte diese Urteile kennen:
| Datum | Gericht / Aktenzeichen | Bezeichnung | Kernaussage |
|---|---|---|---|
| 26.04.2023 | EuG, T-557/20 | „SRB / EDSB“ | Leitentscheidung: Pseudonyme Daten sind aus Sicht eines Empfängers ohne Re-Identifizierungsmittel keine personenbezogenen Daten. |
| 09.11.2023 | EuGH, C-319/22 | „Scania“ | Bei Fahrzeug-Identifizierungsnummern hängt der Personenbezug davon ab, ob der konkrete Empfänger die FIN einer Person zuordnen kann. |
| 07.12.2023 | EuGH, C-634/21 | „SCHUFA-Scoring“ | Klärt die Reichweite des Profiling-Begriffs und flankiert die Diskussion um Personenbezug bei Score-Werten. |
| 07.03.2024 | EuGH, C-604/22 | „IAB Europe“ | Personenbezug eines Datensatzes wird empfängerbezogen geprüft – der relative Ansatz wird konsequent angewendet. |
Anonymisierung für Einsatz künstlicher Intelligenz
Für einige Datenanalysten wäre es ohne Frage sehr hilfreich, das Training der KI mittels personenbezogener Daten vornehmen zu können. Das ist oftmals wegen fehlender Rechtsgrundlage i.S.d. Art. 6 DSGVO und Nichterfüllung vorheriger Informationspflichten i.S.d. Art. 12 ff. DSGVO ausgeschlossen. Für das Training bieten sich allerdings beispielsweise folgende Möglichkeiten an:
- Federated Learning: Federated Learning ist ein Ansatz für maschinelles Lernen, der darauf abzielt, die Vorteile zentralisierter Modelle für maschinelles Lernen zu nutzen und gleichzeitig die Privatsphäre und Sicherheit der Daten zu schützen. Federated Learning löst das Datenschutzproblem, indem es die Modelle für maschinelles Lernen direkt auf den Geräten der Nutzer trainiert. Anstatt die Rohdaten auf einen zentralen Server zu übertragen, werden die Modelle auf den einzelnen Geräten mit den dort verfügbaren Daten trainiert. Danach werden die aktualisierten Modelle oder Modellparameter an den zentralen Server gesendet, wo sie aggregiert und zu einem globalen Modell kombiniert werden. Das bedeutet, dass die Rohdaten niemals das Gerät des Benutzers verlassen, was sowohl die Datensicherheit als auch den Datenschutz verbessert.
- Differential Privacy: Im Kontext des maschinellen Lernens kann Differential Privacy verwendet werden, um Modelle zu trainieren, die nützliche Erkenntnisse aus Daten ziehen können, ohne spezifische Details über einzelne Datenpunkte preiszugeben. Dabei wird das zufällige „Rauschen“ in den Daten während des Trainingsprozesses eingeführt. Der Schlüssel dabei ist, dass das trainierte Modell keine Informationen über einzelne Datenpunkte lernt und daher die Privatsphäre der Personen, auf die sich die Daten beziehen, schützt.
- Erzeugung von synthetischen Daten: Synthetische Daten sind künstlich erstellte Daten, die die gleichen statistischen Eigenschaften wie echte Daten haben. Sie werden oft in Situationen verwendet, in denen echte Daten schwer zu beschaffen sind oder in denen Datenschutzbedenken den Zugang zu echten Daten einschränken. Synthetische Daten können zur Simulation verschiedener Situationen und Szenarien verwendet werden und sind besonders nützlich zum Training von KI- und maschinell lernenden Modellen. Es gibt zur Erzeugung beispielsweise die statische Methode. Diese Methode erzeugt Daten, die bestimmte statistische Eigenschaften (wie Durchschnitt, Standardabweichung, Korrelationen usw.) replizieren, welche in echten Datensätzen beobachtet wurden. Zum Beispiel könnte ein einfacher Ansatz darin bestehen, zufällige Werte aus einer Verteilung zu ziehen, die der in den echten Daten beobachteten entspricht.
Was ist Pseudonymisierung?
Der Begriff „Pseudonymisierung“ ist in Art. 4 Nr. 4 DSGVO legal definiert. Sie bezeichnet ein Verfahren, bei dem personenbezogene Daten so verarbeitet werden, dass sie nur durch Hinzuziehen zusätzlicher Informationen einer bestimmten Person zugeordnet werden können. Im Gegensatz zur Anonymisierung bleibt somit grundsätzlich die Möglichkeit, die Identität der Person durch zusätzliche Informationen, wie etwa einen Schlüssel oder eine Referenzdatei, zu ermitteln.
Beispielsweise kann anstelle eines Namens eine Kennnummer gespeichert werden. Der Bezug zur betroffenen Person hinter der Nummer bleibt durch eine gesonderte Liste, die gesondert und geschützt aufbewahrt wird, bestehen.
Damit ist die Pseudonymisierung eine effektive organisatorische Maßnahme, um Daten zu schützen.
Grundsätzlich gelten pseudonymisierte Daten immer noch als personenbezogene Daten im Sinne der DSGVO. In Einzelfällen kann die Pseudonymisierung andere Personen als den Verantwortlichen jedoch tatsächlich daran hindern, die betroffene Person zu identifizieren, sodass diese für sie nicht oder nicht mehr identifizierbar ist. In diesen Fällen handelt es sich nicht mehr um personenbezogene Daten. Nach neuster Rechtsprechung des EuGH bestimmt sich die maßgebliche Sicht für die Beurteilung der Identifizierbarkeit der betroffenen Person wesentlich nach den Umständen der Datenverarbeitung im Einzelfall. Hat die verantwortliche Person die Möglichkeit, die betroffene Person hinter den pseudonymisierten Daten zu identifizieren, handelt es sich nach wie vor um personenbezogene Daten.
Eine Informationspflicht, wenn pseudonymisierte Daten an Dritte, die die betroffene Person nicht mehr identifizieren können, weitergegeben werden, besteht trotzdem. Das liegt daran, dass die Identifizierbarkeit der betroffenen Person zu dem Zeitpunkt des Erhebens der Daten und aus der Sicht des Verantwortlichen zu beurteilen ist.
Für die Praxis bedeutet das, dass bei jeder Übermittlung zu prüfen ist, ob die Daten für den Empfänger noch personenbezogen sind, die betroffene Person also noch identifizierbar ist oder nicht. Auftragsverarbeitungsverträge werden in der Regel weiterhin erforderlich sein.
Pseudonymisierung vs. Anonymisierung
Während die Anonymisierung dafür sorgt, dass ganz eindeutig der Anwendungsbereich der DSGVO nicht eröffnet wird, ist es bei der Pseudonymisierung nicht eindeutig. Die nachfolgende Tabelle stellt die wichtigsten Merkmale gegenüber und vergleicht die Pseudonymisierung mit der Anonymisierung.
| Pseudonymisierung | Anonymisierung | |
| Was ist das? | Ersetzen identifizierbarer Daten durch künstliche Identifikatoren oder Pseudonyme. | Entfernen oder Ändern identifizierbarer Daten, so dass sie nicht mehr einer bestimmten Person zugeordnet werden können. |
| Ist es reversibel? | Ja, mit Zugang zu zusätzlichen Informationen (z.B. einem Schlüssel). | Nein, es sollte irreversibel sein. |
| Schutzstufe | Bietet einen gewissen Schutz, ist aber anfällig, wenn der Schlüssel kompromittiert wird. | Bietet höheren Schutz, da die Daten nicht mehr mit einer Person in Verbindung gebracht werden können. |
| Datenschutzgesetze | Pseudonymisierte Daten gelten nach der DSGVO grundsätzlich immer noch als personenbezogene Daten. Hier muss der Einzelfall bewertet werden. | Anonymisierte Daten gelten nicht als personenbezogene Daten im Sinne der DSGVO. |
| Anwendung | Hilfreich, wenn Daten später noch einer Person zugeordnet werden müssen, z. B. in medizinischen Forschungsstudien. | Nützlich, wenn keine Zuordnung zu Personen mehr erforderlich oder gewünscht ist, z. B. bei öffentlichen Datensätzen für Forschungszwecke oder dem Training einer KI. |
| Einfluss auf die Datenqualität | Ändert die Daten weniger, kann daher die Qualität und Nützlichkeit der Daten besser erhalten. | Kann die Datenqualität stärker beeinflussen, da mehr Informationen entfernt oder verändert werden. |
Fazit zur Anonymisierung
Die Anonymisierung bietet eine effektive Methode, um Daten zu nutzen, ohne die Identität der betroffenen Personen preiszugeben. Mit einer Fülle von Techniken zur Verfügung, von Datenmaskierung und Generalisierung bis hin zur Randomisierung und Datenlöschung, bietet die Anonymisierung einen vielseitigen Ansatz, der sich an die spezifischen Bedürfnisse jedes Unternehmens anpassen lässt.
Während die Pseudonymisierung eine hilfreiche Methode zur Trennung von Identifikationsdaten darstellt, ist es wichtig zu beachten, dass diese in der Regel unter der DSGVO noch immer als personenbezogene Daten betrachtet werden können. Hier muss im Einzelfall eine Bewertung durch den Datenschutzbeauftragten erfolgen. Für eine belastbare Anonymisierung empfiehlt sich ein Mix von Methoden, die eine Re-Identifizierung praktisch ausschließen. Die DSGVO verlangt dabei keine absolute, sondern eine faktische Unumkehrbarkeit, belegt durch eine dokumentierte Risikobewertung, die Kosten, Zeitaufwand und realistisch verfügbare Technologie, einbezieht. Diese Bewertung sollte regelmäßig aktualisiert werden, denn neue Technologien wie generative KI verändern die Re-Identifizierungsrisiken laufend.
Praxistipps für Unternehmen:
- Verstehen Sie die gesetzlichen Anforderungen: Informieren Sie sich gründlich über die geltenden Datenschutzgesetze und -verordnungen in Ihrer Region und Branche.
- Identifizieren Sie sensible Daten: Nicht alle Daten müssen anonymisiert werden. Identifizieren Sie diejenigen, die wirklich sensibel sind, und konzentrieren Sie Ihre Bemühungen auf diese.
- Wenden Sie passende Methoden an: Wählen Sie die geeignete Anonymisierungstechnik, abhängig von den spezifischen Anforderungen und dem Kontext.
- Bildung und Training: Stellen Sie sicher, dass alle Mitarbeiter, die mit Daten arbeiten, die Bedeutung des Datenschutzes verstehen und geschult sind, um geeignete Maßnahmen zu ergreifen.
- Nutzen Sie Technologie: Nutzen Sie verfügbare Tools und Plattformen, die den Anonymisierungsprozess unterstützen und erleichtern können.
- Externe Expertise einholen: Bei komplexen Daten und hohen Anforderungen an den Datenschutz kann es sinnvoll sein, externe Experten hinzuzuziehen.
Letztendlich ist die Anonymisierung von Daten nicht nur eine gesetzliche Anforderung, sondern auch ein wichtiger Aspekt des Vertrauens zwischen Unternehmen und Kunden. Indem Unternehmen eine proaktive Rolle beim Datenschutz übernehmen, können sie nicht nur rechtliche Konsequenzen vermeiden, sondern auch eine stärkere Beziehung zu ihren Kunden aufbauen.
Daten sind anonymisiert, wenn eine Re-Identifizierung der betroffenen Person nur noch mit unverhältnismäßig hohem Aufwand möglich wäre. Maßstab ist Erwägungsgrund 26 DSGVO. Drei Faktoren entscheiden:
- Kosten: Stünde der finanzielle Aufwand einer Re-Identifizierung in keinem vernünftigen Verhältnis zum möglichen Nutzen?
- Zeit: Würde eine Re-Identifizierung Wochen oder Monate spezialisierter Arbeit erfordern?
- Technik: Reichen heute und absehbar verfügbare Verfahren nicht aus, um die Person zu identifizieren?
Sind alle drei Punkte erfüllt, ist die Schwelle der faktischen Anonymisierung erreicht – die Daten fallen aus dem Anwendungsbereich der DSGVO. Eine absolute Unmöglichkeit der Re-Identifizierung verlangt die DSGVO ausdrücklich nicht.
Nein. Pseudonymisierte Daten bleiben aus Sicht des Verantwortlichen, der den Schlüssel hat, personenbezogen. Aus Sicht eines Empfängers ohne Schlüssel und ohne realistische Re-Identifizierungsmittel können sie nach jüngerer Rechtsprechung (EuG T-557/20, „SRB“) jedoch anonym sein.
Ja. Die Anonymisierung ist eine Verarbeitung im Sinne von Art. 4 Nr. 2 DSGVO und braucht eine eigene Rechtsgrundlage – meist Art. 6 Abs. 1 lit. f DSGVO (berechtigtes Interesse). Erst das Ergebnis der Anonymisierung steht außerhalb der DSGVO.
Die Bewertung trifft der Verantwortliche selbst – dokumentiert und nachvollziehbar. Aufsichtsbehörden und Gerichte prüfen im Streitfall, ob die Einschätzung belastbar ist. Eine schriftliche Risikobewertung mit Beteiligung des Datenschutzbeauftragten ist die Standardpraxis.
