Anonymisierung zur Förderung Künstlicher Intelligenz

27. Okt 2021, Christian Geminn

Die Zweckänderung von Daten durch Anonymisierung im Kontext Künstlicher Intelligenz (KI) betont die Notwendigkeit von klaren rechtlichen und technischen Maßnahmen zur Anonymisierung, um die Datenschutzgrundverordnung (DS-GVO) einzuhalten und Risiken zu minimieren. Der Vorschlag umfasst gesetzliche Definitionen, Regelungen zur Nutzung und Löschung anonymisierter Daten sowie Sanktionen für De-Anonymisierung, sowohl auf europäischer als auch nationaler Ebene.

I. Zweckänderung durch Anonymisierung:

Daten, die eingesetzt werden, um Systeme der KI zu trainieren, zu testen und zu evaluieren, wurden im Regelfall für andere Zwecke erstellt oder erhoben. Soweit sie personenbeziehbar sind, dürfte ihre Verwendung im Regelfall dem Gebot der Zweckbindung nach der Datenschutzgrundverordnung (DS-GVO) widersprechen. Personenbezogene Daten können für den neuen Zweck des Trainierens, Testens und Evaluierens von KI nur dann genutzt werden, wenn entweder Forschungszwecke verfolgt werden oder dieser Sekundärzweck mit dem Primärzweck vereinbar ist. Letzteres dürfte in aller Regel nicht der Fall sein. Einen Ausweg bietet die Anonymisierung.

II. Anforderungen an die Anonymisierung:

Anonymisieren bedeutet, personenbezogene Daten so zu verändern, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können. Anonyme Daten sind das Gegenteil von personenbezogenen Daten. Sie grenzen sich definitorisch von diesen dadurch ab, dass sie gerade keine personenbezogenen Daten sind. Anonymisierung und Personenbezug korrelieren insofern negativ. Entscheidend ist, dass die Daten zwar Angaben zu einer bestimmten Person enthalten, dass mit ihnen aber kein Bezug zu einer identifizierten oder identifizierbaren natürlichen Person hergestellt werden kann. Es kann in einer Risikoprognose bestimmt werden, die sowohl das Interesse möglicher Datenverarbeiter als auch die von ihnen mobilisierbaren Mittel der Zuordnung berücksichtigt, ob die nach der Anonymisierung verbleibenden Daten personenbeziehbar sind. Ihre Zuordnung zu einer identifizierbaren Person muss im Verhältnis zu dem dazu notwendigen Aufwand so unverhältnismäßig sein, dass eine Identifizierung nach allgemeiner Lebenserfahrung oder dem Stand der Wissenschaft und Technik nicht zu erwarten ist. Zu berücksichtigen sind dabei das vorhandene oder erwerbbare Zusatzwissen des Verantwortlichen, aktuelle und künftige technische Möglichkeiten der Verarbeitung sowie der mögliche Aufwand und die verfügbare Zeit. Ein absoluter Ausschluss der Zuordnung ist weder möglich noch erforderlich.

Die Methode der Anonymisierung hängt vom Aufbau und Inhalt des jeweiligen Datenbestands und dem Zweck der Weiterverwendung ab. Neben der Löschung der expliziten oder direkten Identifikationsmerkmale wie Namen und Anschriften, Personenkennzeichen, Kontonummern, sind weitere Maßnahmen erforderlich, wie etwa die Merkmalsaggregation, also das Ersetzen konkreter Angaben durch allgemein gehaltene Ersatzangaben, oder auch der kontrollierte Einbau von Zufallsfehlern. Wenn eine absolute Anonymisierung weder möglich noch gefordert ist, lassen sich Re-Identifizierungen nicht vollständig ausschließen. Aufdeckungen des Personenbezugs lassen sich insbesondere dann nicht ausschließen, wenn die Daten vielen Verantwortlichen mit unterschiedlichem mobilisierbaren Zusatzwissen zur Verfügung stehen und langfristig aufbewahrt und damit dem künftigen technischen Fortschritt ausgesetzt sein werden. Wenn ausreichendes Vertrauen in die Anonymisierung und damit in die wesentliche Voraussetzung für das Trainieren, Testen und Evaluieren von KI-Systemen erreicht werden soll, müssen ergänzende – insbesondere rechtliche – Maßnahmen in die Beständigkeit der Anonymität ergriffen werden.

III. Rechtliche Sicherung der Anonymität:

Neben die technischen Maßnahmen zur Anonymisierung müssen rechtliche Schutzmechanismen treten, um eine De-Anonymisierung und eine Re-Identifizierung zu verhindern.

1. Notwendige Vorsorgeregelungen für anonymisierte Daten

Das Hauptziel zum rechtlichen Schutz der Anonymität muss ein Verbot der De-Anonymisierung sein. Damit eine willentliche De-Anonymisierung unterbleibt, muss zudem eine ausreichende Transparenz für Daten bestehen, die gezielt anonymisiert worden sind. Um die Möglichkeit der De-Anonymisierung zu reduzieren, muss die Weitergabe und Weiterverarbeitung anonymisierter Daten beschränkt werden. Sie dürfen nicht für beliebig viele Datenverarbeiter und beliebig viele Zwecke möglich sein. Um die künftigen Möglichkeiten der De-Anonymisierung – mit verbesserten Analysetechniken unter Zuhilfenahme von KI-Techniken – zu begrenzen, sollten die anonymen Daten gelöscht werden, wenn sie nicht mehr für den Zweck benötigt werden, für den sie anonymisiert wurden.

2. Rahmenregelungen durch die DS-GVO?

Die DS-GVO nennt, definiert oder regelt in keiner Vorschrift Anonymisierung oder anonyme Daten. Sie setzt diese aber in mehreren Vorschriften voraus. Fraglich ist, ob sie dabei, zumindest indirekt, weitere Zweckänderungen wirksam unterbinden kann. Bezogen auf die Verarbeitung personenbezogener Daten für Forschungszwecke und die Anonymisierung als Voraussetzung dafür, kann beispielsweise von einem Endzweck ausgegangen werden. Allerdings unterliegen die Daten aufgrund ihrer Anonymität keiner Zweckbindung mehr und unterfallen daher nicht mehr den Regelungen der DS-GVO. In der Folge ist eine beliebige, zweckungebundene Weiterverwendung rechtlich zulässig. Die De-Anonymisierung und die damit verbundene Re-Identifizierung gelten wiederum als neue Datenerhebung im Rahmen der DS-GVO. Damit wäre eine Re-Identifizierung jederzeit zulässig, wenn sich der Verantwortliche z.B. auf überwiegende berechtigte Interessen berufen kann. Im Rahmen der Zweckvereinbarkeit von Primär- und Sekundärzweck wird ebenfalls keine Grenze gesetzt, einen dritten, vierten oder weiteren Zweck anzustreben, zumal auch hier die anonymisierten Daten nicht der DS-GVO unterliegen. Ihr Zweck ist kein Primärzweck. Die DS-GVO weist somit ein weiteres Defizit auf: Sie hat nicht nur die Anonymisierung nicht geregelt, sondern auch das weitere Schicksal anonymisierter Daten ungeregelt gelassen.

IV. Sicherung der Anonymisierung:

Um den Risiken des Umgangs mit anonymisierten Daten zu begegnen, müssten die nachfolgenden Schritte erfolgen, die sowohl als Ergänzungen der DS-GVO als auch in Ergänzung des Vorschlags der Europäischen Kommission für eine Verordnung zur „Festlegung harmonisierter Vorschriften für die Künstliche Intelligenz“ [COM (2021) 206 final] denkbar wären. Dabei sollte ein sinnvolles Maß an Technikneutralität gewahrt werden. Angezeigt wären:

1. die Formulierung einer gesetzlichen Definition der Anonymisierung sowie eine gesetzliche Definition anonymisierter Daten, die über die Beschreibung in Erwägungsgrund 26 S. 5 DS-GVO hinausgeht,

2. klare Regelungen zu Verfahren und Anforderungen der Anonymisierung,

3. ein bußgeldbewehrtes Verbot der Re-Identifizierung anonymisierter Daten,

4. Regelungen zur Verwendung anonymisierter Daten (u.a. Zweckbegrenzung),

5. Regelungen zur Löschung anonymisierter Daten, wenn sie für zulässige Zwecke nicht mehr benötigt werden, sowie

6. Transparenzvorschriften zum Umgang mit anonymisierten Daten.

Damit bliebe es den Verarbeitern anonymisierter Daten möglich, diese zu beliebigen, aber festzulegenden Zwecken zu verarbeiten.

2. Nationale Regulierung

Fraglich ist, ob allgemeine oder bereichsspezifische Regelungen auch im nationalen Recht möglich wären. Diese Frage drängt sich insbesondere deshalb auf, weil eine Überarbeitung der DS-GVO in absehbarer Zeit nicht zu erwarten ist – so das klare Signal des ersten Evaluationsberichts zur Verordnung. Denkbar wäre ein Rückgriff auf vorhandene Öffnungsklauseln in der DS-GVO. Diese könnten eine mitgliedstaatliche Regelung für die Bereiche der Anwendung staatlicher KI-Systeme sowie der Forschung im Allgemeininteresse legitimieren. Eine entsprechende Vorschrift existiert bereits im deutschen Sozialrecht in § 303e Abs. 5 S. 4 SGB V. Die Vorschrift untersagt die Verarbeitung von bereitgestellten Daten zu dem Zweck, einen Personenbezug herzustellen, Leistungserbringer oder Leistungsträger zu identifizieren oder sich bewusst Kenntnisse über fremde Betriebs- und Geschäftsgeheimnisse zu verschaffen. Diese Vorschrift könnte somit als Vorbild dienen. Das Problem einer Re-Identifizierung besteht bei medizinischen Daten in besonderem Maße, da trotz Entfernung direkt identifizierender Merkmale häufig durch die Einzigartigkeit eines Datensatzes ein Personenbezug hergestellt werden könnte.

3. Sanktionierung der De-Anonymisierung

De-Anonymisierung dürfte in der Praxis schwer zu erkennen und zu unterbinden sein. Zur Durchsetzung von Verboten ist somit eine Abschreckung durch hohe Bußgelder notwendig. Diese Notwendigkeit folgt auch aus den Risiken einer De-Anonymisierung.

Eine unzureichende Anonymisierung wurde von Aufsichtsbehörden bereits mit Bußgeldern belegt. Sinnvoll wäre daher, einen Straftatbestand der willentlichen De-Anonymisierung einzuführen. Dieser könnte in den Strafvorschriften des Bundesdatenschutzgesetzes (BDSG) verortet werden. Dabei wäre nach dem Vorbild von § 42 Abs. 1 BDSG eine Beschränkung der Strafbarkeit auf gewerbsmäßiges Handeln möglich. Die DS-GVO steht dem nicht entgegen.

Über den Autor

Dr. Christian Geminn ist Geschäftsführer der Projektgruppe verfassungsverträgliche Technikgestaltung (provet) im Wissenschaftlichen Zentrum für Informationstechnikgestaltung (ITeG) der Universität Kassel sowie Mitglied des vom Bundesministerium für Bildung und Forschung (BMBF) geförderten “Forum Privatheit”.

0Noch keine Kommentare

Ihr Kommentar

Antwort auf: Direkt auf das Thema antworten