Zurück zur Übersicht
01. Juli 2024

JE BESSER UND SAUBERER DIE DATEN, DESTO SMARTER DIE KI-ERGEBNISSE

Rechtsanwalt Christian Schmoll

Exklusives Interview mit Rechtsanwalt für IT- und Datenschutz Christian Schmoll

APARAVI: Für das Training und die Verwendung von KI wollen Unternehmen und Behörden grundsätzlich so viele Daten wie möglich verwenden. Sehr oft sollen auch personenbezogene Daten verwendet werden – von Kunden, Lieferanten, Mitarbeitern, Partnern etc.. Aber dann wird es sehr schnell sehr kompliziert. Vor welchen Herausforderungen aus Datenschutzsicht steht man denn, wenn man für das Training von KI personenbezogene Daten verwenden möchte?

Interview als Video HIER ANSEHEN

Christian Schmoll: Wenn ich eine KI entwickeln und einsetzen möchte, brauche ich jede Menge Daten – und wenn ich jede Menge Daten verarbeite, sind da zumindest potenziell immer auch personenbezogene Daten im Spiel. Kaum jemand wirft bei professionell aufgesetzten KI-Projekten ungeprüft jede Menge personenbezogene Daten in eine KI hinein. Ich muß aber trotzdem das Spannungsverhältnis mit gleich mehreren Grundprinzipien des Datenschutzes und der DSGVO verstehen.

Zwei wichtige Punkte sind zu beachten.Ich habe zum einen die Zweckbindung: Darf ich Daten, die ich ursprünglich mal für einen anderen Zweck erhoben habe und die bei mir noch gespeichert sind, jetzt dann plötzlich nachträglich auch für meine KI verwenden? Das ist schon nicht so ganz einfach, weil die Daten eben meist, zumindest in der grauen KI-freien Vorzeit , eben nicht praktischerweise auch ausdrücklich gleich für das Training meiner KI miterhoben wurden. Das ändert sich in vielen Bereichen gerade, zu sehen beispielsweise an den Änderungen der Datenschutzinformationen sämtlicher Social Media-Plattformen, siehe exemplarisch X/Twitter Anfang September 2023.

Ich werde aber regelmäßig personenbezogene Daten haben, deren Verarbeitungszweck ursprünglich eben nicht KI-Training war. Und damit habe ich dann immer eine Zweckänderung mit dem ganzen datenschutzrechtlichen Rattenschwanz, der damit einhergeht. Und dann brauche ich, völlig überraschend, für die Verarbeitung personenbezogener Daten für die Entwicklung meiner KI auch eine Rechtsgrundlage. Und da wird’s oft eng. Die Einwilligung der Betroffenen einzuholen ist nicht praktikabel.

Wahrung berechtigter Interessen kann funktionieren, das ist oft die einzig tragfähige Option. Aber da muss ich eben mein Interesse am KI-Training abwägen mit dem Interesse der Betroffenen. Ich bin dann zu Überlegungen verpflichtet, wie ich die Interessen der Betroffenen so weit wie möglich schützen kann - und diese Überlegungen muss ich, wie immer im Datenschutz, auch dokumentieren. Auf jeden Fall sehr aufwendig!

APARAVI: Ok, verstanden - wenig überraschend, es ist wie immer nicht einfach. Alle herumliegenden Daten zusammentragen und dann die KI damit füttern – das wäre zwar schön,
ist aber aus Datenschutzsicht sicher nicht ideal. Was muss bzw. was kann ich denn ganz pragmatisch tun, um mein Risiko zu reduzieren?

Christian Schmoll: Eine zulässige Zweckänderung und die Interessenabwägung für das berechtigte Interesse haben Einiges an Gemeinsamkeiten. Ich muss mir also überlegen, was ich alles tun kann, um die Interessen der der Betroffenen so weit wie möglich zu schützen.

Wenn es um personenbezogene Daten geht, ist naheliegend natürlich immer erst einmal die Anonymisierung. Wenn ich die Daten anonymisieren kann, bin ich raus aus der DSGVO und dem ganzen Datenschutz-Spaß. Das wäre der Königsweg, wenn es um KI-Training geht. Anonymisierung setzt aber natürlich voraus, dass das Training der KI auch mit anonymen Daten funktioniert.

Und das ist oft nicht der Fall, für viele Use Cases brauche explizit reale personenbezogene Daten (Geschlecht, genauer Wohnort, Alter, Kaufverhalten, Kommunikation u.v.m.) und kann eben nicht mit anonymen, teil-anonymen oder synthetischen Daten arbeiten.

Wenn also Anonymisierung keine Option ist, wäre das nächste Level die Pseudonymisierung. Also zum Beispiel die Verhinderung des unmittelbaren Personenbezuges, indem ich Namen durch IDs ersetze.

Aber sowohl für Anonymisierung als auch für Pseudonymisierung muss man überhaupt erst einmal wissen, ob und wo man personenbezogene Daten in seinen Trainingsdaten hat. Und diese sind oft gar nicht so einfach zu suchen, zu finden, zu verstehen, zu strukturieren – und automatisiert zu verarbeiten.

APARAVI: Diese Situation ist tatsächlich die Regel, nicht die Ausnahme. Jedes Unternehmen, jede Organisation hat quasi unendliche Mengen unstrukturierter Daten, von Anwendern und Maschinen erzeugt, bei denen oft nicht klar ist, was eigentlich genau drinsteckt. Und von Menschenhand ist eine Analyse bei gleichzeitig exponentiellem Datenwachstum eine unlösbare Aufgabe. Stichwort „Dark Data“!

Christian Schmoll: Dafür gibt es mittlerweile sehr leistungsfähige Technologien, wie z.B. die APARAVI Plattform. Bevor wir da konkreter einsteigen, müssen wir uns aber erst noch das wichtige Grundprinzip „Privacy by Design“ anschauen: „Privacy by Design“ oder korrekt auf Deutsch „Datenschutz durch Technikgestaltung“.

APARAVI: Wie müssen denn Unternehmen ihre Technik und die KI-Trainingsansätze gestalten, um konform zu sein mit diesem Grundprinzip des Datenschutzes?

Christian Schmoll: Ach ja, es wäre so schön, wenn man darauf eine pauschale und direkt technisch umsetzbare Antwort geben könnte. Der Anwalt sagt dazu klassisch „es kommt darauf an“, und zwar auf das jeweilige konkrete Risiko. Daraus leitet sich ab, was ich an technischen und organisatorischen Maßnahmen (TOM) umsetzen muss, wie auch das, was man für den Datenschutz durch Technikgestaltung tun muss. Man muss sich also immer anschauen, was man genau für Daten hat und welche Risiken mit der jeweiligen Datenverarbeitung einhergehen. Es gilt: Je spezifischer, sensibler, umfangreicher meine Datensätze, desto höher erstmal das Risiko.

Ich muss mir in einem ersten Schritt unbedingt genau ansehen, was ich eigentlich für Daten habe, was steckt da genau drin, wo und wann sind diese Daten entstanden, wer hat sie erhoben oder erstellt, die ich da in die KI für Trainingszwecke verwenden möchte. Und dann kann ich das Risiko bestimmen, sowie die erforderlichen Maßnahmen planen und durchführen. Hier helfen Berater und Technologie-Anbieter, die Datenschutz- und Sicherheitsbeauftragten im Unternehmen bzw. Behörde sind sicher die besten Ansprechpartner, möglichst schon lange VOR dem Projektstart.

APARAVI: „Know Your Data” ist gerade aus Datenschutzsicht absolut relevant für KI-Anwendungen. Aber saubere, korrekte, relevante Daten spielen auch eine wichtige Rolle dafür, wie meine KI lernt, wie schnell sie lernt und wie wertvoll die Ergebnisse für die Anwender sind. Oder platt gesagt: „Du bist, was Du isst“! Hochwertige Datenqualität ist mittlerweile der wichtigste Erfolgsfaktor für KI/ML-Anwendungen.

Christian Schmoll ist Rechtsanwalt und Fachanwalt IT-Recht (www.lucidcompliance.de), darüber hinaus ist er als externer Datenschutzbeaufragter tätig. Er berät seit 2005 in den Bereichen IT-Recht, Datenschutz und Compliance.

Sie wollen das Beste aus Ihren unstrukturierten Daten für Ihre KI-Anwendungen herausholen?

APARAVI hilft Unternehmen, ihre unstrukturierten Daten für die Verwendung in KI-Anwendungen perfekt aufzubereiten. Wir analysieren, bereinigen und strukturieren ihre Datensätze, damit nur saubere, korrekte, relevante, gesetzeskonforme und korrekt lizensierte Informationen verwendet werden. So eliminieren Sie einerseits millionenschwere und persönliche Haftungs-Risiken, und verkürzen drastisch Entwicklungs- und Trainingszeiten für wertvolle Ergebnisse. Wollen Sie mehr über die DSGVO-konforme Datenaufbereitung und einen schnellen und effektiven Projektstart erfahren?

Mehr Informationen