Hauptinhalt
Innovation: Synthetische Daten
Synthetische Daten – DSGVO-konformes Allheilmittel?
Handelsunternehmen, Banken und Handy-Anbieter, aber auch Versicherungen, Gesundheitsdienstleister und die öffentliche Hand – sie alle sammeln jeden Tag unzählige Kundendaten. Die daraus generierten Erkenntnisse werden verwendet, um beispielsweise das Sortiment im Supermarkt an die vorhandenen Bedürfnisse anzupassen, maßgeschneiderte Angebote zu entwickeln oder die eigenen Prozesse zu optimieren. Herausfordernd wird es aber dann, wenn sich externe Partner wie zum Beispiel Wissenschaft und Forschung, andere Unternehmen oder sogar verschiedene Mitglieder eines gemeinsamen Kundenclubs für die Daten des jeweils anderen interessieren. Die Weitergabe an Dritte ist bekanntlich streng verboten und in der seit Mai 2018 geltenden Datenschutzgrundverordnung (DSGVO) klar geregelt.
Diese Einschränkung erweist sich jedoch als Hemmschuh in vielen Bereichen, wie Thomas Reutterer, Professor für Marketing und Kundenanalyse an der Wirtschaftsuniversität Wien erklärt: „Man denke etwa an die Standort- und Bewegungsdaten, die Telekommunikationsanbieter sammeln. Verkehrs- oder Stadtplaner würden sich sehr über personenbezogene bzw. individuelle Daten freuen, um etwa geplante Projekte oder Verkehrsströme optimieren zu können. Ein anderes, ganz aktuelles Beispiel ist die Eindämmung der Corona-Pandemie, wo solche Bewegungsdaten auch eine große Rolle für wissenschaftliche und politische Entscheidungen spielen können.“
Anonymisierungsverfahren stoßen an Grenzen
Damit Dritte mit nicht selbst erhobenen Daten arbeiten dürfen, müssen diese so weit anonymisiert werden, dass keine Rückschlüsse mehr auf einzelne Personen möglich sind. Genau das ist aber dann besonders schwierig, wenn ein gesammelter Datensatz sehr komplex ist, das heißt, viele verschiedene statistische Parameter enthält. Hier stoßen traditionelle zeit- und kostenintensive Anonymisierungsverfahren, sprich: die Abänderung des Originaldatensatzes durch zum Beispiel Hinzufügen von Zufallswerten oder die Streichung bestimmter Variablen, immer häufiger an ihre Grenzen.
Lösungsansatz: Künstlich generierte Daten
„Wenn ich von einem Supermarkt-Konsumenten 200 statistische Variablen sammle, etwa zu Geschlecht, Alter, Warenkorbzusammensetzung, Einkaufszeitpunkt, Zahlungsmethode und hier noch weiter in die Tiefe gehe, dann müsste ich am Ende wirklich vieles davon löschen, um die Anonymität der jeweiligen Person zu gewährleisten. Die Daten, die dann übrigbleiben, sind für Datenwissenschaftler aber nicht sinnvoll nutzbar. Damit lassen sich nämlich weder Analysen erstellen, noch eine Software programmieren oder testen“, erklärt Tobias Hann, Geschäftsführer von Mostly AI. Das Wiener Daten-Start-up will genau hier Abhilfe schaffen und erzeugt deshalb seit seiner Gründung im Jahr 2017 aus Standort-, Handelskunden- oder Banktransaktionsdaten mithilfe von künstlicher Intelligenz (KI) sogenannte synthetische Daten. Diese enthalten zu 99 Prozent die statistischen Eigenschaften des Original-Datensatzes, aber keine individuellen Merkmale. Damit sind sie – so Hann – vollkommen anonym, jedoch in ihrer Aussagekraft nicht beeinträchtigt. Und sie fallen nicht mehr unter den Anwendungsbereich der DSGVO. Ein Argument, mit dem auch die Bedenken von Datenschützern ausgeräumt werden sollen.