Synthetische data - een wondermiddel of garantie voor gegevensbeschermingskopzorgen?

Author info

De auteurs van dit artikel nemen deel aan de volgende door de EU gefinancierde projecten:

Flute - Magdalena Kogut-Czarkowska

AISym4MED - Nayana Murali

1. Wat zijn synthetische data?

Synthetische data, een term waarvoor geen precieze juridische definitie bestaat, verwijst in grote lijnen naar gegevens die kunstmatig zijn gegenereerd om gelijkaardige kenmerken te hebben aan echte gegevens, inclusief hun structuur en statistische verdeling [1]. Een meer genuanceerde definitie geeft aan dat synthetische gegevens worden gegenereerd door gebruik te maken van een wiskundig model of algoritme, met als doel gegevens te genereren die statistisch realistisch zijn, maar inherent 'kunstmatig' [2].

Het genereren van synthetische data kan op verschillende manieren gebeuren, bijvoorbeeld door ze te maken op basis van echte datasets of door ze "vanaf nul"te creëren door gebruik te maken van kennis en expertise die data-analisten hebben verzameld over specifieke afhankelijkheden. Het kan ook het resultaat zijn van een combinatie van deze benaderingen, waarbij zowel echte gegevens als kennis van experts worden gebruikt om synthetische datasets te creëren [3]. 

Het primaire doel van synthetische data is om de kenmerken en eigenschappen van echte data te behouden, toegespitst op een specifieke use case [4]. Met name de bepaling van welke eigenschappen van de echte data behouden moeten blijven, hangt af van het beoogde doel van het datagebruik. Er zijn bijvoorbeeld andere datakwaliteiten vereist bij het beoordelen van de opslagcapaciteit van een IT-systeem dan wanneer de gegevens worden gebruikt voor het trainen van een AI-model voor kankerdetectie.  

In bepaalde toepassingen kan de relevantie van gegevenskwaliteit, in de zin van synthetische data die sterk lijken op echte data, niet essentieel zijn. Wanneer synthetische data bijvoorbeeld worden gebruikt om zelfrijdende voertuigen te trainen, kan het nodig zijn dat risicovolle situaties in deze dataset vaker voorkomen dan in echte rijomstandigheden [5]. De case-afhankelijkheid speelt dus een cruciale rol bij het bepalen van de aanpak voor het genereren van synthetische data. 

2. Waarom zijn synthetische data nuttig?

De vooruitgang en evolutie van technologie, met name op het gebied van kunstmatige intelligentie, is afhankelijk van de beschikbaarheid van uitgebreide datasets [6]. Synthetische data worden een cruciale troef als real-life data ontoegankelijk of ontoereikend zijn door schaarste, gebrek aan variabiliteit of wettelijke beperkingen zoals de Algemene Verordening Gegevensbescherming (GDPR of General Data Protection Regulation) [7], intellectuele eigendomsrechten of de bescherming van bedrijfsgeheimen. Synthetische data spelen ook een centrale rol bij het ondervangen van de arbeidsintensieve en kostbare aard van het labelen van real-life gegevens [1]. 

Praktisch gezien kunnen de kosten en middelen die gemoeid zijn met het verzamelen van de benodigde gegevens worden verlaagd, omdat de gegevens worden gegenereerd [5]. Het gebruik van "dummy" data voor de initiële training van AI-modellen biedt ontwikkelaars een strategisch voordeel en levert sneller resultaten op voordat wordt overgestapt op echte data. Tal van praktijkvoorbeelden onderstrepen het nut van synthetische data, met name bij het trainen van modellen voor machinaal leren en het uitvoeren van gegevensanalyses. Zo wordt Alexa van Amazon naar verluidt getraind op synthetische data [8]. Om het genereren van synthetische gegevens uit de eerste hand te zien, kan u de Random Face Generator op https://this-person-does-not-exist.com/en verkennen [9]. 

Synthetische data dragen bij aan de verrijking van virtual reality (VR) en augmented reality (AR) ervaringen door realistische virtuele omgevingen te creëren. Op het gebied van cyberbeveiliging is de simulatie van uiteenlopende cyberbedreigingen met behulp van synthetische data cruciaal voor het trainen en testen van verdedigingsmechanismen. In de meteorologie worden synthetische data gebruikt om modellen voor weersvoorspellingen te verbeteren, waarbij een spectrum van atmosferische omstandigheden wordt gesimuleerd voor nauwkeurigere voorspellingen. Bij de ontwikkeling van autonome voertuigen worden synthetische data gebruikt om verschillende wegomstandigheden en obstakels te simuleren, wat helpt bij het trainen van algoritmen. 

Een van de meest veelbelovende toepassingen van synthetische data ligt in gezondheidsonderzoek en -innovatie. Er wordt onderzocht of virtuele, door de computer gegenereerde patiënten waardevol kunnen zijn bij de ontwikkeling van medische medicijnen en apparaten, wat een manier kan zijn om minder afhankelijk te zijn van menselijke testen en om de testtijd te verkorten [5].  

In een ander opmerkelijk geval werden synthetische data gebruikt om de ondervertegenwoordiging van verschillende huidtypes in bestaande datasets aan te pakken [10]. Omdat er een neiging naar voorbeelden van overwegend lichte huid in databanken bestond, werd er een meer inclusieve set huidafbeeldingen gecreëerd met behulp van synthetische data. Dit initiatief was gericht op het trainen van detectiemodellen die potentieel kwaadaardige huidaandoeningen, zoals melanoom, effectief kunnen herkennen over een spectrum van tinten. 

In wezen zijn synthetische data niet alleen een oplossing voor gegevensuitdagingen, maar ook een transformerende kracht die de technologie in diverse toepassingen een nieuwe vorm geeft. De toepassing ervan in verschillende vakgebieden weerspiegelt de centrale rol die synthetische data spelen in het bevorderen en revolutioneren van de mogelijkheden van kunstmatige intelligentie en datagedreven technologie.

3. Is de GDPR van toepassing op synthetische data?

De relatie tussen synthetische data en GDPR is een onderwerp van discussie, waarbij de meeste onderzoekers het erover eens zijn dat synthetische data niet automatisch "privé" zijn [11] of buiten de gegevensbeschermingwetgeving vallen. Juridische overwegingen ontstaan voornamelijk bij het creëren van synthetische data uit echte datasets die persoonlijke gegevens bevatten, zoals bijvoorbeeld in medische datasets. In dergelijke gevallen begint het proces met het verzamelen en voorbereiden van echte persoonsgegevens voor het trainen van AI-modellen die synthetische gegevens genereren. Vanuit GDPR-perspectief vereist het creëren van synthetische data op basis van persoonsgegevens de verwerking van die persoonsgegevens [12]. 

Dit stelt verschillende eisen aan de ontwikkelaars. Ze moeten bijvoorbeeld het GDPR-principe van gegevensminimalisatie (artikel 5.1c) implementeren door de ingevoerde gegevens te pseudonimiseren en directe identificatiegegevens eruit te verwijderen. Een ander cruciaal principe is het waarborgen van de integriteit en vertrouwelijkheid van de ingevoerde persoonsgegevens (artikel 5.1f), met name door technische en organisatorische beveiligingsmaatregelen te nemen (artikel 32) om de gegevens te beschermen tegen onwettige openbaarmaking. Zoals bij elke verwerking van persoonsgegevens is er een rechtsgrondslag nodig voor het gebruik van persoonsgegevens voor het genereren van synthetische data.

Advies 05/2014 van de Artikel 29 Werkgroep over Anonimiseringstechnieken [13], stelt dat anonimisering als een geval van verdere verwerking van persoonsgegevens verenigbaar kan zijn met de oorspronkelijke doeleinden van de verwerking als het resultaat echt anonieme gegevens zijn. Volgens sommige auteurs kan een soortgelijk argument worden aangevoerd voor het genereren van synthetische data "mits de gegevenssynthese adequaat wordt uitgevoerd en de synthetische gegevens op betrouwbare wijze worden geproduceerd" [1], of, met een hogere lat, dat de synthetische data anoniem (niet-persoonlijk) zijn.

Dit leidt tot de dringende vraag of synthetische data 'persoonsgegevens' zijn die onder de gegevensbeschermingswetgeving vallen. Op het eerste gezicht kan men stellen dat de gegevens automatisch niet-persoonlijk zijn, omdat ze opzettelijk verstoord en veranderd zijn (er is geen één-op-één mapping van synthetische data terug naar de persoon). Er zijn echter studies [14] die aangeven dat niet in alle gevallen een voldoende niveau van anonimisering wordt bereikt. Zelfs als de gegevens zijn gegenereerd op basis van oorspronkelijk geanonimiseerde gegevens (waarbij directe identificatoren zoals namen zijn verwijderd), blijft het risico bestaan dat een individu indirect kan worden geïdentificeerd op basis van de synthetische data op zich of met andere beschikbare bronnen [15].

Het potentiële risico wordt vooral relevant in gevallen waarin een model kwetsbaar is voor 'overfitting' [15]. In dergelijke gevallen richt het model zich overmatig op de details van de trainingsgegevens, waarbij het in wezen voorbeelden uit die gegevens onthoudt en reproduceert in synthetische gegevens [12 en andere bronnen die daar worden geciteerd] [16]. Bijgevolg legt dit fenomeen een kwetsbaarheid bloot in synthetische data, aangezien deze "de capaciteit hebbenom informatie te lekken over de gegevens waarvan ze zijn afgeleid" [11], waardoor de data vatbaar zijn voor privacyschendingen.

Als gevolg hiervan is een grondige beoordeling van synthetische gegevens noodzakelijk om de persoonlijke of niet-persoonlijke status ervan vast te stellen. Met name de European Data Protection Supervisor (EDPS) heeft benadrukt dat zo’n beoordeling moet evalueren in welke mate betrokkenen in de synthetische data kunnen worden geïdentificeerd en hoeveel nieuwe gegevens over deze betrokkenen zouden worden onthuld bij een succesvolle identificatie [17]. 

Toch is een dergelijke beoordeling geen eenvoudig proces. Vanuit een juridisch perspectief wordt de beoordeling van synthetische gegevens onder de GDPR beïnvloed door het voortdurende debat over de grenzen van "persoonsgegevens". Dit onderwerp is zeer complex (zie de recente uitspraken van het HvJ in zaak C-319/22 en het Ger.EU in T-557/20 [18]), wat resulteert in een gebrek aan overeengekomen normen en een mogelijk expansieve definitie van "persoonsgegevens". De discussie over het risico op identificatie wat betreft “persoonsgegevens” onder de GDPR, focust in essentie vaak op argumenten over wiens standpunt moet beslissen of een stuk informatie al dan niet als persoonlijk wordt beschouwd. Er is bovendien nood aan het vaststellen van een drempel voor 'redelijke gelijkenissen' als een maatstaf om het risico op heridentificatie vast te stellen. Een ander hardnekkig probleem in verband met synthetische data is de mogelijke afleiding van gevoelige informatie over een individu, zelfs in gevallen waarin de identificeerbaarheidstest geen positief resultaat oplevert.

Zelfs als de synthetische gegevens de anonimiteitsdrempel niet halen, biedt het vervangen van verzamelde persoonsgegevens door kunstmatig gegenereerde gegevens een extra beveiligingslaag voor persoonsgegevens. De Spaanse AEPD [4] en Britse ICO [19] beschouwen synthetische data als een privacyverbeterende technologie (PET) die tot doel heeft om het verband tussen een individu en de originele persoonsgegevens te verzwakken of te verbreken. Sommige onderzoekers stellen voor om synthetische gegevens te combineren met andere PET's, zoals differentiële privacy, om de privacybescherming te verbeteren met behoud van bruikbaarheid [5]. 

4. Kunnen synthetische data worden gereguleerd zodat de status ervan duidelijk is?

De term "synthetische gegevens" vindt zijn weg naar de EU-regelgeving. Met name overweging 7 van de Data Governance Act stelt: "Er zijn technieken die analyses van databanken met persoonsgegevens mogelijk maken, zoals anonimisering, differentiële privacy, generalisering, onderdrukking en randomisering, het gebruik van synthetische gegevens of soortgelijke methoden, en andere geavanceerde methoden om de privacy te beschermen, die kunnen bijdragen tot een privacyvriendelijkere gegevensverwerking" [20]. Hoewel de Data Governance Act de waarde van synthetische gegevens als een PET erkent, biedt het geen wettelijke definitie of standpunt met betrekking tot de status van persoonsgegevens of niet-persoonsgegevens. 

Zoals hierboven vermeld, is het huidige standpunt van bepaalde gegevensbeschermingsautoriteiten en privacyprofessionals dat synthetische gegevens moeten worden geëvalueerd binnen het kader van de GDPR, en dat de privacyimplicaties van een synthetische dataset sterk afhankelijk zijn van de specifieke context [4]. Dit perspectief wordt gezien als een potentiële belemmering voor het bevorderen van het gebruik van synthetische data in onderzoek. Er is bezorgdheid geuit over de complexe wettelijke vereisten en GDPR-complianceprocessen die moeten worden nageleefd, wat de technologische vooruitgang zou kunnen belemmeren en de wijdverspreide toepassing van synthetische gegevens zou kunnen belemmeren. Het zou verleidelijk kunnen zijn om voor te stellen dat EU wetgevers de complexiteit rond de kwalificatie van synthetische data moeiteloos zouden kunnen oplossen door een juridische definitie vast te stellen. Dergelijke hoop werd gewekt door het voorstel voor de Kunstmatige Intelligentie Verordening (AI Act) [21] waarin in artikel 54, lid 1, onder b), het volgende wordt vermeld:

“In de AI-regelgevingszandbak mogen persoonsgegevens die rechtmatig voor andere doeleinden zijn verzameld, worden verwerkt met het oog op het ontwikkelen, testen en trainen van innovatieve AI-systemen in de zandbak onder de volgende cumulatieve voorwaarden:

a) (...)

b) de verwerkte gegevens noodzakelijk zijn om te voldoen aan een of meer van de in titel III, hoofdstuk 2, genoemde vereisten [namelijk die welke gelden voor AI-systemen met een hoog risico] wanneer aan die vereisten niet effectief kan worden voldaan door anoniem gemaakte, synthetische of andere niet-persoonsgegevens te verwerken;” 

Er is aandacht besteed aan het deel van de bepaling waarin de categorieën anoniem gemaakte, synthetische of andere niet-persoonsgegevens samen worden genoemd. Volgens sommigen [22] suggereert deze formulering - door juridische implicatie - dat synthetische gegevens worden beschouwd als een soort niet-persoonsgegevens. Ons inziens lijkt deze conclusie echter enigszins voorbarig. 

De oorsprong van synthetische data is een belangrijke factor bij de beoordeling of ze als persoonsgegevens kunnen worden aangemerkt. Wanneer synthetische data worden gecreëerd op basis van originele persoonsgegevens, ontstaat een cruciale afweging waarbij nut en anonimiteit inherent met elkaar verbonden zijn. Hoe meer nut een synthetische dataset biedt, hoe lager de anonimiteit (dus hoe hoger het risico op heridentificatie), en vice versa [23] [24]. Daarom is het vinden van een balans tussen absolute anonimiteit en behoud van nut een genuanceerde taak wanneer synthetische data worden gegenereerd op basis van echte persoonsgegevens, en is het onwaarschijnlijk dat er een unanieme consensus zal ontstaan dat synthetische gegevens in alle gevallen ondubbelzinnig niet-persoonlijk zijn. Synthetische data gegenereerd op basis van aannames, waarbij de directe verwerking van persoonsgegevens wordt omzeild, worden daarentegen niet voor deze uitdagingen gesteld.

Kritische stemmen waarschuwen beleidsmakers dan ook dat men niet kan veronderstellen dat alle vormen van gegevenssynthese even effectief zijn. Experts adviseren ook om dat de context en praktijk in grote mate het risico op heridentificatie zullen bepalen [15]. Ze stellen dat gegevensbeschermingsautoriteiten en de gemeenschap moeten komen tot "passende normen en benaderingen om de identificeerbaarheid van specifieke methoden voor het genereren van synthetische gegevens te beoordelen, waarbij zoveel mogelijk gebruik wordt gemaakt van kwantitatieve meetmethoden" [15]. 

De tijd zal leren of deze opmerkingen worden meegenomen in de definitieve versie van de AI Act. In de amendementen op de AI Act die op 14 juni 2023 door het Europees Parlement zijn aangenomen [25], is in artikel 10.5 een verwijzing naar synthetische gegevens toegevoegd, waarin de voorwaarden worden beschreven voor het verwerken van speciale categorieën gegevens om negatieve vertekeningen in AI-systemen met een hoog risico op te sporen. Een van de voorwaarden is dat "de detectie en correctie van vertekeningen niet effectief kan worden uitgevoerd door synthetische of geanonimiseerde gegevens te verwerken". Deze toevoeging impliceert niet dat synthetische data een categorie "niet-persoonsgegevens" zijn, zoals artikel 54, lid 1, b). Interessant is dat de tekst van artikel 54, lid 1, b), van het oorspronkelijke voorstel ongewijzigd blijft. Op het moment van schrijven van deze blog moet de definitieve tekst van de voorlopige overeenkomst die is bereikt tussen het voorzitterschap van de Raad en de onderhandelaars van het Europees Parlement [26] nog bekend worden gemaakt, en daarom valt nog te bezien hoe (en of) de definitieve tekst de status van synthetische gegevens aanpakt.

5. Wat moet ik doen als ik van plan ben synthetische gegevens te genereren of te gebruiken?

Enkele uitgangspunten voor generatie en gebruik van synthetische data zijn:

  • Een duidelijke rechtsgrondslag vaststellen: Als persoonsgegevens het uitgangspunt voor het genereren van de synthetische data zijn, moet de verwerking van deze persoonsgegevens voldoen aan de GDPR. Organisaties moeten daarom zorgvuldig de wettelijke rechtvaardiging voor de verwerking van de gebruikte persoonsgegevens beoordelen en ervoor zorgen dat deze onder een passende rechtsgrondslag valt. 
  • Transparantie en verantwoording: Organisaties moeten transparant zijn bij het verzamelen en verwerken van persoonsgegevens van personen voor het genereren van synthetische data. Bovendien is het bijhouden van gedetailleerde registers van de verwerking van persoonsgegevens voor het genereren van synthetische data van cruciaal belang, om de toewijding van de organisatie aan transparantie en verantwoording aan te tonen. 
  • Een evenwicht vinden: Net als bij het anonimiseren van gegevens, moet er bij het produceren van synthetische data een balans worden gevonden tussen nut en anonimiteit. Als de synthetische data te veel lijken op echte gegevens, kunnen ze, hoewel ze waardevol zijn voor onderzoekers, de privacy van de betrokkenen in gevaar brengen en binnen het domein van persoonsgegevens blijven. Dit kan aanzienlijke problemen opleveren met betrekking tot naleving van gegevensbescherming. Door de unieke aard van synthetische data zou het bijvoorbeeld een uitdaging, zo niet onmogelijk, zijn om de nauwkeurigheid van de gegevens te garanderen, verzoeken om correctie te behandelen en bezwaren van personen met betrekking tot hun gegevens te behandelen. Synthetische data worden kunstmatig gegenereerd en komen niet overeen met echte informatie over specifieke personen. 
  • Privacybeoordelingen: Om er zeker van te zijn dat synthetische gegevens niet als persoonsgegevens worden aangemerkt, is het van cruciaal belang om privacybeoordelingen uit te voeren.  Dit omvat het evalueren van het risico op heridentificatie, het waarborgen van dataminimalisatie en het implementeren van passende waarborgen om de privacy van individuen te beschermen.  In lopend onderzoek worden methoden en metrieken onderzocht om de waarschijnlijkheid van heridentificatie van synthetische datasets te beoordelen. 
  • Documentatie en monitoring: Zoals bij elke AI-training is zorgvuldige documentatie van de invoergegevens en het proces van het creëren van synthetische gegevens essentieel. Deskundige analyse en toezicht, door zowel domeinexperts als datawetenschappers, zijn belangrijk in zowel de generatie- als de evaluatiefase van synthetische data. Organisaties moeten zorgen voor een datakwaliteit die past bij de beoogde use case en het principe van “data protection by design” opnemen in de levenscyclus van het genereren van synthetische data.  

Het is belangrijk te erkennen dat, aangezien synthetische data relatief nieuw zijn, de regels voor het gebruik ervan en de juridische implicaties in verschillende domeinen nog onduidelijk zijn. Extra voorzichtigheid is geboden in scenario's waarbij de gegevens worden gebruikt voor training en validatie van AI-modellen die bedoeld zijn om te worden geclassificeerd als medische hulpmiddelen. Er is met name bezorgdheid geuit over het gebruik van synthetische gegevens voor klinische validatie, wat het ontbreken van een basis in de Verordening Medische Hulpmiddelen onderstreept [27] [28]. In dit veranderende landschap, waarin de normen voor het evalueren van de kwaliteit van synthetische data voortdurend worden verfijnd (zowel wat betreft volledigheid als nauwkeurigheid), wat zoals gezegd sterk contextafhankelijk is, moeten organisaties voorzichtig te werk gaan. 

Synthetische data stellen in het bijzonder risico’s wat betreft de kans op onnauwkeurigheden door onjuiste invoergegevens of achtergrondinformatie [29], en de kans op vertekening bij datacreatie door slecht uitgebalanceerde invoerinformatie. Daarnaast ontstaat er bezorgdheid over het vermogen van gebruikers om de onderliggende logica te begrijpen die door machine learning wordt toegepast bij het genereren van synthetische waarden, wat vragen oproept over de transparantie en betrouwbaarheid van de gegevens. In deze dynamische wereld van synthetische data, waar normen en risico's voortdurend onder de loep worden genomen, moet er goed worden nagedacht over de naleving van regelgeving en van verantwoord datamanagement.

LUTE en AISym4Med hebben financiering ontvangen van de onderzoeks- en innovatieprogramma's Horizon 2020 en Horizon Europe van de Europese Unie. De inhoud van dit artikel geeft echter de mening van de auteurs weer en vertegenwoordigt op geen enkele wijze de mening van de Europese Unie of de Europese Commissie. De Europese Commissie is niet verantwoordelijk voor welk gebruik dan ook van de informatie die het artikel bevat.

Referenties:

[1] López, C. A. F, 'On synthetic data: a brief introduction for data protection law dummies', European Law Blog, (september 2022). Beschikbaar op: https://europeanlawblog.eu/2022/09/22/on-synthetic-data-a-brief-introduction-for-data-protection-law-dummies/

[2] Valerie Marshall, Charlie Markham, Pavle Avramovic, Paul Comerford, Carsten Maple, Lukasz Szpruch, FCA Official, 'Research Paper: Exploring Synthetic Data Validation - Privacy, Utility and Fidelity". Beschikbaar op: https://cy.ico.org.uk/media/for-organisations/documents/4025484/sythetic-data-roundtable-202306.pdf

[3] K. El Emam, L. Mosquera, en R. Hoptroff, "Practical Synthetic Data Generation: Balancing Privacy and the Broad Availability of Data'. O'Reilly Media Inc, (mei 2020). Beschikbaar op: https://cdn.ttgtmedia.com/rms/pdf/Practical_Synthetic_Data_Generation.pdf

[4] Agencia Espanola Proteccion Datos, "Synthetic data and data protection", (november 2023). Beschikbaar op: https://www.aepd.es/en/prensa-y-comunicacion/blog/synthetic-data-and-data-protection

[5] Gal, M. S., & Lynskey, O, 'Synthetic Data: Legal Implications of the Data-Generation Revolution', 109 Iowa Law Review, Forthcoming, LSE Legal Studies Working Paper No. 6/2023, (januari 2023).  Beschikbaar op: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4414385   

[6] Fontanillo López, C. A., & Elbi, A, 'On the legal nature of synthetic data', Centrum voor IT- en IP-recht, KU Leuven, NeurIPS 2022 Workshop on Synthetic Data for Empowering ML Research. Beschikbaar op: https://openreview.net/pdf?id=M0KMbGL2yr

[7] Verordening (EU) 2016/679 van het Europees Parlement en de Raad van 27 april 2016 betreffende de bescherming van natuurlijke personen in verband met de verwerking van persoonsgegevens en betreffende het vrije verkeer van die gegevens en tot intrekking van Richtlijn 95/46/EG (Algemene verordening gegevensbescherming). Beschikbaar op: https://eur-lex.europa.eu/eli/reg/2016/679/oj 

[8] Elise Devaux, Types of synthetic data and 4 real life examples', (2022). Beschikbaar op: https://www.statice.ai/post/types-synthetic-data-examples-real-life-examples&nb…;

[9] Willekeurige gezichtgenerator. Beschikbaar op: https://this-person-does-not-exist.com/en

[10] Timo Kohlberger & Yuan Liu, 'Generating Diverse Synthetic Medical Image Data for Training Machine Learning Models', (februari 2020). Beschikbaar op: https://blog.research.google/2020/02/generating-diverse-synthetic-medical.html?m=1

[11] Jordon, J., Szpruch, L., Houssiau, F., Bottarelli, M., Cherubin, G., Maple, C., Cohen, S. N., & Weller, "Synthetic Data - what, why and how?" (mei 2022). Beschikbaar op: https://royalsociety.org/-/media/policy/projects/privacy-enhancing-technologies/Synthetic_Data_Survey-24.pdf

[12] Ganev, Georgi, 'When Synthetic Data Met Regulation', arXiv preprint arXiv:2307.00359vl, (juli 2023). Beschikbaar op: https://arxiv.org/pdf/2307.00359.pdf

[13] Advies 05/2014 van de Artikel 29-werkgroep over Anonimiseringstechnieken. Beschikbaar op: https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf 

[14] Theresa Stadler, Bristena Oprisanu, Carmela Troncoso, 'Synthetic Data -- Anonymisation Groundhog Day', (november 2020). Beschikbaar op: https://arxiv.org/abs/2011.07018

[15] Colin Mitchell en Elizabeth Redrup Hill, "Are synthetic health data "personal data"?". Beschikbaar op: https://www.phgfoundation.org/report/are-synthetic-health-data-personal-data#:~:text=We%20found%20that%20regulators%20and,been%20reduced%20to%20remote%20levels.

[16] Julia Ive, 'Leveraging the Potential of Synthetic Text for AI in Mental Healthcare', Front. Digit. Health (oktober 2022). Beschikbaar op: https://www.frontiersin.org/journals/digital-health/articles/10.3389/fdgth.2022.1010202/full

[17] EDPS, Tech Champion: Robert Rieman, publicatie over 'Synthetische data’. Beschikbaar op: https://edps.europa.eu/press-publications/publications/techsonar/synthetic-data_en

[18] Alexandre Lodie, European Law Blog, “Are personal data always personal? Case T-557/20 SRB v EDPS or when the qualification of data depends on who holds them”, (november 2023). Beschikbaar op: https://europeanlawblog.eu/2023/11/07/are-personal-data-always-personal-case-t-557-20-srb-v-edps-or-when-the-qualification-of-data-depends-on-who-holds-them/#more-9476

[19] Information Commissioner's Office. “Chapter 5: Privacy-enhancing technologies (PETs)” (september 2022). Beschikbaar op: https://ico.org.uk/media/about-the-ico/consultations/4021464/chapter-5-anonymisation-pets.pdf

[20] Verordening (EU) 2022/868 van het Europees Parlement en de Raad van 30 mei 2022 betreffende Europese datagovernance en tot wijziging van Verordening (EU) 2018/1724 (Data Governance Act). Beschikbaar op: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex%3A32022R0868 

[21] Voorstel voor een Verordening van het Europees Parlement en de Raad tot vaststelling van geharmoniseerde regels inzake kunstmatige intelligentie en tot wijziging van bepaalde wetgevingshandelingen van de Unie, COM/2021/206. Beschikbaar op: https://eur-lex.europa.eu/legal-content/EN/ALL/?uri=celex:52021PC0206

[22] “Legal status of synthetic data”, Lorenzo Cristofaro, (oktober 2023). Beschikbaar op: https://www.linkedin.com/pulse/legal-status-synthetic-data-lorenzo-cristofaro

[23] Khaled El Emam, “Precaution, ethics and risks. Perspectives on regulating non-identifiable data”, IAPP, (mei 2022). Beschikbaar op: https://iapp.org/news/a/precaution-ethics-and-risk-perspectives-on-regulating-non-identifiable-data/

[24] López, Cesar Augusto Fontanillo, 'On the legal nature of synthetic data', NeurIPS 2022 Workshop on Synthetic Data for Empowering ML Research, (2022). Beschikbaar op: https://openreview.net/pdf?id=M0KMbGL2yr

[25] Amendementen aangenomen door het Europees Parlement op 14 juni 2023 over het voorstel voor een verordening van het Europees Parlement en de Raad tot vaststelling van geharmoniseerde regels betreffende kunstmatige intelligentie en tot wijziging van bepaalde wetgevingshandelingen van de Unie (COM(2021)0206 - C9-0146/2021 - 2021/0106(COD), Toegankelijk op: https://www.europarl.europa.eu/doceo/document/TA-9-2023-0236_EN.html

[26] https://www.consilium.europa.eu/en/press/press-releases/2023/12/09/artificial-intelligence-act-council-and-parliament-strike-a-deal-on-the-first-worldwide-rules-for-ai/ 

[27] Verordening (EU) 2017/745 van het Europees Parlement en de Raad van 5 april 2017 betreffende medische hulpmiddelen, tot wijziging van Richtlijn 2001/83/EG, Verordening (EG) nr. 178/2002 en Verordening (EG) nr. 1223/2009 van de Raad en tot intrekking van de Richtlijnen 90/385/EEG en 93/42/EEG van de Raad. Beschikbaar op: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A32017R0745 

[28] Jarosław Greser, "Synthetic Data and Medical AI - Where Do We Stand?", (oktober 2023). Beschikbaar op: https://lsts.research.vub.be/synthetic-data-and-medical-ai-where-do-we-stand

[29] Theresa Stadler, Bristena Oprisanu & Carmela Troncoso, 'Synthetic Data - Anonymisation Groundhog Day' (ongepubliceerd manuscript, januari 2022). Beschikbaar op: https://arxiv.org/pdf/2011.07018.pdf.