Donneespersonnelles.fr

Plateforme de veille en conformite numerique

Samedi 28 mars 2026
AI Act

Donnees synthetiques vs donnees personnelles pour l'IA

Donnees synthetiques pour l'IA : cadre juridique, avantages RGPD, risques de re-identification et bonnes pratiques de conformite.

Donnees synthetiques vs donnees personnelles pour l’entrainement de l’IA

L’entrainement des systemes d’intelligence artificielle repose sur des volumes massifs de donnees. Lorsque ces donnees sont des donnees personnelles au sens du RGPD, les obligations de conformite sont substantielles : base legale, minimisation, limitation des finalites, transparence, droits des personnes, securite. Les donnees synthetiques, generees artificiellement pour reproduire les proprietes statistiques de donnees reelles sans correspondre a des individus identifies ou identifiables, apparaissent comme une alternative prometteuse. Elles permettent potentiellement de s’affranchir du cadre contraignant du RGPD tout en disposant de jeux de donnees exploitables pour l’entrainement de modeles d’IA.

Cette promesse doit toutefois etre examinee avec rigueur juridique. La qualification des donnees synthetiques au regard du RGPD n’est pas univoque, et les risques de re-identification ne sont pas nuls. Le cadre normatif applicable, au croisement du AI Act et du RGPD, impose une analyse precise pour chaque cas d’usage.

Le cadre juridique des donnees synthetiques

La qualification au regard du RGPD

Le RGPD s’applique aux “donnees a caractere personnel”, definies a l’article 4(1) comme toute information se rapportant a une personne physique identifiee ou identifiable. Le considerant 26 precise qu’il y a lieu de prendre en consideration l’ensemble des moyens raisonnablement susceptibles d’etre utilises pour identifier la personne, en tenant compte des couts et du temps necessaires a l’identification ainsi que des technologies disponibles.

Les donnees synthetiques, par definition, sont generees artificiellement et ne se rapportent pas directement a des personnes reelles. Si le processus de generation est correctement mis en oeuvre, les donnees synthetiques ne devraient pas permettre l’identification directe ou indirecte de personnes physiques et ne devraient donc pas constituer des donnees personnelles au sens du RGPD.

Toutefois, cette qualification depend de la methode de generation et du risque residuel de re-identification. La CNIL a souligne que les donnees synthetiques ne sont pas automatiquement anonymes et que leur qualification doit etre evaluee au cas par cas. Si les donnees synthetiques conservent des patterns trop proches des donnees sources et qu’un risque raisonnable de re-identification existe, elles peuvent rester des donnees personnelles au sens du RGPD.

La distinction entre anonymisation et donnees synthetiques

L’anonymisation consiste a transformer des donnees personnelles de maniere irreversible, de sorte qu’elles ne permettent plus l’identification de la personne concernee. Les donnees anonymisees sortent du champ d’application du RGPD (considerant 26).

Les donnees synthetiques ne sont pas a proprement parler des donnees anonymisees : elles ne sont pas le resultat de la transformation de donnees personnelles existantes, mais le produit d’un processus de generation qui utilise des donnees reelles comme source d’apprentissage. La distinction est significative juridiquement : le processus de generation de donnees synthetiques a partir de donnees personnelles constitue lui-meme un traitement de donnees personnelles soumis au RGPD, meme si les donnees produites echappent ensuite au reglement.

La pseudonymisation, quant a elle, ne constitue pas une anonymisation : les donnees pseudonymisees restent des donnees personnelles. Certaines techniques de generation de donnees synthetiques produisent en realite des donnees pseudonymisees plutot que veritablement synthetiques, si un lien avec les donnees sources peut etre retabli.

Le AI Act et les donnees d’entrainement

Le AI Act impose des exigences specifiques en matiere de qualite des donnees d’entrainement pour les systemes a haut risque (article 10). Ces exigences s’appliquent independamment de la nature des donnees (personnelles ou synthetiques) : les jeux de donnees doivent etre pertinents, representatifs, et dans toute la mesure du possible exempts d’erreurs.

L’utilisation de donnees synthetiques pour l’entrainement de systemes d’IA a haut risque doit donc satisfaire aux memes exigences de qualite que l’utilisation de donnees reelles. Le fournisseur doit documenter dans sa documentation technique le recours a des donnees synthetiques, les methodes de generation utilisees, les mesures de validation de la qualite et de la representativite des donnees synthetiques et les risques potentiels lies a l’utilisation de donnees synthetiques (biais, manque de representativite, artefacts de generation).

Les methodes de generation de donnees synthetiques

Les approches statistiques classiques

Les methodes statistiques classiques generent des donnees synthetiques en reproduisant les distributions statistiques des donnees sources. Les techniques de bootstrapping, d’echantillonnage parametrique (generation a partir de distributions estimees) et de simulation de Monte-Carlo permettent de creer des jeux de donnees respectant les proprietes statistiques de premier et second ordre (moyennes, variances, correlations) des donnees reelles.

Ces methodes sont relativement simples a mettre en oeuvre et offrent des garanties de confidentialite raisonnables, mais elles peinent a capturer les structures complexes (interactions non lineaires, clusters, distributions multimodales) presentes dans les donnees reelles.

Les reseaux antagonistes generatifs (GAN)

Les GAN (Generative Adversarial Networks) constituent la methode la plus repandue pour la generation de donnees synthetiques de haute fidelite. Un GAN se compose de deux reseaux de neurones : un generateur qui produit des donnees synthetiques et un discriminateur qui tente de distinguer les donnees synthetiques des donnees reelles. L’entrainement iteratif des deux reseaux converge vers la generation de donnees synthetiques difficiles a distinguer des donnees reelles.

Les GAN produisent des donnees synthetiques de grande qualite, mais cette qualite meme pose un risque juridique : plus les donnees synthetiques sont proches des donnees reelles, plus le risque de re-identification est eleve. Des phenomenes de “memorisation” ont ete documentes, ou le generateur reproduit quasi exactement certains enregistrements des donnees d’entrainement.

Les modeles de diffusion et les modeles de langage

Les modeles de diffusion et les grands modeles de langage (LLM) sont de plus en plus utilises pour la generation de donnees synthetiques. Les LLM peuvent generer des donnees textuelles synthetiques (rapports medicaux, evaluations de performance, descriptions de cas) qui imitent les donnees reelles sans correspondre a des individus specifiques. Les modeles de diffusion sont utilises pour la generation d’images synthetiques.

Ces methodes posent des defis specifiques en matiere de confidentialite : les LLM entraines sur des donnees personnelles peuvent reproduire des informations personnelles dans leurs sorties. La conformite RGPD de l’IA generative impose une attention particuliere a ces risques.

La confidentialite differentielle

La confidentialite differentielle (differential privacy) est un cadre mathematique qui permet de quantifier et de limiter le risque de re-identification dans les donnees synthetiques. En ajoutant un bruit calibre au processus de generation, la confidentialite differentielle garantit que la presence ou l’absence d’un individu dans les donnees sources a un impact negligeable sur les donnees synthetiques produites.

L’integration de la confidentialite differentielle dans le processus de generation constitue la meilleure garantie juridique que les donnees synthetiques ne sont pas des donnees personnelles. Le parametre epsilon de la confidentialite differentielle quantifie le niveau de protection : plus epsilon est faible, plus la protection est forte, mais plus la qualite des donnees synthetiques est degradee.

Les risques juridiques des donnees synthetiques

Le risque de re-identification

Le risque principal des donnees synthetiques est la re-identification, c’est-a-dire la possibilite de relier des enregistrements synthetiques a des individus reels. Ce risque peut se materialiser par memorisation (le generateur reproduit des enregistrements reels), par inference (les proprietes statistiques des donnees synthetiques permettent de deduire des informations sur des individus) ou par attaque par linkage (le croisement des donnees synthetiques avec des sources externes permet l’identification).

L’evaluation du risque de re-identification doit etre documentee et integree dans l’AIPD lorsque le processus de generation utilise des donnees personnelles. Les methodes d’evaluation incluent les tests de singularite (proportion d’enregistrements uniques), les tests de linkabilite (capacite a relier des enregistrements synthetiques a des enregistrements reels) et les tests d’inference (capacite a deduire des attributs sensibles).

Le traitement des donnees sources

Meme si les donnees synthetiques produites ne sont pas des donnees personnelles, le processus de generation constitue un traitement de donnees personnelles lorsqu’il utilise des donnees sources contenant des donnees personnelles. Ce traitement est soumis a l’ensemble des obligations du RGPD : base legale (article 6), information des personnes concernees (articles 13-14), respect des droits (articles 15-22), securite (article 32) et, le cas echeant, AIPD (article 35).

La base legale la plus frequemment invoquee pour la generation de donnees synthetiques est l’interet legitime (article 6(1)(f)), sous reserve de la realisation d’un test de mise en balance. Le consentement peut egalement etre utilise, mais il doit etre specifique a la finalite de generation de donnees synthetiques.

Le risque de biais

Les donnees synthetiques reproduisent les proprietes statistiques des donnees sources, y compris les biais. Si les donnees sources presentent des biais (sous-representation de certains groupes, correlations discriminatoires), les donnees synthetiques reproduiront ces biais. L’utilisation de donnees synthetiques biaisees pour entrainer un systeme d’IA de recrutement ou de scoring, par exemple, peut conduire a des decisions discriminatoires.

Le AI Act impose que les donnees d’entrainement soient “suffisamment representatifs” (article 10). Cette exigence s’applique aux donnees synthetiques comme aux donnees reelles. L’audit algorithmique doit verifier l’absence de biais dans les donnees synthetiques utilisees pour l’entrainement.

Les bonnes pratiques

L’evaluation systematique du risque de re-identification

Toute utilisation de donnees synthetiques doit etre precedee d’une evaluation rigoureuse du risque de re-identification. Cette evaluation doit appliquer les criteres du considerant 26 du RGPD (moyens raisonnablement susceptibles d’etre utilises pour l’identification), documenter les resultats dans la documentation technique et l’AIPD et etre mise a jour regulierement pour tenir compte de l’evolution des techniques de re-identification.

La validation de la qualite des donnees synthetiques

La qualite des donnees synthetiques doit etre validee sur deux dimensions : la fidelite (les donnees synthetiques reproduisent fidelement les proprietes statistiques des donnees sources) et l’utilite (les donnees synthetiques permettent d’entrainer des modeles performants). Cette validation doit etre documentee dans la documentation technique du systeme d’IA.

La documentation du processus de generation

Le processus de generation de donnees synthetiques doit etre entierement documente : methode de generation, parametres, donnees sources, mesures de confidentialite, resultats des evaluations de re-identification et de qualite. Le registre des systemes IA doit inclure les informations relatives aux donnees synthetiques utilisees pour l’entrainement.

Les obligations de sous-traitance RGPD s’appliquent lorsque la generation de donnees synthetiques est confiee a un tiers. Le contrat doit couvrir les conditions d’acces aux donnees sources, les mesures de confidentialite et la propriete des donnees synthetiques produites.

Le texte du RGPD et ses considerants sont disponibles sur EUR-Lex. Les recommandations de la CNIL sur l’anonymisation et les donnees synthetiques completent utilement le cadre legal.

FAQ

Les donnees synthetiques sont-elles soumises au RGPD ?

La reponse depend du risque de re-identification. Si les donnees synthetiques ne permettent pas, par des moyens raisonnablement susceptibles d’etre utilises, d’identifier directement ou indirectement une personne physique, elles ne constituent pas des donnees personnelles et echappent au RGPD. Toutefois, cette qualification doit etre evaluee au cas par cas, en tenant compte de la methode de generation, du risque de memorisation, des possibilites de croisement avec d’autres sources et de l’evolution des techniques de re-identification. Le processus de generation des donnees synthetiques, lorsqu’il utilise des donnees personnelles comme source, est lui-meme un traitement soumis au RGPD. La CNIL recommande de documenter l’evaluation du risque de re-identification et de la mettre a jour regulierement.

Les donnees synthetiques peuvent-elles remplacer totalement les donnees reelles pour l’entrainement de l’IA ?

D’un point de vue technique, les donnees synthetiques peuvent dans certains cas remplacer les donnees reelles, mais avec des limites. Les donnees synthetiques reproduisent les proprietes statistiques des donnees sources, mais elles peuvent manquer de certaines subtilites presentes dans les donnees reelles (cas limites, distributions inhabituelles, interactions complexes). Pour les systemes d’IA a haut risque, le AI Act exige que les donnees d’entrainement soient “pertinentes et suffisamment representatives”. Le recours exclusif a des donnees synthetiques doit etre justifie par une evaluation demontrant que la qualite des donnees synthetiques est suffisante pour le cas d’usage. En pratique, une approche hybride combinant donnees reelles et donnees synthetiques est souvent optimale, les donnees synthetiques permettant d’augmenter le volume et la diversite du jeu d’entrainement tout en limitant les risques de conformite RGPD.

Comment evaluer si les donnees synthetiques generees par un GAN sont suffisamment “anonymes” ?

L’evaluation du caractere anonyme des donnees synthetiques generees par un GAN repose sur trois axes principaux. Premierement, le test de memorisation : verifier que le generateur ne reproduit pas d’enregistrements identiques ou quasi identiques aux donnees sources, en mesurant la distance minimale entre chaque enregistrement synthetique et l’enregistrement source le plus proche. Deuxiemement, le test de singularite : evaluer la proportion d’enregistrements synthetiques uniques et le risque d’identification par des attributs quasi-identifiants (combinaison rare d’attributs). Troisiemement, le test d’attaque par inference : simuler des attaques visant a deduire la presence d’un individu dans les donnees sources a partir des donnees synthetiques. L’utilisation de la confidentialite differentielle dans le processus d’entrainement du GAN fournit des garanties mathematiques quantifiables. En l’absence de confidentialite differentielle, les tests empiriques doivent etre documentes et mis a jour regulierement pour tenir compte de l’evolution des techniques d’attaque.

Restez informe sur la conformite

Recevez nos analyses et guides pratiques sur le RGPD, NIS2, AI Act et plus. Rejoint par 52 000+ professionnels.