AI Act

IA et CNIL : recommandations pratiques 2025-2026

Fiches pratiques CNIL sur l'IA : base légale, données d'entraînement, web scraping, annotation, sécurité. Guide de mise en conformité.

Par Thiebaut DevergrannePublie le 11 avril 2026Mis a jour le 11 avril 202613 min de lecture

Sommaire

Un corpus de recommandations en trois vagues
Les sujets clés des fiches pratiques CNIL
Programme de travail CNIL 2026 : ce qui arrive
Comment utiliser les recommandations CNIL en pratique
Ce qu’il faut retenir
FAQ

La CNIL a publié entre 2024 et 2025 un corpus de 13 fiches pratiques sur le développement des systèmes d’intelligence artificielle, complétées d’une fiche de synthèse et d’une checklist. Ces recommandations constituent aujourd’hui le référentiel le plus complet pour concilier IA et protection des données personnelles en France. Voici comment les utiliser concrètement.

Un corpus de recommandations en trois vagues

Les recommandations CNIL sur l’IA n’ont pas été publiées d’un bloc. Elles ont été construites progressivement, au fil de consultations publiques et de retours du terrain.

Première série : les fondamentaux (avril 2024)

La CNIL a publié en avril 2024 ses premières fiches pratiques couvrant les questions structurantes du développement d’un système d’IA soumis au RGPD. Ces fiches abordent le périmètre d’application (quand le RGPD s’applique-t-il à un système d’IA ?), la définition des finalités de traitement, le choix de la base légale, la minimisation des données, et les obligations en matière d’information des personnes.

Le message central de cette première série : le développement d’un système d’IA impliquant des données personnelles n’échappe pas au RGPD. Les principes de l’article 5 — licéité, loyauté, transparence, limitation des finalités, minimisation, exactitude — s’appliquent intégralement, y compris à la phase d’entraînement des modèles.

Deuxième série : intérêt légitime et web scraping (juin 2025)

Le 19 juin 2025, la CNIL a ajouté deux fiches spécifiques particulièrement attendues par les développeurs d’IA :

L’intérêt légitime comme base légale pour le développement d’un système d’IA. La CNIL reconnaît que l’intérêt légitime (art. 6(1)(f) du RGPD) sera la base légale la plus couramment mobilisée pour l’entraînement de modèles. Un intérêt est présumé légitime lorsqu’il est à la fois manifestement licite, déterminé de façon suffisamment claire et précise, et réel et présent. La fiche détaille la mise en balance avec les droits des personnes concernées et les garanties compensatoires à mettre en place.

Le web scraping pour la collecte de données d’entraînement. La collecte de données accessibles en ligne (moissonnage) est encadrée : elle n’est pas interdite par principe, mais doit être accompagnée de mesures garantissant les droits des personnes. La CNIL recommande notamment de documenter les sources, de respecter les fichiers robots.txt, d’exclure les données manifestement sensibles, et de mettre en place un mécanisme d’opposition accessible.

Troisième série : finalisation (juillet 2025)

Le 22 juillet 2025, la CNIL a finalisé son corpus avec de nouvelles fiches sur la sécurité des systèmes d’IA, l’annotation des données d’entraînement, et le statut du modèle d’IA au regard du RGPD. C’est cette dernière fiche qui a suscité le plus de débats : un modèle d’IA entraîné constitue-t-il en lui-même un traitement de données personnelles ? La CNIL apporte une réponse nuancée, qui dépend de la capacité du modèle à restituer des données personnelles identifiantes.

Les sujets clés des fiches pratiques CNIL

Périmètre d’application et qualification juridique

La première question que la CNIL invite les organisations à se poser : mon système d’IA traite-t-il des données personnelles ? La réponse n’est pas toujours évidente. Un modèle de langage entraîné sur des textes publics contenant des noms de personnes traite bien des données personnelles. Un modèle de classification d’images de pièces industrielles, en revanche, peut ne pas en traiter si aucune donnée identifiante n’entre dans le processus.

La CNIL guide les acteurs dans cette analyse de qualification, en distinguant les phases de développement (entraînement, validation, test) et de déploiement (inférence, utilisation opérationnelle). Les obligations RGPD peuvent varier selon la phase : la base légale retenue pour l’entraînement n’est pas nécessairement celle du déploiement.

Base légale : le triple test de l’intérêt légitime

Pour la phase de développement, la CNIL considère que l’intérêt légitime est la base légale la plus adaptée dans la majorité des cas. Le consentement est rarement praticable lorsque les données d’entraînement proviennent de sources multiples et massives.

Le « triple test » de l’intérêt légitime selon la CNIL comprend trois étapes :

Test de légitimité — L’intérêt poursuivi doit être licite, précis et réel. Le développement d’un outil d’aide au diagnostic médical, d’un système de détection de fraude ou d’un assistant conversationnel sont des exemples d’intérêts que la CNIL considère comme potentiellement légitimes.

Test de nécessité — Le traitement de données personnelles doit être strictement nécessaire pour atteindre la finalité. Si des données anonymisées ou synthétiques permettent d’obtenir un résultat comparable, elles doivent être privilégiées. C’est ici que le principe de minimisation (art. 5(1)© du RGPD) prend toute sa force.

Test de mise en balance — Les intérêts du responsable de traitement ne doivent pas prévaloir sur les droits et libertés des personnes concernées. La CNIL recommande d’évaluer la nature des données (sensibles ou non), les attentes raisonnables des personnes, l’impact du traitement, et les garanties mises en place (pseudonymisation, limitation d’accès, droit d’opposition).

Données d’entraînement : constitution et gestion

Les fiches pratiques insistent sur la documentation de la constitution des jeux de données d’entraînement. Pour chaque jeu de données, le responsable de traitement doit être en mesure de justifier :

la provenance des données (collecte directe, bases ouvertes, web scraping, achat) ;
la base légale applicable à chaque source ;
les catégories de données incluses et exclues ;
les mesures de minimisation appliquées (suppression de champs identifiants, pseudonymisation) ;
la durée de conservation des données d’entraînement après l’achèvement du modèle.

Ce dernier point fait l’objet d’une attention particulière de la CNIL : les données d’entraînement doivent-elles être conservées après l’entraînement du modèle ? La réponse dépend de la finalité. Si les données sont nécessaires pour ré-entraîner ou améliorer le modèle, leur conservation peut être justifiée. Mais une conservation « au cas où », sans finalité précise, contrevient au principe de limitation de la conservation.

Annotation des données

La phase d’annotation est déterminante pour la qualité du modèle et pour la conformité RGPD. La CNIL recommande :

de former les annotateurs aux enjeux de protection des données, notamment lorsque les données annotées contiennent des informations sensibles ;
de proscrire les annotations contenant des informations non pertinentes avec la fonctionnalité prévue du système (par exemple, annoter l’origine ethnique dans un système de reconnaissance d’objets) ;
de mettre en place des protocoles d’annotation documentés, incluant des consignes claires, un contrôle qualité, et une traçabilité des décisions d’annotation.

En pratique, l’externalisation de l’annotation auprès de prestataires — y compris situés hors de l’UE — est fréquente. Dans ce cas, un contrat de sous-traitance conforme à l’article 28 du RGPD est indispensable, et les règles de transfert de données hors UE s’appliquent le cas échéant.

Sécurité des systèmes d’IA

La CNIL détaille les risques spécifiques aux systèmes d’IA en matière de sécurité : attaques par empoisonnement des données d’entraînement (data poisoning), extraction de données personnelles à partir du modèle (model inversion, membership inference), et manipulation des résultats par injection de prompts (prompt injection).

Les mesures de sécurité recommandées comprennent le chiffrement des données d’entraînement au repos et en transit, le contrôle d’accès aux modèles et aux jeux de données, la journalisation des accès et des requêtes, et des tests de robustesse spécifiques aux vulnérabilités IA. Ces exigences s’ajoutent aux obligations générales de l’article 32 du RGPD sur la sécurité des traitements.

La CNIL mentionne également le projet PANAME (Privacy AuditiNg of Ai ModEls), mené en partenariat avec l’ANSSI, qui vise à développer des méthodes d’audit technique des modèles d’IA. Ce projet pourrait déboucher sur des outils de vérification concrets pour les organisations.

Information des personnes et exercice des droits

L’information des personnes dont les données servent à entraîner un modèle d’IA est un défi pratique considérable. Quand les données proviennent du web scraping, il est matériellement impossible de contacter chaque personne individuellement. La CNIL admet des modalités d’information adaptées : publication d’une mention d’information sur le site du responsable de traitement, mise à disposition d’un formulaire d’opposition, communication auprès de relais sectoriels.

Concernant le droit d’opposition (art. 21 du RGPD), la CNIL considère qu’il doit pouvoir être exercé de manière effective. Pour les modèles fondés sur l’intérêt légitime, le droit d’opposition ne peut pas être systématiquement refusé : le responsable de traitement doit examiner chaque demande et démontrer des « motifs légitimes et impérieux » pour la rejeter.

Le droit à l’effacement soulève des questions techniques : peut-on supprimer les données d’une personne d’un modèle déjà entraîné ? La CNIL reconnaît que le « désapprentissage » (machine unlearning) n’est pas toujours techniquement possible. Dans ce cas, des mesures compensatoires peuvent être envisagées : filtrage des résultats, limitation des requêtes pouvant générer des données identifiantes.

Programme de travail CNIL 2026 : ce qui arrive

La CNIL a publié son programme de travail pour 2026, qui prévoit plusieurs chantiers directement liés à l’IA :

Recommandations sectorielles — Après les fiches généralistes, la CNIL prépare des recommandations ciblées pour les secteurs de la santé, de l’éducation et du travail. Ces documents aborderont les risques de biais algorithmiques et les garanties spécifiques à mettre en place.

Articulation AI Act / RGPD — Le règlement européen sur l’IA est entré progressivement en application depuis février 2025. La CNIL travaille à clarifier l’articulation entre les obligations AI Act et les exigences RGPD, notamment pour les systèmes d’IA à haut risque qui sont soumis aux deux réglementations. Pour un aperçu des obligations AI Act, consultez notre checklist conformité IA.

Qualification des acteurs de la chaîne IA — Concepteurs de modèles fondationnels, hébergeurs, intégrateurs, réutilisateurs : la CNIL prévoit de clarifier les responsabilités de chaque acteur au regard du RGPD. Cette question est cruciale pour les organisations qui utilisent des modèles tiers (GPT, Claude, Mistral) sans les avoir développés eux-mêmes. Nous avons déjà abordé cette question pour ChatGPT et pour les clauses contractuelles SaaS et IA.

Comment utiliser les recommandations CNIL en pratique

Évaluer l’applicabilité du RGPD à votre projet IA

Avant toute chose, déterminez si votre système d’IA traite des données personnelles. La CNIL propose un arbre de décision dans sa fiche de synthèse : si des données personnelles sont utilisées en entrée (entraînement ou inférence) OU si le système génère des données personnelles en sortie, le RGPD s’applique.

Documenter la conformité dès la conception

La CNIL insiste sur le principe de protection des données dès la conception (privacy by design, art. 25 du RGPD). Concrètement, cela implique de documenter les choix de conception du système d’IA : pourquoi ces données d’entraînement, pourquoi cette architecture, quelles mesures de minimisation, quels tests de biais.

Dans mon expérience de conseil auprès d’entreprises développant des systèmes d’IA, la documentation est souvent le maillon faible. Les équipes techniques développent le modèle, mais les choix de conception ne sont pas tracés. Or, c’est précisément cette documentation que la CNIL ou une autorité de contrôle demandera en cas de vérification.

Réaliser une AIPD si nécessaire

Les systèmes d’IA traitant des données personnelles à grande échelle, impliquant du profilage ou de l’évaluation systématique de personnes, ou traitant des données sensibles nécessitent une analyse d’impact (AIPD) au titre de l’article 35 du RGPD. La CNIL a d’ailleurs inclus les traitements utilisant des « dispositifs innovants » dans sa liste des traitements nécessitant une AIPD.

Mettre en place les droits des personnes

Prévoyez un mécanisme permettant aux personnes d’exercer leurs droits : droit d’opposition, droit d’accès, droit à l’effacement. Pour les systèmes fondés sur l’intérêt légitime, le droit d’opposition est un contrepoids essentiel. La CNIL recommande de prévoir un formulaire dédié ou un point de contact clairement identifié.

Anticiper l’articulation avec l’AI Act

Les systèmes d’IA à haut risque au sens du règlement européen sur l’IA sont soumis à des obligations qui recoupent partiellement celles du RGPD : documentation technique, gestion des risques, gouvernance des données, transparence. Il est recommandé de construire un référentiel de conformité unique couvrant les deux réglementations, plutôt que de maintenir deux démarches parallèles. C’est ce type de travail d’articulation réglementaire que Legiscope permet de structurer.

Ce qu’il faut retenir

La CNIL a publié 13 fiches pratiques sur le développement des systèmes d’IA, complétées d’une fiche de synthèse et d’une checklist — c’est le référentiel de conformité IA/RGPD le plus complet disponible en France.
L’intérêt légitime (art. 6(1)(f) du RGPD) est reconnu par la CNIL comme la base légale la plus courante pour l’entraînement de modèles, sous réserve du triple test (légitimité, nécessité, mise en balance).
Le web scraping pour la collecte de données d’entraînement n’est pas interdit, mais doit être encadré : documentation des sources, respect des robots.txt, droit d’opposition effectif.
La CNIL prépare pour 2026 des recommandations sectorielles (santé, éducation, travail) et des clarifications sur les responsabilités des acteurs de la chaîne IA.
La documentation des choix de conception est le point de conformité le plus critique — et le plus souvent négligé.

FAQ

Les fiches pratiques CNIL sur l’IA sont-elles contraignantes ?

Les fiches pratiques de la CNIL sont des recommandations, pas des textes juridiquement contraignants. Cependant, elles reflètent l’interprétation de l’autorité de contrôle et constituent le standard que la CNIL appliquera lors de ses contrôles. Ne pas les suivre expose à un risque de sanction si le traitement est jugé non conforme au RGPD. En pratique, il est fortement recommandé de s’y conformer ou de documenter les raisons d’un écart.

L’intérêt légitime suffit-il pour entraîner un modèle d’IA sur des données personnelles ?

L’intérêt légitime est une base légale valide, mais il ne s’agit pas d’un blanc-seing. Le responsable de traitement doit réaliser le triple test (légitimité, nécessité, mise en balance) et le documenter. Il doit également garantir un droit d’opposition effectif. La CNIL peut contester le recours à l’intérêt légitime si la mise en balance est insuffisante ou si les garanties sont inadéquates.

Faut-il réaliser une AIPD pour tout projet d’IA ?

Non, l’AIPD n’est obligatoire que pour les traitements présentant un risque élevé pour les droits et libertés des personnes (art. 35 du RGPD). Cependant, la plupart des projets d’IA traitant des données personnelles à grande échelle entrent dans cette catégorie. En cas de doute, il est préférable de réaliser l’AIPD : elle constitue également un outil de documentation utile pour démontrer la conformité.

Comment articuler les recommandations CNIL avec les obligations du AI Act ?

Les recommandations CNIL portent sur le volet RGPD du développement de systèmes d’IA. Le AI Act ajoute des obligations spécifiques, notamment pour les systèmes à haut risque (documentation technique, gestion des risques, gouvernance des données). Il est recommandé de construire un cadre de conformité unique intégrant les deux réglementations, en s’appuyant sur les fiches CNIL pour le volet données personnelles et sur le AI Act pour le volet sécurité et transparence du produit.