2026-05-18 · 10 min de lecture

Concevez une IA éphémère par défaut : rétention, suppression et gels juridiques

Par Diogo Hudson Dias

CTO in a modern São Paulo office reviewing AI data retention settings on a laptop, with server racks blurred in the background.

Si Apple s’apprête à supprimer automatiquement les conversations Siri, votre produit ne peut pas être celui, inquiétant, qui conserve les prompts pour toujours. Les acheteurs enterprise demandent déjà des contrôles de rétention des données IA, et les régulateurs veillent. Ce n’est pas du PR ; c’est un prérequis. Construisez une IA éphémère par défaut ou préparez-vous à des questionnaires qui tuent les deals, à des coûts de discovery punitifs, et à la peur constante qu’un bucket de logs oublié contienne un an de prompts utilisateurs.

Pourquoi on est passé du « nice to have » à la question de board

Trois signaux ont convergé cette année :

Attentes des consommateurs : les grands assistants passeraient par défaut à la suppression automatique des conversations. Si les plus grandes marques grand public deviennent éphémères, votre SaaS enterprise sera comparé à ce standard.
Lignes rouges institutionnelles : arXiv a annoncé des interdictions pour les auteurs qui laissent l’IA tout faire. Quel que soit votre secteur, c’est un avertissement : les institutions vont sanctionner les abus d’IA et exiger des preuves de contrôle.
Réalité des achats : les entreprises du Fortune 100 incluent désormais des avenants de gestion des données IA de plusieurs pages dans les revues de sécurité. Si vous stockez les prompts indéfiniment, vos cycles juridiques et commerciaux vont traîner… ou mourir.

Et le coup de grâce : la plupart des startups conservent bien plus de données IA qu’elles n’en ont besoin. Dans nos revues, 80–90 % des logs de prompts/traces ne sont plus jamais consultés au-delà de 7 jours. Pendant ce temps, ces déchets augmentent le rayon d’impact d’une violation, font enfler les index vectoriels et vous lient les mains en e‑discovery.

Un cadre décisionnel pour CTO afin d’adopter l’éphémère par défaut

Ne commencez pas par les outils. Commencez par les classes de données, objectifs de rétention et garanties de suppression. Puis remontez vers l’architecture.

1) Classer les données IA en cinq catégories

P0 Confidentiel/PII : identifiants utilisateurs, métadonnées de compte, fichiers, et tout contenu de prompt pouvant inclure des PII ou des secrets.
P1 Prompts/Réponses : transcriptions de chat, arguments d’appels de fonctions, sorties d’outils, notes intermédiaires d’agents.
P2 Télémétrie/Traces : nombre de tokens, latences, versions de modèles, échantillonnage de prompts avec masquage automatique pour le tuning.
P3 Index/Caches dérivés : embeddings, index vectoriels, caches de rerank, journaux de retrieval, modèles de prompts.
P4 Artéfacts : sorties qui deviennent des données produit (tickets, changements de code, articles de connaissance).

2) Attribuer des fenêtres de rétention par défaut

P0 : 0 jour dans les logs ; ne stocker que lorsqu’absolument requis en tant que données produit, chiffrées au repos, et sous consentement/politique explicite de l’utilisateur.
P1 : tampon circulaire de 0–7 jours pour le débogage ; désactivé par défaut, opt‑in par tenant. Proposez des politiques admin 0/7/30/365 jours.
P2 : 7–14 jours ; conserver plus longtemps (90 jours) les métriques agrégées si elles sont dépourvues de contenu.
P3 : 30 jours ou moins avec invalidation automatisée ; ne jamais stocker de prompts bruts dans les index ; stocker uniquement IDs de documents et empreintes (hashes).
P4 : suivre la politique de données de votre produit ; hors du périmètre de la politique IA mais doit être clairement séparé des données P1/P2.

Ce sont des valeurs par défaut. Les tenants régulés (santé, finance, secteur public LATAM) demanderont une capture à 0 jour pour P1/P2 et des clés détenues par le tenant. Faites en sorte que « 0 jour » fonctionne vraiment.

3) Garantir les suppressions sur tous les stockages

La suppression couvre chaque réplique et dérivé : BDD OLTP, files d’attente, base vectorielle, stockage objet, analytics, APM, recherche plein texte et prestataires tiers. Promettez un SLA : suppression P99 en moins de 24 heures. Suivez‑la comme un KPI.

Architecture : comment l’implémenter sans perdre l’observabilité

Voici une architecture de référence que nous avons mise en œuvre pour des SaaS intensifs en IA. Elle préserve le débogage et la qualité produit sans entasser indéfiniment du texte utilisateur.

1) État de conversation à l’échelle de la session

Conservez le contexte de conversation en mémoire ou dans un store rapide (Redis/Memgraph) avec un TTL ≤ 24 h. Désactivez le stockage persistant des conversations sauf si un tenant active « Conserver cette conversation ».
Proposez aux utilisateurs un toggle in‑product : « Conserver cette conversation » écrit en stockage persistant ; par défaut c’est transitoire.
Tokenisez les IDs utilisateur en IDs de session pseudonymes pour les pipelines IA ; ne rattachez aux comptes qu’en périphérie quand nécessaire.

2) Journalisation des prompts sans créer de passif

Échantillonnez 1–5 % des prompts pour la qualité après un masquage automatisé à l’ingestion (noms, e‑mails, clés, numéros). Utilisez des détecteurs en couches (patterns + ML). Des outils comme Presidio sont un point de départ pragmatique.
Remplacez le texte par des résumés structurés quand c’est possible : étiquettes d’intention, noms d’outils invoqués, nombre de tokens. Conservez ces données 90 jours.
Offrez aux admins une politique de rétention nulle des prompts qui ne garde que des métriques agrégées. Votre recours de debug est un lot « Partager avec le support » déclenché par l’utilisateur, masqué côté client et expirant sous 7 jours.

3) Bases vectorielles et caches avec un vrai TTL

Ne stockez jamais de contenu brut de prompts dans les index vectoriels. Stockez les embeddings + une charge utile d’IDs/hachages stables, pas le texte.
Attachez un TTL par point ou maintenez un index de suppression clé par document/version. La plupart des bases vectorielles n’offrent pas de TTL nativement ; planifiez des balayages quotidiens pour supprimer les points expirés.
Quand un utilisateur supprime un document source, invalidez en cascade : purge immédiate de ses chunks dans la base vectorielle, des caches de rerank et des journaux de retrieval.

4) Gestion des fichiers/objets de façon ennuyeuse mais correcte

Utilisez des buckets dédiés pour les artéfacts IA avec des règles de cycle de vie (7–30 jours). Gardez‑les séparés des pièces jointes produit.
Servez les artéfacts IA uniquement via des URL pré‑signées (≤ 60 minutes).
Chiffrez au repos avec des clés par tenant. Si vous proposez le BYOK, intégrez‑vous à KMS/HSM et journalisez l’usage des clés dans votre piste d’audit.

5) Isolation vis‑à‑vis des fournisseurs de modèles

Refusez l’entraînement côté fournisseur autant que possible. La plupart des grandes API permettent un drapeau « do not train » ; vérifiez à chaque appel en revue de code.
Pour des modèles on‑prem ou en VPC, isolez les logs de tokens des prompts. Conservez les compteurs et les latences ; jetez le texte brut par défaut.

6) Traces d’agents/outils qui ne divulguent pas de secrets

Nettoyez les entrées/sorties d’outils aux frontières. Traitez les logs d’outils comme du P1.
Conservez les arbres d’exécution, pas le texte intégral, pendant 14 jours : quels outils ont tourné, avec quelles catégories de données, durées, succès/échec.
Pour les incidents Sev‑1, autorisez une élévation temporaire du traçage : capturez le texte intégral pour les N prochaines requêtes dans le store dédié du tenant avec approbation explicite, puis expiration automatique.

7) Analytics sans accumuler de contenu

Agrégez tôt : calculez intention et métriques de qualité à l’ingestion ; n’envoyez aux analytics que des compteurs agrégés (pas de prompts).
Appliquez une confidentialité différentielle simple aux tableaux de bord par tenant si vous affichez de petits volumes. Cela décourage la ré‑identification sans mathématiques héroïques.

8) Orchestration de la suppression comme système de première classe

Maintenez une cartographie des données lisible par machine (YAML convient) listant chaque store pouvant contenir du P1–P3 avec sa méthode de suppression.
Construisez un DAG de suppression : quand un tenant ou un utilisateur demande une suppression, propagez des jobs vers l’OLTP, la base vectorielle, le stockage objet, l’APM, l’analytics, la recherche plein texte et les fournisseurs.
Rendez‑le idempotent avec des jetons de suppression et des relances. Émettez un événement d’audit signé à l’achèvement de chaque branche. Cible : P99 < 24h, P50 < 1h.

Contrôles produit désormais attendus par les entreprises

Politique de rétention tenant‑wide pour les données IA : 0/7/30/365 jours avec une valeur par défaut à 0 ou 7.
Gel juridique : un interrupteur admin qui fige la suppression pour des utilisateurs/classes de données définis. Point critique : il doit stopper les évictions liées au TTL dans chaque store, y compris bases vectorielles et stockage objet.
Export de données pour P1 : une archive lisible par machine des conversations survivantes (si la rétention est activée) et un journal d’audit des suppressions.
Ancrage régional : maintenir P1–P3 dans la région ; pas de réplication inter‑région sans clauses contractuelles.
BYOK ou a minima des clés par tenant avec rotation. Si vous vendez à la finance/santé, le BYOK arrive dès le premier appel.

Ce que ça coûte et ce que ça économise

Ancrons cela dans des chiffres pour un SaaS de stade intermédiaire avec 10 k utilisateurs actifs quotidiens, chacun faisant 10 prompts/jour, moyenne 600 tokens en/sortie :

Texte brut des prompts/réponses : ~100 MB/jour. Coûts de stockage triviaux sur S3 (0,023 $/GB‑mois) mais risque de violation non négligeable.
Traces : 1–2 GB/jour si vous conservez les logs agents complets. Avec 30 jours de rétention, vous êtes à 30–60 GB — encore peu cher en dollars, coûteux en risque.
Embeddings : 100 M de tokens/jour embarqués naïvement, c’est ruineux. Le caching et la dédup via empreintes coupent généralement cela de 70–90 %. Un TTL réduit encore la croissance longue traîne.

Le temps d’ingénierie est le vrai coût : un·e Staff Engineer pendant 6–8 semaines peut implémenter le cœur de cette architecture dans une base de code bien factorisée ; deux si votre cartographie des données est désordonnée. Les gains sont immédiats :

La friction en revue de sécurité baisse ; nous avons vu des cycles enterprise se réduire de 2–4 semaines quand les équipes démontrent de vrais contrôles de rétention.
Le périmètre d’impact d’une brèche est réduit d’ordres de grandeur. Perdre 7 jours d’échantillons masqués vaut mieux que perdre un an de prompts.
La discipline de débogage s’améliore : les équipes cessent de faire de l’archéologie de logs et ajoutent de meilleures métriques au niveau de l’intention.

Modes d’échec courants (et comment les éviter)

« Journaux fantômes » : vous avez supprimé P1 en OLTP mais oublié votre APM et la recherche plein texte. Corrigez avec le DAG de suppression et un exercice sur table trimestriel qui prouve la suppression de bout en bout.
Amnésie du store vectoriel : pas de TTL, pas d’index de suppression, pas de versionnage. Corrigez en indexant par doc+version et en lançant une éviction nocturne.
Dérive côté fournisseur : quelqu’un a activé l’entraînement dans une mise à jour de bibliothèque. Corrigez avec de l’analyse statique ou des checks CI sur les drapeaux fournisseurs et un plan de contrôle à l’exécution qui impose des valeurs par défaut au niveau org.
Des PII dans les prompts échappent au masquage. Corrigez avec une défense en profondeur : patterns, détecteurs appris, allowlists/denylists par tenant, et masquage côté client pour les champs à haut risque.
Tickets support avec conversations brutes : votre flux « Partager avec le support » déverse tout dans Zendesk pour toujours. Corrigez en envoyant des lots expirants avec TTL 7 jours et journaux d’accès.

Une gouvernance réellement opérationnelle

KPIs : % de stores avec TTL ; temps de suppression P50/P99 ; % de prompts stockés ; % de couverture de masquage ; # de tenants en politiques « 0 jour » ; # de gels juridiques ; couverture de la cartographie des données (stores recensés vs total).
Revues : « privacy burn‑down » trimestriel où vous supprimez 10 utilisateurs au hasard et vérifiez la suppression sur tous les stores. Publiez les résultats en interne.
Runbooks : fiches d’une page pour DSR/CCPA/GDPR/LGPD. Votre astreinte doit pouvoir initier la suppression d’un utilisateur sans mobiliser toute l’orga.

Nuances régionales et réglementaires à ne pas ignorer

Si vous vendez aux US et en LATAM, vous jonglez avec CCPA/CPRA, des régulations sectorielles et la LGPD du Brazil. Ce qui compte opérationnellement :

La preuve prime sur la politique : les auditeurs demandent à voir des journaux de suppression et des preuves de TTL, pas seulement un PDF. Construisez la piste d’audit maintenant.
Transferts transfrontaliers : évitez d’acheminer P1–P3 hors de la région contractuelle. Votre liste de sous‑traitants IA doit nommer explicitement les fournisseurs de modèles et les bases vectorielles.
Secteurs sensibles : les acheteurs santé/secteur public LATAM exigent de plus en plus une rétention à 0 jour des prompts, le BYOK, et des gels juridiques explicites. Concevez‑le dès le départ, pas en personnalisation.

Un plan de déploiement qui ne bloque pas votre roadmap

Semaine 1–2 : cartographie des données et valeurs par défaut. Inventoriez les stores P1–P3. Choisissez la rétention par classe (0/7/30). Coupez tout entraînement côté fournisseur.
Semaine 3–4 : quick wins. Ajoutez un TTL à Redis, des règles de cycle de vie S3 et des tables OLTP partitionnées. Implémentez le toggle « Conserver cette conversation » et l’UI de politique par tenant. Échantillonnez + masquez les prompts à l’ingestion.
Semaine 5–6 : DAG de suppression. Construisez l’orchestrateur qui propage les suppressions vers l’OLTP, la base vectorielle, le stockage objet, l’APM, l’analytics, la recherche. Ajoutez des métriques et le suivi P99/P50.
Semaine 7–8 : gels juridiques et audits. Implémentez le gel juridique tenant. Émettez des événements d’audit signés. Faites un exercice sur table et corrigez ce qui casse.

Si vous avez besoin d’aide, c’est exactement le type de travail transversal que des équipes nearshore font très bien : cela touche l’infra, la donnée, le backend, le produit et la conformité. Avec 6–8 heures de recouvrement de fuseaux avec les US et une expérience LGPD, une équipe basée au Brazil peut livrer cela sans dérailler vos équipes features cœur.

La vérité qui dérange

La vraie raison pour laquelle les équipes conservent tout, c’est la peur : « Et si on en avait besoin pour le débogage ou l’entraînement ? » La réponse, c’est du process, pas de la thésaurisation. Gardez un court tampon circulaire, faites des captures étendues sous approbation lors des incidents, et investissez dans des métriques au niveau de l’intention pour ne pas devoir lire le texte utilisateur afin de savoir ce qui casse.

Le passage d’Apple à l’éphémère va réinitialiser les attentes. Vous pouvez prendre de l’avance sur cette vague et en faire un avantage commercial. Ou bien expliquer, pour la troisième fois ce trimestre, pourquoi vos transcriptions IA restent éternellement dans un entrepôt que cinq prestataires peuvent interroger.

Points clés

Livrez une IA éphémère par défaut : 0–7 jours de rétention pour prompts/traces, avec politiques par tenant et gels juridiques.
Construisez un DAG de suppression qui se déploie vers chaque store — OLTP, base vectorielle, stockage objet, analytics, APM et fournisseurs — avec P99 < 24h.
Préservez l’observabilité en stockant des résumés structurés et des arbres d’exécution, pas du texte utilisateur brut.
Rendez les index vectoriels sûrs : pas de prompts bruts, TTL par point, invalidations en cascade et documents versionnés.
Traitez cela comme une fonctionnalité produit : réglages d’admin pour la rétention, ancrage régional, BYOK, export et logs auditables font gagner les deals enterprise.