AI x Crypto

Comment prouver qu'un modèle a été entraîné sur des données consenties sans révéler le jeu de données ?

Opportunity

Les réseaux d'IA décentralisés permettent à quiconque de contribuer en calcul ou en données pour entraîner un modèle partagé, mais il n'existe aucun mécanisme permettant à un utilisateur en aval ou à un régulateur de vérifier que le corpus d'entraînement exclut des données empoisonnées, volées ou non consenties sans que le réseau ne révèle ce sur quoi il a été entraîné. La provenance des données repose aujourd'hui soit sur un manifeste signé que les contributeurs auto-attestent, soit sur un audit centralisé qui va à l'encontre du but de la décentralisation. Un article de février 2025 sur les attaques par inversion d'activation a montré que les données d'entraînement peuvent être partiellement reconstituées à partir des signaux de gradient échangés lors de l'entraînement fédéré, ce qui signifie que tout schéma de provenance nécessitant le partage de gradients divulgue également des données. Le top dix OWASP LLM 2025 liste explicitement l'empoisonnement des données de la chaîne d'approvisionnement comme une catégorie sans mitigation standardisée pour les exécutions d'entraînement ouvertes et décentralisées.

Why it matters

Sans provenance de données vérifiable, tout modèle entraîné sur un réseau décentralisé public représente un risque pour toute application en aval soumise à un contrôle réglementaire ou de droits d'auteur.

Comment j'évalue l'opportunité

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravité8/10

How much pain it causes when it shows up.

Fréquence7/10

How often people actually run into it.

Espace libre9/10

How little good tooling exists for it today.