AI x Crypto

Como provar que um modelo foi treinado com dados consentidos sem revelar o conjunto de dados?

Opportunity

Redes de IA descentralizadas permitem que qualquer pessoa contribua com capacidade computacional ou dados para treinar um modelo compartilhado, mas não existe mecanismo pelo qual um usuário downstream ou regulador possa verificar que o corpus de treinamento excluiu dados envenenados, roubados ou sem consentimento sem que a rede revele aquilo em que foi treinado. A proveniência de dados hoje é ou um manifesto assinado que os contribuidores atestam por conta própria ou uma auditoria centralizada que contraria o propósito da descentralização. Um artigo de fevereiro de 2025 sobre ataques de inversão de ativação mostrou que os dados de treinamento podem ser parcialmente reconstruídos a partir dos sinais de gradiente trocados durante o treinamento federado, o que significa que qualquer esquema de proveniência que exija o compartilhamento de gradientes também vaza dados. O top dez de LLM da OWASP 2025 lista explicitamente o envenenamento de dados na cadeia de suprimentos como uma categoria sem mitigação padronizada para execuções de treinamento abertas e descentralizadas.

Why it matters

Sem proveniência de dados verificável, todo modelo treinado em uma rede descentralizada pública representa um risco para qualquer aplicação downstream sujeita a escrutínio regulatório ou de direitos autorais.

Como avalio a oportunidade

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravidade8/10

How much pain it causes when it shows up.

Frequência7/10

How often people actually run into it.

Lacuna9/10

How little good tooling exists for it today.