Comment savoir si le modèle de base à poids ouverts que je fine-tune n'a pas été empoisonné ?

Opportunity

Les portes dérobées plantées dans les poids de modèles pré-entraînés persistent à travers le fine-tuning complet des paramètres, l'entraînement d'adaptateurs et les mises à jour RLHF, car les schémas de déclenchement survivent aux stratégies de changement d'objectif et de gel partiel. Ces déclencheurs sont invisibles pour les tests de sécurité comportementaux standard et l'évaluation sur benchmarks. Les détecter nécessite une analyse de poids en boîte blanche que le praticien moyen du fine-tuning n'effectue jamais, et les principaux hubs de modèles n'appliquent aucune analyse obligatoire avant qu'un point de contrôle soit rendu téléchargeable publiquement. Une organisation qui construit un système en production sur un modèle de base compromis n'a aucun signal que quelque chose ne va pas jusqu'à ce que le déclencheur s'active en déploiement.

Why it matters

La chaîne d'approvisionnement du fine-tuning à poids ouverts ne dispose d'aucune barrière de sécurité, et le mode de défaillance est une porte dérobée qui survit à tous les contrôles standard.

Comment j'évalue l'opportunité

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravité9/10

How much pain it causes when it shows up.

Fréquence7/10

How often people actually run into it.

Espace libre8/10

How little good tooling exists for it today.

D'autres problèmes qui méritent d'être résolus

Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?

Pourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?

Pourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?

Pourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?

Pourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?

Pourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?

← Tous les problèmes qui méritent d'être résolus About Anurag →