Comment savoir si le modèle de base à poids ouverts que je fine-tune n'a pas été empoisonné ?
Opportunity
Les portes dérobées plantées dans les poids de modèles pré-entraînés persistent à travers le fine-tuning complet des paramètres, l'entraînement d'adaptateurs et les mises à jour RLHF, car les schémas de déclenchement survivent aux stratégies de changement d'objectif et de gel partiel. Ces déclencheurs sont invisibles pour les tests de sécurité comportementaux standard et l'évaluation sur benchmarks. Les détecter nécessite une analyse de poids en boîte blanche que le praticien moyen du fine-tuning n'effectue jamais, et les principaux hubs de modèles n'appliquent aucune analyse obligatoire avant qu'un point de contrôle soit rendu téléchargeable publiquement. Une organisation qui construit un système en production sur un modèle de base compromis n'a aucun signal que quelque chose ne va pas jusqu'à ce que le déclencheur s'active en déploiement.
Why it matters
La chaîne d'approvisionnement du fine-tuning à poids ouverts ne dispose d'aucune barrière de sécurité, et le mode de défaillance est une porte dérobée qui survit à tous les contrôles standard.
Comment j'évalue l'opportunité
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
How much pain it causes when it shows up.
How often people actually run into it.
How little good tooling exists for it today.
D'autres problèmes qui méritent d'être résolus
Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?
AIPourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?
AIPourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?
AIPourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?
AIPourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?
AIPourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?