Como sei se o modelo base de pesos abertos que estou ajustando não foi envenenado?

Opportunity

Backdoors implantados em pesos de modelos pré-treinados persistem durante o ajuste fino de parâmetros completos, treinamento de adaptadores e atualizações de RLHF porque os padrões de gatilho sobrevivem a estratégias de mudança de objetivo e congelamento parcial. Esses gatilhos são invisíveis para testes comportamentais de segurança padrão e avaliações em benchmark. Detectá-los requer análise de pesos white-box que o praticante médio de ajuste fino nunca realiza, e os principais hubs de modelos não aplicam varredura obrigatória antes de um checkpoint ser disponibilizado para download público. Uma organização que constrói um sistema de produção sobre um modelo base comprometido não tem nenhum sinal de que algo está errado até que o gatilho dispare em produção.

Why it matters

A cadeia de fornecimento de ajuste fino de pesos abertos não possui nenhuma barreira de segurança, e o modo de falha é um backdoor que sobrevive a todas as verificações padrão.

Como avalio a oportunidade

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravidade9/10

How much pain it causes when it shows up.

Frequência7/10

How often people actually run into it.

Lacuna8/10

How little good tooling exists for it today.

Mais problemas que merecem ser resolvidos

Por que todo aplicativo de IA me esquece no momento em que fecho a aba?

Por que aprender uma nova área ainda depende de saber o que perguntar?

Por que uma pessoa sem especialização não consegue verificar o que uma IA acabou de dizer?

Por que testamos modelos em benchmarks mas os lançamos em produção no achismo?

Por que agentes de IA não têm memória dos próprios erros?

Por que não consigo auditar em que um modelo foi realmente treinado?

← Todos os problemas que merecem ser resolvidos About Anurag →