Ferramentas criadas para remover mecanismos de segurança de sistemas de inteligência artificial da Meta, Google e outras empresas vêm sendo usadas para produzir milhares de versões modificadas de modelos de IA sem as restrições originais impostas por seus desenvolvedores. O fenômeno acendeu um novo alerta entre pesquisadores, empresas e reguladores sobre os limites do controle em torno da inteligência artificial aberta.
Testes revelam vulnerabilidades
Testes conduzidos pelo Financial Times em parceria com o grupo de segurança em IA Alice indicam que modelos alterados passaram a responder a solicitações que normalmente seriam bloqueadas, incluindo pedidos relacionados a software malicioso, crimes digitais e outros conteúdos proibidos pelas políticas das plataformas. No centro da discussão estão os chamados guardrails, os filtros e mecanismos incorporados às IAs para impedir usos considerados perigosos, ilegais ou abusivos. Embora grandes laboratórios de IA invistam milhões de dólares nesses sistemas de proteção, pesquisadores afirmam que novas técnicas vêm tornando mais fácil desmontá-los, sobretudo em modelos de código aberto.
Como funciona a remoção dos filtros
Um dos métodos mais citados no debate recente é conhecido como abliteration. A técnica atua diretamente nos parâmetros internos do modelo para reduzir ou eliminar padrões associados às respostas de recusa, isto é, os mecanismos que levam a IA a rejeitar certos comandos. Ferramentas recentes automatizaram esse processo, reduzindo a barreira técnica para usuários comuns. Segundo o Financial Times, pesquisadores conseguiram usar uma ferramenta chamada Heretic, disponível em um repositório público de código, para remover filtros do modelo Llama 3.3, da Meta, em menos de dez minutos, usando poucas linhas de código e sem necessidade de infraestrutura especializada. Após a modificação, o sistema respondeu a perguntas que a versão original recusava discutir.
O dilema da IA aberta
O problema atinge principalmente modelos chamados de abertos ou open-weight, categoria na qual se encontram famílias como Llama, da Meta, e Gemma, do Google. Nesses sistemas, os pesos do modelo podem ser baixados, adaptados e modificados por pesquisadores, empresas ou usuários independentes. Defensores do modelo afirmam que a abertura acelera pesquisa científica, inovação e desenvolvimento de aplicações locais. Críticos, porém, apontam que a mesma flexibilidade facilita alterações fora do controle das empresas que criaram os sistemas. Uma vez distribuído publicamente, o software pode ser copiado, ajustado e redistribuído em novas versões sem supervisão centralizada.
Modelos proprietários versus abertos
Modelos proprietários, como o ChatGPT, da OpenAI, e Claude, da Anthropic, oferecem menos exposição a esse tipo específico de modificação porque seu código e arquitetura interna não ficam disponíveis para terceiros. Ainda assim, pesquisadores observam que mesmo sistemas fechados continuam vulneráveis a tentativas de jailbreak, técnicas usadas para induzir respostas proibidas por meio de engenharia de prompts.
Segurança sob pressão regulatória
A disseminação de versões modificadas de IA complica iniciativas de regulação que buscam responsabilizar empresas ainda na fase de desenvolvimento dos modelos. Governos na Europa, nos Estados Unidos e em outros países vêm debatendo como impor obrigações de segurança, transparência e auditoria a sistemas de inteligência artificial cada vez mais potentes. Mas especialistas observam que ferramentas abertas alteram a lógica do controle: depois que um modelo pode ser baixado e reconfigurado por qualquer pessoa, parte do poder regulatório se desloca para um ambiente descentralizado e difícil de monitorar.
Ameaças crescentes
O debate ocorre num momento em que as capacidades dos modelos avançados continuam crescendo. A Anthropic afirmou recentemente que versões recentes de seus sistemas demonstraram habilidade para identificar falhas em softwares amplamente usados, ampliando preocupações sobre potencial uso ofensivo dessas tecnologias. Pesquisas acadêmicas recentes também apontam fragilidade nos mecanismos atuais de proteção. Estudos mostram que modelos de segurança frequentemente apresentam forte queda de desempenho diante de ataques inéditos ou comandos formulados de maneiras não previstas nos testes originais.
O que dizem Google, GitHub e Meta
O Google afirmou ao Financial Times que a abliteration é um desafio técnico conhecido para modelos abertos e disse que seus sistemas passam por avaliações internas rigorosas de segurança antes do lançamento público. O GitHub, plataforma onde ferramentas desse tipo podem circular, declarou que proíbe conteúdos voltados diretamente a ataques ilegais ou campanhas de malware, mas não veta automaticamente códigos que possam ter uso dual, alegando valor educacional e relevância para a comunidade de segurança digital. A Meta não comentou oficialmente o caso. A empresa avalia os riscos de seus modelos antes da liberação pública e mantém critérios internos para impedir a divulgação de sistemas considerados capazes de gerar ameaças catastróficas sem medidas adequadas de mitigação.
Para pesquisadores da área, porém, o avanço das ferramentas de remoção de filtros sugere que o setor pode estar entrando em uma nova fase do debate sobre IA. Menos centrada na promessa de alinhamento interno dos modelos e mais focada em monitoramento, governança e contenção de danos após o lançamento.



