Google DeepMind cria plano de segurança para agentes de IA fora de controle

O Google desenvolveu um novo plano para fiscalizar os agentes de inteligência artificial cada vez mais capazes que utiliza dentro de sua própria área de pesquisa em IA. A empresa está divulgando esse chamado roteiro para auxiliar outros laboratórios a lidar com a ameaça potencial de agentes descontrolados.

Mudança de abordagem na segurança de IA

O plano de segurança do Google DeepMind representa uma mudança em relação ao foco tradicional da comunidade de segurança em IA no chamado problema do alinhamento, que consiste em treinar um sistema para que suas ações correspondam de forma confiável às intenções, valores e ética humanos. Embora o alinhamento continue sendo um componente central, o roteiro reconhece que esse problema talvez nunca seja totalmente resolvido.

Em vez disso, propõe um sistema de segurança em camadas que trata agentes de IA como possíveis insiders maliciosos dentro de uma organização. O relatório técnico, com 35 páginas, detalha etapas e procedimentos para detectar comportamentos adversariais.

—

Banner largo do Pickt — app de listas de compras colaborativas para Telegram

“Se a primeira linha de defesa — o alinhamento — falhar, como ainda podemos mitigar os danos?”, questionou Rohin Shah, líder da equipe de Segurança e Alinhamento de AGI no Google DeepMind, em entrevista à Fortune.

Inspiração na cibersegurança tradicional

A estrutura proposta para os agentes de IA toma emprestados diversos conceitos da cibersegurança tradicional, especialmente da prevenção a ameaças internas. “Aproveitamos muito do que já existe em segurança, que lida com o risco de funcionários internos agirem de forma maliciosa, e aplicamos isso a um novo contexto”, afirmou Shah. No entanto, ele observou que “a IA é sistematicamente diferente dos humanos”.

Agentes de IA podem agir em velocidade e escala muito superiores às de um funcionário mal-intencionado. Por isso, são necessários sistemas capazes de controlar quais ferramentas e dados um agente pode acessar, além de mecanismos para monitorar seu comportamento e identificar padrões anômalos em tempo real.

Desafios dos controles de acesso tradicionais

Muitos sistemas de controle de acesso baseados em função, comuns para humanos, podem não funcionar para IA. John “Four” Flynn, vice-presidente de segurança e privacidade do Google DeepMind, explicou à Fortune que, à medida que os fluxos de trabalho se automatizam, fica menos claro em nome de quem o agente atua. Além disso, um único agente pode executar tarefas de várias funções diferentes, e as empresas podem querer que ele atue em múltiplos processos simultaneamente. Nesse cenário, controles de acesso estáticos perdem eficácia.

Flynn defende um sistema dinâmico de controle de acesso, capaz de mudar em tempo real conforme a tarefa e o fluxo de trabalho. Isso exigiria um monitoramento sofisticado que identifique desvios e corte rapidamente acessos suspeitos.

Protótipo interno e monitoramento em tempo real

Em uma postagem no blog, a DeepMind afirma já ter desenvolvido um protótipo interno que monitora de forma assíncrona trajetórias de agentes de codificação e encaminha achados suspeitos para revisão humana. O sistema já analisou cerca de 1 milhão de tarefas de programação, sendo “fundamental para construir um monitor ao vivo para o agente Gemini Spark”, permitindo reação em tempo real a problemas como exclusão acidental de dados.

Segundo a DeepMind, a maioria dos eventos sinalizados não é maliciosa, mas decorre de “má interpretação do agente ou excesso de zelo para atingir o objetivo do usuário”.

Múltiplas camadas de mitigação

Esse monitoramento comportamental é apenas uma das cerca de 15 formas de mitigar riscos propostas no roteiro. Entre outras medidas estão registros de atividade de rede e o uso de um modelo de IA menos sofisticado, mas confiável, para monitorar os rastros de raciocínio de outro agente. Como esses rastros nem sempre refletem com precisão o que o modelo “pensa”, os autores também propõem monitorar padrões de ativação de neurônios digitais nas redes neurais, comparando a técnica a exames de fMRI para ler pensamentos.

Banner pós-artigo do Pickt — app de listas de compras colaborativas com ilustração familiar

Estrutura TRAIT&R e categorias de ameaças

O artigo técnico desenvolve a estrutura TRAIT&R, inspirada no ATT&CK da MITRE, que mapeia três categorias de ameaças: perda de controle (criação de implantações ocultas), sabotagem do trabalho (degradação discreta de pesquisas) e dano direto (exfiltração de pesos do modelo ou destruição de ativos).

Flynn afirmou que a empresa já está “bastante avançada” na implementação do roteiro, com partes já em produção, especialmente em controle de acesso e monitoramento de cadeia de pensamento. Shah acrescentou que a estrutura busca detectar formas sutis de dano, como persuasão para levar usuários a conclusões incorretas.

O roteiro, rotulado como “v0.1”, é descrito como um trabalho em progresso que a DeepMind espera incorporar ao seu framework mais amplo de segurança para sistemas de fronteira.