Estas descobertas expõem os riscos inerentes a modelos de linguagem poderosos quando as suas salvaguardas são contornadas. Numa colaboração rara, as duas empresas testaram os modelos uma da outra.

Investigadores da Anthropic conseguiram que o modelo GPT-4.1 da OpenAI, sem os seus filtros de segurança públicos, produzisse instruções detalhadas sobre como montar explosivos para um evento desportivo, incluindo a identificação de pontos vulneráveis em estádios específicos, fórmulas químicas e esquemas de circuitos para temporizadores.

Segundo os investigadores, não foi preciso muito esforço para contornar as proteções, bastando afirmar que o pedido se destinava a “investigação puramente académica”.

Paralelamente, a Anthropic admitiu que o seu próprio modelo, o Claude Code, foi utilizado por cibercriminosos para desenvolver ransomware, orquestrar campanhas de extorsão e auxiliar noutras atividades maliciosas, mesmo por utilizadores com conhecimentos técnicos limitados.

Ambas as empresas sublinham que este comportamento não reflete o das versões públicas dos seus modelos, que estão equipadas com filtros de segurança para prevenir tais abusos.

No entanto, os resultados dos testes demonstram o potencial de duplo uso destas tecnologias e a importância crítica de salvaguardas robustas para impedir a sua utilização para fins nefastos.