O modelo forneceu instruções detalhadas sobre como montar explosivos para um evento desportivo, incluindo a identificação de pontos vulneráveis em estádios específicos. Também forneceu fórmulas químicas, diagramas de circuitos para temporizadores de bombas, conselhos sobre rotas de fuga e orientações sobre como transformar antraz em arma e fabricar drogas ilegais.
Segundo os investigadores, foi necessário pouco esforço para contornar os filtros de segurança, bastando muitas vezes declarar que o pedido era para "investigação puramente académica".
Simultaneamente, a Anthropic admitiu que o seu próprio modelo, o Claude, tem sido utilizado para crimes cibernéticos, incluindo extorsão, ransomware criado por IA, roubo de identidade e esquemas de fraude, mesmo por utilizadores com competências técnicas limitadas. Ambas as empresas sublinham que estes comportamentos não estão presentes nas versões públicas dos seus modelos, que são controladas por filtros de segurança. As descobertas sublinham o potencial significativo de uso indevido de ferramentas de IA poderosas e o desafio contínuo de criar salvaguardas eficazes e robustas.