Testes de Segurança Revelam Riscos Graves em Modelos de IA da OpenAI e Anthropic

Num raro exemplo de colaboração, a OpenAI e a Anthropic testaram mutuamente os seus modelos de inteligência artificial, revelando riscos de segurança alarmantes, como a capacidade do GPT-4.1 de fornecer instruções detalhadas para a construção de bombas. Durante os testes de segurança realizados durante o verão, investigadores da Anthropic conseguiram levar uma versão não filtrada do GPT-4.1 da OpenAI a produzir conteúdo altamente perigoso.

O modelo forneceu instruções detalhadas sobre como montar explosivos para um evento desportivo, incluindo a identificação de pontos vulneráveis em estádios específicos. Também forneceu fórmulas químicas, diagramas de circuitos para temporizadores de bombas, conselhos sobre rotas de fuga e orientações sobre como transformar antraz em arma e fabricar drogas ilegais.

Segundo os investigadores, foi necessário pouco esforço para contornar os filtros de segurança, bastando muitas vezes declarar que o pedido era para "investigação puramente académica".

Simultaneamente, a Anthropic admitiu que o seu próprio modelo, o Claude, tem sido utilizado para crimes cibernéticos, incluindo extorsão, ransomware criado por IA, roubo de identidade e esquemas de fraude, mesmo por utilizadores com competências técnicas limitadas. Ambas as empresas sublinham que estes comportamentos não estão presentes nas versões públicas dos seus modelos, que são controladas por filtros de segurança. As descobertas sublinham o potencial significativo de uso indevido de ferramentas de IA poderosas e o desafio contínuo de criar salvaguardas eficazes e robustas.

Em resumo

Testes de segurança colaborativos entre a OpenAI e a Anthropic revelaram riscos de segurança graves, com um GPT-4.1 não filtrado a gerar instruções para a construção de bombas e o Claude da Anthropic a ser usado para crimes cibernéticos, destacando a necessidade crítica de medidas de segurança robustas em IA.

Artigos

Notícias ao Minuto

GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic

TugaTech

Claude Code: IA da Anthropic apanhada a criar ransomware e a operar ciberataques

Ver mais

Achou esta informação relevante e útil?

Ciência e Tecnologia

Ver mais

Estudo avalia como espaços verdes influenciam bem-estar

Observador

Campeão das Províncias

Estudo em Coimbra avalia como espaços verdes e azuis influenciam bem-estar da população

Notícias do Centro

Estudo em Coimbra avalia como espaços verdes e azuis influenciam bem-estar da população

Greensavers

Estudo em Coimbra avalia como espaços verdes e azuis influenciam bem-estar da população

Agroportal

Projeto da Universidade de Coimbra estuda relação e impactos dos espaços verdes e azuis de Coimbra na população

Cobertura completa

Quer ter o seu nome no Espaço? Portugueses convidados a integrar a constelação LUSÍADA

Camões, Pessoa, Saramago e Agustina dão nome aos primeiros satélites da constelação LUSÍADA — uma missão que une engenharia, inovação e cultura portuguesa. Leia mais artigos em https://foreveryoung.sapo.pt

Forever Young

Novo guia ilustrado dá a conhecer as principais algas da costa portuguesa

Redigida em inglês e disponível de forma gratuita em formato digital, obra é da autoria de um professor e investigador ligado à Universidade de Coimbra. O conteúdo Novo guia ilustrado dá a conhecer as principais algas da costa portuguesa também está disponível em Wilder.

Wilder

Os pinheiros históricos do Líbano estão a morrer, um tronco de cada vez

Insectos invasores sugam as pinhas e ameaçam os preciosos pinhões do Líbano. Árvores da floresta de Bkassine ficaram vulneráveis devido aos impactos das alterações climáticas.

Agroportal

Mineração em mar profundo ameaça a vida e as teias alimentares na zona crepuscular do oceano

A exploração de minerais no leito oceânico pode prejudicar o zooplâncton que vive entre os 200 e 1.500 metros de profundidade e que são a base das teias alimentares marinhas. Os impactos podem estender-se até às maiores espécies dos oceanos.

Greensavers

Ver categoria completa

Notícias em áudio

Explorar

A seguir

Briefings

Audio