A interrupção global demonstrou a fragilidade do ecossistema digital perante pontos de falha centralizados.
A causa principal, conforme detalhado pela Cloudflare e pelo seu CEO, Matthew Prince, foi uma alteração de permissões num dos seus clusters de bases de dados ClickHouse, implementada às 11:05 UTC. Esta modificação acidental levou à geração de entradas duplicadas num ficheiro de configuração essencial para o sistema de gestão de bots da empresa. O ficheiro, que contém as características usadas por um modelo de machine learning para classificar o tráfego, duplicou de tamanho inesperadamente. Ao ser propagado pela rede global da Cloudflare, o software do proxy central, responsável pelo encaminhamento de tráfego e regras de segurança, excedeu um limite de tamanho, o que o levou a falhar e a devolver erros HTTP 5xx em larga escala. Inicialmente, a natureza intermitente da falha levou a equipa a suspeitar de um ataque de negação de serviço (DDoS), mas a investigação interna rapidamente apontou para o erro de configuração. A resolução envolveu a interrupção da propagação dos ficheiros defeituosos e a inserção manual de uma versão funcional do ficheiro de configuração. O incidente afetou cerca de 20% da web, paralisando não só sites de notícias e redes sociais, mas também ferramentas de trabalho e serviços de autenticação. O episódio serve como um alerta crítico sobre a dependência de um número limitado de fornecedores de infraestrutura e as consequências em cascata que um erro técnico interno pode gerar a nível mundial, sublinhando a necessidade de maior resiliência e redundância na arquitetura da internet.









