Publicidade

Amazon pede desculpas e aponta bug em automação como causa da pane na AWS

Por  | 

Compartilhe:
Reprodução/Wikimedia Commos
Reprodução/Wikimedia Commos

Após a pane geral, a Amazon Web Services (AWS) pediu desculpas pelo incidente. O posicionamento vem de uma nota recente para detalhar os "bastidores" do incidente, ocorrido após um bug em um software de automação para gestão de DNS.

“Pedimos desculpas pelo impacto que este evento causou aos nossos clientes. Embora tenhamos um sólido histórico de operação de nossos serviços com os mais altos níveis de disponibilidade, sabemos o quão críticos eles são para nossos clientes, seus aplicativos, usuários finais e seus negócios”, disse.

Ainda no comunicado, a Amazon pontuou que o “evento impactou muitos clientes de forma significativa” e que fará tudo o que for possível “aprender com este evento e usá-lo para melhorar ainda mais" a disponibilidade dos serviços.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

Falha em software de automação

O incidente da última segunda-feira (20) partiu de uma instabilidade em servidores localizados nos Estados Unidos. Particularmente após uma falha de DNS, sistema que “traduz” nomes de domínio em endereços IP, que atingiu DynamoDB durante a madrugada.

A Amazon explica que, na ocasião, um bug no software que automatiza a gestão de DNS gerou um registro vazio. Assim, as instâncias não conseguiam realizar conexões entre si pois não eram “encontradas” na rede, ainda que o sistema de banco de dados estivesse operacional.

Afinal, como não há um “endereço” especificado, os apps e demais serviços da AWS não "sabiam" para onde enviar as requisições. Essa inconsistência travou partes do ecossistema até que os registros corretos voltassem a circular normalmente por meio de uma intervenção manual.

Na sequência, em um "efeito dominó", o balanceador de carga de rede (NLB, em inglês), NC2 e demais serviços apresentaram problemas ao longo do dia. A pane geral só foi resolvida à noite, quando a Amazon restabeleceu os serviços impactados.

Mudanças na AWS

Como resposta, a AWS explicou que desativou globalmente a automação de DNS do DynamoDB até realizar correções e adicionar novas proteções para evitar planos incorretos.

O NLB, por sua vez, receberá um mecanismo de controle de velocidade para limitar a capacidade que um único controlador pode remover quando falhas na verificação de integridade causam failover em Zonas de Disponibilidade (AZ, em inglês).

Continua após a publicidade

Ao EC2, a Amazon criará uma bateria extra de testes para o fluxo de recuperação e aprimorará o “throttling” com base no tamanho das filas, reduzindo o risco de colapsos sob carga.

“À medida que continuamos a analisar os detalhes deste evento em todos os serviços da AWS, buscaremos maneiras adicionais de evitar o impacto de um evento semelhante no futuro e como reduzir ainda mais o tempo de recuperação”, disse a empresa.

Confira outras matérias do Canaltech:

Continua após a publicidade

VÍDEO: A nuvem da Amazon (AWS) caiu hoje! 😱 Serviços como iFood, Alexa e Disney+ foram afetados