O efeito cascata começou quando ninguém conseguiu encontrar o principal banco de dados da Amazon. Isso fez com que todos os serviços que dependiam dele parassem imediatamente, como foi o que aconteceu com o sistema que gerenciava os servidores. Quando o endereço foi corrigido, esse sistema ficou tão sobrecarregado tentando se recuperar que “atolou”. Isso gerou o próximo problema: os poucos servidores em funcionamento ficaram sem conexão de rede. E os balanceadores de carga (que direcionam o tráfego dos clientes), quando viram esses servidores “sem rede”, pensaram que estavam quebrados e falharam também, derrubando de vez os aplicativos dos clientes.
A falha inicial do DynamoDB quebrou praticamente tudo. Serviços como o de telefonia em nuvem (Amazon Connect), análise de dados (Redshift), execução de código (Kubernetes), e até o sistema que gerencia o login da Amazon, pararam de funcionar. Clientes não conseguiram acessar contas, receber ligações e processar consultas, por exemplo.
A Amazon desativou a automação de DNS que deu origem à falha. Segundo a empresa, o robô permanecerá desligado até que o bug seja corrigido e mais proteções sejam adicionadas.
Serviços que falharam receberão melhorias. Serão adicionados “freios” nos servidores EC2 e nos balanceadores de carga (NLB), para que eles não entrem em colapso tão facilmente se algo parecido acontecer de novo.
Fonte.:UOL Tecnologia.:


