Os primeiros relatos de que havia algo errado com Facebook, Instagram e WhatsApp — todos aplicativos da empresa Facebook — começaram a aparecer pouco antes das 13h (horário de Brasília) desta segunda-feira (4).
Falhas de acesso pontuais nos serviços de grandes empresas de tecnologia não são raras, embora tampouco sejam frequentes. A desta segunda-feira, porém, foi atípica: ela varreu o Facebook da internet, durou sete horas e, até a publicação desta matéria, ainda não havia sido completamente contornada.
Ainda há poucos detalhes, nenhum oficial, do que aconteceu. As únicas manifestações do Facebook até o momento foram duas mensagens publicadas no Twitter, a primeira às 13h22 (horário de Brasília), reconhecendo o problema e informando que estava trabalhando em uma solução “o mais rápido possível”, e outra às 19h33, anunciando que os serviços haviam voltado, ainda que parcialmente. Ao que tudo indica, o retorno será gradual.
Entre especialistas da computação, não há dúvidas de que a indisponibilidade dos serviços do Facebook teve origem em falhas nos serviços DNS (sistema de nome de domínio, em inglês) e BPG (protocolo de portão de fronteira). Ambos são responsáveis por direcionar todo o tráfego da internet aos destinos corretos.
Em termos simples, o DNS é uma espécie de “tradutor” da internet, responsável por converter domínios facilmente legíveis e memorizáveis por seres humanos — e amplamente usados em aplicações diversas —, como “facebook.com”, para os endereços IP, os verdadeiros endereços dos servidores onde um site está hospedado.
Se você souber o endereço IP de um domínio, pode acessá-lo diretamente — a home do site da CNN Brasil, por exemplo, é acessível pelos IPs 18.230.29.97 ou 18.230.38.74. Como os domínios podem ser alterados e para facilitar a vida dos seres humanos, o DNS existe para fazer essa “tradução” do modo mais transparente possível — não é preciso sequer saber da sua existência para usufruir do serviço que ele presta.
Quando um endereço DNS é removido ou alterado incorretamente — o que aconteceu com os do Facebook nesta segunda-feira —, aplicativos, sistemas e sites diversos que confiam nos domínios para funcionarem não conseguem mais conectar-se a eles.
Já o BGP é uma espécie de “Waze da internet”. Por ele, provedores trocam informações sobre as melhores rotas para que os dados trafeguem na internet. A Thousand Eyes, empresa especializada em tráfego de internet da Cisco, disse no Twitter que as rotas de BGP do Facebook foram completamente revogadas, o que explicaria a indisponibilidade do Instagram, por exemplo, que, segundo o site Ars Technica, tem seus endereços DNS hospedados pela Amazon, e não pelo próprio Facebook.
Sem essas rotas, nenhum sistema conseguia “achar” os servidores onde ficam hospedados Facebook, Instagram e WhatsApp, o que os deixou inacessíveis.
Dificuldades internas
A falha também atingiu em cheio os próprios funcionários do Facebook, o que dificultou ainda mais o retorno à normalidade. Como a empresa usa sistemas e ferramentas próprias internamente, os funcionários ficaram no escuro. Em alguns locais, até mesmo o acesso físico a escritórios, vinculado a sistemas de autenticação online do Facebook, ficou indisponível, segundo relatos de Ryan Mac e Sheera Frenkel, repórteres do New York Times, pelo Twitter.
“O Facebook, em resumo, trancou as chaves dentro do carro”, comparou Jonathan Zittrain, diretor do Centro de Internet e Sociedade Berkman Klein, da Universidade de Harvard.
O funcionamento do DNS e do BGP é verificável externamente, o que permitiu que empresas especializadas, como a Thousand Eyes da Cisco e o consultor Brian Krebs, matassem a charada do porquê o Facebook e seus serviços saíram do ar. O que não se sabe ainda é como isso aconteceu.
A principal suspeita é de que uma atualização ou manutenção de rotina malfadada tenha ocasionado o problema. Essa é a aposta de Matthew Price, co-fundador e CEO da CloudFlare, empresa especializada em tráfego de internet: “Nada do que estamos vendo relacionado à queda dos serviços do Facebook sugere ter sido um ataque. A explicação mais plausível é de que as rotas de internet da empresa (BGP) tenham sido revogadas por um erro durante uma manutenção.”
Em grandes empresas, é raro que erros catastróficos como o de hoje cheguem ao ambiente de produção. Há ambientes de testes, verificações diversas e saídas a postos para reverter qualquer equívoco. Mas não é impossível. Dada a natureza da falha desta segunda, a reversão tornou-se atipicamente complexa.
“Não sei se já vi uma queda como esta antes de uma grande empresa de internet”, disse Doug Madory, diretor da Kentik, empresa de monitoramento de redes, à CNN americana.