Um usuário [ramenporn], dizendo ser da equipe de recuperação de desastre do Facebook, postou esta nota no Reddit, hoje mais cedo:

Como muitos de vocês sabem, o DNS para serviços FB foi afetado e isso é provavelmente um sintoma do problema real, que é o peering de BGP com roteadores do Facebook caiu, muito provavelmente devido a uma mudança de configuração que entrou em vigor pouco antes de as interrupções acontecerem (começaram por volta das 15h40 UTC). Há pessoas agora tentando obter acesso aos roteadores de peering para implementar correções, mas as pessoas com acesso físico estão sem contato com as pessoas que têm conhecimento de como realmente autenticar nos sistemas e das pessoas que sabem o que realmente fazer. Então agora há um desafio logístico para unificar todo esse conhecimento. Parte disso também se deve ao menor número de funcionários nos centros de dados devido às medidas contra a pandemia.
Portanto, o problema básico parece ser “BGP peering“, que é o pareamento entre os DNS dos serviços do Facebook, em explicação simples (ver Aspectos Técnicos, abaixo, para uma explicação mais técnica), além da distribuição física das equipes por muitos locais separados.
O post foi em seguida apagado, assim como diversas contas desse usuário em outros sites e canais.
Eu imagino que ele não foi autorizado a postar essas informações. Espero que ele não perca o emprego.
Do que o FB tem medo? Penso que desde que essas pessoas não estejam compartilhando informações internas/proprietárias da empresa, esse assunto não é particularmente sensível. Além disso, ter alguma transparência sobre o problema é bom para todos.
Quem gostaria de trabalhar para uma empresa que pode tomar medidas disciplinares drásticas porque um engenheiro postou um comentário no Reddit basicamente para dizer “BGP’s down lol” – Se eu estivesse no comando, daria a ele um modesto bônus, por ajudar a alcançar de forma direta o usuário e a comunidade em geral.
Por outro lado…
Compartilhar o status de um evento em andamento pode complicar a recuperação. Tais relatórios públicos em tempo real podem atrapalhar o fluxo de informação entre as equipes.
Conclusão
Tenho certeza de que acionistas e outros líderes de negócios da empresa ficarão muito mais confortáveis em relatar isso como uma série de falhas técnicas infelizes (que alegarão fazer parte do negócio), em vez de uma falha organizacional de toda a empresa. O fato de não poderem identificar fisicamente as pessoas que conhecem a configuração do roteador mostra uma organização que ainda não pensou em todos os seus modos de falha. Muita gente não vai gostar disso. Não é incomum ter técnicos de datacenter com acesso ao sistema e o pessoal de software real sendo barrado. Contudo, sendo esse o motivo pelo qual um dos serviços mais populares do mundo está desativado por quase 5 horas agora, levantará muitos questionamentos..
Pessoalmente eu também espero que isso não prejudique as perspectivas de aumento no trabalho remoto. Se eles tiverem problemas em colocar na sala de comando alguém que conheça a configuração, porque todos moram a uma viagem de avião dos datacenters, eu posso ver no futuro próximo gerentes de muitos ramos de atividade relutando em ter uma equipe completamente remota.
Fica a lição para os empreendedores, que ficaram reféns de um serviço sobre o qual eles não têm controle. Eu nunca perco a oportunidade de salientar o quanto é importante controlar seus próprios dados e os dados de sua empresa. Faça um site dedicado ao seu negócio em seu próprio domínio. Fale com seus clientes e parceiros através de blogs como este. Consulte uma empresa de sistemas [como a Vox Leone] para ver onde seu negócio pode melhorar. O custo-benefício é altamente compensador. Nunca se esqueça que a tal “nuvem” é apenas o computador de outra pessoa. Use as redes sociais apenas para o que elas foram criadas: falar com papai, mamãe e titia.
Aspectos Técnicos: Sobre o BGP
Como reportou ramenporn, no centro deste apagão está a tecnologia Border Gateway Protocol (BGP), que é o serviço postal da Internet. Quando alguém coloca uma carta no correio, o serviço postal processa a correspondência e escolhe um caminho rápido e eficiente para entregar a carta ao destinatário. Da mesma forma, quando alguém envia dados pela Internet, o BGP é responsável por examinar todos os caminhos disponíveis que os dados podem percorrer e escolher a melhor rota, o que geralmente significa pular entre sistemas autônomos.
BGP é o protocolo que faz a Internet funcionar. Ele faz isso habilitando o roteamento de dados. Quando um usuário em Cingapura acessa um site hospedado na Argentina, o BGP é o protocolo que permite que a comunicação aconteça de forma rápida e eficiente.
Abaixo um traceroute do meio da tarde, mostrando os serviços Facebook em downtime
> traceroute a.ns.facebook.com
traceroute to a.ns.facebook.com (129.134.30.12), 30 hops max, 60 byte packets
1 service.local.net (192.168.1.254) 0.484 ms 0.474 ms 0.422 ms
2 107-131-124-1.lightspeed.sntcca.sbcglobal.net (107.131.124.1) 1.592 ms 1.657 ms 1.607 ms
3 71.148.149.196 (71.148.149.196) 1.676 ms 1.697 ms 1.705 ms
4 12.242.105.110 (12.242.105.110) 11.446 ms 11.482 ms 11.328 ms
5 12.122.163.34 (12.122.163.34) 7.641 ms 7.668 ms 11.438 ms
6 cr83.sj2ca.ip.att.net (12.122.158.9) 4.025 ms 3.368 ms 3.394 ms
7 * * *
...