Pirmdienas vakarā daudzviet pasaulē pārstāja darboties Facebook un tam piederošie servisi WhatsApp un Instagram. Šajā laikā arī Tet monitoringa sistēmās Facebook DNS (Domain Name System) serveru nepieejamība bija novērojama ar vairāk nekā divas reizes lielāku pieprasījumu skaitu no klientiem uz Tet DNS serveriem, kuri apstrādā visus ienākošos DNS pieprasījumus un noskaidro, kāda IP adrese atbilst pieprasītajam domēna vārdam. Tet DNS infrastruktūras jauda bija pietiekama, lai ar šo palielināto slodzi tiktu galā un spētu apkalpot gan neveiksmīgos pieprasījumus pēc Facebook un saistītajām vietnēm, gan visus parējos interneta klientu pieprasījumus.
4. oktobra vakarā sākotnēji tika pamanīts, ka Facebook autoritatīvie DNS serveri vairs neatbild uz pieprasījumiem. Līdz ar to klienti, mēģinot pieslēgties kādam no facebook.com domēniem, nevarēja sasniegt IP adresi, ar ko klienta ierīcei būtu jāslēdzas. DNS faktiski ir kā telefona grāmata, kurā varam uzzināt vārdam atbilstošu telefona numuru jeb interneta gadījumā – DNS vārdam atbilstošu IP adresi.
DNS pieprasījumu apjoma pieaugumu un palielinātu noslodzi sajuta faktiski visi DNS serveru uzturētāji, kā arī interneta pakalpojumu sniedzēji vai DNS serveru pakalpojumu sniedzēji, piemēram, Cloudflare. Ja kādam DNS infrastruktūra nebija pietiekami jaudīga, tad ietekmēti varēja būt arī citi (ne Facebook) DNS pieprasījumi un slodzes dēļ atbildes varēja aizkavēties vai nepienākt nemaz. Rezultātā, lietotājam mēģinot atvērt kādu tīmekļa vietni, parādījās kļūdas paziņojums.
Pētot Facebook problēmu dziļāk, tika pamanīts, ka Facebook autoritatīvo DNS serveru nepieejamība ir tikai simptomi, bet cēlonis nepieejamībai ir tas, ka globālajā interneta tabulā pazuda ceļi, kas norāda Facebook DNS serveru atrašanās vietu tīklā. Ap plkst. 18.40 tika novērots, ka Facebook, izmantojot BGP (maršrutēšanas protokolu), pārstāj apziņot un izņem no maršrutēšanas tabulām daudzus savus tīklus, tajā skaitā arī tos, kuros atrodas autoritatīvie DNS serveri. Līdz ar to pieprasījumi uz Facebook DNS serveriem nevarēja atrast ceļu internetā uz tiem.
No Facebook sniegtās informācijas var noprast, ka avārija izveidojās, veicot konfigurācijas izmaiņas tīkla iekārtās, kas pēc problēmām ar BGP maršrutēšanu un maršrutu izņemšanu no tabulām, izskatās ticami. Publiski gan paliek jautājums, kādēļ bija nepieciešams tik ilgs laiks atjaunošanai. Tas tiek skaidrots ar to, ka arī uzņēmuma iekšējā tīklā bija problēmas un nebija iespēja pieslēgties tīkla iekārtām un operatīvi veikt labojumus. Taču situācijas detaļas visticamāk tā arī paliks vien Facebook ekspertu rīcībā.
Ko no notikušā varam mācīties nākotnē?