0%
Sei sopravvissuto al Facebook 10/4?

Sei sopravvissuto al Facebook 10/4 ?

6 Ottobre 2021 - Internet
Sei sopravvissuto al Facebook 10/4?
[Reading Time: 9 minutes]

Eppure siamo ancora qui.

Come se non nulla fosse successo.

Come se non ci fosse stato uno dei maggiori disservizi della rete a livello globale degli ultimi anni.

Il mondo non è finito il 4 Ottobre 2021, quando la galassia Facebook sparisce da Internet in un buco nero completamente inaccessibile, da fuori e pure da dentro.

Eppure, in quelle sei ore, in cui quasi ogni indirizzo IP della galassia Facebook, per intenderci, siti e servizi di Facebook, Instagram e WhatApp, non è solo irraggiungibile, ma è letteralmente sparito da Internet, in quelle ore, amico mio, succede di tutto.

E molto di questo deve farci pensare.

L’inizio della fine

Le prime brezze dell’uragano le testimonia Cloudflare, un fornitore, fra l’altro, di servizi DNS (dai che ormai lo sai: è quel servizio imprescindibile che ti dice quale è l’indirizzo IP, tipo 31.13.86.36, di un “server” in rete, tipo www.facebook.com).

Lunedì 4 Ottobre 2021, alle 15.51 UTC (Universal Time Coordinated, il tempo di Greenwich, l’unico che ha senso usare in rete, per noi, con l’ora solare in vigore, solo le 17.51), in CloudFlare stanno per aprire un incidente, temono che ci siano problemi sul loro server DNS pubblico 1.1.1.1 (che puoi usare anche tu, se vuoi): ricevono errori quando cercano di interrogare a cascata i server DNS di Facebook.

In pochi minuti l’effetto si fa sentire in giro: quando qualche sito non va, ma altri funzionano, la prima cosa che faccio è andare su Twitter, dove i post con tag #facebookdown #instagramdown e #whatsappdown iniziano a fioccare, oppure su siti come Downdetector , per vedere se il problema è mio o è comune.

Cosa sta succedendo? I problemi con i DNS di facebook.com sono la conseguenza di qualcosa di più profondo: da alcuni minuti il routing verso tutti i sistemi del mondo Facebook, sta impazzendo, le rotte per raggiungerlo provano invano vie alternative, in conseguenza di una progressiva e inesorabile attività da parte dei router di frontiera di Facebook: stanno ritirando gli annunci BGP per le loro reti.

In pratica si stanno auto escludendo da Internet, smettendo di annunciare al resto del mondo come raggiungere tutte le classi di indirizzi a loro assegnati, in un harakiri informatico tanto drammatico quanto affascinante.

Ora, non ci provo nemmeno a provare a spiegare dettagli o logiche di funzionamento del BGP, anche perchè le mie nozioni specifiche al riguardo non sono più fresche, risalgono a corsi Cisco di inizio secolo, ma ti basti sapere che il protocollo BGP tiene letteralmente in piedi Internet: è quello che permette a reti diverse (come quella di Facebook) di comunicare fra loro e permettere che tutto quello che ci sta sopra sia possibile.

Questo video dà un idea di come progressivamente spariscono le rotte di accesso ad una delle sottoreti di Facebook, in pochi minuti.

La fine del mondo si compie in pochi minuti di sussurati annunci BPG. Esagero, lo so.

La tempesta perfetta

Da un buco nero non esce nulla, luce, materia o informazione, e non si sa quello cosa ci sia al suo interno, ma i riverberi dell’implosione si avvertono all’esterno.

Puoi vivere senza vedere Facebook (puoi?), Instagram (puoi?) o chattare su Whatsapp (puoi?) per alcune ore, ma presto inizi a renderti conto che Facebook non è solo quel posto dove la gente litiga su tutto.

Tutte le applicazioni, i servizi, i giochi, gli oggetti smart che ti autenticano utilizzando le credenziali Facebook diventano inaccessibili, inusabili, inutili, ma, ancora peggio, l’intera rete inizia a rallentare, o, meglio, i server di DNS di tutto il mondo subiscono un picco di richieste e, sotto carico, funzionano lentamente o a tratti non rispondono.

Miliardi di dispositivi cercano di ottenere invano via DNS gli indirizzi IP dei domini di facebook, provando e riprovando, e inondando di richieste ogni dannato server DNS della rete.

Note bene, le richieste perdute e reiterate, non le fai solo quando navighi sui siti Facebook, ma quasi ogni volta che vai su un sito, anche questo. Vuoi perchè contiene l’immaginetta per condividere la pagina, vuoi perchè c’è il pixel che ti traccia per farti vedere la pubblicità che ti interessa, le richieste che i nostri dispositivi fanno, continuamente, a server della galassia Facebook sono continue, costanti, e pervasive.

E se l’intera galassia sparisce in un buco nero, tutta le rete ne risente, forse solo in Cina non se ne accorgono nemmeno.

Siti che a volte vanno o a volte non vanno (in realtà, “semplicemente” falliscono o vanno in time-out le richieste DNS per sapere che indirizzi hanno), servizi più o meno correlati inaccessibili, rallentamento generale, “non funziona un cazzo!”: quello del 4 Ottobre è stato probabilmente il disservizio globale su Internet peggiore della storia.

In attesa del prossimo.

E tutto in conseguenza di un evento clamoroso e a suo modo affascinante, una singolarità inaudita su queste scale: un intero Autonomous System, tutte le reti di Facebook, letteralmente svanite da Internet.

Incredibile.
Come incredibile e per certi versi impensabile, l’effetto globale di questa sparizione.

Durante queste ore, quando il web rantola come un malato terminale, e parte dei siti appare non raggiungibile, anche cambiando i server DNS che uso, continuo a ripetermi: ma perchè lasciano che questo accada?
Se io fossi un amministratore di un resolver DNS, uno dei server che gli utenti usano per risolvere gli indirizzi in rete, metterei, fino a quando non tornano disponibili, *.facebook.com e affini in blacklist, facendoli puntare a 127.0.0.*: il modo brutale con cui si filtrano a livello DNS i siti malevoli dirottandoli ad un indirizzo locale per ogni sistema che non punta a nulla: tecnicamente è un arma nucleare che a livello DNS escluderebbe Facebook per tutti i miei utenti: ma visto che si sono esclusi da soli a livello di rete, mi pare il male minore.
Meno male che non gestisco server DNS, tranne il mio PI-Hole domestico.

Un bel tacer non fu mai scritto

Inutile dire che durante la singolarità, si scrive e dice di tutto.

Al netto di accalorate discussioni nella chat del team di DigitalSwat, dove cerco di distinguere fatti da illazioni, le cose più interessanti le vedo su Twitter e Reddit.

Quelle più deprimenti su Clubhouse.

Quando Facebook è down, la gente va a dirlo su Twitter, dove fioriscono meme e battute. La migliore la fa Twitter stessa: hello literally everyone.

Ti risparmio i post, più o meno divertenti, oltre a quelli complottari, dove gente che della vicenda non sa un cazzo, non conosce un cazzo e non ha un cazzo di elementi cognitivi per dare un’opinione assennata si mette a dare ogni tipo di ipotesi di complotto, congetture, spiegazioni e soluzioni.

Robe che vanno dal: “hanno staccato tutto per cancellare le prove in vista della audizione della Haugen di domani” (ne parliamo dopo), al “chissà perchè succede proprio adesso intorno alla chiusura dei seggi elettorali” (giuro, ho letto anche questo).

Da Twitter stesso e da Reddit, emergono anche le prime informazioni e i dati su cosa sta accandendo a livello di BGP, e questo per chi è del settore spiega tutto quanto (irraggiungibilità dei server DNS di Facebook, in primis) e fa venire un brivido lungo la schiena.

Emergono anche le prime indiscrezioni sui problemi che Facebook stessa incontra per risolvere il problema.

Curiosa la vicenda di utente su Reddit, ramenporn, che sembra fornire informazioni dirette in tempo reale su quello che sta accadendo in Facebook, ma dopo poche ore il suo account sparisce, ad accreditare il fatto che potrebbe essere effettivamente uno che ci lavora, e si è auto (erm) silenziato. Riapparirà dopo la tempesta, con un account innocuo e ripulito.

Il network è tutto, tramite la rete puoi collegarti ad un router o un server per cambiare o ripristinare delle configurazioni, senza rete devi essere fisicamente attaccato al dispositivo, col tuo portatile e un bel cavo infilato nella porta di amministrazione. E questi dispositivi stanno in datacenter, che non sempre sono presidiati da persone, che hanno stringenti misure di sicurezza per l’accesso fisico, e che per farti entrare, utilizzano badge o sistemi di autenticazione biometrici che lavorano in rete.

Ma la rete è giù, anche quella interna di Facebook.
E’.
Tutto.
Down.
I dipendenti, pare, non possono comunicare con i loro soliti strumenti, non possono accedere alle console di diagnostica, non possono accedere ai dispositivi da ripristinare, non possono nemmeno entrare in ufficio o tantomeno nei datacenter.

Non oso immaginare il caos silenzioso che attraversa tutta l’azienda durante queste ore, lo stormo di telefonate, la war room improvvisata, i tecnici spediti ai datacenter, le telefonate per capire come fare l’override delle procedure di accesso: capire la stessa causa del problema e il modo per risolverlo deve essere stato un inferno.

E non mi stupisce che ci abbiano messo ore a ripristinare il servizio, che in tempi digitali per un gigante del web, è un enormità.

Con l’occasione, e non sono il solo, mi collego a Clubhouse dopo mesi, per sentire che si dice e magari parlare con qualche addetto ai lavori.

Qui, sentire a voce le minchiate che ormai sei abituato a leggere, aumenta esponenzialmente la frustrazione.

Senti in presa diretta, quanto facilmente le voci corrono e si rincorrono, con persone che rilanciano informazioni non corrette (*), che ripetono ipotesi e congetture di ogni tipo, espongono e spiegano i complotti più clamorosi e dibattono sulla basi di informazioni sbagliate.

C’è di buono che mi ritrovo a parlare con Domenico, un esperto di reti e sicurezza con cui ho lavorato per anni, e ci scambiamo informazioni e considerazioni che danno un senso al mio ritorno su Clubhouse.

(*) Una delle “fake news” che gira è che “il dominio facebook.com è in vendità!”, e di qui le considerazioni e le certezze che “li hanno bucati con un trapano!”. In realtà non è proprio così: su alcuni siti, che fanno controlli automatici basati sulla disponibilità del DNS, il dominio facebook.com risulta libero e quindi in vendita, ma di fatto non lo è, perchè Facebook è anche un Domain Registrar e i domini se li gestisce da sola, e perchè… beh lo sappiamo, sono momenti in cui Facebook è implosa nel suo buco nero.

Già durante il cataclisma saltano fuori video, articoli, blog post che spiegano e raccontano gli eventi.
Il giorno dopo mi metto a commentare su Facebook stesso con sufficienza e supponenza questo proliferare di voci per cavalcare l’onda dell’evento.
Ipocritamente mi ritrovo a scriverne uno, l’ennesimo, anche io.
Mi arrendo e alzo le mani,
ma tu continua e leggere che abbiamo quasi finito.

Il giorno dopo

A parte i 222.000 dollari al minuto persi per il mancato fatturato, l’aver tenuto gran parte dei dipendenti a girarsi nervosamente i pollici per ore, e le consegnenze probabilmente ben maggiori ma meno quantificabili, in termini di rapporti e fiducia con terzi, il day after non è un giorno normale per Facebook.

E non solo per l’atmosfera postnucleare che deve pervadere le loro case o uffici.

Il 5 Ottobre 2021, Frances Haugen ha una audizione di fronte ad una commissione del senato USA. Lei è una whistleblower, che dopo aver lavorato in Facebook, ha rilasciato una serie di documenti che testimoniano come l’azienda abbia tenuto nascoste ricerche sui deleteri effetti che hanno l’uso Instagram e Facebook sulla psiche degli adolescenti, sulla carenza di controlli sui  contenuti e le discussioni che incitano all’odio, e in genere sulla attitudine dell’azienda ad incentivare ogni attività che possa contribuire ad aumentarne gli introiti, anche se in contrasto con il bene e il quieto vivere collettivo.

Un piccolo paradosso emerge qui per chi è contro i poteri forti come Facebook e a favore della libertà di parola: una delle cose che la Haugen rinfaccia a Facebook è l’adozione di non sufficienti misure di filtro, anche e sopratutto basate sull’intelligenza artificiale, sui contenuti postati degli utenti.

In questo mi immagino il dubbio amletico che pervade le menti di alcuni attivisti digitali che da un lato vedono come il diavolo l’idea che una IA filtri e censuri i contenuti sui social media, e dall’altro godono all’idea che una eroica whisteblower possa metterla nel culo al gigante avido e cattivo.

Ma andiamo oltre, altrimenti ci inviluppiamo in ben altri discorsi.

Siamo al day after quindi, e a parte i casini che Facebook deve affrontare col Senato, c’è da raccogliere i cocci dopo il disastro.

In realtà in un caso come questo, una volta ripristinata la rete e scodate le code (ti sono arrivati tutti i messaggi di WhatApp tutti insieme la mattina dopo?)  non c’è molto da aggiustare, ma parecchie lezioni imparate su cui iniziare a lavorare.

In primis la vera indipendenza di tutta l’infrastruttura “out of band”, che scollegata dalla rete principale dovrebbe permettere l’accesso ai sistemi in casi di collasso generale. E poi gli inevitabili e necessari post-portem, dove si analizza cosa è successo e come evitare che si ripeta.

Al riguardo, dopo un primo post pubblico molto generico,  qualcosa di più specifico è iniziato ad uscire, le cause ufficiali sono state spiegate, seppur senza dovizia di particolari al momento.

Scrivono che, durante attività di routine, un comando è stato eseguito con l’intenzione di verificare la capacità del backbone globale, e che ha, non intenzionalmente, tirato giù lo stesso intero backbone, con poi gli effetti a cascata verso Internet.
Per un bug negli strumenti di auditing, non è stata impedita l’esecuzione di tale devastante comando.

Il comando che ha quasi ucciso Internet.

Evito di fare illazioni sulla possibilità che la versione ufficiale non sia quella reale e che ci sia altro dietro.

La mancanza di dettagli e la citazione di un singolo comando o operazione che poi ha causato a catena tutto quanto non è tecnicamente escludibile, visti i livelli di automazione che una infrastruttura simile deve avere, qualche domanda è lecita sul come in una azienda di quelle dimensioni possa esistere un tale kill switch mascherato e sia accessibile durante operazioni di routine, ma non mi sento di escludere a priori una tale superficialità a livello di processo,  implementazione e valutazione delll’impatto possibile, e nemmeno escluderei a prescindere bug nei meccanismi di controllo.
I merdoni, a volte, accadono come conseguenza di tanti piccoli errori.

E’ possibile, anzi probabile, che questa versione sia parziale, ma personalmente non mi sento di dire che sia falsa.

Non considero più plausibile che, come “alcuni” (erm…) sostengono, Facebook abbia intenzionalmente deciso di “uscire da Internet”, per una qualche prova di forza o manovra diversiva in risposta alle deposizioni della Haugen e delle altre tensioni che sta avendo con i regolatori, e vista anche la modalità con cui si è manifestato, reputo improbabile che il disservizio sia legato ad una attività ostile da parte di un intrusore esterno (cracker), al limite è meno improbabile che venga da un dipendente infedele.

C’è chi mette in relazione questo down con la notizia dei dati di 1.5 miliardi di utenti Facebook in vendita nel dark web, ma le due cose quasi sicuramente non sono correlabili, per diversi motivi, sia temporali che tecnici (i dati sarebbero frutto di scraping, non di intrusione), per il quale rimando a questo articolo.

Chissà se mai sapremo cosa veramente è successo.

Chissà se esiste effettivamente una singola persona che un giorno potrà direi ai suoi nipotini di quella volta che ha lasciato il comando che ha messo in ginocchio Internet (oggi non vorrei proprio essere nei suoi panni, ma magari fra qualche decennio … :-> )

La vogliamo fare la morale a chiusa della storia con quasi lieto fine?

Cosa fare con un’entità simile, Too Big to go Down?
Lo lascio dire ad AOC, Alexandria Ocasio-Cortez, senatrice USA, che sa farlo meglio.
Su Instagram.

Tagged as:  /  /  /  / 

Play Cover Track Title
Track Authors