Tłumaczą się z gigantycznej awarii internetu. Mówią, co poszło nie tak
18 listopada miała miejsce gigantyczna awaria internetu. Przez kilka godzin nie działała znacząca część stron internetowych oraz usług. Dostawcy usług wypowiedzieli się, co zawiniło.

Awaria rozpoczęła się po godz. 12:30 czasu polskiego i trwała do ok. 15:30. Według ekspertów w tym czasie mogło nie działać nawet ok. 20 proc. internetu (stron internetowych i usług). Użytkownicy mogli spotkać problemy podczas korzystania z dużych platform takich jak X, ChatGPT, Spotify, Uber i wielu innych. To już trzecia zauważalna awaria w ciągu ostatniego miesiąca.
Cloudflare tłumaczy, dlaczego 20 proc. internetu leżało przez kilka godzin
Współzałożyciel i dyrektor generalny Cloudflare postanowił opublikować szczegółowy wpis dotyczący wtorkowej awarii internetu. Według dostawcy miała to być "najgorsza awaria od 2019 r.". Mówimy o Cloudflare, ponieważ w ciągu ostatniego miesiąca usługi innych dostawców również częściowo zamroziły internet.
Co tym razem zawiniło? Według dostawcy usług przyczyną miał być system zarządzający botami. Ten kontroluje, które boty mogą automatycznie skanować określone witryny internetowe za pomocą CDN - rozproszonej sieci serwerów umiejscowionych na całym świecie, które pobierają dane z głównego serwera. Tym sposobem pozwalają uzyskać szybki dostęp do witryny - technika skraca drogę, jaką muszą pokonać dane.
Infrastruktura Cloudflare obsługuje ok. 20 proc. internetu, który przechodzi przez jego sieć i dzieli obciążenie, aby utrzymywać strony internetowe w obliczu skoków i potencjalnych ataków typu DDoS.
Cloudflare tak jak inni giganci technologiczni w swoich systemach korzysta ze sztucznej inteligencji, która ma na celu pomóc w zarządzaniu botami. Ostatnie problemy jednak nie wynikały z niepoprawnie działającej AI, a w zmianach w systemie uprawnień bazy danych. Początkowo myślano, że awaria może wynikać z cyberataku lub innej zewnętrznej aktywności takiej jak "atak DDoS na ogromną skalę".
Kluczowy wpływ na niedostępność usług miał plik konfiguracyjny systemu zarządzania botami. Jego rozmiar miał znacząco urosnąć, liczba wpisów się podwoiła i plik był wysyłany do wszystkich serwerów na świecie. Te próbowały wczytać duży plik, co spowodowało przekroczenie limitów obsługującym inspekcję ruchu - w efekcie czego oprogramowanie zarządzające ruchem zaczęło zwracać błędy.
Awaria nie trwała jednak cały czas - od czasu do czasu strony internetowe wracały do żywych, po czym znowu się wyłączały. Plik konfiguracyjny był generowany co kilka minut - część węzłów bazy danych generowała zły plik, a część - poprawny. Systemy działały, wstawały i tak w kółko. Dlatego podejrzewano, że może być to atak DDoS, zanim zidentyfikowano wewnętrzny błąd w konfiguracji.
W związku z awarią stworzono plany na przyszłość mające na celu zapobiegnięcie wystąpienia tego typu problemów w przyszłości. Oznacza to, że podobne awarie nie powinny się już pojawiać. Dodam, że to już trzecia duża awaria w ciągu ostatniego miesiąca: niedawno nie działały także systemy Microsoft Azure, oraz Amazon Web Services.
Więcej podobnych artykułów znajdziesz na Spider's Web:







































