Jump to content
DD

OVH - spłonęła serwerownia SBG2 w Strasburgu

Recommended Posts

Generalnie nikomu nie życzę takiej sytuacji - czy to od strony użytkownika czy dostawcy. Nie słyszałem, żeby podobna sytuacja miała kiedykolwiek miejsce. Wszyscy wiedzą, że backupy są potrzebne, ale myślę, że w wielu przypadkach nikt nie zakłada spalenia całej serwerowni. Na pewno nie wszyscy klienci tej lokalizacji mieli backup a jeszcze mniej miało go w innej serwerowni, w innej miejscowości / kraju. Szef OVH zalecił wdrożenie klientom Recovery Disaster Plan, ale na pewno nie każdy go miał.

 

Warto przemyśleć jak to wygląda w naszych projektach. Lepiej dmuchać na zimne. Pewnie sporo szefów firm zapyta teraz swój dział IT jak wygląda ich Recovery Disaster Plan..

 

Powodzenie dla Teamu OVH, żeby udało im się jak najlepiej "ogarnąć" tę sytuację. Choć na pewno nie będzie łatwo. Na końcu trzeba też będzie wyciągnąć naukę z błędów, które na pewno miały miejsce. Bo generalnie taka sytuacja (o takiej skali) nie powinna mieć miejsca. Wiele osób zwraca uwagę w komentarzach na drewniane podłogi w tej serwerowni i na bliskość ogrodzenia (praktycznie tuż przy ścianach serwerowni). Do tego inne bloki SBG 1, 3 i 4 "przyklejone" do "dwójki". Cud, że wszystkie nie spłonęły. Generalnie jak się popatrzy na zdjęcia z pożaru, to nie sprawia to wrażenia profesjonalnego i bezpiecznego centrum danych. W Polsce mamy dużo lepiej zorganizowane serwerownie. Sporo osób wspominało, że OVH ma wyjątkowo tanie usługi i być może to wpłynęło na pewne "niedociągnięcia" i braki.

 

W sumie w serwerowniach w tej lokalizacji jest około 30 tysięcy serwerów. Chyba nie wszystkie się spaliły, ale nawet jeśli to jest 1/3 to i tak sporo. Ucierpiało też kilka znanych serwisów z Polski. Jedni poradzili sobie szybciej, drudzy właśnie stawiają serwery w innej lokalizacji i odtwarzają serwisy z backupów. Jeszcze inni być może w ogóle się nie podniosą.

 

Najszybciej z awarią uporała się chyba internetowa księgarnia bonito.pl. Po kilku - kilkunastu godzinach już byli z powrotem online. Zginęło tylko trochę bieżących wiadomości e-mail. Na stronach traseo.pl czy senuto.com jest komunikat o odtwarzaniu backupu i stawianiu serwera w nowej lokalizacji. Ale już na fangol.pl wyświetla się strona błędu Cloudflare. A fotka.com i ekai.pl po prostu się nie otwierają wcale.

 

Bonito.pl - serwis wrócił do działania
Senuto.com - serwis został wyłączony
Fotka.com - serwis został wyłączony
Traseo.pl - strona została wyłączona
Fangol.pl - strona została wyłączona

ekai.pl - serwis został wyłączony

 

DD

  • Like 2

Share this post


Link to post
Share on other sites

Jak dla mnie ten pożar w OVH to bardzo dziwny zbieg okoliczności.

 

OVH było tuż przed uruchomieniem nowej usługi do tego chyba z tydzień temu rozpoczeli proces wejścia na giełdę. Do tego pożar wybuchł w nocy kiedy serwery są najmniej obciążone, bynajmniej te w Europie. Oczywiście pożar wcale nie musiał być spowodowany przez jakiś serwer ale nie zadziałał też o dziwo żaden system gaszenia. Nie wierzę iż nie było tam systemu gaszenia. Centra danych OVH  (bynajmniej SBG2 i to w Kanadzie) są budowane na kształ silosów a więc mają wyjątkowo dobre chłodzenie, co jeszcze bardziej jest zastanawiające iż pożar zniszczył cale DC. 

 

A tak wyglądało przed pożarem:

 

 

 images?q=tbn:ANd9GcRhf7bcnM4sCPXqBF5pAzo

 

sbg2.jpg

 

Na zdjęciach po pożarze wygląda już znacznie bardziej groteskowo ...

Ciekawe, jaka zostanie podana przyczyna pożaru, wiadomo już coś na ten temat ?

 

OVH już nie ma tak tanich usług jak miało 10 lat temu, a ich konkurencyjne cena wynika głównie za sprawą stosowania nowatorskich rozwiązań w tym własnych serwerów.

Podobną zresztą politykę ma Hetzner, który moim zdaniem jest numerem 1 w Europie, jeśli chodzi o stosunek jakości do ceny + najnowocześniejszcze rozwiązania na pokładzie, podobnie jak OVH.

 

A wracając do backupów - są tacy którzy je robią i tacy którzy będą robić. Po tym zdarzeniu tych drugich przybędzie co nie miara w bardzo krótkim czasie. Gdy ktoś ma wolny serwer i gotowe skrypty instalacyjne a dane z bazy były replikowane na inny serwer - funkcjonalność danego serwisu można przywrócić w niecałą godzinę. Oczywiście jeśli wszystkie NameSerwery nie były w tej samej lokalizacji oraz nie miały ustawionych dłuższych TTL niż 1H.

 

Myślę iż to zdarzenie pokazało, kto prowadzi profesjonalny biznes w sieci a kto nie miał nawet backupu....

Tak czy owak współczuje wszystkim a zwłaszcza OVH. Niech każdy wyciągnie dobrą lekcję z tego zdarzenia na przyszłość.

 

 

  • Like 3

Share this post


Link to post
Share on other sites

Oświadczenie Octave Klaba - założyciela OVH:

 

https://www.ovh.com/fr/images/sbg/index-en.html

 

Z ciekawszych informacji z wideo: backupy (jeśli były i pozwalał na to charakter usługi) mogły być zlokalizowane w tym samym pomieszczeniu, w pomieszczeniu obok lub w innej lokalizacji. Będą sprawdzać jak to było dla poszczególnych klientów / serwerów i zależnie od możliwości będą odtwarzać dane z backupu.

 

Po włączeniu się alarmów na miejsce przyjechali pracownicy OVH. W pomieszczeniach znajdowało się bardzo dużo dymu, dlatego postanowili opuścić serwerownię z obawy o swoje zdrowie i życie. Straż pożarna, po przyjeździe, użyła kamer termowizyjnych i stwierdziła, że paliły się dwa UPSy. Poprzedniego dnia rano jest z UPSów, który się palił, był serwisowany przez producenta (dostawcę sprzętu) i wymieniane było dużo podzespołów tego UPSa. Po ponownym uruchomieniu około południa UPS działał prawidłowo.

 

Ponadto Octave Klaba stwierdził, że serwerownia, która się spaliła powstała w 2011 roku i zastosowane tam technologie są już dość przestarzałe a na ich wybór miały wpływ względu ekologiczne (zużycie prądu przy chłodzeniu itp.). Większość ich centrów zbudowanych jest w innej technologii. Ale te, które są podobne zostaną przebudowane tak aby podobna sytuacja nie miała miejsca.

 

Wygląda na to, że bardzo możliwe, że powodem pożaru był właśnie UPS serwisowane dzień wcześniej.

 

DD

Edited by DD
  • Like 3

Share this post


Link to post
Share on other sites

W DC z 30,000 serwerów nie było kamer ani nawet jednej osoby na miejscu od monitoringu ?

W czasach gdzie 5 kur na grzędzie w kurniku ma 10 kamer ?

 

Nikt nie monitorował tego online i pracownicy zobaczyli dym dopiero po tym jak przyjachali na miejsce ? Doprawdy fascynujące. Straż pożarna użyła kamer noktowizyjnych w płonącym słupie ognia i dostrzegła płonące UPSY ale nie zdołała ich ugasić mająć 10 metrów dalej nieograniczone zasoby wody ?

 

Odnoszę wrażenie iż każdy mógł sobie tam wejść, zabrać na taczkach szafę z serwerami i wyjść całkowicie niezauważony, wszkak dymu by przecież nie było a całe DC, w tym kluczowe dla infrastruktury elementy (które defacto tuż wcześniej uległy awarii) nie było przez nikogo monitorowane zgodnie z tą opowiastką, nieprawdaż ?

 

Ale  to jeszcze nic, tak się dziwnie składa że:

 

ovh-migration2.png.511d43f5cac08f5d522188216d100100.png

 

 

I akurat 2 z 3 uległy awarii, w tym jedno doszczętnie spłoneło bo jak wynika z powyższej opowiastki - nikt go nie monitorował a sam pożarł wybuchł w nocy  ... fascynujących zbiegów okoliczności ciąg dalszy... Co o tym myślisz @DD ?

 

 

 

  • Like 1

Share this post


Link to post
Share on other sites

Z tego co usłyszałem z tego wideo CEO, to serwerownia była jak najbardziej monitorowana i było tam też mnóstwo kamer. Obecnie zgrywają filmy i będą je oglądać, żeby poznać przyczyny pożaru. Tak w skrócie.

 

Osobiście nie mam większych przemyśleć oprócz takich, że backupy są ważne a backup w tym samym budynku to nie backup :P Nie doszukiwałbym się teorii spiskowych, choć fakt, że OVH miał wejść na giełdę na pewno rzuca się w oczy. O tym, że po ostatniej awarii w 2017 mieli rozebrać to centrum danych nie wiedziałem.

 

Może po prostu nawalił UPS po serwisie i po prostu budynek się sfajczył. Nie wiem dlaczego straż nie zdążyła ugasić ognia a zdążyli obejrzeć wszystko przez kamery termowizyjne. Odcięcie prądu nie powinno sprawiać problemu. Ale nie jestem specjalistą w pożarnictwie, więc się nie będę wypowiadał może :)

 

DD

Share this post


Link to post
Share on other sites

Mój serwer był w SGB1 - szanse, że przetrwał to 2/3, bo w SGB1 spłonęły tylko 4 z 12 roomów.

Share this post


Link to post
Share on other sites

@DD

 

Bardziej chodzi mi o to Daniel, że z przedstawionego wyjaśnienia wynika iż w DC z 30,000 serwerów nie było na miejscu ani jednej osoby od monitoringu czy też ochrony która by nadzorowała kluczowe elementy infrastruktury do których niepodważalnie należy UPS, ZWŁASZCZA iż tuż wcześniej uległ awarii i wymieniono w nim znaczną część podzespołów. Dla mnie osobiście jest oczywistością iż to co uległo awarii należy monitorować ze znacznie zwiększoną uwagą. Cóż z tego że były tam kamery skoro z jakiś bliżej nie znanych powodów nikt obrazem z nich nie był zainteresowany ?

 

Ponadto, skoro włączył się alarm, dlaczego NIKT nie sprawdził KTÓRY element uruchomił ten alarm i nie sprawdził obrazu z kamery z tego regionu DC aby ustalić gdzie w pierwszej kolejności ma udać się ekipa strażacka ? Po co tam wogóle kamery skoro nikt nie potrafi z nich skorzystać ? Pytań jest bardzo dużo - odpowiedzi ZERO. Nie zmienia to faktu iż w dzisiejszym cyfrowym świecie, można ustalić co włączyło alarm z bardzo dużą dokładnośćią ograniczoną jedynie ilością i lokalizacją czujników czy to wykrywających dym czy zmiany temperatury etc. Jednakże również z bliżej nie określonych powodów nikt tego nie zrobił a nawet nie zająknął się  na ten temat.

 

A takie rozwiązania konstruowałem na uC Atmela grubo ponad 10 lat temu. A więc tłumaczenie że DC z 2011 roku było przestarzałe (mając na myśli kwestię nadzoru i monitoringu) zupełnie do mnie nie trafia. Mało tego, widzę rażące błędy ze strony OVH w tej kwestii.

 

 

  • Like 1

Share this post


Link to post
Share on other sites

@Domeniacz To że OVH położyło sprawę to wiadomo. Nie ma się co teraz nad nimi pastwić. Natomiast temat jest ciekawy jako case i na pewno warto się mu przyglądać, chociażby ze względów edukacyjnych i żeby samemu w swoich projektach uniknąć tak dużego fuckupu. Myślę, że wiele osób pierwszy raz usłyszało sformułowanie Recovery Disaster Plan i część z nich wdroży je u siebie, co jest plusem w tym całym zamieszaniu.

 

A to że nie było nikogo na miejscu, szczególnie po tym serwisie UPSa.. no trudno się nie zgodzić, że tak być nie powinno.

 

DD

  • Like 1

Share this post


Link to post
Share on other sites
1 godzinę temu, łukasz napisał:

Reklama na cały świat poszła, teraz odczekamy chwilkę i na fali będzie GIGA promocja na backupy u nich w niespotykanej niskiej cenie - tak aby zadowolić klienta i ściągnąć niesamowity hajs. Tak się robi biznes.

...i jeszcze kasa z ubezpieczenia, bo jeśli to planowane działanie, pewnie i o to zadbali. Reasumując, za kasę z ubezpieczenia odbudują infrastrukturę (i jeszcze pewnie zostanie), reklama za darmo...genialne. Tylko czekać na naśladowców. A tak poważnie, to chyba żyjemy w innych światach :)

  • Like 1

Share this post


Link to post
Share on other sites

Update:

OVH olało temat i spisała WSZYSTKIE serwery VPS na straty. Mimo tego, że 70% z nich nie ucierpiało.

Ktoś orientuje się, czy w takim wypadku można ich pozwać o straty?

Edited by FlashT

Share this post


Link to post
Share on other sites
3 godziny temu, FlashT napisał:

Update:

OVH olało temat i spisała WSZYSTKIE serwery VPS na straty. Mimo tego, że 70% z nich nie ucierpiało.

Ktoś orientuje się, czy w takim wypadku można ich pozwać o straty?


Zgodnie z ich regulaminem to użytkownik odpowiada za backup'y i za utratę danych nie odpowiadają. Zwykły szary użytkownik IMO nic nie wskóra.

Daleki jestem od różnego maści teorii spiskowych, ale biorąc pod uwagę tyle dziwnych zbiegów okoliczności to chyba najrozsądniejszym argumentem za tym pożarem stały jakieś dane, które z jakiegoś powodu miały zostać bezpowrotnie zniszczone.

 

Share this post


Link to post
Share on other sites

Muszę się wczytać w ten regulamin. Bo jakoś nie mogę uwierzyć w to, że w takiej sytuacji za to nie odpowiadają.

  • Like 1

Share this post


Link to post
Share on other sites
Dnia 12.03.2021 o 13:50, DD napisał:

... ze względów edukacyjnych i żeby samemu w swoich projektach uniknąć tak dużego fuckupu....

 

Ze swojego doświadczenia wiem że najlepiej mieć wszystko w osobnych firmach i serwerach, bo:

 

  1. Kiedy nie działa serwis rejestratora to nic się nie dzieje.
  2. Kiedy padnie serwis DNS to go zmieniasz u rejestratora
  3. Kiedy padnie firma hostingowa to ją zmieniasz poprzez zmianę DNS i przywracasz backup.
  4. Kiedy padnie serwer ze stroną z innych względów - masz szanse powiadomić o tym swoich klientów emailem
  5. Kiedy padnie email to możesz poinformować o tym klientów na stronie

 

A kiedy jest wszystko w jednym serwisie i jeszcze na tym samym serwerze i 2 metry dalej backup - w zasadzie wszystko leży już w momencie padu sieci, ataku DDOS etc. Jeśli chodzi natomiast o sam backup - sprawa się komplikuje gdy są duże ilości danych i/lub duże ilości plików - zwłaszcza kiedy są często zmieniane/kasowane/dodawane. Trzymałem kiedyś 150 MILIONÓW plików na 8 serwerach w Hetznerze, więc że tak powiem - podszkoliłem się trochę w tej kwestii :lol:

 

 

Edited by Domeniacz
  • Like 1

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now

×