Ochrona przed katastrofą z planem

Mimo wszystkich zabezpieczeń technicznych i środków pomocniczych nie zawsze udaje się zapobiec totalnej awarii systemu informatycznego. Zautomatyzowany przebieg przygotowanych i wypróbowanych planów awaryjnych może zmniejszyć szkody.

Mimo wszystkich zabezpieczeń technicznych i środków pomocniczych nie zawsze udaje się zapobiec totalnej awarii systemu informatycznego. Zautomatyzowany przebieg przygotowanych i wypróbowanych planów awaryjnych może zmniejszyć szkody.

Czynnik ryzyka człowiek - obok zawodnego sprzętu zawodny czynnik ludzki to jedna z głównych przyczyn wszystkich katastrofalnych przypadków utraty danych.

Czynnik ryzyka człowiek - obok zawodnego sprzętu zawodny czynnik ludzki to jedna z głównych przyczyn wszystkich katastrofalnych przypadków utraty danych.

Gdy pada słowo "katastrofa", wszyscy mają przed oczami widok płonących budynków, zalanych gruntów czy miast zniszczonych przez trzęsienie ziemi - obraz klasycznych katastrof i ich skutków, określanych zwykle jako "siła wyższa". W informatyce pojęcie katastrofy ma dużo węższy zakres, a sama definicja jest prostsza - katastrofa to całkowite zaprzestanie pracy systemu informatycznego, obojętnie z jakiego powodu.

Przyczyną katastrofy informatycznej mogą być oczywiście również katastrofy naturalne, jak powódź, czy trzęsienie ziemi. Są to jednak przypadki absolutnie wyjątkowe. Wraz z pożarami i zalaniami stanowią one zaledwie 3 procent wszystkich przypadków utraty danych. Z kolei błędy oprogramowania i sprzętu to przyczyna niemal połowy wszystkich katastrof informatycznych; jedna trzecia idzie na konto zawodnego czynnika ludzkiego.

Totalne załamanie infrastruktury informatycznej to coś znacznie więcej, niż chwilowa niedogodność. Dowodzi tego choćby oszacowanie średniej sumy szkód jednej katastrofy informatycznej - według uznanych analityków jest to imponująca kwota 900000 euro. Suma ta obejmuje tylko bezpośrednie koszty szkód i koszty ich usunięcia, nie obejmuje natomiast kosztów pośrednich, wynikających choćby z braku realizacji zamówień lub braku samych zamówień.

Strefa śmierci - jeżeli totalna awaria systemu informatycznego przedsiębiorstwa trwa dłużej niż 24 godziny, stawia to pod znakiem zapytania zdolność firmy do przetrwania.

Strefa śmierci - jeżeli totalna awaria systemu informatycznego przedsiębiorstwa trwa dłużej niż 24 godziny, stawia to pod znakiem zapytania zdolność firmy do przetrwania.

Odpowiednio drastyczne są też skutki. Z badań Uniwersytetu Minnesota wynika, że jedna czwarta przedsiębiorstw dotkniętych katastrofą informatyczną bankrutuje natychmiast, zaś kolejne 40 procent funkcjonuje najwyżej jeszcze dwa lata. Zaledwie siedem procent badanych przedsiębiorstw dotkniętych katastrofą informatyczną było nadal na rynku w piątym roku po katastrofie. Zdolność przedsiębiorstwa do przetrwania w widocznym stopniu zależy od czasu trwania katastrofy - tak przynajmniej wynika z badań firmy Debis Systemhaus GmbH.

Stosunkowo niegroźne okazują się awarie trwające nie dłużej niż 24 godziny; w ich wyniku upadło mniej niż 3 procent przedsiębiorstw. Nawet dłuższe awarie, do trzech dni, może przetrwać jeszcze wiele firm. Gdy jednak awaria trwa dłużej niż cztery dni, dla wielu jest to koniec.

Działania na rzecz zapobiegania katastrofom winny znaleźć się w centrum wszelkich wysiłków. Podstawowe zagadnienie to takie wzajemne zgranie aspektów bezpieczeństwa technicznego, logicznego i fizycznego, by w efekcie uzyskać optymalne bezpieczeństwo funkcjonalne infrastruktury informatycznej.

W rzeczywistości wiele przyczyn katastrofalnej utraty danych można z góry wyeliminować poprzez odpowiednie działania techniczno-organizacyjne. Nadmiarowe układy serwera aż po karty sieciowe, systemy pamięci masowej bazującej na macierzy RAID i zasilanie via UPS wykluczają klasyczne awarie sprzętu i błędy systemu. Odpowiednio wydajne oprogramowanie do wykonywania kopii zapasowych zapisuje codziennie setki gigabajtów danych na szybkich napędach taśm, a wyrafinowane skanery antywirusowe chronią serwery i komputery przed infekcją z Sieci.

Problem w tym, że zastosowanie tych perfekcyjnych środków technicznych zbyt łatwo prowadzi do złudnego wrażenia bezpieczeństwa. Technika jest zupełnie bezradna wobec błędów człowieka, a jej funkcje ochronne nie są zbyt wiele warte w obliczu takich czynników, jak sabotaż, włamanie czy kradzież. Do tego dochodzą często niedoceniane zagrożenia ze strony pożarów, powodzi/zalania i piorunów.

Katastrof nie da się przewidzieć, ani z całą pewnością uniknąć. Na pewno jednak można utrzymać w pewnych granicach ich skutki - o ile poprzedziło je planowanie z wyobraźnią.

Oto przykład sposobu myślenia: "jeżeli spali się cała firma, to i kopie zapasowe na nic się nie przydadzą". Tak brzmi typowa argumentacja przeciwników planowego podejścia do ryzyka katastrofy. Nawet jeśli przez chwilę brzmi to przekonująco, to takie myślenie przy bardziej dogłębnej analizie okazuje się pozbawione wszelkich racjonalnych podstaw.

Puzzle bezpieczeństwa - skuteczna ochrona przed katastrofą wymaga, by wszystkie aspekty były uwzględnione w dostatecznym zakresie.

Puzzle bezpieczeństwa - skuteczna ochrona przed katastrofą wymaga, by wszystkie aspekty były uwzględnione w dostatecznym zakresie.

Po pierwsze, pożar rzadko niszczy kompletny budynek - na tyle rzadko, że tego rodzaju zdarzenie trafia do telewizyjnych wiadomości. Najczęściej dzieje się tak, że pożar obejmuje część pomieszczeń, jakkolwiek na skutek błędnego planowania i w tym przypadku skutki mogą być katastrofalne. Oto na przykład po pożarze serwera nie ma systemu zastępczego, na którym można by odtworzyć kopie zapasowe; najczęściej nie ma nawet możliwości szybkiego pozyskania takiego sprzętu. Bywa też, że kopie zapasowe znajdowały się w serwerowi i zostały zniszczone przez temperaturę lub agresywne środki gaśnicze.

Tę listę można by ciągnąć prawie bez końca. Bo przecież w innym przypadku, gdyby istniał precyzyjny plan awaryjny, to można by uruchomić systemy zastępcze w filii przedsiębiorstwa, u któregoś z partnerów lub w jakimś naprędce wynajętym pomieszczeniu, choćby nawet budynek firmy jeszcze się dymił...

Prace wstępne

Podstawą opracowania planu zapobiegania katastrofom jest dokładne oszacowanie rozmiaru możliwych szkód. Należy po pierwsze zidentyfikować kluczowe dla przedsiębiorstwa systemy i aplikacje, które tworzą szkielet jego zdolności do funkcjonowania, oraz określić priorytety ochrony.

Zwyczajowy sposób postępowania polega na sporządzeniu listy tych komponentów, z jednoczesnym wzajemnym przypisaniem aplikacji i sprzętu; następnie określa się maksymalny tolerowalny czas awarii. Warto przy tym zasięgnąć opinii pracowników, którzy pracują z użyciem odpowiednich aplikacji lub są za nie odpowiedzialni.

Kolejny krok to doprecyzowanie zagadnień dostępności sprzętu. Należy określić wymagania sprzętowe, jak typ procesora czy niezbędną pojemność pamięci masowej. Konieczne jest też ustalenie zależności od działania określonych łączy LAN i WAN.

Fatal error - błędy użytkowników są przyczyną ponad trzech czwartych wszystkich katastrof utraty danych.

Fatal error - błędy użytkowników są przyczyną ponad trzech czwartych wszystkich katastrof utraty danych.

Po ustaleniu wszystkich istotnych parametrów wystarczy proste posortowanie listy według akceptowalnych czasów przestoju, by uzyskać orientację co do ważności poszczególnych elementów sprzętu i oprogramowania dla funkcjonowania przedsiębiorstwa. Za pomocą takiej listy można z góry określić, jakie pole manewru wewnętrznego i zewnętrznego trzeba zapewnić w razie awarii poszczególnych systemów.

Spektrum opcji wewnętrznych rozciąga się od przeniesienia ważnych aplikacji na systemy o niższym priorytecie do utrzymywania kompletnego, gotowego do uruchomienia sprzętu zastępczego. W przypadku aplikacji o niższym priorytecie może wystarczyć uzgodnienie z dostawcą sprzętu określonych terminów dostawy systemów zastępczych.


Zobacz również