Tag Archive for 'management'

Planowy downtime a SLA

SLA, jako umowa między usługodawcą, a klientem może zawierać szereg uzgodnień dot. jakości usług. Jedną z nich jest, moim zdaniem bardzo ważna, definicja planowego downtime‘u.

Czym jest planowy downtime? Jest to czas, najczęściej w środku nocy, jaki jest wymagany przez administratorów systemów do instalacji nowego oprogramowania czy łatania już istniejącego, zmian konfiguracyjnych sprzętu i oprogramowania, które wymagają ponownego rozruchu i inne elementy, które w znaczny sposób zakłócą pracę serwisów, za które płaci klient (co oznacza obniżenie czasu dostępności usług).

Wiemy, że nasze systemy wymagają downtime’u od czasu do czasu. W przypadku Microsoftu, jest to min. raz w miesiącu (tzw. patch Tuesday), kiedy ukazują się krytyczne bądź ważne poprawki do systemów i aplikacji, które najczęściej wymagają restartu “łatanego” systemu. Przy założeniu, że byłoby to 10 minut w skali miesiąca na restart jednej maszyny daje to całkiem przyzwoity poziom 99.97717% dostępności w skali roku. To jest jednak sytuacja idealna, kiedy łatamy tylko system operacyjny. Gorzej jeśli po drodze mamy jeszcze Exchange, SQL, IIS i inne systemy. Czas potrzebny do zainstalowania wszystkich poprawek sięga wtedy 20 minut, 30 minut, etc, a nasz czas dostępności coraz bardziej się kurczy, a wydłuża się czas, kiedy aplikacja klienta nie działa.

Co zatem robić w przypadku, kiedy musimy poprawki instalować, a jednocześnie musimy zapewnić określoną przez SLA i bardzo wyżyłowaną dostępność na poziomie 99.99%? Można poradzić sobie dwojako: poprzez odpowiednią klauzulę w umowie o poziomie usług albo poprzez rozwiązania techniczne (clustering).

Opcja pierwsza dla klienta końcowego wygląda dość kuriozalnie: system nie działa, ale o tym wiem i się na to zgodziłem (planowy downtime) albo system nie działa, ale się na to nie godziłem (nieplanowany downtime) - tak czy inaczej, w obu przypadkach usługa kliencka jest niedostępna. To tak, jak kupić samochód i godzić się, że co miesiąc nasz silnik się wyłączy na 5 minut (lepiej byśmy nie byli wtedy na autostradzie).

Zawieranie klauzuli planowego downtime‘u w umowie SLA jest wg. mnie po prostu nieeleganckie i wprost pokazuje, że firma tnie koszty i nie chce inwestować w rozwiązania zapewniające ciągłą dostępność (jak wspomniany przeze mnie wyżej clustering). Jeśli jednak, usługodawcy zdecydują się na wykorzystanie technik HA (high availability), mogą szczycić się w umowach z klientami poziomem 5*9, czyli 99,999%, gdzie 0,001% jest już jedynie współczynnikiem ryzyka.

A co mają zrobić administratorzy i menedżerowie IT? Zasiąść za arkuszem kalkulacyjnym i zobaczyć czy ich firmę stać na rozwiązania HA i kiedy poniesiony koszt się zwróci. A zapewniam, prędzej czy później się zwróci.

Elastyczne SLA

Dziś natknąłem się na informację, która z jednej strony mnie rozśmieszyła, a z drugiej poważnie zaniepokoiła. W tejże informacji było użyte następujące sformułowanie:

SLA is lower this week due to [...] impacting our system performance.

Ktoś pomylił sobie słówko availability z pojęciem SLA, które oznacza Service Level Agreement. I to ostatnie jest porozumieniem między klientem a usługodawcą o poziomie świadczonych usług, więc nie może ulegać zmianie bez re-negocjacji z klientem!

SLA jest wyznacznikiem świadczenia usług, jest poziomem którego dotrzymywanie jest bardzo ważnym elementem jakości tychże usług. W najgorszym przypadku jest celem, do którego usługodawcy dążą. Tym bardziej SLA, które zmienia się co tydzień jest wielkim nieporozumieniem!

P.S. Jeśli ktoś myśli, że to był Eircom, jest w błędzie :)

Czas a SLA

W analizie ryzyka dla swojego projektu oceniałem ostatnio możliwy do zaakceptowania czas downtime’u serwerów. Poza analizowaniem zajętości łącza, planowaniem zużycia pamięci, zajętości dysków (stosunek wielkości do czasu, skala: 6, 12, 24 miesiące) musiałem też przyjąć pewne akceptowalne wartości uptime. Niektórzy nazywają to po prostu SLA, ja nazywam to jedynie składową SLA (Teoria dążenia do doskonałości).

W celu dokładnej analizy ile czasu możemy poświęcić na downtime i jaki odpowiada temu poziom SLA przydatna może być poniższa tabelka. Oszczędza trochę czasu i liczenia.

Uptime Daily Monthly Yearly
95% 72.00 minutes   36 hours   18.26 days  
99% 14.40 minutes   7 hours   3.65 days  
99.9% 86.40 seconds   43 minutes   8.77 hours  
99.99% 8.64 seconds   4 minutes   52.60 minutes  
99.999% 0.86 seconds 26 seconds 5.26 minutes

Tabelka pochodzi z dokumentu Planning and architecture for Office SharePoint Server 2007, Part 2.

Firmy hostingowe, czy ogólnie usługodawcy IT, których uptime jest na poziomie 99.9% (czyli w środku tej tabeli) mogą pozwolić sobie na jedynie 86.4 sekund (minutę i 26.4 sekundy) dziennie niedziałającej usługi. Za taki poziom płaci się dużo. Wyobraźcie sobie zatem poziom 99.999% - 5.26 minuty w skali roku!

Czy Pan Gąbka bierze lekcje?

Na pierwszej stronie naszej-klasy.pl wisi notka datowana na 9-tego stycznia 2008 informująca o szczęśliwych przenosinach serwisu na nowe, szybsze maszyny. Nie mogę sobie wyobrazić jak musiało wyglądać to wcześniej, bo ja czekałem wczoraj na email potwierdzający moją rejestrację na serwisie Pana Gąbki ponad 3 godziny.

Tak, wbrew sobie i temu co napisałem jaki ja jestem aspołeczny, zarejestrowałem się na serwisie nasza-klasa.pl. Zrobiłem to, by potwierdzić swoją tezę, że nie warto tego robić (to dość przewrotne stwierdzenie uknułem praktycznie “w locie” by się jakoś móc przed ludźmi tłumaczyć). I już zaczynam żałować tej decyzji, pomimo 66 71 kontaktów które zdążyłem znaleźć i dopisać od wczoraj, bo strona jest tragicznie powolna. Więcej czasu zajmuje mi czekanie na reakcję serwisu niż czytanie tego co zostanie mi wyświetlone. Jedyne przyspieszenie odnotowałem wczoraj po północy, kiedy w Polsce było już po 1-szej w nocy.

Nasza-klasa.pl ma wg. ostatnich szacunków ma 6 miliony użytkowników [1] … i zwija się w bólach. Facebook.com ma 59 milionów użytkowników i właśnie wprowadza się do kolejnej serwerowni bo w starej już zabrakło miejsca na serwery. Mimo to, serwis pracuje bardzo sprawie i szybko, a użytkownikom nie są znane komunikaty o zajętości serwerów czy postać Pana Gąbki. Jak oni to robią?

Zacytuję tutaj fragment wpisu z bloga facebook.com:

Almost two million new users from around the world sign up for Facebook each week—and we couldn’t be happier. It’s tremendously rewarding to see so many people find what we work on useful and fun. As we continue to add new users and features, however, the load on our thousands of servers continues to increase at a pretty astounding rate. A few weeks ago we reached full capacity in our California datacenters. In the past we handled this problem by purchasing a few dozen servers, hooking them up, and getting on with our lives, but this time we didn’t have it so easy. We’d actually run out of space in our datacenters for new machines.

Resztę przeczytacie tutaj: Keeping Up, blog.facebook.com, Jason Sobel [2]

Ekipa facebook.com dodaje nowe serwerownie, skutecznie używa memcached by zoptymalizować zapytania do bazy i modyfikuje kod MySQL’a by nie dopuścić do opóźnień przy synchronizacji swoich datacenter. Co robi ekipa naszej-klasy.pl? Nie wiadomo. Nie prowadzą bloga, więc się nie chwalą. Przenosiny na nowe serwery może oznaczać, że mają więcej pamięci, szybsze procesory, więcej przestrzeni dyskowej. Ale czy mają też serwery cache, czy mądrze wykorzystują współpracę między serwerem www a bazą danych? Znów, nie chwalą się, więc nie wiadomo.

Czy ktoś wie, czy Pan Gąbka bierze lekcje?

Microsoft Office Project Conference 2007 EMEA

Jutro z rana wyjeżdzam na 3-dniową konferncję Microsoft Office Project Confernce 2007 EMEA do Madrytu. Konferencja będzie poświęcona rozwiązaniom EPM z Microsoft: Microsoft Project, Project Server i Project Portfolio Server.

Do zobaczenia w Madrycie!




Disclaimer

All postings are provided "AS IS" with no warranties, and confer no rights. This weblog does not represent the thoughts, intentions, plans or strategies of Microsoft or any other company or organization. Because a weblog is intended to provide a semi-permanent point-in-time snapshot, you should not consider out of date posts to reflect current thoughts and opinions.
All software used by author of this blog come from legal sources.

Add to Technorati Favorites