Plummet

To słówko - plummet - oznacza w angielskim nagły i szybki upadek. To co się zdarzyło z poziomem usług serwowanych przez firmę hostingową Servage z Danii nie można nazwać inaczej jak nagłym i szybkim upadkiem. Miałem z nimi już kilka problemów (seria “A u nas działa” - [1],[2],[3]), ale dzisiaj przeszli samych siebie.

Zanim jednak dojdę do sedna, chciałbym nieco cofnąć się w czasie.

2007-05-12 poprosiłem o zmianę serwerów (w ich konfiguracji oznacza to zmianę klustra, na którym stały moje pliki) bym mógł korzystać z najnowszej dostępnej wersji MySQL (chciałbym zaznaczyć wyraźną różnicę między słówkiem najnowszy a dostępny!). Wszystko było super, gdyby nie pierwszy mój “email” do nich 28-go:

I’m having issues with MySQL server. I run Mambo server which heavily depends on MySQL and obviously the database server cannot deal fast enough with the traffic or has other limitations blocking my site from running.
I’m getting this error thrown by MySQL engine: User ‘PolskiDublin’ has exceeded the ‘max_updates’ resource (current value: 20000). Can you please increase max_updates resource on MySQL ASAP?

Odpowiedź, dość zaskakująca przyszła po chwili:

We are sorry for the inconvenience caused. :-( e have set the current limit 20,000 of max_updates per hour, per user. Once you have exceeded, you will begin to receive the message until the end of the hour, and your limit is reset. I am sorry to say that to keep the good performance of MySQL server, we unfortunately can’t increase the value. Although you can control it from your script itself. Thank you for understanding!

Innymi słowy, przepraszamy ale nic z tym nie zrobimy, bo tak ustawiliśmy limit i z jakiegoś powodu wydaje nam się, że 20000 dla użytkownika na godzinę jest dobrym limitem. I jeszcze ten uśmieszek w przepraszamy za niedogodności … Thanks for understanding? Fuck you! Moja strona to nie onet.pl ani gazeta.pl ani nawet coś podobnego kalibru. Nie spodziewałem się i wciąż nie spodziewam dużego transferu ani obciążenia ale najwidoczniej mój provider uznał, że trzeba mi śrubę przykręcić.

31 maja, godz. 11:11 (co de facto było 10:11 mojego czasu). Pierwsze błędy 404 na wszystkich moich stronach. Ludzie dzwonią, SMSy piszą, dostaję emaile że coś nie działa. Wysyłam im ticketa. Oto odpowiedź:

We unfortunately have to check the consistency of this storage device.
All Webpages stored on this device will be unavailable doing this procedure which will hopefully be completed within the next 30 minutes. Thanks for your understanding.

Nie, nie mam zrozumienia dla sprawdzania consistency dysków. Z doświadczenia z RAIDem wiem, że do tego nie trzeba kłaść serwerów, dyski będą wolniejsze, ale wciąż będą działały. To była 11:11 (na marginesie, odpowiedzieli w tej samej minucie!), moja odpowiedź o 13:24:

I think servers were down for longer than 30 minutes. Do you have exact duration of the downtime?

Wysłane mniej więcej w tym samym momencie, kiedys zauważyłem że wszystko wróciło do normy. Odpowiedź jakby napisana bez zrozumienia pytania i pozycji w jakiej się znaleźli (14:32):

Please check now, everything is up and running fine. Yes, it has 30 minutes downtime. Actually, the filesystem had errors and could not be mounted so we had to check and repair it. Thanks for your understanding!

I znowu to dziękujemy za zrozumienie (wyrozumiałość). Ale ja wciąż nie rozumiem, dysków nie trzeba było od razu odcinać.

Dzień później, ten sam problem. Mój email:

Today is the second day in a row when you have problems with the storage. May I ask what action are being taken to prevent this from happening in future?

1.5 (17:09) godziny później dostaję coś takiego:

We apologize for the trouble caused to you! We have taken some administrative steps to prevent this in future.
Thanks for your continuing cooperation!

Dobrze, że dodali to continuing, to byłoby jak w Robocop.
Jakoś ich zapewniania o podjęciu kroków zapobiegawczych mnie nie przekonały, o czym mogłem się przekonać dzisiaj. A oto jak wyglądał dzisiejszy dzień:

[Ja, 08:04]: After your hardware problem I noticed that most of my website is dramatically slow. Can you please take a look at that?

[Servage, 08:06]: Sorry for the inconvenience caused to you. :( Yes, we are aware of this issue and we have already started working on solving this problem. So, I am requesting you to please check it after some time. Hope fully in the meantime, it will be fine for you. Thanks for your understanding and co-operation!

[J, 08:11]: thanks for prompt reply, your recent hardware problem totally ruined your PR at least in my opinion and I’ll be forced to find a new hosting if this continues to happen. At the moment is impossible to build reliable website service based on Servage.

[S, 08:25]: We extremely sorry for the problem caused to you. :( For the compensation, we are adding one month free hosting with your package. Hope this helps! And we are apologize once again for the problem caused to you. :(

W Servage.net jeden miesiąc to $6.45. Faktycznie mi to pomogło i dodało otuchy!

[J, 08:45]: thanks, that’s great but that’s not the point: I don’t want to have free service - I need *working* service. Can you move my account to a hardware which is working fine and doesn’t show recent issues with storage?

Zero odpowiedzi. Ponawiam.

[J, 09:29]: when do you think you solve the problem? I’m looking for *realistic* ETA for *definitive* problem solving.

[S, 09:46]: I am sorry to say that we cannot provide an ETA. We are working hard to resolve the issue as soon as possible. Thank you for your co-operation. :)

Nie wiemy kiedy to naprawimy, ale się staramy! I fraza z Robocopa …

Prawie 4 godziny od momentu wystąpienia awarii. Dopraszam się o jakiś update.

[J, 11:45]: OK, it’s been already more than 4 hours since the server went down. What is the latest update on this?

[S, 11:47]: Our admin is working hard to resolve the issue. Kindly bear with us. Thank you. :)

Znaczy, jeden admin?? Macie dziesiątki tysięcy klientów i jednego admina, który łata dziury? Wow!

Czekałem kolejne 3 godziny. Mój kolejny email.

[J, 15:01]: what about moving my account to different storage? you didn’t answer to this question. I need my websites working back again ASAP!

[S, 15:18]: I am sorry to say that we cannot initiate the transfer at the moment. You can open a new ticket asking for the transfer once the present server is up and functional. We can then initiate the transfer. Thank you. :)

Więc skoro już taka gadka, to chyba logicznym jest zapytać:

[J, 15:28]: When will the server be up and running?

[S, 15:42]: I can understand your concern. Unfortunately we have received a few problems with this server in recent past. We apologize earnestly for that matter. We are trying hard to resolve the issue as soon as possible. Kindly bear with us. Thank you for your co-operation. :)

Stary, w ogóle nie masz pojęcia o moim “concern”! Ich “as soon as possible” trwa już blisko 8 godzin.

[J, 16:46]: Your main website states: 99.98% Server Uptime which means in fact only 1.752 hour or 105.12 minutes of downtime. Today I experienced and I’m still suffering from 9 hours of downtime. What is your answer?

To pozostaje bez odpowiedzi. Ich email do mnie:

[S, 18:07]: We have been forced to take home54 off for a file system check. We apologize for the inconvenience caused. Thanks for your cooperation!

Off? Serio? Nie zauwyżyłem! A myslałem, że to przeglądarka cały czas serwuje mi error 404. “Przepraszamy za spowodowane niedognodności.” Hehe, dobre.

[J, 18:32]: OK, I know you have hardware issues but from my point of view it doesn’t change the situation that I can’t see my website as well as other pages and your SLA plummet to 99.87% from 99.98% in just one day! that’s not acceptable and I need some answers from you firstly how you want to gratify my obvious loss and secondly how do you want to prevent this in future.

[S, 18:43]: We would like to offer 1 month free hosting as compensation on your account and we took some technical steps which would prevent this in future. Thanks for your cooperation and understanding!

Cały jeden miesiąc gratis?! Wow! Jakbym wygrał na loterii. I bardzo mnie cieszy to, że będą dokonywać “jakiś” kroków, by zapowiec takim wydarzeniom w przyszłości.

[J, 20:47]: It’s back online but still file manager doesn’t show anything as well as some files I have missing (mostly the ones I uploaded yesterday)

File Manager to taki zarządca plików przez ich stronę administracyjną. Obrazki, które wczoraj wrzucałem nie pojawiają się na stronie. Najwyraźniej mieli mnie już dość, bo w odpowiedzi dostałem link do strony opisującej status serwera. A oto co ostatecznie tam się znalazło:

All systems are back running in a temporarly system. Transfer rates may be a little slower than usual the next 12 hours. We are replacing all hardware related to this storage system to avoid any similar issues. We appoligize for the inconvenience caused.

Czyli będzie wolniej przez następne 12 godzin i wciąż będą prowadzone prace, co może zaowocować kolejnymi 404. Przed chwilą wysłałem im jeszcze jednego emaila z informacją, że brakuje mi części plików. Spodziewam się, że mają je na tasiemkach …

Po całej tej historii, ich sposobie komunikacji i podejścia do interesu mam wrażenie, że firma Servage to banda studenciaków, z których jeden coś tam wie na temat sprzętu, a reszta odpowiada na emaile rozzłoszczonych klientów, używając przy tym irc-owych emotikonów. Nie mają porządnego systemu komunikacji z klientami, tylko napisany na szybko skrypt w PHP, który generuje coś podobnego do komunikacji. Mój problem nie ma nawet żadnego case number

Morał z tej historii jest krótki. Swój blog w niedługim czasie przenoszę na wordpress.com (pod tym samym adresem). A dla reszty stron szukam hostingu. Moje wymagania nie są duże: min 200GB transferu na miesiąc, łącza od kilku operatorów, PHP 5, najnowszy MySQL, nielimitowana ilość skrzynek email, domen i kont FTP, panel administracyjny, własne serwery DNS, byłoby miło gdyby był dostęp SSH. Musi mieć dobre łącza do Irlandii i Polski i mieć obsługę klienta na normalnym poziomie. Jeśli ktoś zna, proszę o informacje w komentarzu.

Aktualizacja 23:53

Właśnie się dowiedziałem, że muszę ponownie wkopiować wszystkie pliki, które kopiowałem w ciągu ostatnich 2 dni.

Aktualizacja 06/06/2007, 17:53

Kolejny pad, 10 minut out.

9 Responses to “Plummet”


  1. Gravatar Icon 1 Cezary Okupski
  2. Gravatar Icon 2 Automaciej

    Dreamhost nie jest wiele lepszy. Miewałem kilkugodzinne downtime’y na Dreamhoście. Dreamhost jest fajny ze względu na to że daje masę usług: dostęp i dostęp do shella, co daje ogromne możliwości. Na przykład można używać go jako zdalnego szyfrowanego backupu przy pomocy sshfs i encfs. Ale jeżeli chodzi o stabilność to daję im cztery minus. Co jestem w stanie zaakceptować biorąc pod uwagę że jest tam tanio.

  3. Gravatar Icon 3 ptashek

    Wspolczuje. Cos nie masz szczescia do Servage.
    Jesli chodzi o ponowne kopiowanie plikow - to akurat rozumiem. Chyba nie oczekujesz, ze beda trzymali backup danych dla 50 tysiecy ludzi, po 3.6GB na konto? Chyba jednak masz spore oczekiwania.

    Zamiast hostingu, poszukaj lepiej ofert kolokacyjnych. Majac wlasny serwer, mozesz sobie na nim robic co Ci sie podoba.

    Usiadl bym rowniez z Rafalem i zrobil 3.14*drzwi kalkulacje “loss of revenue”, a nastepnie zasugerowal Servage wyrownanie strat. Kwestia tylko w regulaminie - o ile pamietam, maja na to stosowny paragraf.

  4. Gravatar Icon 4 Michał Osmenda

    @ptashek: zanych strat nie bylo, zainteresowani byli poinformowani o planowanych downtimach w zwiazku z “renowacja”

  5. Gravatar Icon 5 ptashek

    @Michal: rzuc okiem na sekcje “Limited Liability” - http://www.servage.net/show/?menuHeader=4&menuSub=13&page=about_tos

  6. Gravatar Icon 6 Michał Osmenda

    @ptashek: niewatpliwie byl to “act of God”

  7. Gravatar Icon 7 idefix

    Jezeli chcesz to moge przejac PITC na moje konto w servage. Odciazy to ruch na twoim, tym bardziej ze u mnie nie ma takiego ruchu.

  8. Gravatar Icon 8 Michał Osmenda

    @Cezary, wlasnie przeczytalem notke Scoble’a na temat Dreamhost. Tak wiec, bede szukal dalej :)

  1. 1 Servage sucks, Dreamhost leaks password at ITblog

Leave a Reply




Disclaimer

All postings are provided "AS IS" with no warranties, and confer no rights. This weblog does not represent the thoughts, intentions, plans or strategies of Microsoft or any other company or organization. Because a weblog is intended to provide a semi-permanent point-in-time snapshot, you should not consider out of date posts to reflect current thoughts and opinions.
All rights reserved. Quotations from this blog require author's written approval.
PL: Wszelkie prawa zastrzeżone. Cytaty z tego bloga wymagają pisemnego zezwolenia autora.

Add to Technorati Favorites