5 znaków ostrzegawczych krytycznej awarii sprzętu

Zawartość

Co to jest MTBF?
Wytyczanie
Przełączniki
Odporna moc
Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia
Przechowywanie chronione
Serwery
MTBF: To też może zawieść

Na wynos:

Ograniczenie przestojów dzięki drobiazgowemu planowaniu z wyprzedzeniem może oznaczać różnicę między wzrostem a spadkiem działalności. Właśnie wtedy pojawia się średni czas między awariami.

Nie lekceważ, jak bardzo dzisiejsze korporacje polegają na krytycznych systemach każdego dnia. Dlatego jedynym sensownym rozwiązaniem jest to, że przedsiębiorstwo jest w stanie oszacować ryzyko awarii sprzętu. Bez gwarancji, że urządzenie może ulec awarii, musi istnieć przynajmniej dokładny szacunek, kiedy nie można go już uznać za niezawodny.

Niewidzialny sprzęt może nie wydawać się krytyczny dla firmy, ale gdy awaria jednego wentylatora chłodzącego powoduje, że generator rezygnuje z ducha i powoduje dziesiątki, a nawet setki tysięcy kosztownych problemów przez dłuższy czas, możesz przekonaj się, że możliwość oszacowania, które elementy infrastruktury mogą zawieść - i kiedy - ma ogromne znaczenie. Właśnie tam pojawia się średni czas między awariami (MTBF), metoda, na której profesjonaliści IT polegają, aby podawać dokładne dane szacunki o tym, kiedy krytyczny sprzęt zawiedzie. Tutaj przyjrzymy się, co w końcu zabija niektóre popularne typy krytycznego sprzętu i jak MTBF może pomóc uratować dzień.

Co to jest MTBF?

Każdemu wyprodukowanemu sprzętowi IT przypisany jest niepowtarzalny numer modelu. Te, które odgrywają pewną rolę w infrastrukturze krytycznej, są dostarczane klientom z oszacowaniem MTBF. Skomplikowane obliczenia mające na celu opracowanie MTBF dla urządzenia odbywają się podczas długiej fazy testowania w ramach badań i rozwoju produktów i są względnie specyficzne dla konkretnego modelu.

Jeśli szukasz MTBF dla konkretnego urządzenia, znajdziesz go w szczegółowej specyfikacji dostarczonej przez producenta. Możesz także skontaktować się bezpośrednio z producentem.

Wytyczanie

Router klasy korporacyjnej zawiera wiele części, niektóre ruchome, a inne statyczne. Zasilacze (PSU) i wentylatory chłodzące mają ruchome części, a ich elementy są zwykle punktami awarii, zwłaszcza jeśli jednostka nie jest umieszczona w stosunkowo pozbawionym pyłu centrum danych. Na szczęście przy niektórych danych administratora większość routerów zgłosi się do SysLog narzędzie, aby wszelkie uszkodzone komponenty mogły zostać oflagowane.

Przełączniki

W podobny sposób kolejnym poziomem w sieci korporacyjnej jest sprzęt przełączający. Chociaż przełączniki klasy korporacyjnej również często polegają na wentylatorach, zwykle jest ich mniej niż w obudowach routera. Jeśli mechanizmy wirujące wentylatorów są nienaruszone, wówczas wadliwy przełącznik zwykle źle funkcjonuje na poziomie oprogramowania, albo przez nieoczekiwane wyłączenie portu przełącznika, albo częściej, wykazując niezwykłe zachowanie, takie jak upuszczanie pakietów, powodowanie różnych poziomów zakłóceń w ruchu lub niepoprawna zmiana ustawienia zdefiniowane przez użytkownika, ale nie jest o to proszony.

Sieciowy gigant Cisco reklamuje jeden ze swoich routerów jako mający MTBF wynoszący 188 574 godzin dla modelu Cisco Catalyst 3750G-24TS. Jeśli podzielimy to przez 8765.81277 (liczbę godzin w ciągu roku), to zobaczymy, że model ten ma oszacowanie MTBF na około 21,5 lat. Ta liczba jest pewna, gdy weźmiesz pod uwagę, że ten sprzęt musi działać dobrze 24/7 bez winy, chociaż w rzeczywistości jest to po prostu oznaka jego niezawodności. Mimo to daje użytkownikom wiedzę, jak długo może trwać ten sprzęt.

Odporna moc

Zasilacze bezprzerwowe (UPS) podłączone do dużej liczby akumulatorów mogą zapewnić zasilanie zapasowe w przedsiębiorstwie podczas krótkiego okresu, zanim generatory uruchomią się podczas przerwy w zasilaniu. Niektóre awarie oprogramowania mogą wystąpić w UPS, tak jak w przypadku każdego elementu wyposażenia, ale ogólnie baterie, z których czerpią energię, zwykle powodują najwięcej obaw. Jeśli akumulator UPS jest często wyłączany i ładowany, jego pojemność zmniejsza się szybciej, a jego czas działania znacznie się skraca. Nic dziwnego, że baterie UPS mogą całkowicie ulec awarii. UPS może raportować za pośrednictwem modemów i sieci, gdy pojawią się usterki, ale częściej starsze UPS będą wyzwalały dźwiękowe alarmy, gdy pojawi się pierwszy problem.

Bez błędów, bez stresu - Twój przewodnik krok po kroku do tworzenia oprogramowania zmieniającego życie bez niszczenia życia

Nie możesz poprawić swoich umiejętności programistycznych, gdy nikt nie dba o jakość oprogramowania.

Przechowywanie chronione

Dyski twarde, których używamy dzisiaj i na których tak bardzo polegamy, stały się znacznie bardziej niezawodne w ciągu ostatniej dekady. Są jednak dalekie od niezawodności i, w zależności od badania, w które możesz uwierzyć, wydają się działać poprawnie przez dłuższy okres, w zależności od wielu czynników. (Świetną opinię na ten temat można znaleźć tutaj w The Remarketer.) Jeśli szczegółowe raportowanie jest włączone, a dysk przekazuje informacje zwrotne o błędach, wówczas uszkodzone sektory i błędy odczytu / zapisu są kluczem do wykrycia, kiedy dysk w macierzy pamięci zawodzi. Innym częstym problemem na serwerach korzystających z kilku dysków podłączonych do kontrolera RAID jest to, że sam kontroler ulegnie awarii. Niestety, czasami dyski twarde po prostu przestają działać bez żadnego ostrzeżenia, co jest problemem, przed którym trudno jest niezawodnie się zabezpieczyć.

Serwery

Oprócz napędów wbudowanych w serwery i ruchomych części, takich jak wspomniane wentylatory chłodzące i zasilacze, w komponentach sprzętowych serwerów może również wystąpić szereg problemów. Raportowanie na poziomie oprogramowania (które zwykle odnosi się do systemu BIOS lub innej niskopoziomowej diagnostyki komponentów sprzętowych) jest kluczem do wykrycia, kiedy coś się nie powiedzie lub, co ważniejsze, wykazuje oznaki niepowodzenia. Jednym z problemów, który może nie być od razu oczywisty, jest problem dotyczący płyt głównych. To ma sens, że maszyny nie lubią zbyt dużej ilości ciepła. Ale nawet dzisiaj, jeśli nowoczesna płytka drukowana zostanie poddana szybkiej utracie ciepła - lub zmieni się z bardzo gorącej w nagłą, nagle stanie się zimna - mogą pojawić się pęknięcia, powodujące katastrofalną awarię płyty. Należy o tym pamiętać, zwłaszcza jeśli przenosi się sprzęt między budynkami w ramach okien serwisowych bez wybaczenia.

MTBF: To też może zawieść

Równie przydatne, jak przewidywania MTBF, są ważne przy obliczaniu poziomów dopuszczalnego ryzyka za pomocą dowolnego sprzętu, na którym firma musi polegać. Niestety, nawet przy wszystkich zapewnieniach statystycznych zapewnionych przez producentów, jedynym konkretnym sposobem zagwarantowania dostępności sprzętu, który obsługuje krytyczne systemy, jest podwojenie go w celu umożliwienia przełączenia awaryjnego.

Każdy element sprzętu używany w przedsiębiorstwie składa się z wielu różnych komponentów, więc prawdziwy MTBF nie jest łatwym obliczeniem. Oczywistym jest, że kluczowe jest, aby nie opierać przyszłości firmy na tych pomiarach prawdopodobieństwa, ale zamiast tego wykorzystywać je jako miernik do podejmowania świadomych decyzji dotyczących ciągłości biznesowej i procedur odzyskiwania po awarii. W końcu ograniczenie przestojów dzięki drobiazgowemu planowaniu z wyprzedzeniem może oznaczać różnicę między udanym biznesem a porażką biznesową.