Vyberte stránku

Z PRAXE : Chlazení přehřáté serverové místnosti

PRTG network monitoring

Jak chladíte serverovnu, když klimatizační jednotka (AC) nefunguje? A co staré dobré větráky? I když to nemusí znít jako funkční řešení, je to přesně ten nápad, který měl Michael, když čelil přetopené serverové místnosti.

Všichni známe ty dny, které začínají špatně a pak se zhoršují. Přesně tak začal pro Michaela jeden konkrétní den, když dorazil do práce, aby zjistil, že bezpečnostní siréna jeho kancelářské budovy houká. Nakonec zjistil, že to způsobila jeho serverovna.

Ukázalo se, že serverovna se přes noc přehřála a jeden z jeho ranních kolegů otevřel okno v serverovně ve snaze ji ochladit. Problém byl v tom, že okna byla vybavena kontaktními senzory, které při otevření spustily bezpečnostní alarm. Což vysvětlovalo, proč se spustila siréna.

Ale proč se serverová místnost vůbec přehřála?

Odpovědí je kombinace starého hardwaru a smůly. Jak už to tak bývá, serverovna měla hlavní i záložní chladící jednotku. Obě AC jednotky byly staré a neměly síťové rozhraní, takže je IT tým nemohl přímo monitorovat. Místo toho monitorovali teplotu samotné serverové místnosti pomocí teplotního senzoru IoT a PRTG.

    Předchozí den PRTG naznačil, že teplota v serverovně stoupá a klesá. Po nějakém vyšetřování zjistili, že hlavní AC jednotka nefunguje správně. Vypnuli ji a přepnuli chlazení na záložní klimatizační jednotku. Zároveň zavolali klimatizačního technika, aby přijel druhý den. Nevěděli však, že v záložní AC jednotce téměř došla chladicí kapalina (což by mohli vědět, kdyby to monitorovali).

    Přes noc došlo v záložní AC jednotce chladicí kapalina a přestala fungovat, což způsobilo zvýšení teploty v serverové místnosti. A problém byl na světě.

    Několik serverů bylo nakonfigurováno tak, aby se vypnuly, když bylo dosaženo určité teploty, aby se zabránilo jejich přehřátí. Takže druhý den ráno tým IT objevil serverovou místnost, která měla teplotu kolem 60 stupňů Celsia, přičemž mnoho jejich systémů bylo vypnuto.

    Prioritou číslo jedna pro Michaela bylo vypnutí sirény, což v tropickém klimatu serverovny vyžadovalo zadání bezpečnostního kódu. Dalším problémem bylo, že se technik klimatizační jednotky neukázal ještě několik hodin a Michael a tým potřebovali co nejdříve uvést systémy do provozu. Koneckonců, znáte uživatele: je jim jedno, jestli je vaše serverovna přehřátá chtějí jen, aby jejich systémy byly co nejdříve v provozu.

    Zprovoznění systémů znamenalo ochlazení serverové místnosti.

    Jak již bylo zmíněno, v serverové místnosti bylo okno, ale nezdálo se, že by místnost dostatečně rychle ochlazovalo. Potřebovali tento proces urychlit.. v tom okamžiku Michael přišel s nápadem použít standardní stolní ventilátory. Řešením bylo otevřít hlavní vchod do budovy a poté umístit pět nebo šest ventilátorů v řadě, aby nasměrovaly chladný zimní vzduch do serverovny. Zní to trochu bláznivě, že?

    Jak říká i Michael: „Byl to tak chabý nápad…ale fungovalo to!“

    Týmu se podařilo snížit teplotu serverovny natolik, aby bylo možné zapnout některé servery a znovu zprovoznit nejdůležitější systémy a služby.

      Jaké to má ponaučení?

      Krize, jako je tato, jsou rychlou cestou k novým znalostem a poznatkům a pro Michaela tomu nebylo jinak. Zde je to, co se naučil ze své zkušenosti:

      1. Sledujte své AC jednotky!

      V dnešní době většina AC jednotek nabízí síťové rozhraní, které vám je umožní monitorovat pomocí softwaru, jako je PRTG. A i když máte starší jednotku, stále ji můžete sledovat pomocí MQTT nebo Modbus TCP připojením k gateway. Znalost stavu vašich klimatizačních jednotek vás může upozornit na potenciální problémy dříve, než nastanou, což vám pomůže sledovat důležité metriky.

      1. Provádějte pravidelné testy AC systému

      Jednotky AC by neměly být případem „nastav a zapomeň“  pravidelně je testujte, abyste se ujistili, že fungují podle očekávání, včetně záložního procesu převzetí služeb při selhání v případě redundantních AC.

      1. Toto jsou dny, které si budete pamatovat celý život

      Jednoho dne, až vaše kariéra systémového správce skončí a vy budete sedět a zírat na oceán, popíjet koktejl a užívat si důchodu, možná si nebudete pamatovat, že byste svým uživatelům nainstalovali nejnovější verzi Windows nebo čistili špinavé klávesnice. Co si budete pamatovat, jsou krizové momenty a chvíle, kdy jste museli najít neobvyklé řešení.

        Máte o produkt zájem?

        2 + 11 =

        Monitoruj.cz

        Nabízíme nástroje a služby pro sledování, se kterými Vám ulehčíme spoustu  rutinní práce, předejdeme možným výpadkům a v neposledním ušetříme peníze Vaší společnosti. Vždyť právě úspory financí jsou aktuálním tématem v současném tržním hospodářství.