
我們將從(cong)“關鍵設(she)施管理”的(de)角度重點介紹與運(yun)營數據中(zhong)心相關的(de)基本最佳實踐。這涉及對建(jian)筑(zhu)基礎(chu)架構的(de)監視,管理和(he)維護,最終(zhong)支持安裝IT負(fu)載(zai)及其提供的(de)服(fu)務。這方面的(de)基本要素是確(que)保(bao)由數據中心托管的(de)服(fu)(fu)務(wu)的(de)連續性,并確(que)保(bao)這些服(fu)(fu)務(wu)所依賴的(de)基礎結構的(de)正常運行。
應采用這些做(zuo)法,以(yi)達(da)到設計站(zhan)點(dian)所(suo)期(qi)望的可用性(xing)或彈性(xing)水(shui)(shui)平。但(dan)是(shi),應該注意的是(shi),如(ru)果未將站(zhan)點(dian)設計,構建或事先(xian)維護為維持企(qi)業所(suo)需(xu)的可用性(xing)水(shui)(shui)平所(suo)需(xu)的水(shui)(shui)平,則任何數量(liang)的監視,管(guan)理或維護都(dou)無(wu)法達(da)到可用性(xing)或彈性(xing)水(shui)(shui)平。
數據中心設(she)施運營管(guan)理和現場管理
現(xian)場(chang)關(guan)鍵設(she)施/機(ji)(ji)電(dian)工程團隊應至少在(zai)現(xian)場(chang)運行前六(liu)周安裝在(zai)現(xian)場(chang),以確(que)保所有文檔都是(shi)完(wan)整(zheng)和準(zhun)確(que)的,現(xian)場(chang)流(liu)程和程序是(shi)經過嚴格測試的,并且(qie)團隊具有有機(ji)(ji)會重新配置和操作站(zhan)點基礎結構,而(er)沒(mei)有附加實時負(fu)載。
如果(guo)可能的(de)(de)話,請車記(ji)以(yi)上(shang)幾點(dian),提供(gong)機會讓(rang)現(xian)場(chang)(chang)(chang)團(tuan)(tuan)隊(dui)參與設計(ji)過程,以(yi)確(que)(que)保潛在(zai)的(de)(de)可靠現(xian)場(chang)(chang)(chang)操(cao)作(zuo)和維護。另外,讓(rang)現(xian)場(chang)(chang)(chang)團(tuan)(tuan)隊(dui)參與調試過程,以(yi)驗證已安裝的(de)(de)基礎結構的(de)(de)正(zheng)確(que)(que)運行(xing),還使現(xian)場(chang)(chang)(chang)工程團(tuan)(tuan)隊(dui)有(you)機會參與到現(xian)場(chang)(chang)(chang)屏蔽列表的(de)(de)開發中,并最(zui)終簽署(shu)以(yi)正(zheng)確(que)(que)完成工作(zuo)。一(yi)旦承(cheng)包商(shang)移交(jiao)了(le)《操作(zuo)和(he)(he)維護》手(shou)冊,所有內部(bu)人員,承(cheng)包商(shang)和(he)(he)供(gong)應(ying)商(shang)都(dou)必須使這些文(wen)件(jian)保持最新(xin)和(he)(he)準確。此外(wai),“竣工(gong)時間(jian)”記錄圖(tu)也應(ying)不(bu)斷更新(xin),以反映安裝的最新(xin)狀態,以反映對該站點(dian)所做的任何(he)更改或(huo)添(tian)加。
在進行所有維護或項目活動之前,應編制方法聲明并與包括服務客戶在內的所有各方達成協議。就其自身的通知要求而言,使客戶了解任何站點維護或項目活動非常重要。這包括用于維護服務協議或告知可能導致的任何潛在服務中斷或風險的預防措施。
數據中心關鍵站點預算
關鍵(jian)站點(dian)預算應(ying)嚴(yan)格(ge)控制,并與非關鍵(jian)站點(dian)預算分開(kai),以減少在不了(le)解不可避(bi)免后果的情況下侵蝕資金(jin)的機會。
除(chu)了(le)要(yao)對(dui)他們負責(ze)操(cao)作(zuo)或維(wei)護(hu)的(de)(de)任何系統(tong)進行詳細(xi)培訓(xun)外,所(suo)(suo)有新(xin)的(de)(de)現(xian)場工作(zuo)人員或訪客都應接受(shou)與現(xian)場相關的(de)(de)特定規則和安(an)全(quan)方(fang)面的(de)(de)培訓(xun)。為(wei)確保這一(yi)點到位,應為(wei)所(suo)(suo)有現(xian)場工作(zuo)人員提供完(wan)整的(de)(de)記錄(lu)并定期更新(xin)的(de)(de)培訓(xun)計劃。
應(ying)該可以(yi)使用顯示命(ming)令鏈和職責的組織(zhi)結構圖,詳細說明設施管理(li),IT和安(an)全組之間的所有(you)(you)接(jie)口。這(zhe)應(ying)該包括一(yi)個(ge)角色和責任矩陣(zhen),該矩陣(zhen)涵蓋數據中心的所有(you)(you)活動以(yi)及關鍵設施的工作描述。
全面(mian)的(de)文檔庫應(ying)隨時可供站(zhan)點工作(zuo)人員參考,并不斷(duan)進行(xing)更新。其中應(ying)包(bao)括(kuo)最新的(de)竣工”圖紙,調試(shi)記(ji)錄,維(wei)護記(ji)錄,培(pei)訓記(ji)錄和(he)證(zheng)明,準確(que)的(de)運(yun)維(wei)手冊,現場政(zheng)策和(he)程序等。
應(ying)(ying)維護完整,準確(que)且定(ding)期更新(xin)的(de)關鍵備件(jian)清單,包(bao)括(kuo)關鍵供應(ying)(ying)商(shang)(shang)詳細信息和重新(xin)供應(ying)(ying)訂單點(dian)通知。現(xian)場操作(zuo)員應(ying)(ying)與供應(ying)(ying)商(shang)(shang)商(shang)(shang)定(ding)最有可能失敗的(de)關鍵備件(jian)庫存(cun),因此應(ying)(ying)避免這(zhe)種情況發生。
這(zhe)樣的(de)(de)(de)做(zuo)法可(ke)以(yi)大(da)大(da)減(jian)少平均修復時(shi)間(jian)(jian)(或恢復時(shi)間(jian)(jian),MTTR),即(ji)可(ke)靠性(xing)和(he)(he)可(ke)用性(xing)計算中使(shi)用的(de)(de)(de)數(shu)字。此外,維護(hu)合同應(ying)包含保(bao)證的(de)(de)(de)最(zui)大(da)呼出時(shi)間(jian)(jian)。確(que)(que)保(bao)采用和(he)(he)維護(hu)準確(que)(que)且不斷(duan)更新(xin)的(de)(de)(de)風(feng)(feng)險登記(ji)冊。這(zhe)應(ying)該包括(kuo)風(feng)(feng)險通知和(he)(he)風(feng)(feng)險緩解以(yi)及潛在(zai)風(feng)(feng)險本身的(de)(de)(de)全(quan)面(mian)(mian)記(ji)錄。應(ying)該對所有基(ji)礎設施組件進(jin)行清晰,準確(que)(que)和(he)(he)全(quan)面(mian)(mian)的(de)(de)(de)標(biao)記(ji),以(yi)便于(yu)識別和(he)(he)跟蹤分(fen)發(fa)路徑。這(zhe)還應(ying)包括(kuo)閥門,開關(guan),斷(duan)路器(qi)(qi),指(zhi)示(shi)器(qi)(qi)等的(de)(de)(de)正(zheng)常(chang)位置指(zhi)示(shi)器(qi)(qi)(磁性(xing)按鈕或廉(lian)價的(de)(de)(de)彩(cai)色(se)貼紙以(yi)指(zhi)示(shi)正(zheng)常(chang)操(cao)作狀態。旨在(zai)突出顯示(shi)預期位置以(yi)提(ti)供事件發(fa)生時(shi)可(ke)能(neng)發(fa)生變化的(de)(de)(de)即(ji)時(shi)視(shi)圖)。對于所有站(zhan)點人員,應在可見的(de)位置(zhi)顯示(shi)突出(chu)顯示(shi)當前(qian)站(zhan)點警報狀態的(de)可視指(zhi)示(shi)器。例如在維護,客戶實地(di)訪(fang)問,恐怖威脅,在發電機(ji)上運行等(deng)過程中面臨增加的(de)風險。
數據中心維護和檢查計劃
應制定(ding)嚴(yan)格的(de)計劃維(wei)護和(he)檢(jian)查(cha)計劃,其中應包(bao)括基于預測和(he)狀況的(de)維(wei)護元素。這可(ke)能(neng)包(bao)括;熱/紅外掃描,振動分(fen)析(xi)(xi),潤滑(hua)液,水,燃料,冷卻液,空氣質量等的(de)定(ding)期(qi)分(fen)析(xi)(xi),以(yi)及維(wei)護記錄和(he)設(she)(she)備性能(neng)及狀況的(de)趨勢分(fen)析(xi)(xi)。定(ding)期(qi)維(wei)護和(he)檢(jian)查(cha)計劃的(de)一個(ge)例(li)子是(shi)定(ding)期(qi)清潔和(he)/或(huo)更換(huan)空氣過濾器(qi)維(wei)護的(de)目的(de)是(shi)將數據中心站點保持在“新狀態(tai)”。這既可(ke)以(yi)減(jian)少由于設(she)(she)備故(gu)障引(yin)起(qi)的(de)操作風險,又可(ke)以(yi)確保設(she)(she)備的(de)操作效率保持較(jiao)高水平,從(cong)而(er)減(jian)少了電能(neng)消(xiao)耗并(bing)因此降(jiang)低了能(neng)源(yuan)成本。
確保(bao)在所有關(guan)鍵設備工(gong)廠(chang)的(de)房(fang)間中都(dou)(dou)可(ke)以(yi)看到(dao),易于(yu)訪問的(de)緊急操作程序,以(yi)及適當(dang)的(de)聯系(xi)電話和上(shang)報(bao)地點。為了幫助(zhu)這個地方(fang),在所有工(gong)廠(chang)房(fang)間中都(dou)(dou)安裝了壁掛式(shi)單線圖(tu)和原(yuan)理(li)圖(tu)。
已定義的(de)程(cheng)(cheng)序應(ying)存(cun)在于所有交(jiao)換操作和維(wei)護(hu)活(huo)動中,應(ying)始(shi)終遵循并(bing)遵循這些程(cheng)(cheng)序。此外,應(ying)該(gai)有一個治理(li)流(liu)程(cheng)(cheng),該(gai)流(liu)程(cheng)(cheng)可(ke)以在簽字之前驗(yan)證任(ren)何維(wei)護(hu)活(huo)動的(de)質量和正確完成的(de)工作。預防性維(wei)護(hu)任(ren)務的(de)完成率應(ying)大于95%。
應記錄數據,以便對設備性能進行長(chang)期趨勢分(fen)析,包括(但不限于(yu)),能源效率,可靠性和維護(hu)開銷(xiao)。
維護成本增加或預期壽命終止來安排設備更換并為其提供資金
應(ying)保存所(suo)有保存,未命中,事件(jian),關鍵事件(jian)以(yi)及任(ren)何影(ying)響停機的(de)(de)服(fu)務的(de)(de)記錄(lu),包括(kuo)日期,時間,人員(yuan),所(suo)涉及的(de)(de)設備,根本原因分析的(de)(de)結(jie)果(guo)以(yi)及任(ren)何經驗教訓(xun)。這應(ying)具有預(yu)測(ce),識別和減(jian)輕風險或(huo)采取糾(jiu)正措施以(yi)防止(zhi)再次(ci)發生的(de)(de)能(neng)力(li)。
在公(gong)用電(dian)源故障后啟動發電(dian)機(ji)(ji)可(ke)能(neng)是(shi)數據(ju)中心站點(dian)持續運行中的(de)(de)薄弱環(huan)節。因此,至關重要的(de)(de)是(shi),發電(dian)機(ji)(ji)必須(xu)得(de)到良(liang)好的(de)(de)維護和測試。應檢(jian)查發電(dian)機(ji)(ji)的(de)(de)電(dian)池(chi),并按照制(zhi)造(zao)商的(de)(de)建議按預定的(de)(de)預定時間表啟動發電(dian)機(ji)(ji)。
發(fa)電機應(ying)定期(至少(shao)每年一次)在整個(ge)建筑物中運行,以模擬(ni)總(zong)的(de)公用事業電源故障(zhang)。這(zhe)通(tong)常被稱為“黑色建筑測試(shi)(shi)”。許多運營商(shang)由于(yu)感(gan)知到(dao)的(de)風險而(er)避開了該測試(shi)(shi),但是事實(shi)證(zheng)明,對于(yu)許多數據中心而(er)言,不執行此測試(shi)(shi)并保證(zheng)這(zhe)些系統的(de)正(zheng)確運行將(jiang)帶來(lai)更大的(de)風險。沒有執行此測試(shi)(shi)的(de)直(zhi)接(jie)結果(guo)是,發(fa)生了幾起廣(guang)為人知的(de)停機。


























































































































