【導(dǎo)讀】當(dāng)一個(gè)IT解決方案在生產(chǎn)階段進(jìn)展不順時(shí),項(xiàng)目小組應(yīng)根據(jù)項(xiàng)目自身所準(zhǔn)備、計(jì)劃并測試好的一個(gè)流程去采取一些措施。
為了挽回這艘輪船的名譽(yù),泰坦尼克的高管們試圖避免碰撞。然而, S型轉(zhuǎn)彎方法雖好,但還是未能大大減慢輪船的行駛速度。泰坦尼克號后來終于慢慢停了下來,有成百個(gè)乘客是這樣描述的:在持續(xù)幾秒鐘的震動及隆隆聲中,輪船仿佛在一大堆大理石上翻轉(zhuǎn)了一下。
船不是“突然停止的”,因此幾乎沒有受到什么損傷。側(cè)面也沒有什么大的搖晃,整條船也沒有反復(fù)的擺動。當(dāng)一艘輪船在采取了一定的措施來減輕側(cè)撞時(shí),一般都可以產(chǎn)生這種情況。擺放在餐廳的早餐餐具幾乎沒有晃動,放在一等艙吸煙室及休息室的飲料也沒有灑出來。所有的跡象表明輪船被擱在了冰山的冰架上。麥多克阻止了船頭直接與冰山相撞,如果那樣相撞的話,前4個(gè)艙廂會撞壞,成百名乘客將遇難或致殘。
同樣的,當(dāng)一個(gè)IT解決方案在生產(chǎn)階段進(jìn)展不順時(shí),項(xiàng)目小組應(yīng)根據(jù)項(xiàng)目自身所準(zhǔn)備、計(jì)劃并測試好的一個(gè)流程去采取一些措施。此流程必須基于一個(gè)平均修復(fù)時(shí)間時(shí)鐘,這是為了盡可能快地得到實(shí)時(shí)的IT解決方案以滿足服務(wù)級別協(xié)議(SLAs)的首要目標(biāo)。然后在后臺可以修補(bǔ)解決方案,這個(gè)修補(bǔ)可以是暫時(shí)的也可以是永久的。
然而,在方案投入運(yùn)行前,方案的完整性必須先建立好,這樣問題才不會再發(fā)生。操作人員可以通過時(shí)鐘來檢查流程及監(jiān)測、判定、方案及修復(fù)這四個(gè)“問題”象限。當(dāng)平均修復(fù)時(shí)間(MTTR)時(shí)鐘開始記時(shí),就標(biāo)志著服務(wù)(一次意外事件,參看第2節(jié))失敗的開始,必須為用戶意外時(shí)間制定標(biāo)準(zhǔn),這樣可以評估有多少用戶服務(wù)丟失以及丟失持續(xù)的時(shí)間。
這比通常用的以百分比(例如99.999%)來衡量服務(wù)的效用性要精確得多。泰坦尼克的問題監(jiān)測信號是來自于守望員發(fā)出的長達(dá)37秒鐘的警告。這對IT解決方案來說并沒有多少相同之處,后者可能是在任何重要失敗出現(xiàn)之前就消除錯(cuò)誤并提出警告。這首先就讓操作人員有時(shí)間去采用自動的或手動的操作行動來預(yù)防問題的出現(xiàn)。
泰坦尼克號的船長、主管以及高管聚集在橋樓決定采取什么措施。由于損傷的程度也是問題的一部分,因此船上分布了兩個(gè)搜索救援組,一個(gè)在船頭,一個(gè)在船中央。第一個(gè)小組在10分鐘內(nèi)返回并匯報(bào)沒有大的損傷或進(jìn)水。在主管布魯斯.伊斯梅看來,問題監(jiān)測及判定現(xiàn)在是完整的。使用求救呼號的決定對他來說是個(gè)問題,因?yàn)檫@樣做會有損白星公司在業(yè)界的地位,并且會破壞泰坦尼克號的廣告效應(yīng),摧毀一度輝煌的行銷(參看第2 節(jié)和第5節(jié)),這種行銷曾吸引了世界上不少富人踏上這艘號稱最安全的輪船。
另一個(gè)較好的解決方案是讓輪船返回哈利法克斯,遠(yuǎn)離紐約和世界新聞中心。然后他可以制造出更好的新聞故事,將事故忽視為一次小意外。他能夠?qū)⒊丝娃D(zhuǎn)送上火車,再對輪船進(jìn)行修補(bǔ),或者把輪船送回貝爾法斯特修補(bǔ)。事實(shí)上,他可以大膽地宣布泰坦尼克號自身采用了新興技術(shù),是一艘救生船,能夠把自己從一次巨大的災(zāi)難中救回,因而能為白星公司作一次更好的安全性宣傳。
對今天的IT解決方案來說,問題的結(jié)論考慮了該方案給用戶造成的影響。結(jié)論必須與有效跡象相一致。對反饋機(jī)制及日志的再調(diào)查對于判斷問題是否擴(kuò)大了以及擴(kuò)大的原因是什么至關(guān)重要。
在一個(gè)復(fù)雜的IT解決方案里,常常能看到多米諾效應(yīng),即諸如一個(gè)子系統(tǒng)這樣小的有缺陷的因素會激發(fā)一系列問題。如果不分析出事情進(jìn)展的精確信息,這可能會導(dǎo)致一次錯(cuò)誤的判斷――產(chǎn)生一次錯(cuò)誤的修補(bǔ)并且問題重新發(fā)生。只有找到問題的最根本原因并得以證實(shí)才算完成了判斷。
對一個(gè)IT解決方案來說,肯定手邊的證據(jù)以及詢問下面幾個(gè)問題非常重要。是否意識到IT解決方案會失敗?如果是的話,是否嘗試了一些(自動化的)預(yù)防措施?它向人工或自動化的操作員發(fā)出了警報(bào)嗎?反饋機(jī)制是否有問題并且提供了不可靠的數(shù)據(jù)?對問題的判斷準(zhǔn)確嗎?
泰坦尼克號的情況是緊急的,但還不到災(zāi)難性這一步。伊斯梅急于挽回顏面,他害怕白星公司的名聲受損,這使得周邊的環(huán)境很容易出錯(cuò)。泰坦尼克號安靜地靠在水下的冰架上,這使它看起來十分安穩(wěn)。也許細(xì)心一些他們就能以最小的損傷全身而退。伊斯梅倉促行動做出了草率的決定。第二搜索救援組(里面有造船人員和木匠)還來不及返回并給予評估。
今天的IT項(xiàng)目從中所獲取的經(jīng)驗(yàn)是:在解決問題時(shí),必須在搜集好所有數(shù)據(jù)信息的前提下,分析每個(gè)解決方案所帶來的風(fēng)險(xiǎn)性,再考慮選擇最合適的解決方案。要不然就得靠最后第四象限的修復(fù)階段了。在這個(gè)階段里,操作小組會根據(jù)服務(wù)級別協(xié)議(SLAs)即時(shí)撤回IT解決方案,并讓服務(wù)再重新開始。
就泰坦尼克號來說,不是所有采取的措施都是完全依據(jù)問題的解決方案。伊斯梅做出了致命的決定,給輪機(jī)艙打電話讓船向前開,想以最低速度來改變當(dāng)時(shí)的情況。輪機(jī)員后來證實(shí)輪船以3哩/小時(shí)的速度前行時(shí)曾發(fā)出過碾碎的聲音。
結(jié)論
今天,許多IT項(xiàng)目由于沒有作好周密準(zhǔn)備,導(dǎo)致流程不能很好地處理有關(guān)平均修復(fù)時(shí)間(MTTR)時(shí)鐘的問題,因而項(xiàng)目在操作階段受到了嚴(yán)重的損傷。一個(gè)流程對于操作小組來說意義重大,因?yàn)樗苁剐〗M快速恢復(fù)服務(wù)并維持服務(wù)水平。一個(gè)流程也應(yīng)具有部門之間的相互制衡機(jī)制(通過審核),以此來最小化在一個(gè)有壓力的環(huán)境下出錯(cuò)的可能性。一個(gè)流程應(yīng)該列出每個(gè)人承擔(dān)的責(zé)任和扮演的角色,以此確保合適的人去制定合適的決策。
【?發(fā)表評論?0條?】