在關(guān)鍵系統(tǒng)中降低災(zāi)難性硬件故障引起的損失
但是,很少有OEM廠商在如何針對(duì)電源單元(PSU)問(wèn)題做出反應(yīng)方面為最終用戶提供選擇。例如,考慮一個(gè)運(yùn)行繁忙的電子商務(wù)網(wǎng)站的任務(wù)關(guān)鍵服務(wù)器。如果系統(tǒng)檢測(cè)到過(guò)壓情況,服務(wù)器很可能會(huì)立即關(guān)閉以保護(hù)硬件。反應(yīng)如此快使得系統(tǒng)無(wú)法軟關(guān)機(jī),因此很可能會(huì)丟失數(shù)據(jù)并失去潛在的客戶。
在許多情況下,數(shù)據(jù)要遠(yuǎn)比硬件重要,根據(jù)問(wèn)題的類(lèi)型,在允許系統(tǒng)軟關(guān)機(jī)的情況下仍可使硬件風(fēng)險(xiǎn)最低。俗話說(shuō)“條條大路通羅馬”,系統(tǒng)設(shè)計(jì)的目標(biāo)是使系統(tǒng)在此時(shí)的總體損失最小,因此處理電源問(wèn)題的方法也不止一種。
幾乎任何類(lèi)型系統(tǒng)中都會(huì)發(fā)生的一種情形是電源故障導(dǎo)致電壓下降。圖1給出了一個(gè)簡(jiǎn)單的例子,利用Analog Devices公司ADM1024等系統(tǒng)硬件監(jiān)測(cè)IC來(lái)監(jiān)測(cè)兩路獨(dú)立電源。對(duì)ADM1024器件進(jìn)行編程,當(dāng)電壓高于預(yù)先編程設(shè)定的一個(gè)電壓數(shù)值或低于另一個(gè)預(yù)先設(shè)定的電壓數(shù)值時(shí),器件將產(chǎn)生一個(gè)中斷,也就是說(shuō),該器件為每個(gè)電壓通道提供了一個(gè)內(nèi)置的窗口比較器。如果一路電源的電壓輸出開(kāi)始漂移,那么當(dāng)輸出超出編程設(shè)定的電壓范圍時(shí),器件將會(huì)自動(dòng)產(chǎn)生一個(gè)中斷。然后由系統(tǒng)管理控制器決定如何針對(duì)這一信息做出響應(yīng)。請(qǐng)注意獨(dú)立的過(guò)壓保護(hù)機(jī)制,這是為了在嚴(yán)重過(guò)壓時(shí)實(shí)現(xiàn)硬件保護(hù)。還有這樣的可能性,就是在系統(tǒng)管理控制器從系統(tǒng)監(jiān)測(cè)電路中讀取電壓數(shù)值并決定行動(dòng)方式時(shí),系統(tǒng)電壓可能會(huì)上升到危險(xiǎn)的水平。最終是否需要此類(lèi)保護(hù)電路取決于每個(gè)電源的故障機(jī)制是否會(huì)導(dǎo)致PSU故障過(guò)程中出現(xiàn)危險(xiǎn)性的過(guò)壓情況。
圖1 監(jiān)測(cè)兩個(gè)獨(dú)立的PSU
圖2 PSU故障時(shí)的可能響應(yīng)
圖3 管理不同級(jí)別的故障
圖2中的流程圖示出了可供用戶選擇的可能操作,需要指出的重要一點(diǎn)是電源出現(xiàn)問(wèn)題時(shí)數(shù)據(jù)備份的方式。當(dāng)系統(tǒng)電源不穩(wěn)定時(shí),如果用戶試圖保存數(shù)據(jù)很容易導(dǎo)致數(shù)據(jù)破壞。這種狀態(tài)下的連續(xù)操作很容易損壞整個(gè)數(shù)據(jù)庫(kù),從而使得整個(gè)電源故障響應(yīng)機(jī)制出現(xiàn)問(wèn)題。如果保護(hù)未保存數(shù)據(jù)的成本遠(yuǎn)小于數(shù)據(jù)丟失的成本,那么可以為緊急關(guān)機(jī)提供一個(gè)替代存儲(chǔ)位置。
通過(guò)將當(dāng)前事務(wù)拷貝到一個(gè)替代位置(例如,拷貝到非易失性RAM或備用硬盤(pán)驅(qū)動(dòng)器中)以便進(jìn)行事后分析,可以將損壞已穩(wěn)定數(shù)據(jù)區(qū)域的可能性降到最小。如果能夠通過(guò)這種方式保存當(dāng)前數(shù)據(jù),那么即使受到一定的破壞,仍有機(jī)會(huì)恢復(fù)數(shù)據(jù)。
不管怎樣,在系統(tǒng)設(shè)計(jì)時(shí)都可以確定哪種電源故障狀態(tài)容易導(dǎo)致數(shù)據(jù)破壞,同時(shí)通過(guò)縮小電源監(jiān)測(cè)IC的窗口比較器范圍來(lái)降低數(shù)據(jù)破壞的可能性。
結(jié)合其它監(jiān)測(cè)到的信息,包括遠(yuǎn)程溫度、IRQ、風(fēng)扇速度等,可以獲得系統(tǒng)故障的更確切情況,從而使設(shè)計(jì)人員可更好地針對(duì)不同情況做出反應(yīng)。
然而,響應(yīng)速度最快的方式是利用監(jiān)測(cè)IC中斷來(lái)報(bào)告可能的系統(tǒng)問(wèn)題,中斷表明系統(tǒng)出現(xiàn)了故障,然后系統(tǒng)管理控制器立即對(duì)這一信息做出反應(yīng)。在系統(tǒng)中,PSU自身問(wèn)題會(huì)很快表現(xiàn)出來(lái),而對(duì)有些問(wèn)題,系統(tǒng)管理控制器讀取寄存器并試圖形成解決方案的過(guò)程可能就太慢了。解決這一問(wèn)題的方法是利用兩片監(jiān)測(cè)IC,如Analog Devices公司的ADM1024(參看圖3)。每片IC的19引腳(Vccp1)連接在一起。在一片IC上,對(duì)窗口比較器編程來(lái)監(jiān)測(cè)較小的PSU問(wèn)題;在第二片IC上,對(duì)窗口比較器編程來(lái)監(jiān)測(cè)更為嚴(yán)重的問(wèn)題(比如,其界限可編程為接近系統(tǒng)安全工作的最大和最小額定電壓)。來(lái)自第一片監(jiān)測(cè)IC的中斷使系統(tǒng)通知用戶出現(xiàn)問(wèn)題,并立即執(zhí)行預(yù)設(shè)定的策略,將服務(wù)中斷造成的影響降到最小。來(lái)自第二片IC的中斷表明系統(tǒng)處于崩潰的危險(xiǎn)邊緣,系統(tǒng)應(yīng)當(dāng)采用更為迫切的反應(yīng)措施。
盡管這種機(jī)制的可行性要視系統(tǒng)而定,但通常在檢測(cè)到系統(tǒng)出現(xiàn)問(wèn)題時(shí)并不是只有立即關(guān)閉系統(tǒng)一種選擇,還有許多其它的選擇。主動(dòng)監(jiān)測(cè)一系列系統(tǒng)參數(shù)能夠提供足夠的信息來(lái)構(gòu)建對(duì)硬件和數(shù)據(jù)最安全的解決方案,從而最終節(jié)約大量成本?!?
評(píng)論