基于FPGA的三模冗余容錯(cuò)技術(shù)研究
摘要:基于SRAM的FPGA對(duì)于空間粒子輻射非常敏感,很容易產(chǎn)生軟故障,所以對(duì)基于FPGA的電子系統(tǒng)采取容錯(cuò)措施以防止此類故障的出現(xiàn)是非常重要的。三模冗余(TMR)方法以其實(shí)現(xiàn)的簡(jiǎn)單性和效果的可靠性而被廣泛用于對(duì)單粒子翻轉(zhuǎn)(SEL7)進(jìn)行容錯(cuò)處理。但傳統(tǒng)TMR方法存在系統(tǒng)硬件資源消耗較多且功耗較大等問題??偨Y(jié)了傳統(tǒng)TMR方法存在的問題,分析了一些近年來出現(xiàn)的改進(jìn)的TMR方法的優(yōu)劣,針對(duì)其存在問題指出了改進(jìn)策略,并展望了TMR技術(shù)的發(fā)展趨勢(shì)。
關(guān)鍵詞:TMR;容錯(cuò);FPGA;SEU;重構(gòu)
0 引言
基于SRAM的現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)對(duì)于帶電粒子的輻射特別敏感,尤其是近年來高密度集成芯片的出現(xiàn),電路容量增大、操作電壓降低使得它們?cè)谳椛洵h(huán)境下的可靠性降低。其中軟故障是主要的故障,它是由粒子和PN結(jié)相互作用引起的一種暫態(tài)故障,軟故障對(duì)在基于SRAM的FPGA上實(shí)現(xiàn)的電路具有特別嚴(yán)重的影響。由于三模冗余(Triple Modular Redundancy,TMR)技術(shù)簡(jiǎn)單性以及高可靠性,它是一個(gè)被廣泛使用的針對(duì)于FPGA上的單粒子翻轉(zhuǎn)(Single-Event Upset,SEU)的容錯(cuò)技術(shù)。文獻(xiàn)中表明TMR大幅度提高了FP-GA在SEU影響下的可靠性。盡管TMR能有效提高設(shè)計(jì)的可靠性,但是由于要實(shí)現(xiàn)額外的模塊與布線,它對(duì)硬件資源以及功耗消耗較大,而且工作速度也受到影響。這都限制了傳統(tǒng)TMR的使用。隨著電子技術(shù)特別是部分可重構(gòu)技術(shù)發(fā)展,出現(xiàn)了多種改進(jìn)的TMR技術(shù),它們都針對(duì)性地解決了傳統(tǒng)TMR方法所存在的問題,使得TMR技術(shù)得到發(fā)展。本文首先介紹了傳統(tǒng)TMR的原理,接著總結(jié)了其所存在的問題,然后對(duì)改進(jìn)的TMR技術(shù)的優(yōu)劣進(jìn)行了全面的分析,最后對(duì)TMR技術(shù)發(fā)展趨勢(shì)進(jìn)行了展望。
1 常規(guī)TMR方法及存在的問題
TMR的基本概念是用三個(gè)相同的模塊分別實(shí)現(xiàn)相同的功能,最后在輸出口通過一個(gè)多數(shù)表決器對(duì)數(shù)據(jù)進(jìn)行選擇以實(shí)現(xiàn)容錯(cuò)的目的。TMR的使用是建立在某一個(gè)時(shí)刻錯(cuò)誤只出現(xiàn)在一個(gè)模塊里的基礎(chǔ)上,而實(shí)際上,因?yàn)樵诓煌哪K里同時(shí)出錯(cuò)的概率是比較低的,而且實(shí)現(xiàn)過程直接、簡(jiǎn)單,所以TMR是現(xiàn)在比較有效且被大量使用的一種容錯(cuò)的方法。TMR主要被廣泛用于防止由輻射引起的SEU對(duì)系統(tǒng)的影響,由于它的使用使FPGA在SEU影響下的可靠性得到很大提高。常規(guī)TMR方法的基本結(jié)構(gòu)如圖1所示。
盡管TMR可以有效提高設(shè)計(jì)的可靠性,但是它也存在很多不足之處。主要有以下幾點(diǎn):
(1)它不能對(duì)出錯(cuò)的模塊進(jìn)行修復(fù)。當(dāng)一個(gè)模塊出錯(cuò)后,我們只是將錯(cuò)誤通過多數(shù)表決器屏蔽,但是錯(cuò)誤模塊仍然存在。而且一般的TMR也不能對(duì)錯(cuò)誤進(jìn)行檢測(cè)和定位,以便系統(tǒng)進(jìn)行修復(fù)。如果出現(xiàn)的錯(cuò)誤得不到及時(shí)修復(fù),那么當(dāng)再次出現(xiàn)錯(cuò)誤時(shí)TMR將失效。
(2)很多研究只是考慮到單個(gè)錯(cuò)誤的影響,而忽略了多個(gè)SEU同時(shí)出現(xiàn)的可能,盡管出現(xiàn)這種情況的概率較低,但卻是存在的。實(shí)驗(yàn)也表明TMR對(duì)減弱單個(gè)SEU產(chǎn)生的影響是非常有效的,但SEU在配置存儲(chǔ)器中積累會(huì)使效果降低。
(3)普通TMR資源開銷大,資源利用率低。普通TMR是對(duì)整個(gè)設(shè)計(jì)或者較大的模塊進(jìn)行三模冗余,粒度比較大,它的資源開銷相比原始電路增大200%。如果受到FPGA硬件資源和功耗等設(shè)計(jì)約束的限制不能對(duì)整個(gè)電路或者模塊實(shí)現(xiàn)TMR,那么會(huì)造成資源浪費(fèi)。
(4)由于電路的倍增使得功耗增大,而且由于表決器的存在以及其他一些額外的布線使得速度降低。
(5)表決器本身也可能出錯(cuò),而一般的TMR的表決器沒有自檢錯(cuò)能力,也不具備抗輻射能力。
(6)當(dāng)采用三模冗余的電路驅(qū)動(dòng)沒有采用冗余的電路時(shí),需要一個(gè)表決器將三個(gè)信號(hào)合為一個(gè)信號(hào)。當(dāng)沒有采用冗余的電路驅(qū)動(dòng)采用三模冗余的電路時(shí)需要通過額外的布線將一路信號(hào)擴(kuò)展稱為三路信號(hào)。因?yàn)檫壿嬰娐泛筒季€資源都對(duì)SEU敏感,所以這樣的結(jié)果會(huì)降低系統(tǒng)可靠性。
評(píng)論