電子電路中偶發(fā)故障的成因與探查方法
批量生產的電子產品在投入市場應用后,常會有個別出現(xiàn)一些偶發(fā)故障,退回到廠家實驗室后,施加各種應力進行故障激發(fā)試驗,卻又不能故障再現(xiàn);還有一種情況是研制的有限臺數(shù)樣機產品,長時間拷機運行中,個別臺次有很低概率的偶發(fā)故障,或者可自行恢復,或者經過人工重啟后也能恢復,但人為施加各種應力進行試驗,卻不能再現(xiàn)?;蛘呒词构收显佻F(xiàn)了,卻需要超常規(guī)高應力的激發(fā),在現(xiàn)實工況中,這種應力又根本不會存在,這樣的實驗方法即使有故障再現(xiàn),也缺乏技術支持的說服力。
本文引用地址:http://m.butianyuan.cn/article/202305/446372.htm在生產檢驗階段,批量較大的產品,限于制程過程成本,不太可能做到逐臺的全性能檢驗,只能采用抽樣的方式,抽取少量的樣機進行全性能參數(shù)的測試(大多數(shù)機器做主要參數(shù)測試即可),然后將抽樣樣機的測試結果與預期設計性能指標對比,如果都在指標要求范圍內,則批次性放行。但是這種貌似合理的方法里,卻蘊藏著一個大隱患,就是小概率隱患的機器抽樣時抽不到的問題。
如何確認單臺產品工作狀態(tài)的穩(wěn)定性,以及多臺產品批次生產質量控制的一致性這兩個問題呢?這兩項是產品質量可靠性的核心問題。這兩個問題的成因、機理、檢測方法,是本文研究的主題。
1 方法描述
下面用類比的方法來解釋偶發(fā)故障問題的機理。假設1 個班級,有50 個孩子,兩周后要去市里參加統(tǒng)考,如果100% 的孩子統(tǒng)考都及格則重獎老師。作為老師,一般會先出1 套模擬試卷做摸底測驗,如果摸底的結果是50 個孩子都及格,那兩周后的市統(tǒng)考是不是也一定能保證100% 及格呢?答案自然是不能肯定的。雖然都及格了,但50 個孩子的分數(shù)從60~100 分都有,按照常識判斷,60~65 分的孩子統(tǒng)考不及格的風險概率就會大一些??墒沁@幾個孩子就一定會不及格嗎?答案是也不一定。
每個孩子的實際水平會是一個基數(shù),考試的次數(shù)足夠多,其分數(shù)就會圍繞這個基數(shù)波動,這個基數(shù)就是多次考試結果的均值μ,用(圖1)來解釋,A 孩子多次考試的均值μa = 64,B 孩子的均值為μb = 72,當A 某次考試的種種隨機原因影響,則有一定的小概率跌到60分以下;而B 因為實際水平均值在72 分,即使發(fā)生一些隨機因素影響,即便考砸的后果也能在65 分以上。
圖1
A 和B 這兩類不及格的原因會有所區(qū)別,A 會因為成績均值水平偏低(μa = 64)和隨機概率事件(如題型變化、心理變化等)引起的波動導致小概率性不及格;B 則基本不太會因為常規(guī)隨機小概率事件影響導致不及格,但它有另一種隱患,就是可能會因為發(fā)生大的特定意外(如發(fā)燒、牙疼、情感受挫等)而不及格。
因此,為了確保參加市統(tǒng)考的50 個孩子都能及格,就可以針對可能不及格的因素,針對性地做好預防,對A 類孩子強化補課,補課把分數(shù)都提高到80 分以上;對B 類孩子呵護有加,防止考前發(fā)生大的意外,比如封閉管理,清淡飲食,禁止激烈對抗性運動等。做好這兩點,隨機小事件不至于導致不及格,個別大意外不會發(fā)生或者即使發(fā)生也不讓它影響到考試,批量統(tǒng)考不及格問題便迎刃而解。
依據(jù)如上道理,做類比分析,1 臺產品里,假設有50 個參數(shù),每個參數(shù)類比于1 個孩子的成績,參數(shù)的類型有電壓、電流、溫度、扭矩、流量、壓力等,每個參數(shù)在工作中多少總有點波動,但設計師在產品設計上對這些波動也會有一定的容忍度,這個容忍度的邊界便是及格線60 分。在廠區(qū)里拷機的時候設備一切正常,可以理解成摸底考試的每個參數(shù)都在60 分以上。
但到了客戶現(xiàn)場后,工況條件有所變化,這些參數(shù)工作時會有所波動,原來在廠區(qū)A 類的參數(shù)(類比A類的孩子)因現(xiàn)場隨機工況導致波動偶發(fā)偏大,參數(shù)低于60 分臨界值的小概率偶發(fā)故障就可能發(fā)生了。隨機事件在現(xiàn)場是不可消除的,解決方法是提高A 類孩子的均值分數(shù),即使有隨機事件減分的影響,也不至于低于及格線,便可降低整機的故障概率了。
而遠離臨界值余量比較大的B 類參數(shù)(類比為B類的孩子),常規(guī)的一般性波動,不會造成小概率的偶發(fā)故障,但有可能因為突發(fā)大事件工況導致B 類參數(shù)也會超出臨界值,如電機的突然啟停、突然的沖擊振動等。解決方法是抑制大事件的幅度、處理大事件耦合過來的影響程度、提高受擾部分的抗擾能力,便可降低B 類問題的故障概率。
理解了如上的原理,針對偶發(fā)故障的探查方法就可以得出如下幾條思路:
1)對于現(xiàn)場的偶發(fā)故障,故障機器返廠回實驗室后,不必再把故障復現(xiàn)作為首選工作方案,因為這種小概率偶發(fā)故障有可能根本復現(xiàn)不了,就好像A類的孩子,摸底考三五份試卷,不一定肯定會低于60 分,考上千份試卷或許可能有一兩次不及格,但時間成本、試驗費用,又不能接受。
2)根據(jù)故障現(xiàn)象,分析可能導致此問題的被懷疑參數(shù);
3)查出每個被懷疑參數(shù)的臨界值(電學參數(shù)可查閱信號接收入口端的電壓或電流容限[1]);
4)若故障機器不方便返廠,甚至可以找1 臺跟故障機器在設計方案、器件型號和廠家、工藝幾方面完全相同的機器,對被懷疑的問題參數(shù)(數(shù)據(jù)或波形)進行測量;
5)將測試結果與臨界值(類比于60 分及格線)做對比,評估出其大概分數(shù),定性分析看是否在臨界值以上的余量是否夠大;
6)對測量出的在常態(tài)工作下參數(shù)分值都高出60 分余量不多的參數(shù),進行專項整改,提高其常態(tài)均值。然后做批量驗證,如果偶發(fā)小概率故障不再出現(xiàn)的話,整改方案則可評審通過。完美避開故障再現(xiàn)不能實現(xiàn)的難題。這個做法類比對應針對A 類孩子的做法;
7)檢查產品中的功能模塊、以及產品周邊配套的設備,是否有瞬態(tài)啟停的大功率工況。搭建模擬實驗環(huán)境,人為制造這種工況,在相應工況下,測試余量較大的被懷疑相關參數(shù),檢查波動時是否有低于或接近于臨界值的情況,如果有,則針對這種工況下的參數(shù)進行整改,整改后,做單臺測試,模擬干擾工況下,該參數(shù)波動值都能遠離臨界值,整改方案則可評審通過。這個做法類比針對B 類孩子的做法。
2 量化分析
通過對參數(shù)數(shù)據(jù)的風險評估,判斷偶發(fā)故障是否由該參數(shù)引起,僅靠定性判斷既缺乏說服力,也讓技術決策比較困難。因此需要有定量的分析方法。以信號電壓參數(shù)波動導致出現(xiàn)偶發(fā)故障示例來說明量化分析的步驟,以便據(jù)此判斷是否由此參數(shù)導致的偶發(fā)故障、也可根據(jù)分析結果預測實際產品的偶發(fā)故障概率值。
1)首先測試該波形,然后隨機取樣,取樣值數(shù)量應具備統(tǒng)計參考價值,可根據(jù)統(tǒng)計參考價值和實際操作的時間和人力成本綜合決定,推薦適當多取一點,也可根據(jù)統(tǒng)計采樣樣本量的計算公式來[2],按照顯著性水平5%,置信水平95%,計算得出適用的樣本數(shù)量。
2)取樣后,計算電壓值的均值μ 和標準差σ;
3)計算電路參數(shù),確認電路對該輸入電壓要求的臨界值Vmax、Vmin 的具體值,這個值要結合具體電路確定,如5 V CMOS 數(shù)字芯片,輸入信號管腳的高電平臨界判定電壓一般為0.7×Vcc=3.5 V,常規(guī)標稱值為4.9~5 V,最大允許值為Vcc+0.5 V,意指該管腳允許輸入的電壓應該在(3.5 V,5.5 V)之間,超出這個區(qū)間,則有可能損壞或者電平信號出錯;
4)對比計算參數(shù)和電壓臨界值參數(shù),如3)中示例,至少需要滿足如下條件:
5)如果不滿足4)的條件,則需對該電路的紋波進行整改,反復迭代,最終滿足要求。計算的過程可以借助EXCEL 或者統(tǒng)計分析軟件的強大計算功能來完成,以節(jié)省人力。
6)根據(jù)2)計算出的均值μ 和標準差σ 的結果,在不整改的情況下,看臨界值在統(tǒng)計分布中的位置,利用正態(tài)分布的計算方法[3],可以計算出超出臨界值的發(fā)生概率,由此推斷出現(xiàn)場工況下的偶發(fā)故障概率。
3 案例應用
某產品電源電壓紋波大,是偶發(fā)故障的疑似根源,波形如圖2。
圖2
圖2 為5 V 的電源紋波波形圖(該圖為交流耦合測試結果),通過功能分析,產品偶發(fā)故障疑似與此電源的波動相關,于是測試該波形。結合電路分析,導致偶發(fā)故障的是下降的尖峰電壓,因為信號電壓直接跟隨電源電壓而波動,本應該輸出高電平信號,卻因為下沖的電源電壓導致輸出端的高電平電壓低,發(fā)送到接收端時可能識別不出來。以紋波電壓為研究對象,按照本文第三章的方法進行測試分析。
1)以下沖的尖峰為研究對象,結合工程經驗,這些突出的尖峰一般是開關電源的MOSFET 開和關瞬間形成的,預估定義下沖200 mV 以內的波動為電路的隨機事件引發(fā),超出200 mV 的為開、關瞬態(tài)導致,而開關瞬態(tài)形成的尖峰組事件也符合隨機事件的特征,以時間軸為抽樣點,連續(xù)抽取下沖超出200 mV 的每個尖峰的電壓值,并記錄采樣數(shù)據(jù)1 000 個。
2)計算該下沖電壓的均值μ 和標準差σ(因為是下降電壓,低于基線電壓,因此是個負數(shù));
3)計算電路參數(shù),確認對電源Vcc 要求的低電平臨界值Vcc min;
4)對比計算參數(shù)和Vcc 臨界值參數(shù),應滿足如下條件(由本節(jié)2)中可知,此公式中μ、σ 均為負值):
5)若不滿足4)的條件,則需對紋波進行整改抑制。
反復整改迭代直到滿足的要求。
4 結束語
總結起來,本文的核心描述了偶發(fā)故障的兩個成因和解決方法,總結如下:
1)超出臨界值余量不多的參數(shù),即在及格線以上附近波動的參數(shù)是偶發(fā)故障的根源之一,這里命名為“60分原理”,針對這類參數(shù)進行整改提升,使參數(shù)值達到80,甚至90 分以上即可。這樣,可以繞開故障再現(xiàn)的難題,在隱患產品正常工作的情況下,卻可以定位到問題點、找到解決問題的目標對象和措施。量化值判斷的方法和故障概率的評估可運用正態(tài)分布的原理和計算方法作為指導。
2)另一種引起偶發(fā)故障的根源是產品內大功率模塊、以及周邊配套的大功率設備,在瞬態(tài)啟停的工況下,將本來余量足夠大、隨機干擾根本不足以導致其故障的參數(shù),給影響到了超出限制引起故障的地步。這部分的具體實驗方法和機理比較易于理解,因此在本文中未做重點展開和案例說明,但它仍是一個需要重點關注的點和解決思路。
參考文獻:
[1] 武曄卿,李東偉,石小兵.電路設計工程計算基礎[M].北京:電子工業(yè)出版社,2018,7.
[2] 賈俊平,何曉群,金勇進.統(tǒng)計學[M].第六版.北京:中國人民大學出版社,2015,1.
(本文來源于《電子產品世界》雜志2023年4月期)
評論