AI/ML 在設計和測試中的作用不斷擴大

作者：semiengineering 時間：2024-08-13 來源：半導體產(chǎn)業(yè)縱橫

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

人工智能和機器學習在測試中的作用日益增強，節(jié)省了大量時間和金錢，超出了最初的預期。但它并不是在所有情況下都有效，有時甚至會破壞經(jīng)過充分測試的流程，投資回報率也值得懷疑。

本文引用地址：http://m.butianyuan.cn/article/202408/461943.htm

人工智能的一大吸引力在于它能夠?qū)Υ笮蛿?shù)據(jù)集進行分析，而這些數(shù)據(jù)集通常受到人類能力的限制。在關鍵的設計到測試領域，人工智能可以解決諸如設計設置、模擬和 ATE 測試程序之間的工具不兼容等問題，這些問題通常會減慢調(diào)試和開發(fā)工作。設計到測試中最耗時和最昂貴的一些方面源于工具之間的不兼容性。

Teradyne 首席軟件工程師 Richard Fanning 表示：「在設備啟動和調(diào)試期間，復雜的軟件/硬件交互可能會暴露出多個團隊或利益相關者對領域知識的需求，他們可能不熟悉彼此的工具。在這些設置中進行轉換，或調(diào)試差異所花費的任何時間都是在消耗精力。我們的工具集針對這一問題，允許所有設置使用同一套源文件，這樣每個人都可以確保他們運行的是同一個東西?！?/span>

機器學習和人工智能分析也可以減輕工程中一些單調(diào)乏味的工作。人們常常擔心人工智能將取代工人，這種擔憂被夸大了。大多數(shù)工人只是轉向更高級別的職責，將人工智能作為他們武器庫中的新工具。但這種工具會在它能產(chǎn)生最大影響的地方使用，這可能包括從設計到制造流程的多個環(huán)節(jié)。然而，流程中某一部分的數(shù)據(jù)如何以及在何處與流程中其他部分的數(shù)據(jù)進行交互可能會有很大差異，這就是該行業(yè)謹慎行事的原因。

Synopsys EDA 集團總經(jīng)理 Shankar Krishnamoorthy 表示：「生成式 AI 開辟了許多新機遇。但你需要明確自己想要做什么。除非你能用正確的提示指示 LLM，否則你得到的只是胡言亂語。除非你是一名優(yōu)秀的工程師，知道如何看待 LLM 的輸出，否則你很容易接受有缺陷的東西，或者性能不佳的東西，然后你交付的芯片就很差。因此，AI 不會成為每個工程師的超級助手，幫助他們完成幾年前三到五倍的工作。但這項技術正在迅速發(fā)展?！?/span>

這絕不會削弱工程團隊的作用，工程團隊對于加速從設計到測試的過程、指導和驗證 ML 模型以及驗證系統(tǒng)是否按預期運行仍至關重要。西門子數(shù)字工業(yè)軟件技術支持高級總監(jiān) Ron Press 在最近的 MEPTEC 活動演講中表示：「人工智能有一些很棒的功能，但它實際上只是一種工具。我們?nèi)匀恍枰こ虅?chuàng)新。有時人們會寫關于人工智能將如何奪走所有人的工作，我完全不這么認為。我們的設計更復雜，設計規(guī)模也更大。我們需要利用人工智能作為一種工具，以更快的速度完成同樣的工作?！?/span>

盡管如此，它確實為工程師提供了一種可能強大的新工具，用于識別潛在問題和管理失控的復雜性。

Advantest ACS 數(shù)據(jù)分析平臺組業(yè)務開發(fā)高級總監(jiān) Ken Butler 表示：「隨著我們不斷推進這一技術曲線，我們必須采用的分析和計算基礎設施變得越來越復雜，你希望能夠以最少的過度投入做出正確的決策。在某些情況下，我們會根據(jù)芯片類型定制測試解決方案?！?/span>

加速設計到特性分析再到第一塊硅片的速度

面對不斷縮小的工藝窗口和最低的允許缺陷率，芯片制造商不斷改進從設計到測試的流程，以確保在設備啟動和大批量生產(chǎn)期間實現(xiàn)最高效率。Advantest 的 Butler 表示：「測試操作中的分析并不是什么新鮮事。這個行業(yè)分析測試數(shù)據(jù)和做出產(chǎn)品決策的歷史已經(jīng)超過 30 年?，F(xiàn)在的不同之處在于，我們正在轉向越來越小的幾何形狀、先進的封裝技術和基于芯片的設計。這促使我們改變我們所做的分析類型的性質(zhì)，包括軟件和硬件基礎設施方面。但從生產(chǎn)測試的角度來看，我們在 AI 和測試方面的旅程還處于早期階段?！?/span>

盡管如此，早期采用者正在構建在線計算和 AI/ML 建模所需的基礎設施，以支持測試單元中的實時推理。而且由于沒有一家公司擁有所需的所有專業(yè)知識，因此在開發(fā)合作伙伴關系和應用程序庫時，會考慮到工具之間的兼容性。

Teradyne 公司的 Fanning 表示：「協(xié)議庫提供了用于通信通用協(xié)議的現(xiàn)成解決方案。這減少了設備通信的開發(fā)和調(diào)試工作量。我們曾見過測試工程師負責與新協(xié)議接口對話的情況，使用此功能可以節(jié)省大量時間?！?/span>

事實上，數(shù)據(jù)兼容性是一個始終不變的主題，從設計一直到 ATE 硬件和軟件的最新發(fā)展?！鸽S著設備復雜性呈指數(shù)級增長，在特性分析和生產(chǎn)之間使用相同的測試序列已成為關鍵，」Teradyne 的 Fanning 解釋道。「與 EDA 工具和 IP 供應商的合作也是關鍵。我們與行業(yè)領導者進行了廣泛的合作，以確保他們輸出的庫和測試文件是我們的系統(tǒng)可以直接使用的格式。這些工具還具有我們的工具集所沒有的設備知識。這就是遠程連接功能如此重要的原因，因為我們的合作伙伴可以提供在生產(chǎn)調(diào)試期間功能強大的上下文特定工具。能夠?qū)崟r使用這些工具而無需在不同環(huán)境中重現(xiàn)設置或用例，這改變了游戲規(guī)則?！?/span>

串行掃描測試

但是，如果所有配置更改看起來都發(fā)生在測試端，那么就需要評估多核設計測試方法中的重大變化。

對于多核產(chǎn)品而言，測試設計（DFT）迭代過程中的權衡變得十分重要，因此有必要采用一種新方法。

「如果我們看看當今設計的典型組合方式，就會發(fā)現(xiàn)有多個內(nèi)核將在不同時間生產(chǎn)，」西門子的 Press 說道。「您需要知道要用多少個 I/O 引腳來獲取掃描通道，測試儀的深度串行存儲器將通過 I/O 引腳將數(shù)據(jù)傳送到內(nèi)核。因此，我需要權衡許多變量。我有通向內(nèi)核的引腳數(shù)、模式大小和內(nèi)核的復雜性。然后，我將嘗試找出在所謂的分層 DFT 中一起測試的最佳內(nèi)核組合。但隨著這些設計變得越來越復雜，內(nèi)核數(shù)量將超過 2,500 個，需要權衡很多因素。」

Press 指出，應用相同架構的 AI 可以提供 20% 到 30% 的更高效率，但基于分組掃描測試的改進方法（見圖 1）實際上更有意義。

圖 1：串行掃描網(wǎng)絡（SSN）方法的優(yōu)勢。來源：西門子 EDA

「測試通道不再將數(shù)據(jù)饋送到每個核心的掃描通道，而是通過分組總線和數(shù)據(jù)包饋送到所有核心。然后，您可以指示核心何時可以使用其數(shù)據(jù)包信息。通過這樣做，您無需權衡那么多變量，」他說。在核心級別，每個核心都可以針對任意數(shù)量的掃描通道和模式進行優(yōu)化，并且 I/O 引腳數(shù)不再是計算中的變量?！溉缓?，當您將其放入最終芯片時，它會從數(shù)據(jù)包中提供該核心所需的數(shù)據(jù)量，這些數(shù)據(jù)可以與任何大小的串行總線配合使用，這就是所謂的串行掃描網(wǎng)絡 (SSN)。」

西門子 EDA 客戶報告的一些結果（見圖 2）強調(diào)了監(jiān)督和無監(jiān)督機器學習的實施，以提高診斷分辨率和故障分析。使用串行掃描網(wǎng)絡方法，DFT 生產(chǎn)力提高了 5 到 10 倍。

圖 2：使用機器學習和串行掃描網(wǎng)絡方法實現(xiàn)的效益。來源：西門子 EDA

是什么減慢了 HVM 中 AI 的實施速度？

在從設備設計到測試的過渡過程中，機器學習算法的應用可以帶來許多好處，從更好地匹配芯片性能以用于高級封裝，到縮短測試時間。例如，可能只有一小部分高性能設備需要進行老化測試。

NI/Emerson 測試與測量研究員 Michael Schuldenfrei 表示：「您可以識別晶圓上的劃痕，然后在晶圓分類過程中自動篩選出劃痕周圍的芯片。因此，AI 和 ML 聽起來都是非常棒的想法，而且在很多應用中使用 AI 都是有意義的。最大的問題是，為什么它沒有真正頻繁和大規(guī)模地發(fā)生？答案在于構建和部署這些解決方案的復雜性?！?/span>

Schuldenfrei 總結了機器學習生命周期中的四個關鍵步驟，每個步驟都有各自的挑戰(zhàn)。在第一階段，即培訓階段，工程團隊使用數(shù)據(jù)來了解特定問題，然后構建一個模型，該模型可用于預測與該問題相關的結果。一旦模型得到驗證并且團隊想要將其部署到生產(chǎn)環(huán)境中，就需要將其與現(xiàn)有設備（如測試儀或制造執(zhí)行系統(tǒng) (MES)）集成。模型也會隨著時間的推移而成熟和發(fā)展，需要頻繁驗證輸入模型的數(shù)據(jù)并檢查模型是否按預期運行。模型還必須適應，需要重新部署、學習、行動、驗證和適應，形成一個連續(xù)的循環(huán)。

「這消耗了數(shù)據(jù)科學家的大量時間，他們負責在其組織中部署所有這些基于 AI 的新解決方案。在他們試圖訪問正確的數(shù)據(jù)、組織數(shù)據(jù)、將所有數(shù)據(jù)連接在一起、理解數(shù)據(jù)，并從中提取有意義的特征時，也浪費了時間，」Schuldenfrei 說道。

在分布式半導體制造環(huán)境中，全球各地分布著許多不同的測試機構，這帶來了更多困難?！府斈阃瓿?ML 解決方案的實施時，你的模型已經(jīng)過時了，你的產(chǎn)品可能不再是前沿技術，因此當模型需要做出決定時，它已經(jīng)失去了可操作性，而這個決定實際上會影響特定設備的裝箱或處理，」Schuldenfrei 說?！敢虼?，在具有大量半導體測試的生產(chǎn)環(huán)境中部署基于 ML 的解決方案絕非易事。」

他引用了 2014 年谷歌的一篇文章，該文章指出，機器學習代碼開發(fā)部分是整個過程中最小也是最簡單的部分，而構建基礎設施、數(shù)據(jù)收集、特征提取、數(shù)據(jù)驗證和管理模型部署的各個方面則是最具挑戰(zhàn)性的部分。

從設計到測試的變化會波及整個生態(tài)系統(tǒng)。西門子表示：「從事 EDA 的人員在設計規(guī)則檢查 (DRC) 方面投入了大量精力，這意味著我們正在檢查我們所做的工作和設計結構是否可以安全地繼續(xù)進行。這對于人工智能來說非常重要——我們稱之為可驗證性。如果我們運行某種類型的人工智能并給我們一個結果，我們必須確保這個結果是安全的。這確實會影響到從事設計的人員、DFT 組和測試工程人員，他們必須采用這些模式并應用它們?！?/span>

有許多基于 ML 的應用程序可用于改進測試操作。Advantest 的 Butler 重點介紹了客戶最常追求的一些應用程序，包括縮短搜索時間、shift left 測試、縮短測試時間和芯片配對（見圖 3）。

「對于最小電壓、最大頻率或微調(diào)測試，您傾向于為搜索設置下限和上限，然后您將在那里進行搜索，以便能夠找到此特定設備的最低電壓，」他說?！高@些限制是根據(jù)流程劃分設置的，它們可能相當寬泛。但是，如果您擁有可以運用的分析技術，那么 AI 或 ML 類型的技術基本上可以告訴您該芯片在流程頻譜中的位置。也許它是從較早的插入中前饋的，也許您可以將它與當前插入時的操作相結合。這種推斷可以幫助您縮小搜索范圍并加快測試速度。很多人對這個應用非常感興趣，有些人正在生產(chǎn)中使用它，以減少測試時間密集型測試的搜索時間?！?/span>

圖 3：使用 ACS 平臺對設備進行配對或分類，以提高產(chǎn)量、吞吐量、可靠性或降低成本的實時和/或測試后改進機會。來源：Advantest

「shift left（左移）背后的想法可能是，我的下游測試插入成本非常高，或者封裝成本很高，」Butler 說?！溉绻业牧悸蔬_不到我想要的水平，那么我可以在早期插入時使用分析，通過在早期插入時進行分析，嘗試預測哪些設備在后期插入時可能會出現(xiàn)故障，然后降級或報廢這些芯片，以優(yōu)化下游測試插入，提高良率并降低總成本。測試時間的減少非常簡單，就是增加或刪除測試內(nèi)容，跳過測試以降低成本。或者你可能想增加測試內(nèi)容來提高良率，」Butler 說。

「如果我有一個多層設備，它不會通過 bin 1 標準——但如果我添加一些額外的內(nèi)容，它可能會通過 bin 2——那么人們可能會查看分析來嘗試做出這些決定。最后，在我看來，有兩件事是結合在一起的，即芯片設計和智能配對的想法。所以經(jīng)典的例子是處理器芯片上堆疊了高帶寬內(nèi)存。也許我對某些應用的高性能和低功耗感興趣，我希望能夠匹配內(nèi)容并在芯片通過測試操作時對其進行分類，然后在下游進行拾取和放置，并將它們放在一起，以便最大限度地提高多個數(shù)據(jù)流的產(chǎn)量。例如，低功耗足跡和碳足跡也有類似的事情?！?/span>

生成式人工智能

在討論人工智能在半導體領域的作用時，不可避免地會出現(xiàn)一個問題，那就是像 ChatGPT 這樣的大型語言模型是否能對在晶圓廠工作的工程師有用。早期的研究顯示出了一些希望。

「例如，您可以要求系統(tǒng)為您構建一個異常值檢測模型，該模型會查找距離中心線 5 個西格瑪?shù)牟考⒄f『請為我創(chuàng)建腳本』，系統(tǒng)就會創(chuàng)建腳本。這些是我們已經(jīng)在嘗試的基于自動化、生成式 AI 的解決方案，」Schuldenfrei 說。「但從我目前看到的一切來看，要讓這些系統(tǒng)提供足夠高質(zhì)量的輸出，還有相當多的工作要做。目前，事后修復生成式 AI 產(chǎn)生的算法或模型的問題所需的人機交互量仍然相當大?！?/span>

一個揮之不去的問題是，當每個人都保護重要的測試 IP 時，如何訪問訓練新測試程序所需的測試程序？「大多數(shù)人重視他們的測試 IP，不一定想在訓練和使用過程中設置護欄，」Butler 說?！敢虼耍业揭环N在保護 IP 的同時加速開發(fā)測試程序的總體過程的方法是一個挑戰(zhàn)。很明顯，這種技術將得到應用，就像我們在軟件開發(fā)過程中已經(jīng)看到的那樣?！?/span>

故障分析

故障分析對于晶圓廠來說通常是一項成本高昂且耗時的工作，因為它需要追溯過去，收集特定故障設備的晶圓加工、組裝和封裝數(shù)據(jù)，即所謂的退回材料授權 (RMA)。物理故障分析在 FA 實驗室中進行，使用各種工具來追蹤故障的根本原因。

雖然掃描診斷數(shù)據(jù)已經(jīng)使用了幾十年，但一種較新的方法是將數(shù)字孿生與掃描診斷數(shù)據(jù)配對，以找出故障的根本原因。

「在測試中，我們有一個數(shù)字孿生，它可以根據(jù)掃描故障診斷進行根本原因反卷積。因此，我們不必查看物理設備并花時間試圖找出根本原因，因為我們有掃描，我們有數(shù)百萬個虛擬采樣點，」西門子出版社表示?！肝覀兛梢詫?chuàng)建模式所做的工作進行逆向工程，并找出設計深處掃描單元中發(fā)生錯誤比較的位置。使用 YieldInsight 和無監(jiān)督機器學習以及對大量數(shù)據(jù)進行訓練，我們可以非?？焖俚夭槊鞴收衔恢?。這使我們能夠在短時間內(nèi)運行數(shù)千或數(shù)萬次故障診斷，讓我們有機會識別系統(tǒng)性良率限制因素?！?/span>

另一種越來越流行的方法是使用片上監(jiān)視器來訪問特定的性能信息，而不是物理故障分析。proteanTecs 測試和分析副總裁 Alex Burlak 表示：「我們需要的是來自封裝內(nèi)部的深度數(shù)據(jù)，以持續(xù)監(jiān)控性能和可靠性，而這正是我們提供的服務。例如，如果懷疑故障來自芯片互連，我們可以使用來自片上代理的深度數(shù)據(jù)來幫助分析，而不是將設備脫離環(huán)境并帶入實驗室（在那里您可能無法重現(xiàn)問題）。更重要的是，在許多情況下，發(fā)回數(shù)據(jù)而不是設備的能力可以查明問題，從而節(jié)省昂貴的 RMA 和故障分析程序。」

結論

ATE 社區(qū)對 AI 和機器學習的熱情得到了強有力的基礎設施變革的滿足，以滿足對測試數(shù)據(jù)實時推斷的需求，以及對多芯片封裝的更高產(chǎn)量、更高吞吐量和芯片分類進行優(yōu)化的需求。對于多核設計，商業(yè)化為串行掃描網(wǎng)絡 SSN 方法的分組測試提供了一種更靈活的方法來優(yōu)化每個內(nèi)核，以滿足設備中每個內(nèi)核的掃描鏈數(shù)量、模式和總線寬度需求。

能夠從 AI 中獲益的測試應用數(shù)量不斷增加，包括縮短測試時間、減少 Vmin/Fmax 搜索、shift left、智能配對芯片以及降低整體功耗。設計、特性和測試中所有設置均使用相同的源文件等新進展有助于加快新產(chǎn)品的關鍵調(diào)試和開發(fā)階段。