MENTOR、AMD 和 MICROSOFT 合作開展云上 EDA
如果將部分或全部電子設計自動化 (EDA) 計算轉移到云上,設計公司將能獲得靈活的資源和 規(guī)模經濟性,從而縮短產品上市時間并加快創(chuàng)新速度。Mentor, a Siemens Business (Mentor) 與 Advanced Micro Devices, Inc. (AMD) 和 Microsoft Azure (Azure) 合作,展示了 Calibre? 平臺 結合云計算如何能夠提供更多計算資源,大幅縮短設計收斂時間,讓設計更快上市。采用 7nm 量產設計,物理驗證周期縮短了 2.5 倍。
本文引用地址:http://m.butianyuan.cn/article/202104/424171.htmCALIBRE 云計算
當進入設計流片的緊要關頭時,云處理可以為集成電路 (IC) 設計公司提供比通常多得多的 計算資源,使其有機會縮短產品上市時間并加快創(chuàng)新速度。高擴展性工具(例如 Calibre 平 臺中的那些工具)可以擴展到數(shù)千個內核以減少運行時間……但是,誰會有數(shù)千個內核閑 置不用呢?當您承受極大的時間壓力時,例如進行模塊或全芯片驗證時,云可提供豐富得 多的硬件資源供您使用。
Calibre 內核技術多年前就已經為云計算做好了準備 [1,2]。云安全性的最新改進減輕了業(yè)界 對知識產權 (IP) 保護的擔憂,阻礙在云處理模型中實施和使用 Calibre 技術的最大障礙已被 消除。
Mentor 與晶圓代工廠、IC 公司和云服務提供商密切合作,確保從現(xiàn)場網格系統(tǒng)平穩(wěn)過渡到 場外云處理。發(fā)現(xiàn)和明確最佳實踐可以讓過渡到 “云上 Calibre” 處理模型的公司實現(xiàn)最大獲 益。IC 公司越來越多地希望在先進工藝節(jié)點設計中利用云能力來縮短周轉時間,在此背景 下,他們可以確信,運行云上 Calibre 將會提供他們知道和信任的相同 sign-off 驗證結果, 同時他們還能調整資源使用,以便最好地服務其業(yè)務和市場需求。
CALIBRE 與云服務器效率
為確保 Calibre 用戶能以最具成本效益的方式使用云資源,我們制定了云使用指導原則,并 提出了在云上運行 Calibre 操作的最佳實踐。為了制定和測試這些指導原則與實踐,我們與 AMD 和 Azure 聯(lián)合開展了一個項目,采用運行在 Azure 云服務上的 AMD EPYC? 服務器。結 果表明,EPYC 服務器和 Calibre 平臺在 Azure 云上展現(xiàn)出強大的能力。
晶圓代工廠規(guī)則集
設計公司應始終使用符合晶圓代工廠要求的最新規(guī)則集,以確保實施最新的最佳編碼實踐。
CALIBRE 軟件版本
Mentor 長期致力于優(yōu)化 Calibre 引擎,Calibre 每個版本都有改進,使用最新版本的 Calibre
軟件可確保運行時間和內存消耗更加優(yōu)化,如圖 1 所示 [3]。
圖 1:(左)歸一化內 存與 Calibre 發(fā)行版,( 右) 歸一化運行時 間與 Calibre 發(fā)行版。
云服務器
市場針對云操作提供了許多不同類型的服務器,“最佳” 選擇取決于客戶的需求和應用。對 于我們的協(xié)作項目,我們選擇了可用于 Microsoft Azure 公共云的 AMD EPYC 服務器。不同 類型的 EPYC 服務器有不同的內核、內存、接口和性能特性,云用戶可以選擇最適合其應 用的 EPYC 服務器。
AMD EPYC 架構(圖 2)的每個插槽有 32 個內核/64 個線程,為大規(guī)模并行計算提供了極 好的媒介,支持重度計算的運行任務。8 個 DDR4 通道為服務器增加了新的維度,可進一步 優(yōu)化其處理機器密集型計算運行的能力。最后,每 4 個內核 8MB L3 內存緩存的層次化設計 進一步提升了計算速度。
圖 2:AMD EPYC 服務 器架構(信息來源: AMD。 已獲得使用許可。)
這些云服務器用于在云服務中創(chuàng)建虛擬機(實例)。針對 Calibre 應用,我們確定了兩種最 適合的 Azure 實例:HB60rs 和 L80s v2。HB60rs 和 L80s v2 均可在 EPYC 7551 處理器上運 行,但配置和功能不同。
例如,HB60rs 實例與 Lv2 實例具有相同的 EPYC 7551 處理器,但前者只能訪問雙插槽機器 的 64 個內核中的 60 個,并且超線程功能被關閉。Lv2 實例旨在支持要求苛刻、存儲密集 型且需要高水平 I/O 的工作負荷,而 HB 系列實例則針對內存帶寬驅動的應用(例如流體動 力學和顯式有限元分析)進行了優(yōu)化。表 1 比較了這兩類服務器的主要特性。
表 1 - AMD EPYC 服務器特性
CALIBRE 云計算
針對該聯(lián)合項目,我們使用了量產型 7nm Radeon Instinct? Vega20 的最終金屬流片數(shù)據 庫。該設計是 AMD 最大的 7nm 芯片設計,包含超過 130 億個晶體管。
初始設置
Calibre 2019.2 版本與 7nm 工藝 節(jié)點的晶圓代工廠規(guī)則集的一 個生產版本配合使用,以對設 計執(zhí)行設計規(guī)則檢查 (DRC)。對 于 Calibre nmDRC? 運行,我們 使用了 Calibre 超遠程分布式計 算功能 [3],其支持多達 4,000 個 內核(圖 3)。
像所有 Calibre 分布式計算運行 一樣,分配了一個主機來管理運 行中使用的所有其他資源。為 了我們的合作目的,指定的主 機和遠程服務器均為具有 32 個 CPU 內核和 256 GB RAM 內存的 AMD EPYC 7551 服務器。
圖 3:Calibre nmDRC 運行時間與內核數(shù)的關系。(信息來源:AMD。許可使用)
云設置
Mentor 使用 AMD EPYC 服務器(主機和遠程服務器均為這種服務器)運行了所有實驗,硬 件配置如下:
■ Microsoft Azure HB60rs 實例。對于單個 HB60rs,主機與 17、25、34、68 個遠程 HB60rs 實例一起運行,每個實例均完全專用于運行 Calibre 作業(yè),使用 Azure CycleCloud 界面 來調用和管理作業(yè)。
■ 地理位置靠近的服務器。使用的所有云服務器均在最靠近用于啟動和控制云使用的硬 件物理位置的 Azure Cloud 區(qū)域中運行。
■ 為使啟動作業(yè)和實際執(zhí)行之間的等待時間最小化,當模塊準備就緒時,設計便在云上 匯編。
結果
我們的結果展示出以下性能指標:
■ Calibre nmDRC 的運行速度持續(xù)提高,直至達到 4K 內核。
–該擴展曲線中總是存在一個 “拐點”,在此點可實現(xiàn) “最佳性價比”。對于該設計和節(jié) 點,拐點在 1.5K 和 2K 內核之間。
■ 主機和遠程服務器使用的峰值累積內存小于 500GB。
■ 實際上,隨著內核數(shù)量的增加,遠程服務器峰值內存有所降低。
在本地 Calibre nmDRC 運行中,Mentor 一般將 256 個內核用于全芯片 DRC,因為這是大多 數(shù)設計團隊在流片期間通??梢栽L問的現(xiàn)場資源數(shù)量。對于大型復雜的 7nm 設計,例如 AMD Radeon VII/MI60 GPU,使用 256 個內核的周轉時間可能長達 24 小時。這意味著一個團 隊通常每天只能完成一次設計迭代,這比大多數(shù)上市時間計劃要求的速度要慢很多。
將該數(shù)量增加到 2K 個內核,運行時間可以減少到 12 小時,每天可以迭代兩次,而增加到 4K 個內核的話,運行時間將不到 8 小時,每天可以迭代三次。該實驗清楚地表明,Calibre 擴展的功能和效率與可用內核數(shù)量的顯著增加相結合,能讓使用云上 Calibre 軟件的公司減 少運行時間,從而大幅提高設計收斂率。
如前所述,Mentor 不斷努力提高 Calibre 的性能,并與晶圓代工廠合作以發(fā)現(xiàn)并部署聚焦于 性能的規(guī)則集優(yōu)化(同時確保精度相同或更好)。如圖 3 所示,我們運行了一個額外的實 驗,以了解使用最新版本 Calibre 和最新的優(yōu)化規(guī)則集是否有任何益處。黃色圓點所示的結 果表明,在擴展曲線的拐點處(大約 2K 個內核)可以再節(jié)省三個小時。
云成本最小化
大型片上系統(tǒng) (SOC) 設計在驗證期間會 消耗大量 RAM,而 RAM 是非常昂貴的。 即使在云上,較大的 RAM 實例也很昂 貴。解決辦法是通過增加遠程內核的總 數(shù)來減少每個遠程內核的 RAM 需求, 如圖 4 所示。Calibre 平臺提供一種經過 驗證的超遠程分布式處理模型 [3],用 戶可以利用此功能降低云資源的成本, 同時還能以較少 RAM 的 CPU 實現(xiàn)更快 的處理速度。
圖 4:峰值內存 (RAM) 消耗與遠程內核使用情況的關系。
結語
Mentor、AMD 和 Azure 之間的合作表明,通過實施 EDA 云計算的最佳實踐和使用指南,可 以減少運行時間并降低云使用的成本。公司可以將這些結果作為實施自己的 “云上 Calibre” 的指南。通過實施這些策略和實踐,公司可以實現(xiàn)更快的總體運行時間,縮短產品上市時 間,加快設計創(chuàng)新,同時維持或降低運營成本。
參考文獻
[1] Omar El-Sewefy, “Calibre in the cloud: Unlocking massive scaling and cost efficiencies,”
Mentor, a Siemens Business, July 2019. https://go.mentor.com/57RKT
[2] John Ferguson, “New approaches to physical verification closure and cloud computing,”
Mentor, a Siemens Business.March 2020. https://go.mentor.com/5acv3
[3] John Ferguson, “Ensuring Optimal Performance for Physical Verification,” Mentor, A Siemens Business. April 2015. https://go.mentor.com/4gx2a
更多相關信息,請點擊>> http://share.eepw.com.cn/share/download/id/388591
評論