這顆芯片，又又又又延期了

發(fā)布人：旺材芯片時間：2024-08-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

Tachyum 本周表示，其已完成 Prodigy FPGA 仿真系統(tǒng)的最終構(gòu)建，這對任何設計來說都是一個重要的里程碑。此外，該公司表示，將把其通用 192 核 Prodigy 處理器的生產(chǎn)時間從 2024 年推遲到 2025 年，但強調(diào)其仍預計明年將全面推出搭載其處理器的服務器。

Tachyum 創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 博士表示：“在明年 Prodigy 處理器流片和量產(chǎn)之前，我們能夠在開發(fā)過程中達到這個階段，這是非常令人欣慰的?！?nbsp;

這個最終硬件原型對于實現(xiàn)超過“10 千萬億次可靠性測試”至關重要，這是 Tachyum 在 Prodigy 芯片投產(chǎn)前希望達到的里程碑。這些設備將有助于確保芯片在全面投產(chǎn)前滿足極高的可靠性要求。

基于 FPGA 的最終版本的主要更新包括支持超過 128 個內(nèi)核，而去年已升級到 192 個內(nèi)核。還進行了其他增強，以支持更大容量的 DIMM、改進調(diào)試過程、通過經(jīng)過修改的 BMC-UEFI 硬件簡化通信，并更換板對板連接器以獲得更好的體驗。

Danilak 補充道：“我們始終致力于提供世界上最小、最快、最環(huán)保的通用芯片。確保在發(fā)布第一天就實現(xiàn)這一目標一直是我們的首要任務，我們很高興即將發(fā)布這一改變行業(yè)的產(chǎn)品?！?/span>

通用型 Prodigy 處理器有望在通用、圖形和 AI / ML 工作負載方面同樣表現(xiàn)出色，最初定于 2020 年推出，計劃于 2019 年流片。然而，它的發(fā)布面臨多次延遲，計劃從 2021 年推遲到 2022 年，然后推遲到 2023 年，后來又推遲到 2024 年。今年早些時候，Tachyum 宣布將在 2024 年下半年開始量產(chǎn) Prodigy 處理器，不過這個模糊的時間表可能會延長到 12 月?，F(xiàn)在，該公司顯然再次更新了計劃，表明量產(chǎn)將從 2025 年開始，這意味著它很可能無法實現(xiàn)在 2025 年第一季度開始對采用 Prodigy 處理器的參考服務器進行抽樣的目標。然而，從 Tachyum 最近的公告中仍不清楚該芯片是否有望在 2024 年流片。

Tachyum 聲稱，其處理器在云任務方面可實現(xiàn)最高 4.5 倍于頂級 x86 處理器的性能，在高性能計算方面可實現(xiàn)最高 3 倍于領先 GPU 的性能，在 AI 應用方面可實現(xiàn)最高 6 倍的性能。然而，盡管有這些雄心勃勃的宣稱，但尚未公開展示任何原型來證實該處理器的架構(gòu)既能發(fā)揮作用，又能實現(xiàn)這些結(jié)果。

Tachyum 在流片前打造最后一批 FPGA 原型

Tchyum 日前宣布其 Prodigy FPGA 仿真系統(tǒng)的最終版本，該版本將于明年芯片生產(chǎn)和全面上市之前發(fā)布。作為公告的一部分，該公司還將終止之前向商業(yè)和聯(lián)邦客戶提供的原型系統(tǒng)購買計劃。

這些最新的硬件 FPGA 原型單元將確保 Tachyum 在流片之前和第一批 Prodigy 芯片上市之前達到超過 10 千萬億次循環(huán)的極高可靠性測試目標。Tachyum 的軟件仿真系統(tǒng)及其訪問方式正在擴展，在 Prodigy 上游之前移植的開源軟件將更加可用。

此最終版本中包含的其他修改包括：

在 Tachyum 去年將核心數(shù)量增加到 192 之后，在電路板之間添加信號以支持增加到 128 個以上的核心數(shù)量
進行了一些小修復以支持大容量 DIMM
其他調(diào)試改進
修改 BMC-UEFI 硬件以簡化通信
更換板對板連接器以改善體驗

Tachyum 創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 博士表示：“在明年 Prodigy 處理器流片和量產(chǎn)之前，我們達到了開發(fā)歷程的這一階段，這令人非常欣慰。我們始終堅定不移地致力于提供世界上最小、最快、最環(huán)保的通用芯片。確保在發(fā)布的第一天就實現(xiàn)這一目標一直是我們的首要任務，我們很高興能夠推出這一改變行業(yè)的產(chǎn)品?！?/span>

作為一款通用處理器，Prodigy 為所有工作負載提供業(yè)界領先的性能，它支持數(shù)據(jù)中心服務器，能夠通過單一同質(zhì)架構(gòu)在計算域（如 AI/ML、HPC 和云）之間無縫且動態(tài)地切換。通過消除對昂貴的專用 AI 硬件的需求并大幅提高服務器利用率，Prodigy 顯著降低了資本支出和運營支出，同時實現(xiàn)了前所未有的數(shù)據(jù)中心性能、功率和經(jīng)濟性。Prodigy 集成了 192 個高性能定制設計的 64 位計算核心，可為云工作負載提供高達最高性能 x86 處理器 4.5 倍的性能，為 HPC 提供高達最高性能 GPU 3 倍的性能，為 AI 應用提供 6 倍的性能。

從零開始打造通用處理器

在過去幾年的時間里，人們一直在談論加速計算將成為新常態(tài)，以及數(shù)據(jù)中心通用處理器時代已經(jīng)結(jié)束，這是有充分理由的。我們已經(jīng)沒有辦法在單個設備上以高效且經(jīng)濟的方式完成應用程序所需的所有復雜處理。

2020年，我們進行了一次思想實驗，探討如何針對特定目的精簡芯片，將它們編織在單個封裝內(nèi)或跨插槽和節(jié)點，共同設計以專門運行非常精確的工作流程，因為任何通用處理器（混合 CPU、GPU、TPU、NNP 和 FPGA 的元素）在除批量經(jīng)濟性之外的所有方面都不是最優(yōu)的。我們認為，這種針對數(shù)據(jù)中心計算的極端共同設計是世界最終的發(fā)展方向，我們只是將芯片架構(gòu)和互連結(jié)合在一起以實現(xiàn)這一目標。

處理器新貴 Tachyum 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak對此完全不以為然。事實上，Tachyum 設計的 Prodigy “通用處理器”正朝著完全相反的方向發(fā)展。

Danilak 表示，解決現(xiàn)代處理器設計中的臃腫和布線問題可以實現(xiàn)一個獨立、完整、集成的處理器，他認為這種處理器可以完成我們認為需要一系列快速整數(shù) CPU 引擎、GPU 或 FPGA 浮點引擎和 NNP 矩陣數(shù)學引擎才能完成的工作，所有這些都通過跨越socket和盒子的高速互連連接在一起。（但不要稱其為混合芯片，因為 Tachyum 會就此與你爭論。）雖然我們?nèi)匀徽J為將計算組件以固定比例鎖定在每兩到三年更新一次的單個芯片中（迫使它們以相同的速度發(fā)展）與嘗試打包不同風格和容量的 chiplet 計算單元集合一樣危險，但我們也欽佩 Danilak 和聯(lián)合創(chuàng)始人首席架構(gòu)師 Rod Mullendore 和軟件副總裁 Igor Shevlyakov 設計的優(yōu)雅，以及他們?yōu)閿?shù)據(jù)中心計算帶來的雄心。

在 21 世紀的第二個十年推出一款新處理器需要一定的自尊心和大量的實踐經(jīng)驗。這是一個艱難的市場，我們已經(jīng)看到計算設備的激增，這令人欣喜。但并不是每個人都能成功，情況總是如此。幸運的是，有風險投資資金可供使用，人們愿意押注能夠設計新東西的人。

Tachyum 總部位于加利福尼亞州圣克拉拉，在斯洛伐克布拉迪斯拉發(fā)設有開發(fā)實驗室，其團隊中有許多經(jīng)驗豐富的工程師和高管。早在互聯(lián)網(wǎng)泡沫初期，Danilak 就設計了自己的超長指令字 (VLIW) 處理器，幾年后，他為一家名為 Gizmo Technology 的公司（我們從未聽說過他的芯片）創(chuàng)建了一款具有 64 位處理和內(nèi)存的無序執(zhí)行 X86 處理器，之后在東芝擔任東芝 7901 芯片的首席架構(gòu)師，該芯片是 PlayStation2 游戲機中使用的 MIPS R5900 Emotion Engine 處理器的一個變體，可能還用于各種東芝微控制器和電子產(chǎn)品。

Danilak 在 Nishan Systems 做了一年的項目，創(chuàng)建了一個單芯片網(wǎng)絡處理單元 (NPU)，該單元整合了 20 種不同芯片的功能，之后他擔任 Nvidia 的高級架構(gòu)師，設計 nForce 4 GPU 和“Fermi”第一代 Tesla GPU 加速器的功能。2007 年離開 Nvidia 之后，就在 GPU 加速浪潮即將興起之際，Danilak 找到了閃存制造商 SandForce，并創(chuàng)建了其自主研發(fā)的閃存控制器；2010 年，SandForce 以 3.77 億美元的價格賣給了 LSI Logic。之后，Danilak 與他人共同創(chuàng)立了全閃存陣列制造商 Skyera，西部數(shù)據(jù)于 2015 年夏天以未公開的價格收購了該公司。在尋找新想法的一年里，Danilak 于 2016 年 9 月與 Mullendore 和 Igor Shevlyakov 共同創(chuàng)立了 Tachyum。

需要一個團隊來創(chuàng)建處理器、軟件堆棧并將其推向潛在客戶，而 Tachyum 團隊在這方面經(jīng)驗豐富。在互聯(lián)網(wǎng)泡沫期間和之后，Mullendore 是 Nishan Systems 的高級架構(gòu)工程師，之后他為存儲區(qū)域網(wǎng)絡交換機制造商 McData 工作過，當時 McData 是 EMC 的一部分，后來被出售給 Brocade Communications，收購后他留了一段時間。Mullendore 隨后擔任 SandForce 的首席架構(gòu)工程師，然后他跟隨 Danilak 來到 Skyera，現(xiàn)在又來到 Tachyum。

Tachyum 的另一位聯(lián)合創(chuàng)始人 Shevlyakov 于 1990 年代初開始擔任軟件工程師，然后在互聯(lián)網(wǎng)泡沫初期在俄羅斯的多家初創(chuàng)公司專注于編譯器，在 1999 年至 2001 年的巔峰時期，他是實時操作系統(tǒng)制造商 Wind River 的高級編譯器工程師。隨后，Shevlyakov 在 MicroUnity 工作了十幾年，該公司開發(fā)了一種名為 BroadMX 的 RISC/SIMD 處理器，旨在用于網(wǎng)絡處理工作，他將 GNU 開源工具鏈移植到該處理器上。他與 Danilak 和 Mullendore 一起加入了 Skyera，在那里他將 GNU 工具鏈移植到公司創(chuàng)建的專有芯片上，以控制閃存，并致力于全閃存陣列中的閃存轉(zhuǎn)換層的研究。西部數(shù)據(jù)收購 Skyera 后，Shevlyakov 繼續(xù)與他的聯(lián)合創(chuàng)始人合作，負責 Tachyum 的軟件堆棧。

業(yè)務開發(fā)副總裁 Ken Wagner 也是聯(lián)合創(chuàng)始人，曾就職于多家硅片初創(chuàng)公司；系統(tǒng)工程副總裁 Kiran Malwankar 是橫向擴展存儲制造商 Pavilion Data Systems 的創(chuàng)始人；超級計算機制造商 Encore Computer 和 Kendall Square 的聯(lián)合創(chuàng)始人、AMD 首席技術(shù)官 Fred Weber 是顧問；曼徹斯特大學計算機科學教授 Steve Furber 也是顧問，他在 1980 年代設計了我們所知的 Arm 的第一款 32 位 Acorn RISC Machines 處理器；分布式系統(tǒng)專家 Christos Kozyrakis 經(jīng)常與 Google 合作，他也是斯坦福大學教授，也是顧問。

Prodigy 芯片的設計已經(jīng)進行了好幾年，該公司擁有一個內(nèi)部 System C 模擬器，可用于內(nèi)部開發(fā)和基準測試。FPGA 硬件模擬器將于秋季推出，供研究使用，因為他們計劃在年底完成流片。（它已經(jīng)推遲了好幾次，但這對于一般芯片，尤其是第一代芯片來說，都是正常的。）與當今許多先進芯片一樣，它采用臺灣半導體制造公司的 7 納米工藝蝕刻而成。這種先進的制造工藝使其能夠?qū)⒋罅拷M件塞進 290 平方毫米的設備中。

有趣的是，該設計集中于將電路塊連接在一起的電線，然后將 Tachyum 認為合適的組件比例組合在一起，以吸引超大規(guī)模計算企業(yè)、高性能計算中心以及機器學習和推理農(nóng)場。Danilak 說，問題在于電線越來越慢了。以下是一些熟悉的圖表：Danilak告訴The Next Platform。

“我們的時鐘速度性能穩(wěn)定在穩(wěn)定期，每個核心的性能并沒有增加太多。核心數(shù)量在增加，但由于散熱問題，我們也在降低時鐘速度。所有晶體管都更快，但問題是電線越來越細，電阻越來越大，因此電線延遲也在增加。以前的芯片延遲是每毫米 100 皮秒，而現(xiàn)在則是每毫米 1,000 皮秒?！?/span>

當然，導線電阻會產(chǎn)生熱量，但也會產(chǎn)生延遲，因此，根據(jù) Danilak 的說法，訣竅是讓導線盡可能短。這樣，您可以比以前更快地為芯片提供時鐘，同時還可以減少總計算時間（獲取數(shù)據(jù)的時間加上處理數(shù)據(jù)的時間），從而完成更多工作。訣竅是從芯片上運行的工作負載中提取并行性，從而讓導線延遲計算時間（就像緩存層次結(jié)構(gòu)掩蓋標準處理器中的計算延遲一樣），這需要一些巧妙的編譯器工作——因此，Shevlyakov 擁有如此豐富的編譯器經(jīng)驗。

事不宜遲，以下是 Prodigy 芯片的裸片照片：

Danilak 大膽宣稱：“每個核心都比 Xeon 核心或 Epyc 核心更快，并且比 Arm 核心更小，總體而言，我們的芯片在 HPC 和 AI 上比 GPU 更快。”

我們必須對該句中“快”的定義進行仔細研究，但顯然，隨著 Tachyum 將 Prodigy-1 芯片的時鐘速度提高到 4 GHz，這比英特爾、AMD、Ampere Computing 和 Marvell 的頂級部件要快得多，并且與 IBM 在其 Power9 系列中生產(chǎn)的最快芯片相當。

Prodigy 芯片采用臺積電的 7 納米 FinFET 工藝的標準單元和 SRAM，該工藝具有 12 個金屬層，工作電壓為 0.825 伏。

處理器流水線的亂序執(zhí)行由編譯器處理，而不是硬件處理，因此關于這是一個有序處理器還是亂序處理器存在一些爭議。Danilak 表示，Prodigy 芯片中的指令并行性是使用毒位提取的，這種技術(shù)在 Itanium 芯片中很流行，該核心在某些方面與 Itanium 芯片相似，并且還用于 Nvidia GPU。Prodigy 指令集為 32 個 64 位整數(shù)寄存器和 32 個矢量寄存器（寬度可以是 256 位或 512 位），外加 7 個矢量掩碼寄存器。顯式并行性（再次呼應 Itanium）由編譯器提取，指令被捆綁成 3、8、12 或 16 字節(jié)的大小。管道每個周期可以執(zhí)行兩次加載、兩次乘加、一次存儲、一次地址遞增、一次比較和一次分支 - 即每個周期八個 RISC-y 微操作，平均每個周期 1.72 條指令 -我們認為“Skylake”Xeon SP 核心可以做到這一點，而 Tachyum 實際上在其自己的圖表中引用了我們的數(shù)據(jù)，這些數(shù)據(jù)來自多年來從英特爾拼湊起來的有關 IPC 的信息。

64 個內(nèi)核分布在四個 16 核冗余塊中，所有內(nèi)核都通過其 L3 緩存通過網(wǎng)狀互連連接；內(nèi)存控制器通過與緩存不同的網(wǎng)狀互連連接到內(nèi)核，以避免網(wǎng)狀擁塞。每個四核都有一對內(nèi)存控制器，它們將支持 DDR4 或 DDR5 內(nèi)存協(xié)議，以及在 SerDes 中實現(xiàn)的 18 條 PCI-Express 5.0 外圍互連通道。在典型配置中，這些 SerDes 將用于實現(xiàn)每個四核的單個 PCI-Express 5.0 x16 以及一對 400 Gb/秒以太網(wǎng)控制器，但配置是靈活的?？梢赃x擇為這些芯片添加 HBM3 內(nèi)存，這是針對 HPC 和 AI 工作負載的高端產(chǎn)品線的預期，這些工作負載的內(nèi)存帶寬需求高于 DDR4 甚至 DDR5 所能滿足的內(nèi)存帶寬需求。但不要認為這會成為主流的 Prodigy 部件，也不要認為它會很便宜。

Danilak 表示，在 8 通道 DDR5 內(nèi)存的情況下，當前的 HBM2 內(nèi)存只能提供大約 2 倍的內(nèi)存帶寬，而且麻煩得多?！皫捥幱诳杀确秶鷥?nèi)”，這正是 IBM 對Power9' 和 Power10 處理器配備的增強型 DDR4 和 DDR5 內(nèi)存的評價。

現(xiàn)在，讓我們深入了解 Prodigy 核心：

與其他核心設計相比，L1 緩存有點小，數(shù)據(jù)緩存為 16 KB，指令緩存為 16 KB，但核心上的 256 KB L2 緩存和核心上的 512 KB L3 緩存切片（它們交織在一起為整個芯片創(chuàng)建一個巨大的 32 MB 共享 L3 緩存）完全正常。如您所見，整數(shù)管道深度為九級，矢量管道又增加了五級。

現(xiàn)在讓我們?yōu)槟切┫矚g這些東西的人介紹一下詳細情況。以下是 Prodigy 核心處理指令獲取的方式：

指令執(zhí)行的流程如下：

這是 Prodigy 芯片緩存層次的實際運行情況：

以下是向量和矩陣數(shù)學單元的布局和工作方式：

從這些圖表中我們可以看出有幾件事。

在從 L3 緩存到 DDR5 和 HBM3 內(nèi)存的鏈路上，DDR5 內(nèi)存的總帶寬為 410 GB/秒，HBM3 內(nèi)存的總帶寬為 1 TB/秒。您確實需要 2 倍的帶寬才能為 HBM3 支付額外費用 - 而且許多 AI 和 HPC 工作負載將從中受益，因為它們主要受限于內(nèi)存帶寬，而不是計算 - 這就是我們將這些應用程序分片并將它們放在如此多的服務器節(jié)點上的原因。

矢量單元將支持普通雙精度 64 位 FP64 和單精度 32 位 FP32 運算，以及半精度 16 位 FP16 以及 16 位 bfloat16（由 Google 發(fā)明）和 8 位浮點（Tachyum 發(fā)明的專有格式）。矢量單元還支持 INT8、INT16 和 INT32 整數(shù)運算。這些矢量單元上還可以部署矩陣運算，允許對 FP32 和 FP64 數(shù)據(jù)進行 4×4 矩陣乘法運算，以及可以在 16 位或 8 位整數(shù)或浮點數(shù)據(jù)上運行的 8×8 矩陣乘法運算。矢量的這種雙重任務確實非常有趣，Tachyum 暗示它可以在未來的處理器中將性能提高一倍。我們需要更深入地理解這一點，但看起來四個 512 位 SIMD 單元可以根據(jù)需要作為矢量或張量核心運行，這為這兩種不同的數(shù)學運算方式釋放了芯片空間。相比之下，Nvidia 的“Volta”和“Turing”GPU 具有不同種類和數(shù)量的整數(shù)、浮點和張量核心單元。

在 Danilak 看來，浮點乘加單元本質(zhì)上是一樣的——Nvidia 并不比其他公司更懂得如何做到這一點，他說。GPU 運行在 1.3 GHz 到 1.5 GHz 的頻率下，而 CPU 乘加單元運行在 2.5 GHz 到 3 GHz 甚至有時 4 GHz 的頻率下，它們提供的性能基本相同。

“CPU、GPU 和 TPU 的不同之處在于控制和計算能力的攤銷。”簡單來說，warp 有 32 個線程，運行速度大約是 Xeon 芯片中 AVX2 矢量單元的一半到三分之一，而后者可以執(zhí)行四個“線程”浮點運算，功耗大約是后者的三分之一到四分之一。X86 芯片的分支預測非常昂貴，解碼非常復雜。所有這些都增加了功耗，但性能比前幾代 X86 芯片更好，但代價是不斷降低時鐘速度和增加線程。您可以遷移到 AVX-512 并獲得兩倍寬的矢量，但您必須移動得更慢。Prodigy 芯片的理念是擁有一種介于 CPU 和 GPU 之間的架構(gòu)，去掉所有遺留的東西，盡可能縮短核心和其他元素之間的所有線路，以減少延遲，提高芯片上的時鐘和網(wǎng)狀結(jié)構(gòu)速度，并提高整體性能，大概也是更劃算的。

Prodigy“通用處理器”系列的初始 SKU 如下：

根據(jù)他們的最初計劃，在 2020 年第一季度推出一款具有 128 個內(nèi)核和四個 HBM 堆棧的雙處理器機器，然后在 2020 年第二季度推出一款具有 64 個內(nèi)核和八個 DDR4 內(nèi)存控制器的單芯片，然后在 2020 年第三季度推出一款具有四個 DDR4 內(nèi)存控制器的 32 核芯片。目前尚不清楚這是否仍然是推出的節(jié)奏，但時間顯然已經(jīng)推遲。

Tachyum 尚未確定價格，但有一些想法。Danilak 表示，標準 DDR4/DDR5 Prodigy SKU 的價格將在幾百美元到幾千美元之間，而配備 32 GB HBM3 內(nèi)存的高端產(chǎn)品預計價格將低于 10,000 美元，性價比是 CPU 或 GPU 替代品的 3 倍（非?；\統(tǒng)地說）。

來源：半導體行業(yè)觀察

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。