光互連,愈發(fā)重要
隨處可見的傳感器增多以及人工智能/機(jī)器學(xué)習(xí)幾乎滲透到所有事物中,導(dǎo)致數(shù)據(jù)爆炸式增長,這加大了數(shù)據(jù)中心利用光學(xué)互連來加速數(shù)據(jù)吞吐量并減少延遲的壓力。
光通信已經(jīng)使用了幾十年,從長途通信開始,逐漸發(fā)展到將外部存儲(chǔ)連接到服務(wù)器機(jī)架,然后再連接到這些機(jī)架內(nèi)的服務(wù)器。最近,它被關(guān)注于不同模塊和先進(jìn)封裝之間的通信,最終它可能成為一種以最少的熱量和功率加速先進(jìn)封裝內(nèi)部數(shù)據(jù)移動(dòng)的方法。
挑戰(zhàn)在于將光子與電子結(jié)合起來。從歷史上看,該級(jí)別的互連很笨重且有些不可靠,但隨著業(yè)界認(rèn)識(shí)到對(duì)光學(xué)技術(shù)的需求,它們正在迅速改進(jìn)。這種情況已經(jīng)在超大規(guī)模數(shù)據(jù)中心中發(fā)生,它們的設(shè)計(jì)比企業(yè)數(shù)據(jù)中心更加統(tǒng)一,并且沒有單點(diǎn)故障?!霸谄髽I(yè)數(shù)據(jù)中心,您每天都會(huì)看到變化,” Cadence杰出工程師 Mark Seymour 說道?!霸诔笠?guī)模企業(yè)中你看不到這一點(diǎn)。此外,在超大規(guī)模企業(yè)中,如果出現(xiàn)故障,也并不重要,因?yàn)樗鼈冎皇寝D(zhuǎn)移工作負(fù)載?!?/p>
這有助于解釋為什么超大規(guī)模廠商始終處于光學(xué)技術(shù)的前沿。但隨著越來越多的人工智能/機(jī)器學(xué)習(xí)以及需要處理的數(shù)據(jù)越來越多,所有類型的數(shù)據(jù)中心內(nèi)對(duì)更低延遲、更低功耗和更低熱量的需求變得越來越普遍。
“在數(shù)據(jù)中心內(nèi)部,光連接可以分為兩種類型,” Synopsys技術(shù)營銷經(jīng)理 Jigesh Patel 說?!耙粋€(gè)是機(jī)架間,另一個(gè)是背板或機(jī)架內(nèi)。通常,多模光纖用于兩者。由于光子學(xué)具有更好的熱效率、光譜效率和能量效率,硅光子學(xué)正在迅速取代用于提供板載和片上連接的傳統(tǒng)銅互連。該行業(yè)正在逐漸從片上系統(tǒng)設(shè)計(jì)方法轉(zhuǎn)向單一封裝中的芯片系統(tǒng)?!?/span>
除了這種轉(zhuǎn)變之外,該行業(yè)從銅纜到光纖的轉(zhuǎn)變只是基礎(chǔ)數(shù)學(xué)。“以每秒 200 吉比特的速度運(yùn)行的銅纜將會(huì)產(chǎn)生損耗,”是德科技IP 有線解決方案高級(jí)戰(zhàn)略規(guī)劃師 John Calvin 表示?!袄纾? 米長的電纜將產(chǎn)生約 34 dB 的損耗。即 50:1 的信號(hào)損失。首先,****上有 50 毫伏信號(hào)?,F(xiàn)在接收器處的電壓已降至 1 毫伏。那就是問題所在。這種損失基本上是被燃燒成熱量的電信號(hào),這就是殺死數(shù)據(jù)中心的原因。[相比之下],您可以在光纖上發(fā)送光信號(hào)數(shù)十公里,并且信號(hào)降低 1 dB。”
互連選擇細(xì)分
我們來看一下當(dāng)前互聯(lián)的兩種選擇。
首先看銅選項(xiàng):直連銅纜 (DAC) 兩端都有一個(gè)高密度連接器,并通過銅差分傳輸線將兩個(gè)連接器連接在一起。在數(shù)據(jù)中心的高速度下,DAC 適用于大約兩米的互連。有源銅纜 (ACC) 可以處理銅纜和光纖之間的中等長度,比光纖更具成本效益。
其次看光學(xué)選項(xiàng):當(dāng)中可分為單模光纖,纖芯直徑8至10μm;多模光纖,芯徑50至100多毫米。雖然“多?!甭犉饋砜赡芨鼜?fù)雜,但實(shí)際上單模使用起來更棘手且成本更高,甚至不考慮與單獨(dú)光纖的成本差異。
“單模光纖系統(tǒng)中使用的激光器和其他組件更加昂貴,”Patel指出?!坝捎诠饫w的纖芯直徑要小得多,因此****與光纖之間以及光纖與光電探測器之間的耦合容差比基于多模光纖的系統(tǒng)中的容差更嚴(yán)格。另一方面,與多模光纖相比,單模光纖提供了更高的帶寬,這意味著基于單模光纖的傳輸可以承載更大量的數(shù)據(jù),傳輸更遠(yuǎn)的距離。”
出于最務(wù)實(shí)的原因,多模光纖仍然很受歡迎。
“您可以從線軸上拉出多模光纖,將其劈開,將其插入連接器,然后就可以使用了,”是德科技的 Calvin 解釋道?!皢文9饫w需要精確的對(duì)準(zhǔn)和光學(xué)器件,并且實(shí)際上是非常精確的切割。通常,您從供應(yīng)商處購買單模光學(xué)器件時(shí)會(huì)考慮到特定的適配應(yīng)用。您的數(shù)據(jù)中心沒有單模光纖線軸,您可以在其中提取互連所需的數(shù)量。這就是讓人瘋狂的原因。他們需要靈活性,而多模光纖雖然效率較低且無法達(dá)到單模光纖那么遠(yuǎn),但它是數(shù)據(jù)中心運(yùn)營商最好的朋友,因?yàn)樗芎?、易于擴(kuò)展且使用靈活。我們一直想知道多模式何時(shí)會(huì)消亡,但由于其靈活性,它永遠(yuǎn)不會(huì)消亡?!?/p>
這些基礎(chǔ)技術(shù)還進(jìn)行了其他修改,包括采用密集波分復(fù)用 (DWDM) 的單模光纖(可分割頻譜以提供更多帶寬并在更遠(yuǎn)的距離上廣播信號(hào))以及相干光學(xué)(可混合和放大信號(hào))。
“如果實(shí)施 802.3 CT 或 CW,它就是一個(gè)相干光鏈路,這是對(duì)光譜最有效的利用,可以連接 40 公里或更遠(yuǎn)的鏡像(備份)數(shù)據(jù)中心,”Calvin 指出。
通信鏈中的下一個(gè)環(huán)節(jié)也面臨著一系列挑戰(zhàn)。
Broadcom 光學(xué)系統(tǒng)的營銷和運(yùn)營部門副總裁 Manish Mehta 解釋說:“為了輸入和輸出數(shù)據(jù),需要一小部分連接,即直銅纜,但其傳輸距離相當(dāng)短,不超過幾米?!?“如果您想從交換機(jī)到另一臺(tái)設(shè)備的距離超過幾米,則必須進(jìn)行光學(xué)傳輸。今天的方法是使用可插拔光纖收發(fā)器。作為參考,每個(gè)收發(fā)器的帶寬為 400 GB/秒,其中一個(gè)交換機(jī)最多可插入 32 個(gè)收發(fā)器。這是一個(gè) 12.8 TB 的交換機(jī)。收發(fā)器的核心部件之一是半導(dǎo)體激光器,然后還有一些驅(qū)動(dòng)該激光器的IC。但需要許多小型機(jī)械部件來固定不同的機(jī)械裝置。例如,要將光纖從激光器連接到模塊的前部,需要具有應(yīng)力消除裝置,以便可以在惡劣的環(huán)境條件下運(yùn)行。”
這會(huì)導(dǎo)致擴(kuò)展問題,從而推動(dòng)行業(yè)的一些創(chuàng)新,例如共同封裝光學(xué)器件。
Mehta說:“超大規(guī)模企業(yè)每年購買的約 1000 萬個(gè)此類設(shè)備幾乎都是在亞洲各地的工廠手動(dòng)組裝的?!?“超大規(guī)模企業(yè)認(rèn)為這是不可擴(kuò)展的,尤其是隨著時(shí)間的推移,因?yàn)殂~線在數(shù)據(jù)中心所需的范圍內(nèi)傳輸數(shù)據(jù)的能力越來越差。每當(dāng)您經(jīng)歷速度一代時(shí),從 100Gb SerDes 到 200Gb SerDes 甚至更高,您都會(huì)根據(jù)物理定律減少銅的覆蓋范圍。數(shù)據(jù)中心需要更多的光纖連接。這就是必須解決的問題。現(xiàn)在,花在這些光收發(fā)器上的金額使 ASIC 相形見絀,而且它們并不是全行業(yè)最可靠的設(shè)備。處理這個(gè)問題的超大規(guī)模范例是,如果一個(gè)不起作用,他們將其拔出并插入另一根。光學(xué)器件硅化是絕對(duì)必要的?!?/p>
圖 1A:光學(xué)互連的現(xiàn)在和未來
圖 1B:Broadcom 的聯(lián)合封裝光學(xué)器件設(shè)計(jì)
重新思考互連
Broadcom 的解決方案是采用八個(gè) 800 Gb 收發(fā)器并將它們整合到單個(gè)光學(xué) 6.4T 光學(xué)引擎 (OE) 中,并將它們與交換機(jī) ASIC 集成在公共基板上,以提供系統(tǒng)所需的所有光學(xué)連接。對(duì)于 51.2T 交換機(jī),您需要八個(gè)這樣的 6.4T 光學(xué)引擎。
一些初創(chuàng)公司也在解決光學(xué)互連問題。例如,Lightmatter 提供了一個(gè)通信層,該層位于基板和 ASIC 之間。這提供了更多的布局選項(xiàng),因?yàn)樗鉀Q了電信號(hào)衰減等問題。
Lightmatter 硬件工程副總裁 Richard Ho 解釋說,該通信層的功能類似于 OCS(光電路交換機(jī)),但位于硅上?!盎旧?,當(dāng)我們配置它時(shí),我們從通信層中的任何一個(gè)節(jié)點(diǎn)到該層中的所有其他節(jié)點(diǎn)都有直接的點(diǎn)對(duì)點(diǎn)連接,并且您可以動(dòng)態(tài)地重新配置它。您可以將其設(shè)置為進(jìn)行全方位通信,也可以將其設(shè)置為環(huán),或者將其設(shè)置為 3D 超環(huán)形。有所有這些類型的配置,因?yàn)樗窃诠柚校覀冇修k法控制它,我們可以控制光的去向。但一旦我們以某種方式設(shè)置它,它就會(huì)變得像一根電線。它直接到達(dá)另一個(gè)位置——速度非???。因此,您基本上能夠在很短的時(shí)間內(nèi)重新配置計(jì)算機(jī)包裝內(nèi)的電線。這是獨(dú)特的技術(shù)。你不能用電力來做到這一點(diǎn)。你只能用硅光子學(xué)來做到這一點(diǎn)。”
圖2:通道通信層
Celestial AI 還擁有光學(xué)互連解決方案,該公司聲稱該解決方案比目前用于傳輸光學(xué)信號(hào)的環(huán)形諧振器更熱穩(wěn)定,并且應(yīng)該可以與 ASIC 進(jìn)行更緊密的通信。“我們正在提供一直到計(jì)算點(diǎn)的光學(xué)連接,”Celestial AI 首席執(zhí)行官 David Lazovsky 解釋道?!霸S多共同封裝光學(xué)領(lǐng)域的公司都在研究有線轉(zhuǎn)發(fā)技術(shù),這意味著你以電子方式向我發(fā)送信號(hào),我要做的就是將其轉(zhuǎn)換為光學(xué)信號(hào),然后將其以電子方式發(fā)送出去。光纖另一端的信號(hào)。在Celestial AI,我們提供全棧解決方案。我們有一個(gè)協(xié)議自適應(yīng)層,可以提供與客戶現(xiàn)有基礎(chǔ)設(shè)施的兼容性?!?/p>
圖3:Photonic fabric configurations
直接光纖布線
雖然光子學(xué)領(lǐng)域的大多數(shù)創(chuàng)新工作都集中在光學(xué)收發(fā)器或精煉激光輸出等工程組件上,但韓國初創(chuàng)企業(yè) Lessengers 開發(fā)了一種新型光纖,作為其稱為“直接光纖布線”方法的一部分(DOW )。該材料目前作為該公司 HPC 解決方案的一部分進(jìn)行銷售,但正在考慮在未來可能獲得許可。
Lessengers 首席營銷官 Taeyong Kim 表示:“這種材料能夠在室溫下運(yùn)行,這意味著它的大部分在室溫下呈液態(tài),并在布線過程中固化。” “通過改變一組參數(shù),如接線尖端的機(jī)械尺寸、接線速度、混合物的比例等,可以輕松地將電線的形狀控制為更寬的形狀,或不同類型的形狀。用戶可以優(yōu)化接線配方和內(nèi)部陶氏機(jī)器完成剩下的工作?!?/p>
圖 4:直接光纖布線
以太網(wǎng)和 PCIe
無論是銅纜還是光纖,PHY 都使用剛剛慶祝其 50 周年的協(xié)議 - IEEE 802.3 以太網(wǎng)。“以太網(wǎng)的發(fā)展超出了所有人的預(yù)期,它確實(shí)是數(shù)據(jù)中心用于連接一切的結(jié)構(gòu),”Calvin 說?!耙蕴W(wǎng)數(shù)據(jù)包很棒,因?yàn)樗鼈兊臄U(kuò)展性非常好。”
就連它的支持者也承認(rèn),隨著時(shí)間的推移,它會(huì)吱吱作響,但該行業(yè)正在努力解決問題。“確實(shí),以太網(wǎng)帶來了一些負(fù)擔(dān)。它是一個(gè)負(fù)載很重的協(xié)議,已經(jīng)發(fā)展了 50 多年,因此它不像一些更現(xiàn)代的協(xié)議那么簡潔和刻薄,”Calvin 說?!俺?jí)以太網(wǎng)聯(lián)盟將調(diào)整以太網(wǎng)以使其運(yùn)行速度更快。不過,歸根結(jié)底,您不想偏離以太網(wǎng)太遠(yuǎn),因?yàn)楫?dāng)信號(hào)協(xié)議進(jìn)出數(shù)據(jù)中心時(shí),它將是以太網(wǎng)。”
PCIe 是當(dāng)前銅互連的首選協(xié)議。然而,隨著標(biāo)準(zhǔn)的發(fā)展,銅可能會(huì)失去青睞。
Patel 表示:“雖然最多 6 個(gè) PCIe 版本主要使用銅纜,但帶寬、延遲和能耗方面的限制已經(jīng)很明顯,這激發(fā)了人們對(duì)線性直接驅(qū)動(dòng)光學(xué)引擎的巨大興趣?!?“光學(xué)引擎帶來的好處包括更高的帶寬、由于無需重定時(shí)器而降低的能耗、低延遲以及由于消除了可插拔模塊中的數(shù)字信號(hào)處理 (DSP) 而降低的成本。”
還有其他選擇?!澳梢赃x擇以串行鏈路還是并行鏈路進(jìn)行傳輸,這就是 SerDes 的用武之地,”Patel 說。“它可以是全電氣 SerDes,也可以是線性驅(qū)動(dòng) SerDes,其中 SerDes 硬件內(nèi)還有一個(gè)光學(xué)引擎,這就是光學(xué)互連的用武之地。銅纜可以傳輸?shù)?PCI、4、5 甚至 6,但在 6 時(shí),銅的局限性已經(jīng)顯而易見?!?/p>
這種限制在能源消耗中顯而易見,這增加了數(shù)據(jù)中心的冷卻要求。“PCIe 的下一版本 PCIe 7 將于 2025 年發(fā)布。每通道支持的數(shù)據(jù)速率將為 32GB/s,”他說?!霸S多業(yè)內(nèi)人士認(rèn)為,為了支持如此高的數(shù)據(jù)速率,光學(xué)的使用是不可避免的。事實(shí)上,PCI-SIG 最近成立的一個(gè)工作組正在研究通過光連接提供 PCIe 技術(shù)?!?/p>
Synopsys 的高級(jí)技術(shù)產(chǎn)品經(jīng)理 Richard Solomon 再次展望了未來,“CXL 使用 PCIe 傳輸。一旦光學(xué) PCIe 變得更加普遍,CXL 將構(gòu)建在其之上。導(dǎo)致 PCI SIG 想要采用光纖的一些驅(qū)動(dòng)因素是我將在數(shù)據(jù)中心周圍從一個(gè)盒子運(yùn)輸?shù)搅硪粋€(gè)盒子的使用模型。沒有人認(rèn)為光纖 PCI 和 CXL 的傳輸距離會(huì)超過 10 米。但如果我可以從上到下或從機(jī)架到機(jī)架進(jìn)行操作,這在數(shù)據(jù)中心仍然是一個(gè)巨大的優(yōu)勢。想象一下所有這些與更接近 DRAM 延遲相關(guān)的事物?!?/span>
新想法不斷涌現(xiàn)
隨著對(duì)舊協(xié)議的依賴和多模光纖的持續(xù)存在,該行業(yè)正在不斷向前發(fā)展。
8 月,OIF 宣布了外部激光小型可插拔 (ELSFP) 實(shí)施協(xié)議 (IA),該協(xié)議定義了針對(duì)共同封裝光學(xué)系統(tǒng)和其他多激光外部激光源應(yīng)用量身定制的前面板可插拔外形。
據(jù) OIF 稱,IA 包括對(duì)前面板(系統(tǒng)最酷的部分)放置激光源的定義,從而增強(qiáng)系統(tǒng)可靠性并在必要時(shí)允許高效的“熱插拔”現(xiàn)場更換。
“這些用于新興的高密度光學(xué)器件,常見于人工智能和機(jī)器學(xué)習(xí)等應(yīng)用中,”卡爾文說?!盎旧?,這些是超大規(guī)模數(shù)據(jù)中心內(nèi)使用的新興互連技術(shù),目前正在以極低延遲、高速、高性能的要求推動(dòng)這個(gè)行業(yè)的發(fā)展?!?/p>
結(jié)論
隨著標(biāo)準(zhǔn)和物理的不斷發(fā)展,以及 AI/ML 市場的推動(dòng),光學(xué)互連將繼續(xù)發(fā)展。分析公司 Light Counting 預(yù)測,到 2027 年,光學(xué)元件市場規(guī)模將達(dá)到 200 億美元,所有行業(yè)都將增長——包括老式備用設(shè)備、以太網(wǎng)。
來源:商業(yè)周刊(臺(tái))
-End-
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。