揭秘FPGA:為什么比 GPU 的延遲低這么多?
▲Open Compute Server 在機(jī)架中。
本文引用地址:http://m.butianyuan.cn/article/201806/382354.htm▲Open Compute Server 內(nèi)景。紅框是放 FPGA 的位置。
▲插入 FPGA 后的 Open Compute Server。
▲FPGA 與 Open Compute Server 之間的連接與固定。
FPGA 采用 Stratix V D5,有 172K 個 ALM,2014 個 M20K 片上內(nèi)存,1590 個 DSP。板上有一個 8GB DDR3-1333 內(nèi)存,一個 PCIe Gen3 x8 接口,兩個 10 Gbps 網(wǎng)絡(luò)接口。一個機(jī)柜之間的 FPGA 采用專用網(wǎng)絡(luò)連接,一組 10G 網(wǎng)口 8 個一組連成環(huán),另一組 10G 網(wǎng)口 6 個一組連成環(huán),不使用交換機(jī)。
▲機(jī)柜中 FPGA 之間的網(wǎng)絡(luò)連接方式。
這樣一個 1632 臺服務(wù)器、1632 塊 FPGA 的集群,把 Bing 的搜索結(jié)果排序整體性能提高到了 2 倍(換言之,節(jié)省了一半的服務(wù)器)。
如下圖所示,每 8 塊 FPGA 穿成一條鏈,中間用前面提到的 10 Gbps 專用網(wǎng)線來通信。這 8 塊 FPGA 各司其職,有的負(fù)責(zé)從文檔中提取特征(黃色),有的負(fù)責(zé)計算特征表達(dá)式(綠色),有的負(fù)責(zé)計算文檔的得分(紅色)。
▲FPGA 加速 Bing 的搜索排序過程。
▲FPGA 不僅降低了 Bing 搜索的延遲,還顯著提高了延遲的穩(wěn)定性。
評論