微軟揭曉Brainwave人工智能系統(tǒng),可實現超低延遲
今日,微軟在 HotChips 大會上正式揭曉了 Brainwave 系統(tǒng),該產品是微軟加入人工智能硬件競賽的首發(fā)產品。微軟表示這款高速度、低延遲的 AI 專用芯片系統(tǒng)可以為機器學習開發(fā)者們提供超越 GPU 的性能。
本文引用地址:http://m.butianyuan.cn/article/201708/363482.htm微軟的研究人員現場展示了 Brainwave 的威力:在使用英特爾最新的 Stratix 10 FPGA(現場可編程門陣列)芯片的情況下,Brainwave 運行 Gated Recurrent Unit(LSTM的變種)的浮點運算速度可高達 39.5 TFLOPS,并且不需要任何批量處理,即芯片可以即時處理每一項提交上去的請求,為機器學習系統(tǒng)提供實時的見解。
對于用戶來說,低延遲是大規(guī)模部署機器學習系統(tǒng)時必須滿足的一個要求,因為他們不會有太多耐心等待 APP 反應。
“我們需要‘即時AI’,因為你在提交請求后,會想立刻獲得反饋,不論是視頻播放、對話,還是檢測網絡入侵者和異常狀況,你會期望 APP 都能即時反饋”,微軟研究所的工程師 Doug Burger 說。
然而,之前的硬件加速機器學習系統(tǒng)相關的研究卻注重于犧牲延遲來實現高流量。Burger 認為,需要思考的是,在不對請求進行批量處理時,機器學習加速器的反應速度。“其他人給出的數字都注水了。”
由于 FPGA 屬于可編程芯片,它可以讓開發(fā)者專門為各種功能對硬件進行優(yōu)化設置,比如設置出可以快速處理神經網絡所需的數學計算的硬件。微軟已在其數據中心安裝了數十萬枚 FPGA。而這些 FPGA 已經開始使用 Brainwave,讓微軟的各種服務可以更迅速地支持人工智能功能。此外,微軟還將通過旗下 Azure 云服務,向第三方客戶提供 Brainwave。
在這些 FPGA 上,Brainwave 會提前設置好一個經過訓練的機器學習模型。之后,它們就可以被用來做識別文字、辨別圖像等機器學習任務了。對于一個較大的文件,Brainwave 的軟件可以將它分拆到多個芯片上進行計算。而這個模型將永存與這些 FPGA 上,直到微軟選擇對其進行升級。
微軟并不是唯一一家投資于加速機器學習硬件的公司。今年年初,谷歌就曾揭曉其機器學習訓練和運行的專用芯片——TPU(Tensor Processing Unit)的第二個版本。此外,還有多家初創(chuàng)公司正在開發(fā)機器學習加速硬件。
然而,各方各界對于機器學習加速硬件的看法卻并不一樣。有些人認為,FPGA比專門為機器學習而設計的 ASIC(專用集成電路)效率更低,速度更慢。Burger 表示,他們在 FPGA 上所展現的性能足以反駁這一說法,讓人們見識到FPGA 也可以提供高性能。
而且,今天微軟的展示的 Stratix 10 是一款全新芯片,還有與英特爾合作優(yōu)化的空間。據Burger計算,使用 Stratix 10 的 Brainwave 的運算速度最高應該可以實現 90 TFLOPS。
目前,Brainwave 只支持在微軟 CNTK 框架和谷歌 TensorFlow 框架下的模型。其團隊正開發(fā)兼容 Caffe 等其他框架的 Brainwave 版本。微軟表示,未來,第三方客戶將可以在 Brainwave 上運行任何模型,不過并未給出 Brainwave 全面上市的時間表。
評論