博客專欄

EEPW首頁 > 博客 > 美國AI芯片初創(chuàng)企業(yè)Groq成功融資6.4億美元

美國AI芯片初創(chuàng)企業(yè)Groq成功融資6.4億美元

發(fā)布人:芯智訊 時間:2024-09-16 來源:工程師 發(fā)布文章

image.png

8月6日消息,美國人工智能(AI)芯片初創(chuàng)公司Groq于當?shù)貢r間周一成功獲得了6.4億美元的D輪融資,以加強其云端大模型推理能力。

據(jù)了解,Groq最新一輪融資由 BlackRock、Neuberger Berman、Type One Ventures、Cisco Investments、Global Brain 和 Samsung T催化劑等公司領投。

這家總部位于美國加利福尼亞州山景城的初創(chuàng)公司成立于 2016 年,是一家 AI 芯片生產(chǎn)商,旨在實現(xiàn)高吞吐量、低成本的推理,而不是訓練。該公司核心團隊來源于谷歌最初的張量處理單元(TPU)工程團隊。Groq 創(chuàng)始人兼CEO Jonathan Ross是谷歌TPU項目的核心研發(fā)人員。該公司硬件工程副總裁Jim Miller 曾是亞馬遜云計算服務AWS設計算力硬件的負責人,還曾在英特爾領導了所有 Pentium II 工程。截至目前,Groq 總共籌集了超過 10 億美元,現(xiàn)在的估值已達 28 億美元。

今年2月,Groq推出了全球首個基于LPU(Language Processing Unit)方案的大模型推理芯片,作為一款基于全新的TSA 架構的Tensor Streaming Processor (TSP) 芯片,旨在提高機器學習和人工智能等計算密集型工作負載的性能。

雖然Groq的LPU并沒有采用更本高昂的尖端制程工藝,而是選擇了14nm制程,但是憑借自研的TSA 架構,Groq LPU 芯片具有高度的并行處理能力,可以同時處理數(shù)百萬個數(shù)據(jù)流,并該芯片還集成了230MB容量的SRAM來替代DRAM,以保證內(nèi)存帶寬,其片上內(nèi)存帶寬高達80TB/s。

根據(jù)官方的數(shù)據(jù)顯示,Groq的LPU芯片的性能表現(xiàn)相當出色,可以提供高達1000 TOPS (Tera Operations Per Second) 的計算能力,并且在某些機器學習模型上的性能表現(xiàn)可以比常規(guī)的 GPU 和 TPU 提升10到100倍。

Groq表示,基于其LPU芯片的云服務器在Llama2或Mistreal模型在計算和響應速度上遠超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高達500個 token。相比之下,目前ChatGPT-3.5的公開版本每秒只能生成大約40個token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是說,Groq LPU芯片的響應速度達到了NVIDIA GPU的10倍以上。Groq表示,相對于其他云平臺廠商的大模型推理性能,基于其LPU芯片的云服務器的大模型推理性能最終實現(xiàn)了比其他云平臺廠商快18倍。

另外,在能耗方面,英偉達GPU需要大約10到30焦耳才能生成響應中的tokens,而Groq LPU芯片僅需1到3焦耳,在推理速度大幅提升10倍的同時,其能耗成本僅有英偉達GPU的十分之一,這等于是性價比提高了100倍。

Groq的策略是使用光纖互連將數(shù)百個LPU拼接在一起,每個LPU都裝有片上SRAM。通過使用 576 個 LPU 的集群,Groq 聲稱它能夠在 Meta 的 Llama 2 70B 模型上實現(xiàn)每秒超過 300 個令牌的生成速率,是具有 8 個 GPU 的 HGX H100 系統(tǒng)的 10 倍,同時消耗十分之一的功率。

Groq公司在演示中展示了其芯片的強大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多種模型,支持使用4096字節(jié)的上下文長度,并可直接體驗Demo。不僅如此,Groq還喊話各大公司,揚言在三年內(nèi)超越英偉達。目前該公司的LPU推理芯片在第三方網(wǎng)站上的售價為2萬多美元,低于NVIDIA H100的2.5-3萬美元。

編輯:芯智訊-浪客劍


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 芯片

相關推薦

技術專區(qū)

關閉