美國AI芯片初創(chuàng)企業(yè)Groq成功融資6.4億美元

發(fā)布人：芯智訊時間：2024-09-16 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

8月6日消息，美國人工智能（AI）芯片初創(chuàng)公司Groq于當?shù)貢r間周一成功獲得了6.4億美元的D輪融資，以加強其云端大模型推理能力。

據(jù)了解，Groq最新一輪融資由 BlackRock、Neuberger Berman、Type One Ventures、Cisco Investments、Global Brain 和 Samsung T催化劑等公司領投。

這家總部位于美國加利福尼亞州山景城的初創(chuàng)公司成立于 2016 年，是一家 AI 芯片生產(chǎn)商，旨在實現(xiàn)高吞吐量、低成本的推理，而不是訓練。該公司核心團隊來源于谷歌最初的張量處理單元（TPU）工程團隊。Groq 創(chuàng)始人兼CEO Jonathan Ross是谷歌TPU項目的核心研發(fā)人員。該公司硬件工程副總裁Jim Miller 曾是亞馬遜云計算服務AWS設計算力硬件的負責人，還曾在英特爾領導了所有 Pentium II 工程。截至目前，Groq 總共籌集了超過 10 億美元，現(xiàn)在的估值已達 28 億美元。

今年2月，Groq推出了全球首個基于LPU（Language Processing Unit）方案的大模型推理芯片，作為一款基于全新的TSA 架構的Tensor Streaming Processor (TSP) 芯片，旨在提高機器學習和人工智能等計算密集型工作負載的性能。

雖然Groq的LPU并沒有采用更本高昂的尖端制程工藝，而是選擇了14nm制程，但是憑借自研的TSA 架構，Groq LPU 芯片具有高度的并行處理能力，可以同時處理數(shù)百萬個數(shù)據(jù)流，并該芯片還集成了230MB容量的SRAM來替代DRAM，以保證內(nèi)存帶寬，其片上內(nèi)存帶寬高達80TB/s。

根據(jù)官方的數(shù)據(jù)顯示，Groq的LPU芯片的性能表現(xiàn)相當出色，可以提供高達1000 TOPS (Tera Operations Per Second) 的計算能力，并且在某些機器學習模型上的性能表現(xiàn)可以比常規(guī)的 GPU 和 TPU 提升10到100倍。

Groq表示，基于其LPU芯片的云服務器在Llama2或Mistreal模型在計算和響應速度上遠超基于NVIDIA AI GPU的ChatGPT，其每秒可以生成高達500個 token。相比之下，目前ChatGPT-3.5的公開版本每秒只能生成大約40個token。由于ChatGPT-3.5主要是基于NVIDIA的GPU，也就是說，Groq LPU芯片的響應速度達到了NVIDIA GPU的10倍以上。Groq表示，相對于其他云平臺廠商的大模型推理性能，基于其LPU芯片的云服務器的大模型推理性能最終實現(xiàn)了比其他云平臺廠商快18倍。

另外，在能耗方面，英偉達GPU需要大約10到30焦耳才能生成響應中的tokens，而Groq LPU芯片僅需1到3焦耳，在推理速度大幅提升10倍的同時，其能耗成本僅有英偉達GPU的十分之一，這等于是性價比提高了100倍。

Groq的策略是使用光纖互連將數(shù)百個LPU拼接在一起，每個LPU都裝有片上SRAM。通過使用 576 個 LPU 的集群，Groq 聲稱它能夠在 Meta 的 Llama 2 70B 模型上實現(xiàn)每秒超過 300 個令牌的生成速率，是具有 8 個 GPU 的 HGX H100 系統(tǒng)的 10 倍，同時消耗十分之一的功率。

Groq公司在演示中展示了其芯片的強大性能，支持Mistral AI的Mixtral8x7B SMoE，以及Meta的Llama2的7B和70B等多種模型，支持使用4096字節(jié)的上下文長度，并可直接體驗Demo。不僅如此，Groq還喊話各大公司，揚言在三年內(nèi)超越英偉達。目前該公司的LPU推理芯片在第三方網(wǎng)站上的售價為2萬多美元，低于NVIDIA H100的2.5-3萬美元。

編輯：芯智訊-浪客劍

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

美國AI芯片初創(chuàng)企業(yè)Groq成功融資6.4億美元

相關推薦

技術專區(qū)