2023國家科學(xué)技術(shù)獎放榜!近十年AI領(lǐng)域首個一等獎?wù)Q生。作者 | 三北
編輯 | 漠影
6月24日上午,一場科技盛會在北京召開。全國科技大會、國家科學(xué)技術(shù)獎勵大會、兩院院士大會首次共同舉行,總書記為最高科學(xué)技術(shù)獎獲得者等頒獎。同時,國家自然科學(xué)獎、國家技術(shù)發(fā)明獎、國家科學(xué)技術(shù)進(jìn)步獎等獎項(xiàng)重磅揭榜。在獲獎名單中,我們看到華為、科大訊飛、阿里云、小米等科技公司出現(xiàn),而科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目,更是斬獲國家科學(xué)技術(shù)進(jìn)步獎一等獎。這是深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來,過去十年人工智能領(lǐng)域首個國家科學(xué)技術(shù)進(jìn)步獎一等獎。據(jù)悉,這一集合了多語種語音識別、多語種語音合成、多語種翻譯技術(shù)等為一體的綜合技術(shù),解決覆蓋69個語種的跨文化交流難題。當(dāng)下正值大模型掀起新一波革命,OpenAI推出的GPT-4o爆火全球,一大原因是“語音+大模型”的全新震撼交互體驗(yàn)。這一次的“國獎”,則讓我們看到了中國AI的隱藏實(shí)力和“語音+大模型”的廣闊前景。
01.史上最卷科技“國獎”,神仙打架
6月24日,2023年度國家科學(xué)技術(shù)獎揭榜,被央視網(wǎng)、人民網(wǎng)等主流媒體輪番報道,占據(jù)各大科技媒體的頭版頭條。五大科技獎項(xiàng)揭榜結(jié)果大致如下:國家最高科學(xué)技術(shù)獎2人:分別授予武漢大學(xué)李德仁院士、清華大學(xué)薛其坤院士;國家自然科學(xué)獎49項(xiàng):一等獎1項(xiàng),二等獎48項(xiàng);國家技術(shù)發(fā)明獎62項(xiàng):一等獎8項(xiàng),二等獎54項(xiàng);國家科學(xué)技術(shù)進(jìn)步獎139項(xiàng):特等獎3項(xiàng),一等獎16項(xiàng),二等獎120項(xiàng);中華人民共和國國際科學(xué)技術(shù)合作獎:10人。本屆國獎被稱為史上最難、最嚴(yán)格的一屆評獎。一是因?yàn)閺?017年開始至今,國家科學(xué)技術(shù)獎勵數(shù)度改革,強(qiáng)調(diào)科技獎勵工作要堅(jiān)持國家戰(zhàn)略導(dǎo)向,并與國家重大戰(zhàn)略需求和中長期科技發(fā)展規(guī)劃緊密結(jié)合。改革之后,提名制和寧缺毋濫是兩個重要原則:提名制,壓實(shí)了提名者對材料把關(guān)的責(zé)任,加強(qiáng)了對候選者的審核和誠信審核;寧缺毋濫,讓獎項(xiàng)評審更加嚴(yán)格,比如說2020年度國家科學(xué)技術(shù)進(jìn)步獎計算機(jī)與自動控制組的一等獎就是空缺的。二是,因2021年、2022年國家科技獎暫停,大量優(yōu)秀成果累積,競爭極其激烈。2023年受理的通用項(xiàng)目總數(shù)為1261項(xiàng),僅243項(xiàng)通過初評,最終僅28項(xiàng)最終獲得特等獎、一等獎,約占2%。國家科學(xué)技術(shù)進(jìn)步獎更是競爭者眾。由垂直專業(yè)新媒體“科獎圈”于今年2月的統(tǒng)計可知,2023年科技進(jìn)步獎共28個分組、709個項(xiàng)目。聚焦信息領(lǐng)域,主要有計算機(jī)與自動控制組(45項(xiàng))、電子與科學(xué)儀器組(28項(xiàng))、網(wǎng)絡(luò)與通信組(13項(xiàng))三個組。由公開信息可知,在信息領(lǐng)域,華為陳海波牽頭的“鴻蒙智能終端操作系統(tǒng)基座與產(chǎn)業(yè)應(yīng)用”、百度王海峰牽頭的“產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺”、曙光歷軍牽頭的“國產(chǎn)先進(jìn)計算系統(tǒng)關(guān)鍵技術(shù)及應(yīng)用”也都在初期提名之列。可謂“神仙打架”。不過,從最終結(jié)果來看,只有科大訊飛牽頭的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目戰(zhàn)到最后,并獲得了國家科學(xué)技術(shù)進(jìn)步獎一等獎。這是深度學(xué)習(xí)引發(fā)新一代人工智能浪潮以來,過去十年人工智能領(lǐng)域首個國家科學(xué)技術(shù)進(jìn)步獎一等獎。科大訊飛也是19項(xiàng)國家科學(xué)技術(shù)進(jìn)步獎特等獎、一等獎中唯一作為牽頭單位獲獎的民營企業(yè)。
02.多語種智能語音及產(chǎn)業(yè)化,為何拔得頭籌
這是一個什么樣的項(xiàng)目?簡單來說,“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”,是集合了多語種語音識別、多語種語音合成、多語種翻譯技術(shù)等智能語音技術(shù)和產(chǎn)業(yè)化為一體的綜合項(xiàng)目。目前,該技術(shù)支持69個語種,除了6個聯(lián)合國通用語種,包括漢語、英語、法語、西班牙語、俄語、阿拉伯語等,以及挪威語、丹麥語等63個小語種。同時,該項(xiàng)目還覆蓋了24種主要中國方言。在堅(jiān)持國家戰(zhàn)略導(dǎo)向的大背景下,國家科學(xué)技術(shù)進(jìn)步獎的評選標(biāo)準(zhǔn)更系統(tǒng):不僅要完成重大科學(xué)技術(shù)創(chuàng)新,還要實(shí)現(xiàn)科學(xué)技術(shù)成果轉(zhuǎn)化,創(chuàng)造顯著經(jīng)濟(jì)效益。語音是人類最自然便捷的溝通方式,是智能設(shè)備人機(jī)交互的關(guān)鍵入口,也是諸多敏感信息的重要載體,還是國際合作的基礎(chǔ)。多語種智能語音技術(shù)對于支撐人機(jī)交互、人類語言互通等需求具有重大戰(zhàn)略意義,具有十分廣闊的產(chǎn)業(yè)前景。尤其是在當(dāng)前全球人工智能發(fā)展迅猛的大背景下,多語種智能語音技術(shù)更是當(dāng)前國際科技競爭核心焦點(diǎn)之一。但是,這項(xiàng)技術(shù)面臨著諸多技術(shù)難題,科大訊飛從四個創(chuàng)新點(diǎn)完成了技術(shù)的突破。1、復(fù)雜語音信號解耦建模,破解“雞尾酒會”難題要說語音識別的最突出難題是什么?很多人知道“雞尾酒會”效應(yīng)——遠(yuǎn)場、噪聲、多人講話往往難以聽清。對此,科大訊飛提出多通道語音信號時空分離建模方法,使人聲和噪聲精確分離;團(tuán)隊(duì)還將多維度語音屬性分層解耦,簡單說就是把內(nèi)容、韻律、音色以及語種等都抽出來,以便更準(zhǔn)確地識別和傳達(dá),從而破解“雞尾酒會”難題。2、多語種共享建模,多語言識別測評超OpenAI再來看看另一個“卡脖子”技術(shù)——小語種智能語音系統(tǒng)。在當(dāng)前國際科技限制的情況下,小語種知識匱乏、訓(xùn)練數(shù)據(jù)稀缺,是困擾小語種訓(xùn)練的主要難題之一。科大訊飛設(shè)計了全新的多語種通用音素體系和基本語言單元,實(shí)現(xiàn)多語種統(tǒng)一音素韻律體系的構(gòu)建,又通過基于元學(xué)習(xí)的多語種預(yù)訓(xùn)練和基于語族分組的多語種共享建?!ㄋ椎卣f,就是將不同的小語種進(jìn)行分類,找到同類語種的共同規(guī)律,進(jìn)行分析建模和訓(xùn)練——最終,顯著提升了小語種語音系統(tǒng)性能。3、語音語義聯(lián)合建模,讀懂深層含義和專業(yè)知識人們交流中常面臨溝通障礙,深層語義理解對人來說都是困難的,更別說對機(jī)器了。科大訊飛提出語音語義互增強(qiáng)的魯棒口語理解技術(shù),并提出多源知識增強(qiáng)的可信文本生成技術(shù),有效提升語音交互、語音翻譯等復(fù)雜場景的語義理解準(zhǔn)確率,同時拉高專有詞匯及領(lǐng)域知識引用的準(zhǔn)確率。4、國產(chǎn)異構(gòu)硬件平臺,建立國產(chǎn)化集群面對算力“卡脖子”難題,科大訊飛也加速了國產(chǎn)異構(gòu)硬件平臺關(guān)鍵技術(shù)的突破。目前,科大訊飛已建成5個國產(chǎn)化集群,2023年與華為聯(lián)合建設(shè)首個萬卡全國產(chǎn)算力平臺“飛星一號”,填補(bǔ)了國產(chǎn)超大模型訓(xùn)練平臺空白。除了技術(shù)上的突破之外,在重要評審維度“產(chǎn)業(yè)化”上,科大訊飛圍繞多語種智能語音技術(shù)構(gòu)建了自主可控的產(chǎn)業(yè)生態(tài),開創(chuàng)引領(lǐng)了我國語音產(chǎn)業(yè)的產(chǎn)業(yè)鏈,助力中國制造出海;促進(jìn)全球語言互通和“一帶一路”建設(shè);并且在進(jìn)一步打造覆蓋全球的國際產(chǎn)業(yè)生態(tài)。具體到大家都看得到的場景上:中國現(xiàn)在是汽車出口第一大國,出口國外的智能汽車需要有外語的交互,由科大訊飛多語種智能技術(shù)而開發(fā)出來的車載智能化產(chǎn)品,就支持奇瑞、一汽、長安等車企超200萬套訂單出海;出國旅游,科大訊飛基于多語種技術(shù)開創(chuàng)了智能翻譯機(jī)的新品類,帶上一個翻譯機(jī)就像帶上一個會85種語言的AI翻譯官;在會議、辦公等場景,訊飛聽見系列產(chǎn)品能夠?qū)崟r記錄和翻譯會議錄音,目前服務(wù)遍及全球50多個國家和地區(qū),支持了超過40萬場會議,科大訊飛還基于此研發(fā)出了普通用戶也能用的訊飛辦公本、訊飛錄音筆等產(chǎn)品。2017年開始,科大訊飛承建智能語音國家新一代人工智能開放創(chuàng)新平臺,目前已聚集平臺開發(fā)者數(shù)700.7萬,意思就是由700多萬人在調(diào)用多語種智能語音技術(shù)去開發(fā)自己的產(chǎn)品。這就是技術(shù)帶來的生生不息的產(chǎn)業(yè)生態(tài)。據(jù)了解,近三年來,“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目累計實(shí)現(xiàn)直接經(jīng)濟(jì)效益 521.28 億元,并帶動由工信部和安徽省政府共建、以科大訊飛為核心的“中國聲谷”產(chǎn)業(yè)集聚發(fā)展。不得不說,這么多技術(shù)突破和產(chǎn)業(yè)發(fā)展,不是一朝一夕就能完成的,難怪有媒體說科大訊飛是“十年磨一劍”!
03.大模型時代,多語種智能語音技術(shù)能做什么?
眾所周知,人工智能又來到了新的大模型時代,那么積累十年的多語種智能語音技術(shù)能做什么?尤其是今年5月,OpenAI推出的GPT-4o模型引爆科技圈。眾多業(yè)內(nèi)專業(yè)人士認(rèn)為,GPT-4o對萬物互聯(lián)時代語音浪潮的推動,類似于當(dāng)年Siri對語音應(yīng)用的推動。一夜之間,“語音+大模型”賽道受到各界高度關(guān)注。科大訊飛多語種智能語音關(guān)鍵技術(shù)中的創(chuàng)新和大模型技術(shù)是相互補(bǔ)充、相互促進(jìn)的。語音屬性解耦、語音信號時空分離等技術(shù)突破,可以將語音信號經(jīng)過編碼后輸入到大語言模型,顯著提升語音大模型的效果。大模型技術(shù)可以在復(fù)雜語義理解、長文本建模能力上進(jìn)一步提升語音識別、合成和翻譯的效果,同時基于其強(qiáng)大的語義理解、知識問答、多輪對話、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語音技術(shù)的使用場景和應(yīng)用價值。今年1月30日,科大訊飛就基于上述技術(shù)融合路線發(fā)布了星火語音大模型,顯著超過了OpenAI的Whisper v3的語音大模型能力,Whisper v3的24個主要語種的平均識別率為82%,而星火語音大模型達(dá)到了90%。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復(fù)刻能力,使機(jī)器具備更加豐富的超擬人情緒感知和表達(dá)。可以預(yù)測,語音同傳、自動客服、輔學(xué)答疑、家庭醫(yī)生、虛擬員工、陪伴機(jī)器人、服務(wù)機(jī)器人……這些原有的應(yīng)用都將被變革,科幻片《她(Her)》中的智能陪伴助理也將成為現(xiàn)實(shí)。今年6月27日,訊飛星火V4.0發(fā)布也將公布最新的端到端落地成果,拭目以待。
04.結(jié)語:大國科技競賽正酣,AI新機(jī)遇到來
時隔兩年多,國家科技獎再次重磅頒發(fā),引起了整個智能產(chǎn)業(yè)圈的強(qiáng)烈關(guān)注。這是十年以來,AI領(lǐng)域項(xiàng)目首次獲得國家科技進(jìn)步一等獎,表明了國家層面對AI產(chǎn)業(yè)在技術(shù)創(chuàng)新度、轉(zhuǎn)化程度、示范帶動作用等方面的蓋章認(rèn)可。當(dāng)下大國科技競賽正酣,是新的挑戰(zhàn),也是新的戰(zhàn)略機(jī)遇。就像曾經(jīng)的互聯(lián)網(wǎng)技術(shù)一樣,國產(chǎn)的AI技術(shù)不知不覺中已突破奇點(diǎn),已百花齊放,而大模型技術(shù)及應(yīng)用可能已在爆發(fā)前夜。 來源:智東西
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。