多模態(tài)人工智能有哪些應(yīng)用場景?
上一篇文章介紹了什么是生成式人工智能(Generative AI)(http://m.butianyuan.cn/article/202502/467350.htm)。本篇為您介紹與生成式人工智能有關(guān)系的多模態(tài)人工智能如何實現(xiàn)像人一樣綜合處理多個信息和數(shù)據(jù),以及多模態(tài)人工智能有哪些常見應(yīng)用場景。
本文引用地址:http://m.butianyuan.cn/article/202502/467351.htm01 生成式AI與多模態(tài)AI
人工智能技術(shù)正在迅速發(fā)展,不斷改變我們的生活和業(yè)務(wù)等的存在方式。在這些人工智能技術(shù)中,目前特別受到關(guān)注的人工智能有“生成式人工智能”和“多模態(tài)人工智能”。
生成式人工智能是一種擁有能夠自動生成并輸出文本/圖像/音樂等多種形式的數(shù)據(jù)的能力,并且能支援迄今為止由人類承擔(dān)的創(chuàng)造性作業(yè)的人工智能。
多模態(tài)人工智能(Multimodal AI)是一種輸入數(shù)據(jù)(模態(tài))有多種形式的人工智能。例如,輸入“文本”和“圖像”等不同數(shù)據(jù),并將這些數(shù)據(jù)綜合后進行預(yù)估,就是多模態(tài)人工智能的代表性例子。這里提到的“模態(tài)”,意思是指數(shù)據(jù)的模態(tài)(Modality),“多模態(tài)”指的是多種形式的模態(tài)(文本、圖像、聲音等)。
圖一、多模態(tài)可以處理包括輸入和輸出在內(nèi)的不同數(shù)據(jù)形式的人工智能。例如,即使輸入數(shù)據(jù)和輸出數(shù)據(jù)分別為一個,輸入是聲音,輸出是文本,這種數(shù)據(jù)形式不同的人工智能有時也被稱為多模態(tài)人工智能。
02 多模態(tài)AI與單模態(tài)AI
既然有多模態(tài)人工智能,就不得不解釋一下對應(yīng)的單模態(tài)AI是什么。相對于處理多種形式數(shù)據(jù)的多模態(tài)人工智能,處理傳統(tǒng)人工智能中的單一數(shù)據(jù)的人工智能就是單模態(tài)人工智能。
圖二、多模態(tài)人工智能和單模態(tài)人工智能的示意圖。
單模態(tài)人工智能輸入單一信息(例如僅文本、僅圖像或僅聲音)并分別處理,例如,使用網(wǎng)絡(luò)上的文本學(xué)習(xí)和用戶的文本輸入的生成式人工智能服務(wù)就屬于單模態(tài)人工智能。
此外,單模態(tài)人工智能的另一個例子是使用在網(wǎng)絡(luò)末端的傳感器等終端(邊緣設(shè)備)進行AI推理的邊緣人工智能處理影像或語音。
另外,人們也在自動駕駛等方面嘗試邊緣人工智能的多模態(tài)化,毫無疑問,邊緣人工智能的多模態(tài)化今后將在多種領(lǐng)域不斷取得進展。
03 多模態(tài)人工智能的演變
與多模態(tài)人工智能相關(guān)的構(gòu)想和研究據(jù)說始于上個世紀80年代。自2000年代以來,多模態(tài)人工智能的研究隨著機器學(xué)習(xí)中的深度學(xué)習(xí)而不斷發(fā)展。2010年代,多模態(tài)人工智能應(yīng)用程序問世,它讓人工智能學(xué)習(xí)人類面部表情和文本,畫面上的阿凡達會根據(jù)文本改變其表情。
2015年以后,可以有效捕獲多種形式的數(shù)據(jù)之間關(guān)聯(lián)性的人工智能模型出現(xiàn),數(shù)據(jù)綜進一步發(fā)展,因此,復(fù)雜處理和高階識別也可以實現(xiàn)。而且,進入2020年代后,多模態(tài)人工智能在主要的生成式人工智能服務(wù)和人工智能平臺中引進得越來越多。
例如,出現(xiàn)了綜合圖像和文本等數(shù)據(jù)并通過大語言模型(LLM:Large language Models)提供自然語言應(yīng)答、根據(jù)用戶提的問題輸出圖像和文本這兩種形式的數(shù)據(jù)、輸出說明圖像的文本等使用方式。而且,還發(fā)布了配備多模態(tài)人工智能的可穿戴設(shè)備等,在日常硬件中也引進得越來越多。
人們預(yù)計不斷取得進展的多模態(tài)人工智能今后將繼續(xù)迅速向多種領(lǐng)域滲透,包括自動駕駛技術(shù)、安保、醫(yī)療、制造和工程、商業(yè)支持和管理、體育及娛樂等。
04 多模態(tài)人工智能的應(yīng)用事例
多模態(tài)人工智能可以處理多種數(shù)據(jù)形式作為輸入,因此是一種能夠用于多種目的的高度靈活的人工智能。下面介紹多模態(tài)人工智能的幾個主要應(yīng)用事例。
1. 網(wǎng)絡(luò)領(lǐng)域:識別假冒產(chǎn)品和假視頻
一個為人熟知的應(yīng)用事例是為識別私人交易中介網(wǎng)站上的假冒產(chǎn)品——根據(jù)新銷售產(chǎn)品上附帶的文本(說明文和標簽)和產(chǎn)品影像數(shù)據(jù)來進行判斷的識別提供支持。此外,它還可以用于在視頻發(fā)布網(wǎng)站等處從圖像和語音等多種數(shù)據(jù)識別假視頻。
通過讓多模態(tài)人工智能學(xué)習(xí),讓它能夠?qū)θ菀妆粋卧斓闹a(chǎn)品的真假難辨復(fù)制品、模仿各國重要人物和名人的深度偽造視頻進行高精度識別,多模態(tài)人工智能的識別能力有望進一步提高。
2. 汽車領(lǐng)域:支持自動駕駛控制
為了讓5級自動駕駛(一種可以在任意地方自動駕駛且不需要方向盤操作的駕駛系統(tǒng))在未來實現(xiàn)實用化,人們目前正在進行多種研究和驗證工作。多模態(tài)人工智能在前沿自動駕駛技術(shù)研究中的應(yīng)用已受到全世界的關(guān)注。
從眾多傳感器獲得的汽車內(nèi)部和外部數(shù)據(jù)、通過無線通信獲得的與位置、其他車輛和交通狀況相關(guān)的數(shù)據(jù)、與乘客之間說話的語音數(shù)據(jù)等,多模態(tài)人工智能綜合處理多種數(shù)據(jù)的能力可以說是控制自動駕駛不可或缺的技術(shù)。
3. 醫(yī)學(xué)領(lǐng)域:提出輔助性診斷和治療方案
通過利用多模態(tài)人工智能來綜合分析電子病歷和檢查圖像等數(shù)據(jù),以實現(xiàn)早期發(fā)現(xiàn)疾病和優(yōu)化治療計劃的研究正在醫(yī)學(xué)領(lǐng)域不斷推進。例如,可以考慮讓多模態(tài)人工智能輸出對疾病的狀態(tài)和經(jīng)過進行的多角度判斷、對癌癥復(fù)發(fā)時期進行的預(yù)估、在診斷和決定治療方法時提供輔助性建議。在本例中,據(jù)稱它不僅有助于預(yù)估再次就診的時間和選擇適當?shù)闹委煼椒?,而且還可以通過提供適當?shù)尼t(yī)療來降低醫(yī)療成本,并通過消除屬人化來減輕醫(yī)務(wù)人員的負擔(dān)。多模態(tài)人工智能在醫(yī)療領(lǐng)域也有望做出廣范圍的貢獻。
4. 安保和監(jiān)控領(lǐng)域:狀況判斷
使用傳統(tǒng)人工智能的安保攝像頭通過使用人工智能僅分析影像(圖像)來支持狀況判斷。但是,在實際的人類監(jiān)控業(yè)務(wù)中,除了視覺以外,還需要根據(jù)聲音、振動、氣味以及與其他監(jiān)控人員的交流等大量信息來對狀況進行判斷。
人們認為綜合處理圖像和聲音等多種形式數(shù)據(jù)的多模態(tài)人工智能對于噪音和騷亂等滋事行為、打斗、擅自或非法進入等復(fù)雜情況也能判斷其處于什么狀況。隨著這些利用方法的研究和實用化的進展,通過人工智能對監(jiān)控業(yè)務(wù)提供的支持程度有望大幅提高。
5. 制造和開發(fā)領(lǐng)域:對機器人控制和材料開發(fā)提供支持
目前,工業(yè)機器人在制造現(xiàn)場的引進數(shù)量正在顯著增加。這些傳統(tǒng)工業(yè)機器人的動作是通過程序指定機械運動角度、速度、強度等,并組合圖像辨別等識別技術(shù)來進行控制的。另一方面,使用多模態(tài)人工智能的機器人控制的研究不斷取得進展,通過綜合和學(xué)習(xí)來自多種傳感器的數(shù)據(jù)等,機器人的判斷能力將變得比傳統(tǒng)機器人更進一步提高,執(zhí)行更精細的作業(yè)的可能性越來越大。作為一項不僅可以應(yīng)用于制造領(lǐng)域,而且可以應(yīng)用于醫(yī)療、護理、農(nóng)業(yè)機器人等領(lǐng)域的技術(shù)而受到關(guān)注。
在開發(fā)領(lǐng)域也能看到使用多模態(tài)人工智能的情況。例如,通過綜合處理自己獲得的實驗數(shù)據(jù)、論文等當中報告的物質(zhì)化學(xué)構(gòu)造和組成、測量數(shù)據(jù)(顯微鏡圖像、光譜等),可以高精度預(yù)估該物質(zhì)的物理和化學(xué)特性,利用它可以在虛擬空間中高速進行混合條件和成分的優(yōu)化等。該技術(shù)是材料信息學(xué)(MI:Materials informatics)的一種,有望幫助提高新材料探索等研究開發(fā)的效率,例如幫助大幅減少時間和成本。
我們認為,除此之外,多模態(tài)人工智能在制造和工程中的應(yīng)用今后也將繼續(xù)迅速發(fā)展,例如通過綜合來自配置在生產(chǎn)設(shè)備中的多種傳感器的數(shù)據(jù)信息來實現(xiàn)高精度的異常檢測,以及迄今為止一直很難實現(xiàn)的自動化——通過機器人實現(xiàn)質(zhì)量檢查和維護活動的自動化等。
近年來,主要人工智能平臺上都推出了能夠處理文本、圖像等多種形式數(shù)據(jù)的多模態(tài)人工智能服務(wù)。隨著更多此類平臺的出現(xiàn)并變得更加精良,多模態(tài)人工智能有望在商業(yè)和創(chuàng)意等寬廣的領(lǐng)域擴大應(yīng)用。除了本文介紹的事例外,它還有望應(yīng)用于體育、娛樂等多種領(lǐng)域。多模態(tài)人工智能及其進步可以說是目前非常值得關(guān)注的趨勢技術(shù)之一。
敬請期待后續(xù)...
評論