中科大提出統(tǒng)一輸入過濾框架InFi：首次理論分析可過濾性，支持全數(shù)據(jù)模態(tài)

發(fā)布人：機器之心時間：2022-03-08 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

針對模型推理過程中的輸入冗余，中科大新研究首次從理論角度進行了可過濾性分析，并提出統(tǒng)一的輸入過濾框架，讓模型推理的資源效率大幅提升。

隨著移動設(shè)備算力的提高和對感知數(shù)據(jù)進行實時分析需求的增長，以移動為中心的人工智能應(yīng)用愈發(fā)普遍。據(jù)估計，2022 年將有超過 80% 的商用 IoT 項目將包含 AI 應(yīng)用。然而多數(shù)精度最優(yōu)的 AI 模型的計算量過大，以至于難以在移動設(shè)備上進行高吞吐的推理，甚至當(dāng)推理任務(wù)被卸載到邊緣或云端服務(wù)器時其推理效率也難以滿足應(yīng)用的需求。
冗余的輸入廣泛存在于移動為中心的人工智能應(yīng)用中，將其過濾是一種有效的提高推理效率的方法?，F(xiàn)有工作分別探索過兩類輸入過濾機制：推理跳過和推理重用。其中推理跳過方法旨在跳過那些不會產(chǎn)生有意義輸出的推理計算，例如相冊分類應(yīng)用可能會在沒有人臉的圖片上運行人臉檢測模型：

智能音箱應(yīng)用可能將不包含指令的語音上傳至云端進行語音識別：

而推理重用方法希望重用已進行過得推理計算結(jié)果，從而在新的數(shù)據(jù)到來時能夠從緩存中更快速地返回結(jié)果，例如智能手環(huán)上的動作分類模型可能會處理產(chǎn)生相同動作標(biāo)簽的運動信號：

以及基于無人機和邊緣服務(wù)器的交通監(jiān)控可能會在連續(xù)兩個畫面幀中得到不變的車輛計數(shù)結(jié)果：

現(xiàn)有工作已針對很多應(yīng)用設(shè)計了有效的輸入過濾方法，然而兩個重要的問題仍未得到解答，并且嚴重影響著輸入過濾方法的應(yīng)用：

推理任務(wù)的可過濾性。盡管輸入過濾技術(shù)已在很多具體應(yīng)用中顯示出優(yōu)化效果，但往往是由主觀的對冗余輸入的觀察而啟發(fā)的。如果不能從理論上回答 “哪些推理任務(wù)存在輸入過濾的優(yōu)化機會” 這一問題，則輸入過濾技術(shù)的應(yīng)用難以避免高成本的試錯過程；
魯棒的特征可區(qū)分性。輸入數(shù)據(jù)的特征表達直接關(guān)系到進行推理跳過和找到可重用推理結(jié)果的精度，因此對于輸入過濾的表現(xiàn)有著關(guān)鍵影響?，F(xiàn)有方法多數(shù)依賴手工特征或預(yù)訓(xùn)練深度特征，這些特征在應(yīng)用過程中沒有魯棒的可區(qū)分性，可能完全失去過濾效果。

在 MobiCom 2022 上，中國科學(xué)技術(shù)大學(xué) LINKE 實驗室針對移動為中心的模型推理場景，提出端到端可學(xué)的輸入過濾框架 InFi (INput FIlter)。該工作首次對輸入過濾問題進行了形式化建模，并基于推理模型和輸入過濾器的函數(shù)族復(fù)雜性對比，在理論層面上對推理任務(wù)的可過濾性進行了分析。InFi 框架涵蓋了現(xiàn)有的 SOTA 方法所使用的推理跳過和推理重用機制?；?InFi 框架，該工作設(shè)計并實現(xiàn)了支持六種輸入模態(tài)和三種推理任務(wù)部署方式的輸入過濾器，在以移動為中心的推理場景中有著廣泛的適用性。在 12 個以移動為中心的人工智能應(yīng)用上進行的實驗驗證了理論分析結(jié)果，并表明 InFi 在適用性、準(zhǔn)確性和資源效率方面均優(yōu)于 SOTA 方法。其中，在一個移動平臺上的視頻分析應(yīng)用中，相較于原始推理任務(wù)，InFi 實現(xiàn)了 8.5 倍的推理吞吐率并節(jié)省了 95% 的通信帶寬，同時保持超過 90% 的推理精度。

論文地址：https://yuanmu97.github.io/preprint/InFi_MobiCom22.pdf項目地址：https://github.com/yuanmu97/infi
可過濾性分析
直觀來說，推理任務(wù)的可過濾性指：相較于原始推理任務(wù)，能否得到一個低成本、高精度的輸入數(shù)據(jù)冗余性的預(yù)測器。原始的推理任務(wù)定義為屬于函數(shù)族 H 的模型 h，其將輸入數(shù)據(jù)映射至推理輸出，例如人臉檢測模型以圖片為輸入，輸出檢測結(jié)果（人臉位置的檢測框）。根據(jù)推理模型的輸出結(jié)果，定義冗余性判斷函數(shù) f_h，其輸出冗余性標(biāo)簽，例如當(dāng)人臉位置檢測框輸出為空時，將該次推理計算視為冗余。屬于函數(shù)族 G 的輸入過濾器 g 定義為從輸入數(shù)據(jù)到冗余標(biāo)簽的映射函數(shù)。

假設(shè)原始推理模型的目標(biāo)函數(shù)（即提供真實標(biāo)簽的函數(shù)）為 c ，其過濾器的目標(biāo)函數(shù)為，則可見訓(xùn)練原始的推理模型和訓(xùn)練輸入過濾器的區(qū)別在于監(jiān)督標(biāo)簽的不同：推理預(yù)測由原始任務(wù)標(biāo)簽域 Y 監(jiān)督，而過濾預(yù)測由冗余標(biāo)簽域 Z 監(jiān)督。那么對于推理任務(wù)的可過濾性一個直觀的想法是，如果學(xué)習(xí)輸入過濾器比學(xué)習(xí)原始推理模型更簡單，則有潛力得到有效的輸入過濾器。
基于此思路，該工作分析了三類常見推理任務(wù)的可過濾性：

分析過程的關(guān)鍵在于將輸入過濾器的目標(biāo)函數(shù)與原始推理模型相關(guān)聯(lián)，從而在兩個學(xué)習(xí)任務(wù)間建立復(fù)雜度可比較的橋梁。以分類任務(wù)基于置信度進行冗余判別為例，輸入過濾器的目標(biāo)函數(shù)族形式為，依此可證明輸入過濾器的函數(shù)族的 Rademarcher 復(fù)雜度小于等于原始推理模型，進而得到該任務(wù)可過濾性的分析結(jié)果。
框架設(shè)計和實現(xiàn)
以上的可過濾性分析基于將輸入過濾視為一個學(xué)習(xí)任務(wù)得到，因此框架設(shè)計需要具有端到端可學(xué)性，而不依賴手工特征或預(yù)訓(xùn)練深度特征。同時，框架設(shè)計應(yīng)該統(tǒng)一地支持推理跳過（SKIP）和推理重用（REUSE）機制。該工作基于一個簡潔的思路，即 SKIP 等價于對全零輸入的推理結(jié)果的 REUSE，將兩種機制統(tǒng)一到一個框架之中。
框架包含訓(xùn)練和推理兩個階段。訓(xùn)練階段通過孿生特征網(wǎng)絡(luò)為一對輸入數(shù)據(jù)抽取特征，計算特征距離后由一個分類網(wǎng)絡(luò)得到冗余標(biāo)簽預(yù)測結(jié)果。

在推理階段，若采用 SKIP 機制，則將另一個輸入的特征固定為零，退化為基本的分類器，根據(jù)預(yù)測的冗余性標(biāo)簽決策是否跳過當(dāng)前輸入數(shù)據(jù)；若采用 REUSE 機制，則需要維護一個 “輸入特征 - 推理輸出” 表作為緩存，通過計算當(dāng)前輸入特征與緩存的輸入特征之間的距離，采用 K - 近鄰方法決策是否重用緩存的推理結(jié)果。

該工作提出了 “模態(tài)相關(guān)的特征網(wǎng)絡(luò) + 任務(wù)無關(guān)的分類網(wǎng)絡(luò)” 的設(shè)計，為文本、圖像、視頻、音頻、感知信號、中間層特征設(shè)計了特征抽取網(wǎng)絡(luò)，并能夠很容易地擴展至更多數(shù)據(jù)模態(tài)，分類器網(wǎng)絡(luò)則設(shè)計為多層感知機模型。對輸入模態(tài)的靈活支持為 InFi 在不同的任務(wù)部署方式上的適用性提供了基礎(chǔ)，包括三種典型的以移動為中心的推理任務(wù)部署方式：端上推理、卸載至邊緣推理、端 - 邊模型切分推理。
InFi 使用 Python 實現(xiàn)，深度學(xué)習(xí)模塊基于 TensorFlow 2.4，目前代碼已開源。
驗證實驗
InFi 在 5 個數(shù)據(jù)集上的 12 種人工智能推理任務(wù)上進行了驗證實驗，涵蓋圖片、視頻、文本、音頻、運動信號、中間層特征六種輸入模態(tài)。與三個基線方法的對比實驗表明，InFi 具有更廣泛的適用性，并且在準(zhǔn)確性和效率上都更優(yōu)。

以在城市道路監(jiān)控視頻中進行車輛計數(shù)的任務(wù)為例，在端上推理時，相較于原始的工作流，采用 SKIP 和 REUSE 機制的 InFi 方法分別能夠?qū)⑼评硗掏绿嵘?1.9 和 7.5 倍，同時皆保持超過 90% 的推理精度；在進行端 - 邊模型切分推理時，兩種機制下的 InFi 分別能夠節(jié)省 70.7% 和 95.0% 的通信帶寬。

InFi 的訓(xùn)練成本也很低。在一個基于運動信號的動作識別應(yīng)用中，僅使用 10% 的訓(xùn)練數(shù)據(jù)集即可得到過濾表現(xiàn)接近最優(yōu)的 SKIP 和 REUSE 結(jié)果。InFi 可在保持超過 95% 推理精度的情況下，節(jié)省 80% 的推理運算。

結(jié)論與未來展望
該工作首次給出了可過濾性的理論分析，提出了統(tǒng)一的端到端可學(xué)的輸入過濾框架，并在廣泛的人工智能推理任務(wù)中驗證了其設(shè)計和實現(xiàn)的優(yōu)越性，對于實現(xiàn)以移動為中心的資源高效的推理有著重要的意義。InFi 框架的一大優(yōu)點在于無需人工標(biāo)注，未來可能會形成新的人工智能模型部署的最佳實踐，即在每個模型的推理服務(wù)期間，自監(jiān)督地訓(xùn)練輸入過濾器，實現(xiàn)精度 - 資源權(quán)衡的模型推理。
論文引用：
Mu Yuan, Lan Zhang, Fengxiang He, Xueting Tong, and Xiang-Yang Li. 2022. InFi: End-to-end Learnable Input Filter for Resource-efficient Mobilecentric Inference. In The 28th Annual International Conference On Mobile Computing And Networking (ACM MobiCom ’22), October 24–28, 2022, Sydney, NSW, Australia. ACM, New York, NY, USA, 14 pages. https://doi.org/10.1145/ 3495243.3517016

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。