保持精度又縮小AI模型，英特爾開發(fā)新的訓練技術(shù)

作者：時間：2019-06-14 來源：集微網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

一般來說，人工智能模型的大小與它們的訓練時間有關(guān)，因此較大的模型需要更多的時間來訓練，隨后需要更多的計算。優(yōu)化數(shù)學函數(shù)(或神經(jīng)元)之間的連接是有可能的，通過一個稱為修剪的過程，它在不影響準確性的情況下減少了它們的整體大小。但是修剪要等到訓練后才能進行。

本文引用地址：http://m.butianyuan.cn/article/201906/401535.htm

這就是為什么英特爾的研究人員設(shè)計了一種從相反的方向進行訓練的技術(shù)，從一個緊湊的模型開始，在培訓期間根據(jù)數(shù)據(jù)修改結(jié)構(gòu)。他們聲稱，與從一個大模型開始，然后進行壓縮相比，它具有更強的可伸縮性和計算效率，因為訓練直接在緊湊模型上進行。

作為背景，大多數(shù)人工智能系統(tǒng)的核心神經(jīng)網(wǎng)絡(luò)由神經(jīng)元組成，神經(jīng)元呈層狀排列，并將信號傳遞給其他神經(jīng)元。這些信號從一層傳遞到另一層，通過調(diào)整每個連接的突觸強度(權(quán)重)來慢慢地“調(diào)整”網(wǎng)絡(luò)。隨著時間的推移，該網(wǎng)絡(luò)從數(shù)據(jù)集中提取特征，并識別跨樣本趨勢，最終學會做出預測。

神經(jīng)網(wǎng)絡(luò)不會攝取原始圖像、視頻、音頻或文本。相反，來自訓練語料的樣本被代數(shù)地轉(zhuǎn)換成多維數(shù)組，如標量(單個數(shù)字)、向量(標量的有序數(shù)組)和矩陣(標量排列成一個或多個列和一個或多個行)。封裝標量、向量和矩陣的第四種實體類型——張量增加了對有效線性變換(或關(guān)系)的描述。

該團隊的計劃在一篇新發(fā)表的論文中進行了描述，該論文已被接受為2019年機器學習國際會議的口頭陳述，訓練一種稱為深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的神經(jīng)網(wǎng)絡(luò)，其中大部分層具有稀疏權(quán)張量，或者張量大部分為零。所有這些張量都是在相同的稀疏性(零點的百分比)級別初始化的，而非稀疏參數(shù)(具有一系列值之一的函數(shù)參數(shù))用于大多數(shù)其他層。

在整個訓練過程中，當參數(shù)在張量內(nèi)部或跨張量移動時，網(wǎng)絡(luò)中的非零參數(shù)總數(shù)保持不變，每幾百次訓練迭代進行一次，分兩個階段進行:修剪階段之后緊接著是增長階段。一種稱為基于大小的修剪的類型用于刪除具有最小權(quán)值的鏈接，并且在訓練期間跨層重新分配參數(shù)。

為了解決性能問題，研究人員將神經(jīng)網(wǎng)絡(luò)訓練兩倍epochs，并在加拿大高級研究所(Canadian Institute for Advanced Research)的CIFAR10圖像數(shù)據(jù)集和斯坦福大學(Stanford)的ImageNet上測試了其中的兩個epochs——WRN-28-2和ResNet-50。

他們報告說，在模型大小相同的情況下，該方法比靜態(tài)方法獲得了更好的精度，同時所需的訓練也大大減少，而且它比以前的動態(tài)方法產(chǎn)生了更好的精度。

該論文的主要作者之一Hesham Mostafa寫道:“實驗表明，在訓練過程中探索網(wǎng)絡(luò)結(jié)構(gòu)對于達到最佳準確度至關(guān)重要。如果構(gòu)造一個靜態(tài)稀疏網(wǎng)絡(luò)，復制動態(tài)參數(shù)化方案發(fā)現(xiàn)的稀疏網(wǎng)絡(luò)的最終結(jié)構(gòu)，那么這個靜態(tài)網(wǎng)絡(luò)將無法訓練到相同的精度?！?/p>