遷移學習：共享AI智慧的途徑

作者：高煥堂時間：2020-03-03 來源：電子產品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

高煥堂? （臺灣VR產業(yè)聯(lián)盟主席，廈門VR/AR協(xié)會榮譽會長兼顧問）

本文引用地址：http://m.butianyuan.cn/article/202003/410498.htm

0 引言

遷移學習(Transfer Learning)就像俗稱的“拿來主義”，善用別人已經(jīng)訓練好模型的參數(shù)(智慧)，引入到自己的模型里，可以迅速建立1個AI的應用情境。本文以ResNet50為例，說明如何復用(Reuse)已經(jīng)訓練好的 ResNet50的智慧(模型和參數(shù))，幫您瞬間探索任何一張圖像的特征(Feature)，然后幫您識別出圖片里的人或物的種類，如水牛、斑馬、貓頭鷹或汽車等。

1 認識遷移學習：以ResNet50為例

AI的智慧是來自機器的自我學習，通稱為機器學習。它經(jīng)常需要借助大量的數(shù)據(jù)來訓練。例如， ResNet50就使用100多萬張圖像而訓練出來的。在訓練的過程中，它去探索每張圖像中的特稱，并且學習歸納和分類。目前的ResNet50可以準確地識別出1000種人或物，如日常生活中常遇到的狗、貓、食物、汽車和各種家居物品等。例如，您可以隨意從百度圖片上截取一張224x224大小的圖片，如圖1。

微信截圖_20200306112121.png

當您把這圖片提交給ResNet50，它會瞬間探索并進行分類，然后告訴您：我預測這是大熊貓（Giant panda）。

2 介紹ResNet50模型的結構

目前最常見的AI圖像識別模型是：卷積網(wǎng)路(CNN) 模型。這ResNet50就是基于CNN的模型，如圖2。

微信截圖_20200306112148.png

其中，CNN模型包含兩部分：卷積層(Convolution Layers)與全連接層(Full-Connected Layers)。前者我特別稱之為丫鬟部分；而后者則稱之為格格部分^[1-2]，如圖3。

微信截圖_20200306112207.png

Conv部分比較復雜，共約有40個層；而FC部分約有10個層。所以稱之為ResNet50模型。

3 復用ResNet50智慧的方法

典型的復用(Reuse)步驟如下。

1）撰寫Python程式來建立一個ResNet50模型。您可以從網(wǎng)路下載此Python程式的源碼來做修改。網(wǎng)址為：

https://github.com/fchollet/deep-learning-models/ releases/

如圖4的綠色框部分：

微信截圖_20200306112229.png

2）從網(wǎng)絡下載已經(jīng)訓練好的模型參數(shù)(智慧)。例如，圖4里的紅色框部分。包含2個檔案(下文詳細說明)。

3）把所下載的模型參數(shù)檔案內容載入您剛才建立的ResNet50模型里。

經(jīng)由這3個步驟，就把別人已經(jīng)訓練(學習)好的模型參數(shù)，順利地遷移(Transfer)到您自己建立的模型里了。

4 新潮方法：使用Excel把ResNet50模型包裝起來

4.1 準備執(zhí)行環(huán)境(不需要編程)

使用Excel來包裝Python程式，可以讓許多不熟悉編程者，來輕易地使用AI的各種應用情境。只要您的電腦上安裝有Excel和Python的相關套件(如TensorFlow、 Keras等)就能夠執(zhí)行基于Excel＋Python的AI模板 (Template)了。至于這項執(zhí)行環(huán)境的安裝指南，可以參閱筆者的博客：https://www.cnblogs.com/SmartADT/。

安裝好了執(zhí)行環(huán)境，就可以從上述網(wǎng)頁里下載兩個模板：jjt18.zip，依據(jù)說明文件復制到您的環(huán)境里，然后就可以執(zhí)行了。 4.2 開始執(zhí)行jjt18模板

首先，把這張圖像放在圖5里。

微信截圖_20200306112245.png

準備把c:/oopc/im001pd.pg圖像提交給ResNet50去探索和分類。接著，請您開啟Python程式：jjt18.py。畫面上就出現(xiàn)了預先寫好的Python程式：

微信截圖_20200306112306.png

然后執(zhí)行這個程式，就呈現(xiàn)出Excel畫面：

請按下“Predict”按鈕，這Excel背后的ResNet50就展開瞬間探索這張像并進行分類，然后輸出如下：

它告訴您了：我預測99%的可能性是大熊貓(Giant panda)。

5 僅復用丫鬟，訓練自己的格格

5.1 說明由于ResNet50是典型的CNN模型，包含卷積層與 FC層。在上一節(jié)里，使用Excel畫面來操作ResNet50，并復用了全部(卷積層與FC層)的權重，就不必重新訓練，而直接用來辨別圖像里的東西。在本節(jié)里，就來介紹另一種用法：只復用它的卷積層(丫鬟)部分，而不復用FC層(格格)部分的權重。也就是，要自己來訓練FC層 (格格)部分。

在CNN 模型(如ResNet50)里，丫鬟部分負責探索像的特征，然后把這些特征值交給格格，讓格格(依據(jù)特征值)來分辨出種類。例如，丫鬟看到一張圖片里的動物特征是：身體黑白條紋、4只腳，然后格格就依據(jù)這特征而判斷這很可能是一匹斑馬。

雖然ResNet50里的格格已經(jīng)有智慧來進行圖像分類 (Classification)了，而且可以辨識1000種日常生活中的人或物。然而，在一些較狹窄的應用場域里，只需要 (更準確)辨識較少的種類時，就需要訓練自己的格格。

剛才提到了，有些場合需要重新訓練格格來分類，但是丫鬟具有的探索像特征的智慧，卻可以復用之。亦即，能借助于ResNet50的丫鬟(即卷積部分)的智慧，幫忙探索我的圖片，來協(xié)助訓練新的格格。一旦新格格訓練好了之后，ResNet50原有的丫鬟就能和新格格協(xié)同合作，來更精確地區(qū)分特定的數(shù)據(jù)(圖片)集了。由于不必重新訓練丫鬟部分，就能節(jié)約許多訓練(丫鬟的)時間。

5.2 準備數(shù)據(jù)，來訓練新格格

茲拿一個較狹小的應用場域，只需要格格來分辨 3個種類：斑馬、貓頭鷹和蘑菇。于是，筆者在/oopc/ v_data/train/文件夾里，準備了150張圖片(皆為224 x 224)，包括50張斑馬、50張貓頭鷹、以及50張蘑菇的圖片。將它們分別放在這3個小文件夾里：

微信截圖_20200306112411.png