新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > 機器學習的知識產(chǎn)權問題

機器學習的知識產(chǎn)權問題

作者:恩智浦半導體安全架構師 Wil Michiels 教授(博士) 時間:2020-04-08 來源:電子產(chǎn)品世界 收藏

問題

本文引用地址:http://m.butianyuan.cn/article/202004/411804.htm

假設一家公司主要生產(chǎn)對于客戶的業(yè)務運營至關重要的設備。為了避免發(fā)生故障而對這些客戶產(chǎn)生重大影響,這家公司使用模型來做出預防性維護決策。為了構建這種模型,公司花費了大量時間、金錢和精力。但是,客戶可以復制這個來自行進行維護,這樣就不必繼續(xù)支付維護合同的費用。同時,競爭對手也可能會直接復制模型來獲取利益,而不是投資構建自己的模型。本白皮書探討了模型的哪些方面將受到法律的保護。

image.png

要構建用于維護的機器學習(ML)模型,必須收集并標記正確的訓練集,選擇正確的架構和訓練參數(shù)以實現(xiàn)算法精度和速度的優(yōu)化平衡,并投入計算時間來訓練模型。但是,如果這個維護專用的機器學習模型的知識產(chǎn)權沒有得到妥善保護,競爭對手只需花費很少的時間和精力就能復制和竊取機器學習模型,稍加調(diào)整以免被發(fā)現(xiàn),然后即可直接部署到自己的產(chǎn)品中。這僅僅是一個例子而已。在很多情況中,公司都希望保護其投資和知識產(chǎn)權,但是現(xiàn)在和將來,應該如何保護機器學習領域的知識產(chǎn)權呢?

對于任何公司而言,機器學習模型都意味著一筆可觀的投資,同時也是一項寶貴的資產(chǎn)。盡管由機器學習驅(qū)動的業(yè)務越來越受到青睞,但一些公司可能不愿意在數(shù)據(jù)收集和模型構建方面進行必要投資,因為他們擔心競爭對手會竊取勞動果實。一直以來,非實物資產(chǎn)創(chuàng)作方面都有專利或版權之類的知識產(chǎn)權保護。但是,在法律領域中,關于知識產(chǎn)權如何保護機器學習以及具體涵蓋哪些方面,仍然是一個頗具爭議的問題。本白皮書闡述了機器學習知識產(chǎn)權(IP)方面的法律背景和挑戰(zhàn)。

image.png

術語

在我們深入探討機器學習的知識產(chǎn)權問題之前,必須先要正確理解術語。廣義上講,機器學習是針對算法和統(tǒng)計模型的科學研究。電腦系統(tǒng)使用這些算法和統(tǒng)計模型,依靠模式和推理來高效地執(zhí)行特定任務,而無需使用手動編程的指令。

在機器學習中,通常使用一系列“訓練數(shù)據(jù)”推導統(tǒng)計模型的權重。然后在新情況中運用這些權重,從適用于新情況的模型中獲得答案。一種流行的機器學習模型是神經(jīng)網(wǎng)絡。為了闡明使用神經(jīng)網(wǎng)絡的過程,請參考下圖:

用于將圖片標記為貓或狗的機器學習模型

image.png

這類機器學習分為兩步。首先,在訓練階段,推導架構參數(shù)以賦予模型特定的功能。我們將這個階段稱為訓練模型。模型完成訓練后,通過測試數(shù)據(jù)測量模型質(zhì)量。第二步,在推理階段,利用經(jīng)過訓練的模型進行預測,例如對新數(shù)據(jù)進行分類。雖然所有這些概念在不同文獻中有不同的說法,但在本白皮書中,我們使用以下術語:

架構

神經(jīng)網(wǎng)絡中的神經(jīng)元、神經(jīng)元之間的連接以及所用激活函數(shù)的集合。架構可以有向圖的形式呈現(xiàn)。

訓練集

一組用于訓練架構的數(shù)據(jù),幫助架構確定合適的權重。

測試集

另外一組數(shù)據(jù),用于測試和驗證模型是否提供預期的結果。

機器學習系統(tǒng)

實現(xiàn)機器學習(訓練和/或推理)的軟件和硬件。

模型

對于神經(jīng)網(wǎng)絡,模型是指與神經(jīng)網(wǎng)絡架構連接相關聯(lián)的權重的集合。這些權重是在訓練期間收集的。

訓練參數(shù)

用于控制訓練算法的參數(shù)。例如:訓練集應該迭代幾次?在更新權重之前,要處理多少個數(shù)據(jù)項?在每次更新中,應對權重應用多大幅度的更改?使用什么成本函數(shù)進行優(yōu)化?

如今,機器學習用于處理各種各樣的任務。一種主流應用是分類,例如識別圖像或視頻中的特定物體,將文本分類為特定類別,以及檢測偽劣品或異常尺寸。

其他應用還包括自動駕駛汽車中使用的預測和物體檢測。對于許多使用機器學習的公司而言,用于機器學習應用的訓練集和模型是不應被競爭對手接觸到的寶貴信息。這就引出了如何通過法律手段保護這些信息和其他機器學習要素的問題,即知識產(chǎn)權。

image.png

知識產(chǎn)權

知識產(chǎn)權(IPR)是指保護非有形商業(yè)資產(chǎn)免遭第三方盜用的法定權利。通過法院發(fā)布的法律禁令以及常見的經(jīng)濟損失賠償和/或侵權產(chǎn)品沒收處罰,可以制止這一類盜用行為。但是,每種類型的知識產(chǎn)權都有其特定要求和局限性。在本白皮書中,我們將探討版權、專利、數(shù)據(jù)庫權利和商業(yè)秘密。

版權

版權是最廣為人知的知識產(chǎn)權類型。版權是指禁止復制和傳播受保護作品的權利。這項權利一直廣泛運用于創(chuàng)造藝術領域,例如音樂、書籍和照片。但是,版權同樣適用于軟件、手冊、白皮書(甚至是本白皮書?。?、公司視頻等商業(yè)作品。

這類權利的相關法律在世界范圍內(nèi)已經(jīng)達到非常高的標準化程度。作品在創(chuàng)作后即自動受到保護,無需申請或注冊。甚至不需要版權聲明,但通常會聲明版權以震懾潛在的抄襲者。唯一的真實要求是作品中必須存在某種形式的創(chuàng)造性。例如,僅僅列出一串日期不受版權保護,但巧妙地用句子來表述將受版權保護。

版權的局限性在于只針對實際復制行為。獨立再創(chuàng)作同一作品并不算侵犯版權。再創(chuàng)作的獨立性可以通過創(chuàng)作過程的相關記錄或日志進行證明。

專利

專利是知識產(chǎn)權領域的重要組成部分。當某項創(chuàng)新受到專利保護時,任何人都不得制造、使用或出售任何包含該創(chuàng)新的設備。與版權不同,專利甚至可以保護并非通過復制進行的獨立再創(chuàng)作。專利持有人可以要求他人支付版稅,或者直接終止他人對其創(chuàng)新成果的商業(yè)使用。

專利的主要缺點是必須申請,這會經(jīng)過長達數(shù)年的漫長審查和高達數(shù)萬歐元的申請費用,并且結果還不確定。在軟件方面,一個非常復雜的問題是法律對所謂的“軟件專利”有非常嚴格的規(guī)定,而這在世界范圍內(nèi)都是令人詬病的問題。因此而出現(xiàn)了非常嚴格的判例法,從而很難針對大量依賴軟件或自動化的創(chuàng)新執(zhí)行專利權。

獲得軟件專利的基本準則是發(fā)明必須提供真實世界中的改進,而不能僅僅是提高軟件性能。例如,壓縮算法通常被認為是專利技術,內(nèi)存效率更高的矩陣乘法技術也算專利。但是用于準確預測下一屆足球世界杯冠軍的算法則不符合申請專利的條件。

數(shù)據(jù)庫權利

數(shù)據(jù)庫權利是知識產(chǎn)權領域中一個相對較新的概念。數(shù)據(jù)庫權利于上世紀九十年代末在歐洲提出,旨在保護信息集合,防止被復制和重復使用。數(shù)據(jù)庫權利的主要要求是在創(chuàng)建或維護數(shù)據(jù)庫中的數(shù)據(jù)方面進行了大量投資。與版權一樣,數(shù)據(jù)庫權利無需進行正式注冊或申請。

受保護數(shù)據(jù)庫包括在線詞典、帶標記的圖像集合和地圖制圖的源數(shù)據(jù)。關鍵在于以某種便于搜索和瀏覽的方式組織數(shù)據(jù)。

數(shù)據(jù)庫權利的復雜之處在于,該項權利在歐盟以外的地區(qū)不受認可。特別是在擁有著悠久法律傳統(tǒng)的美國,數(shù)據(jù)集合不受知識產(chǎn)權保護,只有創(chuàng)意作品才能受到版權保護。

商業(yè)機密

在知識產(chǎn)權世界中,商業(yè)機密的現(xiàn)狀在全球范圍內(nèi)不一而同。但總體而言,可以通過法律針對盜用受良好保護信息的行為采取行動。這要求此類信息的所有者表明已采取適當?shù)陌踩胧﹣矸乐刮唇?jīng)授權的訪問。同時,竊取商業(yè)秘密的“嫌疑人”可以通過證明該信息已經(jīng)在公共領域中披露進行反駁。

公司通常會通過與客戶或其他第三方簽署保密協(xié)議(NDA)來保護其商業(yè)機密。在某些支持違約罰款或其他法律措施的司法管轄區(qū)中,可通過嚴格的契約義務禁止復制或復用。其他協(xié)議中也可能包含NDA條款。但是,即使使用反向工程等特殊技術,從合法購買產(chǎn)品中挖掘機密數(shù)據(jù)的個人也不受此類條款的約束。這就限制了商業(yè)機密法的作用。

面向機器學習的知識產(chǎn)權保護

競爭對手或其他意圖不軌的實體會通過多種方法,企圖從機器學習系統(tǒng)創(chuàng)造者的成果或投資中分一杯羹。機器學習的獨特性引起這樣一個問題:如何利用知識產(chǎn)權法律保護這項新技術的各個方面。

image.png

訓練集保護

為特定的機器學習應用創(chuàng)建出色的訓練集是一項耗時耗財?shù)墓ぷ鳌1M管在典型環(huán)境中,侵權人無法直接訪問此訓練集,但是如果通過某些方式獲得了訪問權限,那么復制訓練集輕而易舉。知識產(chǎn)權法律的作用正在于此。

如果訓練集所有者的主要營業(yè)地點位于歐盟地區(qū),那么訓練集將受到 數(shù)據(jù)庫權利的保護。但是,這一權利僅對同樣位于該司法管轄區(qū)的侵權者具有法律效力。

而更加困難的是能否針對機器學習訓練集主張版權。訓練集并不是一件藝術作品。其目的通常是確保數(shù)據(jù)適合用例。根據(jù)版權法的規(guī)定,針對主題創(chuàng)建合適的數(shù)據(jù)集并不是一項創(chuàng)造性活動。但是,仍然可以主張版權的一個方面是對數(shù)據(jù)進行分類的方式。如果類別是通過創(chuàng)造性過程(例如,“美麗/丑陋”、“強/弱”、“大/小”)進行篩選的,那么就可以認為通過創(chuàng)造性標記方式創(chuàng)造的訓練集受到版權保護?;谑聦嵰兀ɡ纭柏?狗”、“交通信號燈/路燈/停車標志”)的分類不具備創(chuàng)造性,因此不受版權保護。

在某些應用領域,訓練集是通過模擬或其他人工手段生成的。有另一種觀點認為,這樣的訓練集可以受到版權保護,因為所選的模擬或生成方式可以看作是一種創(chuàng)造性選擇。但是,這一觀點從未在法庭上得到檢驗。

通常,公司會對其訓練集嚴格保密。這種做法十分合理,因為使用機器學習模型無需共享訓練集。避免訓練集被惡意復制,并對需要擁有訓練集的各方施加嚴格的契約約束似乎是最好的方法。

訓練參數(shù)保護

訓練集和模型只是機器學習系統(tǒng)寶貴價值的一部分。驅(qū)動訓練算法的參數(shù)也同樣十分寶貴:選擇正確的訓練參數(shù)需要經(jīng)驗豐富的工程師花費大量時間和精力。

對于創(chuàng)建機器學習系統(tǒng)所用的訓練參數(shù)集,版權保護是最有用的。如果數(shù)據(jù)科學家通過創(chuàng)造性工作來選擇合適的訓練參數(shù),從而確定這些參數(shù),那么最終得到的參數(shù)集就很有可能受到版權保護。但是,如果是通過詳盡搜索(例如評估文獻中提出的許多選項)或算法過程發(fā)現(xiàn)的訓練參數(shù),則不受版權保護。這一原則同樣適用于使用這些訓練參數(shù)和指定訓練集生成的模型。

數(shù)據(jù)庫權利可能不太適用于參數(shù)集,因為數(shù)據(jù)庫權利的一個標準是集合中的各個元素必須系統(tǒng)地或有條理地排列。參數(shù)集很難符合這個標準。

架構保護

系統(tǒng)架構是機器學習系統(tǒng)的基礎。其設計是確保系統(tǒng)正常運行的關鍵要素。在完成訓練后,架構就將投入使用。

這類系統(tǒng)包含兩部分:定義架構的圖形和實現(xiàn)架構的軟件。圖形符合保護的條件與模型參數(shù)相同。從理論上講,架構的創(chuàng)新硬件層面可以申請專利;但是由于這一領域的大多數(shù)創(chuàng)新基本只與軟件有關,因此硬件專利不太現(xiàn)實。實施訓練和/或推理的軟件通常會受到版權保護,因為軟件主要是通過創(chuàng)造性工作設計而成的。

機器學習系統(tǒng)保護

理論上,使用精心選擇的參數(shù)集編程并基于特定訓練集訓練的電腦系統(tǒng)屬于可獲專利的主題范圍。但是,歐洲和美國的現(xiàn)行判例法要求系統(tǒng)的設計目標是執(zhí)行現(xiàn)實世界中的任務,例如駕駛汽車或識別現(xiàn)實世界中的圖像。對于以更抽象的方式運行的機器學習系統(tǒng)(例如,在現(xiàn)實世界中缺少特定用例的情況下,進行識別和/或分類),能否獲得專利仍未可知。

就像任何其他軟件一樣,機器學習系統(tǒng)的軟件一定可以受到版權保護。

機器學習系統(tǒng)的數(shù)據(jù)庫權利在理論上是有爭議的:爭議點在于數(shù)據(jù)集可通過模型和執(zhí)行該模型的軟件進行搜索。但是,這一觀點從未在法庭上或法律文獻中得到檢驗。

舉證責任

發(fā)現(xiàn)侵權者和在法庭上證明侵權是兩件截然不同的事情。在知識產(chǎn)權訴訟案件中,舉證責任可能難以實現(xiàn)。一般而言,法院需要得到充分的證據(jù)來確信很有可能存在侵權。被指控的侵權人沒有義務提供相關證據(jù)。因此,如果需要的證據(jù)在侵權人的掌握之下,那么知識產(chǎn)權權利所有者就可能會遇到問題。一些司法管轄區(qū)允許扣押證據(jù)或要求當事方進行所謂的“透露”,但這并不能確保權利所有者得到所需證據(jù)。

根據(jù)版權法的規(guī)定,如果兩個物品非常相似,那么法院可以反轉舉證責任:侵權人必須證明其作品是獨立創(chuàng)作的。但是,這是法院針對特定事實分析的結果,權利所有者不應依賴于這一機制。

根據(jù)商業(yè)機密法的規(guī)定,權利所有者有時可以選擇要求法院對證據(jù)保密,或者讓獨立的一方(例如公證人)將證據(jù)與機密信息進行比較,而不必使機密成為公開法院記錄的一部分。

模型防復制保護

當機器學習系統(tǒng)在對公眾沒有契約或使用限制的情況下推出時,就可以使用某種獨特的方法來復制其功能。本質(zhì)上,抄襲者使用一個未分類項目數(shù)據(jù)集,并將每個項目提交到機器學習系統(tǒng)。每個答案都仔細地記錄為抄襲者的數(shù)據(jù)集分類。從而獲得一個帶有標簽的數(shù)據(jù)集,用來訓練相似質(zhì)量的模型。事實證明,即使數(shù)據(jù)集包含非問題域數(shù)據(jù),并且目標系統(tǒng)和克隆系統(tǒng)的架構與模型參數(shù)不匹配,這一方法仍然有效。根據(jù)版權或數(shù)據(jù)庫法律的規(guī)定,暫時無法界定這種行為是否合法。原始機器學習系統(tǒng)中的數(shù)據(jù)集未被復制;只是利用了系統(tǒng)輸出,而且只用來標記另一個數(shù)據(jù)集。

如果數(shù)據(jù)集分類本身具有創(chuàng)造性,那么抄襲者可能會因為重復使用標簽而侵犯版權。即使只是復制和復用標簽以對完全獨立的數(shù)據(jù)集進行分類,也有可能侵犯版權。但是,這一觀點從未在法庭上得到檢驗。

image.png

機器學習中的水印

知識產(chǎn)權法律的一個實際問題是權利所有者必須證明其權利受到侵犯。

當機器學習模型或訓練集遭到復制時,證明侵權會異常困難,尤其是數(shù)據(jù)涉及現(xiàn)實世界的元素時。抄襲者可以輕松地辯稱,他只不過是從原始來源或位置收集了相同或高度相似的數(shù)據(jù)而已。如果沒有辦法反駁這一論點,權利所有者就會遭到冷落。

水印是指在內(nèi)容中嵌入信息的過程,在正常觀察時可能無法輕易發(fā)現(xiàn)嵌入的信息。數(shù)字水印誕生于1992年12月,自90年代末以來一直為權利所有者廣泛運用,以察覺和追蹤可能發(fā)生的電影和歌曲泄漏。例如,嵌入的信息可以揭露泄漏源頭,或是最初傳播該內(nèi)容的網(wǎng)絡。

水印在機器學習中也找到了用武之地,但是運用方式略有不同。這里的水印是指對原始訓練數(shù)據(jù)和/或模型稍作修改以創(chuàng)建某些唯一的模型屬性。例如,可以修改圖像以在特定位置添加標志。要檢測這些水印,需要向機器學習系統(tǒng)提供精心制作的秘密圖像,其中包含相同的唯一輸入。獨立訓練的系統(tǒng)會將該圖像歸為普通類別,但是最初訓練的系統(tǒng)以及抄襲帶水印機器學習系統(tǒng)的系統(tǒng)都將提供由修改觸發(fā)的唯一輸出。這就可以表明該系統(tǒng)抄襲了原始系統(tǒng)。

這種方法的另一個優(yōu)勢是,水印可以用作創(chuàng)意元素,從而為機器學習系統(tǒng)增加了受版權保護的信息。這有助于加強針對抄襲者的版權主張。

襲者可能會反駁他獨立使用了相同的水印,或者實際上是自己創(chuàng)建的水印。這樣將扭轉關于抄襲的指控。為了解決此類爭論,必須清晰地記錄選擇和插入水印時的日期和時間。如果沒有有力的證據(jù),版權所有者將無法提出侵權主張。

機器學習和知識產(chǎn)權的未來

由機器學習驅(qū)動的業(yè)務越來越受到青睞。因此,為了保護該領域中的投資,對于知識產(chǎn)權的興趣也在日益增加:從訓練集的版權到分類系統(tǒng)的專利。但是,當前這一領域的知識產(chǎn)權法律和實踐仍處于發(fā)展階段,判例法也非常稀少。因此很難確定面向機器學習系統(tǒng)和機器學習驅(qū)動型產(chǎn)品的法律保護將發(fā)展到何種程度。

話雖如此,但仍有一些通用說明可供參考,如下表所示:


知識產(chǎn)權(IPR)

專利

版權

數(shù)據(jù)庫權利

商業(yè)機密

保護

技術創(chuàng)新

創(chuàng)意表達(即不僅僅是辛勤的工作或投資)

創(chuàng)造集合方面的實質(zhì)性投入

信息保密

(例如,通過NDA)

司法

管轄區(qū)

全球

所有者和侵權者必須在歐盟境內(nèi)

全球

受保護對象

架構

否,

但是請參閱下方的軟件

對于底層圖形來說不太可能,除非選擇方式具有創(chuàng)造性

訓練集

測試集

否,

創(chuàng)造性標簽或創(chuàng)造性挑選的數(shù)據(jù)集除外

訓練參數(shù)

不可能,

除非選擇方式具有創(chuàng)造性

模型

不可能

不可能,

除非水印、標簽、參數(shù)或架構選擇方面存在創(chuàng)造性

不可能

實現(xiàn)機器學習功能的軟件

是,

作為經(jīng)過訓練的模型系統(tǒng)的一部分,并且僅針對現(xiàn)實世界中的任務

是,

但是實現(xiàn)的功能不受保護

結論

在本白皮書中,我們闡述了未來哪些機器學習知識產(chǎn)權將受到哪些知識產(chǎn)權法律的保護。那么對于本文開篇的資本設備示例而言,這意味著什么呢?盡管用于維護的機器學習模型本身無法獲得專利,但是這一模型的實施可能是符合專利要求的,因為其目的是執(zhí)行現(xiàn)實世界中的任務。此外,還可以對實現(xiàn)機器學習算法的軟件提出版權主張。但是,如果抄襲者僅僅是復制模型(權重)并在自己的實現(xiàn)中使用,或者如果通過標記自己的訓練集來創(chuàng)建克隆模型,那么能否進行版權保護就難以確定。開發(fā)人員必須證明在架構設計、訓練參數(shù)、訓練集組成或數(shù)據(jù)標記方面做出了創(chuàng)造性選擇,并且這些選擇不僅僅是出于技術考慮。即使能證明這一點,也無法確定這種創(chuàng)造性是否充分地存在于模型的克隆/副本中,從而在法庭上得到認可。因此,制定應對策略來防止克隆或復制(例如平臺安全)或者融入創(chuàng)造性(例如水?。τ跈C器學習知識產(chǎn)權的保護來說至關重要。最后,我們要指出,在法庭沒有判例之前,侵權案件的審判結果以及法律是否將在這些問題上作出改變只能是推測。盡管如此,公司現(xiàn)在也應該開始考慮如何保護其機器學習知識產(chǎn)權。

恩智浦半導體致力于通過先進的解決方案為人們更智慧安全、便捷的生活保駕護航。作為全球領先的嵌入式應用安全連結解決方案領導者,恩智浦不斷推動著安全互聯(lián)汽車、工業(yè)與物聯(lián)網(wǎng)、移動設備及通信基礎設施市場的創(chuàng)新。除了嵌入式平臺安全之外,恩智浦還提供機器學習模型保護功能。

機器學習模型完成訓練后,將被部署到指定用途的系統(tǒng)中。借助恩智浦? eIQ?機器學習軟件開發(fā)環(huán)境,您就可以在恩智浦i.MX RT交叉處理器和i.MX系列SoC上使用機器學習算法。eIQ?提供推理引擎、神經(jīng)網(wǎng)絡編譯器和優(yōu)化庫。其中還包含提高機器學習網(wǎng)絡安全性的方法,能夠解決本文所述的克隆和對抗攻擊等問題。其他機器學習安全措施也已納入發(fā)展計劃。



評論


相關推薦

技術專區(qū)

關閉