博客專欄

EEPW首頁 > 博客 > TEE主場(chǎng)仍是Intel和AMD,隱私計(jì)算的國(guó)產(chǎn)化路徑如何實(shí)現(xiàn)?

TEE主場(chǎng)仍是Intel和AMD,隱私計(jì)算的國(guó)產(chǎn)化路徑如何實(shí)現(xiàn)?

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-01-19 來源:工程師 發(fā)布文章

作為未來數(shù)據(jù)要素市場(chǎng)建設(shè)的關(guān)鍵技術(shù),隱私計(jì)算近年來得到快速發(fā)展。事實(shí)上,隱私計(jì)算涉及的技術(shù)繁多且復(fù)雜,面對(duì)眾多技術(shù)路線分支,業(yè)務(wù)應(yīng)用在技術(shù)選型時(shí)還需具體情況具體分析。本文將嘗試對(duì)隱語支持的主流技術(shù)進(jìn)行介紹和對(duì)比。

圖片

隱私計(jì)算的眾多技術(shù)分別在保護(hù)什么

如下圖所示,各種隱私計(jì)算技術(shù)主要的作用范圍包括“計(jì)算過程安全”和“結(jié)果發(fā)布安全”兩部分,其中計(jì)算過程安全表示除了各方約定的計(jì)算結(jié)果之外,是否還存在額外的隱私信息泄露。而結(jié)果發(fā)布安全表示計(jì)算結(jié)果如果披露給相關(guān)方,是否會(huì)帶來安全隱患,下文將以此為思路展開詳細(xì)探討。

圖片

總體來看,可信執(zhí)行環(huán)境TEE 和純密碼學(xué)的密態(tài)計(jì)算技術(shù)(包括多方安全計(jì)算MPC、同態(tài)加密HE等)在保護(hù)計(jì)算過程安全方面,具備比較清晰的安全模型,因此用戶一般只需要關(guān)注兩點(diǎn),即應(yīng)用場(chǎng)景是否滿足安全模型,以及結(jié)果發(fā)布安全性;而聯(lián)邦學(xué)習(xí)的目標(biāo)主要是實(shí)現(xiàn)安全、效率以及精度的平衡折中,因此主要是在一些關(guān)鍵子過程上采用各類安全防護(hù)技術(shù),但并不追求完善的計(jì)算過程安全性,通常還是會(huì)泄露部分額外的中間信息。

結(jié)果保護(hù)

無論是在機(jī)器學(xué)習(xí)建模還是在數(shù)據(jù)分析中,隱私計(jì)算的使用者都希望基于這一技術(shù)獲取聯(lián)合多方數(shù)據(jù)的模型或分析結(jié)果,也就是實(shí)際業(yè)務(wù)需要保證一定的結(jié)果信息量,以供建模和分析人員進(jìn)行決策。

需要注意的是,MPC、TEE等技術(shù)本身無法直接抵御攻擊者基于結(jié)果信息量進(jìn)行的攻擊。針對(duì)結(jié)果信息發(fā)布的隱私安全保護(hù)手段,目前業(yè)界能進(jìn)行嚴(yán)謹(jǐn)數(shù)學(xué)證明的主要是差分隱私技術(shù)。差分隱私技術(shù)主要目的是保護(hù)最終結(jié)果的個(gè)體隱私,并能在數(shù)學(xué)上證明保護(hù)效果,且保護(hù)強(qiáng)度可調(diào)節(jié),但并不保護(hù)數(shù)據(jù)的整體使用價(jià)值。

過程保護(hù)

目前保護(hù)計(jì)算過程的隱私計(jì)算技術(shù)有很多,并發(fā)展出不同的密態(tài)計(jì)算分支,本文主要介紹基于可信執(zhí)行環(huán)境的機(jī)密計(jì)算技術(shù)以及基于密碼學(xué)的密態(tài)計(jì)算技術(shù)。

圖片

  • 可信執(zhí)行環(huán)境 TEE 

不同的可信執(zhí)行環(huán)境原理有所不同,本文以使用較為廣泛的Intel SGX為例進(jìn)行介紹。Intel SGX主要提供兩個(gè)能力:一是提供飛地(Enclave),飛地在內(nèi)存中創(chuàng)建加密空間,以防御來自于虛擬機(jī)、操作系統(tǒng)以及其他惡意程序的攻擊;二是提供關(guān)鍵的遠(yuǎn)程認(rèn)證(Remote Attestation)機(jī)制,以幫助用戶判斷飛地中執(zhí)行的程序是否符合用戶預(yù)期。

其中,遠(yuǎn)程認(rèn)證技術(shù)一般需要結(jié)合密碼學(xué)技術(shù),在驗(yàn)證Enclave行為后利用密碼學(xué)技術(shù)協(xié)商出加密秘鑰,以此在用戶和 Enclave 之間創(chuàng)建出一條可信安全信道。

  • 密碼學(xué)的密態(tài)計(jì)算

基于密碼學(xué)的安全計(jì)算技術(shù)存在很多分支,目前更受關(guān)注的為HE、MPC兩類技術(shù)。

MPC和HE兩者并不是完全獨(dú)立的存在,MPC協(xié)議涉及多種密碼學(xué)技術(shù),如秘密共享SS、混淆電路GC、不經(jīng)意傳輸OT、零知識(shí)證明ZKP等。其中很多MPC協(xié)議就需要使用HE作為關(guān)鍵支撐技術(shù)。比如ABY協(xié)議的離線因子生成,就可以使用HE 。因此很多時(shí)候可以將HE視為一種獨(dú)立的原語能力,既能夠被MPC使用,也能夠被用于外包計(jì)算等其他非MPC應(yīng)用。

實(shí)際應(yīng)用中,由于MPC本身相對(duì)復(fù)雜的安全假設(shè)分類(如:是否允許不誠(chéng)實(shí)大多數(shù)、是否要求惡意攻擊下安全可證等),其性能不能一概而論,通常而言如若追求抗惡意攻擊和不誠(chéng)實(shí)大多數(shù)等進(jìn)階能力,需要運(yùn)用的密碼技術(shù)也將更深,其性能也將有所下降。

MPC還有專用MPC協(xié)議和通用MPC協(xié)議之分。通用MPC協(xié)議如SS、GC等理論上是可以支持任意計(jì)算,但是對(duì)于某些專用場(chǎng)景,其性能未必高,往往還是需要設(shè)計(jì)專用的MPC協(xié)議才能達(dá)到較好的實(shí)用性。目前,專用 MPC 協(xié)議主要在隱私求交(PSI),隱匿查詢(PIR) 領(lǐng)域比較火熱,如 PSI 技術(shù)當(dāng)前可以達(dá)到十億級(jí)/小時(shí)級(jí)別的實(shí)用性能。

誠(chéng)實(shí)大多數(shù)的MPC 技術(shù)一般不涉及到HE等復(fù)雜密碼計(jì)算,性能會(huì)明顯提升,目前使用較為廣泛的主要為基于秘密分享的協(xié)議,如ABY3協(xié)議、第三方發(fā)離線因子的降級(jí)SPDZ協(xié)議等。雖然這類協(xié)議的計(jì)算相對(duì)較快,但是無法抵御大多數(shù)參與方的合謀攻擊。

秘密分享等MPC的技術(shù)支持計(jì)算方與數(shù)據(jù)提供方相分離的模式。這類模式一般稱為代理或者外包(OutSourcing)計(jì)算模式。在代理模式中,數(shù)據(jù)提供方只需要將數(shù)據(jù)以SS形式上傳到計(jì)算方,后續(xù)MPC協(xié)議全部由計(jì)算方執(zhí)行,數(shù)據(jù)提供方無需參與具體的計(jì)算過程。存算分離的模式優(yōu)勢(shì)是解決了數(shù)據(jù)提供方跨公網(wǎng)的帶寬和計(jì)算穩(wěn)定性問題,且可以支持任意多的數(shù)據(jù)提供方接入。短板則是對(duì)計(jì)算方的安全依賴較高,比如計(jì)算方的共謀會(huì)直接導(dǎo)致數(shù)據(jù)泄露。

圖片

主流技術(shù)路線多維度定性對(duì)比

圖片

上圖是各主流技術(shù)路線的優(yōu)缺點(diǎn)分析,目前很難對(duì)各種技術(shù)路線在各個(gè)維度進(jìn)行定量分析,故而本文主要采用定性分析的方式,分別使用綠色、黃色、紅色代表優(yōu)勢(shì)、中等、劣勢(shì)項(xiàng)。整體來說,目前沒有任何一項(xiàng)技術(shù)能在所有維度全方位領(lǐng)先,實(shí)際業(yè)務(wù)需要根據(jù)所在場(chǎng)景的安全假設(shè)、性能要求、硬件條件等情況具體判斷。

下文主要針對(duì)經(jīng)典MPC模式、經(jīng)典聯(lián)邦學(xué)習(xí)、經(jīng)典TEE模式、MPC代理模式分別進(jìn)行比對(duì)。

安全性

經(jīng)典MPC技術(shù)具備嚴(yán)謹(jǐn)?shù)目勺C安全模型,但MPC技術(shù)可證安全的前提,是滿足 MPC協(xié)議的安全假設(shè),否則其安全性也是不成立的。目前,大多數(shù)落地的 MPC 協(xié)議還停留在半誠(chéng)實(shí)模型,而我們認(rèn)為實(shí)際場(chǎng)景中惡意攻擊者是存在的,因此只有實(shí)現(xiàn)惡意安全可證才能評(píng)為綠色安全等級(jí)。

聯(lián)邦學(xué)習(xí)的安全性始終是行業(yè)的關(guān)注重點(diǎn),目前這一方面尚缺乏嚴(yán)謹(jǐn)?shù)陌踩P停饕哉撟C和攻防為主。如對(duì)于聯(lián)邦學(xué)習(xí)算法存在的中間信息泄露問題,其攻防研究一直從未停歇。雖然不少聯(lián)邦學(xué)習(xí)方案使用了MPC、HE等密碼學(xué)技術(shù)以對(duì)核心交互信息進(jìn)行加固,但整體來說,其加固設(shè)計(jì)主要是經(jīng)驗(yàn)性的,不同場(chǎng)景下的聯(lián)邦學(xué)習(xí)方案可能存在的安全問題均有所不同。我們可以將這些安全問題粗略的分為水平分割和垂直分割兩類。

  • 水平分割問題

水平分割目前主要的方案是安全聚合,如FedAVG中多個(gè)參與方需要對(duì)各自的梯度進(jìn)行一次安全的求和,求和過程可以使用HE或MPC完成。安全聚合的主要問題在于即使求和過程是安全的,但求和結(jié)果是需要作為明文參與下一輪迭代的,因此求和結(jié)果本身就是額外的中間信息泄露。如果參與方數(shù)目較少(如只有兩三個(gè)),則一方可能基于求和結(jié)果推斷其他方的梯度,進(jìn)而推斷其數(shù)據(jù)內(nèi)容,這一風(fēng)險(xiǎn)是不容忽視的;如果參與方數(shù)目較多(如數(shù)十上百個(gè)),則聚合結(jié)果包含的信息量較少,其風(fēng)險(xiǎn)一般認(rèn)為可接受。

  • 垂直分割問題

垂直分割場(chǎng)景中,以Split Learning為例,各方之間傳遞的并非完整的梯度,而是自身部分特征或標(biāo)簽的一個(gè)embedding。與水平分割場(chǎng)景一樣,即使方案對(duì)傳遞的embedding使用HE或MPC進(jìn)行了保護(hù),但參與方數(shù)目較少的風(fēng)險(xiǎn)在垂直分割中依然存在。以兩方合作為例,一方可以容易推出另一方的embedding內(nèi)容。但是這些embedding與原始數(shù)據(jù)內(nèi)容的關(guān)系是與具體機(jī)器學(xué)習(xí)方案相關(guān)的,目前在這方面的研究還沒有水平分割的梯度攻擊那么多,一般需要case by case的研究。

可信執(zhí)行環(huán)境TEE是從系統(tǒng)層面解決隱私計(jì)算的安全挑戰(zhàn)。可信執(zhí)行環(huán)境的優(yōu)點(diǎn)是性能接近明文,可直接復(fù)用已有的海量AI/BI框架,缺點(diǎn)則是有可信硬件信任根,存在軟件和硬件層面的各類側(cè)信道攻擊,面臨額外的硬件漏洞風(fēng)險(xiǎn)。

實(shí)際使用TEE技術(shù)保護(hù)計(jì)算過程時(shí),并不僅僅是需要考慮硬件漏洞和側(cè)信道等安全問題,而是需要通盤的安全設(shè)計(jì)。比如基于遠(yuǎn)程認(rèn)證的細(xì)粒度訪問控制就是需要重點(diǎn)關(guān)注的。例如,基于一些LibOS(如Occlum)/TEE VM技術(shù)(如TDX)可將MySQL這類應(yīng)用無刪改的放入TEE執(zhí)行,但由于MySQL本身允許客戶端執(zhí)行任意SQL,僅對(duì)MySQL程序進(jìn)行遠(yuǎn)程認(rèn)證,并不能約束用戶編寫惡意SQL語句(如Select *)進(jìn)行攻擊,因此“一鍵遷移到TEE”是不夠的,需要額外設(shè)計(jì)針對(duì)動(dòng)態(tài)邏輯的遠(yuǎn)程認(rèn)證+訪問控制方案。

綜合來講,久經(jīng)考驗(yàn)打磨的TEE(如Intel SGX經(jīng)歷眾多研究者的攻擊)不存在明顯的已知漏洞,在用戶正確應(yīng)用遠(yuǎn)程認(rèn)證機(jī)制、正確衡量數(shù)據(jù)使用行為的情況下,可信執(zhí)行環(huán)境的安全性可以達(dá)到中等。其余風(fēng)險(xiǎn)則主要來自軟硬件的側(cè)信道攻擊。

MPC代理是一種較為特殊的模式,由于計(jì)算集群和數(shù)據(jù)提供方之間解耦,故而與TEE同樣具有集中式的計(jì)算效果,也因此相比經(jīng)典去中心化的分布式MPC模式具備更多優(yōu)勢(shì)。但在安全性上,代理計(jì)算方共謀則會(huì)直接導(dǎo)致數(shù)據(jù)泄露。其次,若不引入TEE,數(shù)據(jù)提供方對(duì)代理計(jì)算方如何使用數(shù)據(jù)也無法進(jìn)行強(qiáng)限制。因此,此處認(rèn)為MPC代理模式的安全性相比經(jīng)典MPC模式稍弱。

以上安全性緯度的對(duì)比分析主要聚焦計(jì)算過程,需要強(qiáng)調(diào)的是,計(jì)算結(jié)果也是信息泄露的途徑之一,無論前置計(jì)算過程安全性如何理想,一些任務(wù)其計(jì)算結(jié)果天然存在信息泄露,如兩方加法場(chǎng)景中,通過最終結(jié)果減去己方數(shù)值可推導(dǎo)對(duì)方數(shù)值。

目前針對(duì)結(jié)果反推的攻擊,隱私計(jì)算的實(shí)踐集中在一些結(jié)果信息量降維明顯的應(yīng)用中,如基于百萬百維的數(shù)據(jù)集訓(xùn)練一個(gè)邏輯回歸模型,最終結(jié)果只有百維左右的權(quán)重,信息量相對(duì)原始數(shù)據(jù)降低約百萬倍。因建模人員對(duì)線性模型的可解釋性需求,目前不少業(yè)務(wù)實(shí)踐認(rèn)為邏輯回歸模型最終的權(quán)重參與方各自可見,是一種可接受的方案。但數(shù)據(jù)分析中的結(jié)果反推攻擊面明顯大于建模,實(shí)現(xiàn)結(jié)果安全可接受,需要更多的技術(shù)輔助手段,如差分隱私等。差分隱私與前文所述主要保護(hù)計(jì)算過程安全的技術(shù)路線均可疊加。

應(yīng)用開發(fā)成本

應(yīng)用開發(fā)成本指開發(fā)具備隱私保護(hù)能力的應(yīng)用所花費(fèi)的成本。

TEE在這一維度具備絕對(duì)優(yōu)勢(shì),理論上支持所有算法,可快速?gòu)?fù)用已有應(yīng)用,并且在功能層面是完備的。

經(jīng)典MPC或MPC代理模式在這一維度的表現(xiàn)較為相似,MPC具備通用運(yùn)算能力,但功能需要基于MPC底層能力重新進(jìn)行研發(fā),目前主要用以實(shí)現(xiàn)機(jī)器學(xué)習(xí)(ML)和數(shù)據(jù)分析(SQL),功能完善度相比TEE通常存在劣勢(shì)。隱語框架SPU的設(shè)計(jì)思路,便是希望借助現(xiàn)代編譯器技術(shù),能夠直接復(fù)用已有的上層機(jī)器學(xué)習(xí)算法,從而部分程度解決上層MPC算法重復(fù)開發(fā)的效率成本問題。

聯(lián)邦學(xué)習(xí)技術(shù)與 MPC、TEE 不同,主要面向機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用,并不具備通用的密態(tài)運(yùn)算能力,因此其功能完善度相較TEE同樣存在劣勢(shì)。

用戶運(yùn)維成本

用戶運(yùn)維成本主要站在數(shù)據(jù)提供方的視角進(jìn)行考量,如是否需要于用戶側(cè)部署可以訪問外網(wǎng)的服務(wù),并且在任務(wù)運(yùn)行周期內(nèi)全程在線。由于離線態(tài)和在線態(tài)不同,需分別進(jìn)行比較。

首先,明確離線態(tài)與在線態(tài)在本文的語義:

  • 離線態(tài):主要指訓(xùn)練、大數(shù)據(jù)分析等任務(wù),數(shù)據(jù)通常一次性準(zhǔn)備完成,任務(wù)粒度較大,整體耗時(shí)較長(zhǎng)(注:離線批量預(yù)測(cè)也屬于離線態(tài)任務(wù))。

  • 在線態(tài):如聯(lián)合預(yù)測(cè)等,通常特征值需從機(jī)構(gòu)方某個(gè)在線服務(wù)/數(shù)據(jù)庫(kù)中實(shí)時(shí)獲取,這些特征值的最新值存在變動(dòng),預(yù)測(cè)時(shí)將按需讀取指定某個(gè)用戶的特征值。

由于經(jīng)典MPC與聯(lián)邦學(xué)習(xí)其實(shí)現(xiàn)原理要求任務(wù)過程中每個(gè)用戶在線,因此在離線態(tài)階段如訓(xùn)練過程即需用戶進(jìn)行服務(wù)化,在線態(tài)不僅同理,還要額外考慮高可用等問題。

TEE與MPC代理模式則由于可實(shí)現(xiàn)數(shù)據(jù)和計(jì)算相分離,對(duì)離線態(tài)計(jì)算在完成數(shù)據(jù)加密/分片上傳后,后續(xù)的計(jì)算過程用戶無需在線。但在線態(tài)依舊按需實(shí)時(shí)訪問數(shù)據(jù),目前也需要用戶進(jìn)行服務(wù)化。

計(jì)算性能

TEE的計(jì)算性能基本等同明文計(jì)算(指明文在 CPU 為主的情況)。

聯(lián)邦學(xué)習(xí)尤其是深度學(xué)習(xí)場(chǎng)景,由于可以復(fù)用GPU,理論也可以實(shí)現(xiàn)千萬-億級(jí)的性能,實(shí)際表現(xiàn)要基于具體的帶寬條件:當(dāng)帶寬條件較低時(shí),會(huì)轉(zhuǎn)為帶寬瓶頸,此時(shí)GPU的優(yōu)勢(shì)便無法體現(xiàn);當(dāng)帶寬條件較高時(shí),在FedAVG等部分場(chǎng)景性能有望超過TEE。在一些重密態(tài)的傳統(tǒng)風(fēng)控聯(lián)邦學(xué)習(xí)中,性能受同態(tài)加密、帶寬等約束相對(duì)較低。

MPC的計(jì)算性能是最低的,需要結(jié)合實(shí)際帶寬和場(chǎng)景條件。PSI場(chǎng)景現(xiàn)階段可實(shí)現(xiàn)十億級(jí)別性能實(shí)用;在聯(lián)合建模場(chǎng)景中,MPC所能支持的數(shù)據(jù)規(guī)模則會(huì)大幅降低,在不同的安全假設(shè)條件下,性能存在較大差異,如經(jīng)典金融風(fēng)控場(chǎng)景中,如在較為寬松的誠(chéng)實(shí)大多數(shù)條件下,約可實(shí)現(xiàn)千萬級(jí)別,但如要滿足不誠(chéng)實(shí)大多數(shù)的安全假設(shè),性能通常降低一個(gè)數(shù)量級(jí),約在百萬量級(jí)。

計(jì)算精度

常用的HE、MPC等密態(tài)技術(shù)計(jì)算的函數(shù)邏輯與明文是一致的,因此其精度影響主要來自于定點(diǎn)數(shù)近似,即它們需要將高精度的浮點(diǎn)數(shù)映射到固定位數(shù)的定點(diǎn)數(shù)運(yùn)算中(也存在一些可以完美模擬浮點(diǎn)計(jì)算單元的密態(tài)技術(shù),但還處于研究階段,實(shí)踐中沒有定點(diǎn)數(shù)應(yīng)用廣泛)。從定點(diǎn)數(shù)在機(jī)器學(xué)習(xí)場(chǎng)景的實(shí)踐結(jié)果來看,目前會(huì)對(duì)精度產(chǎn)生微小影響,但相對(duì)較小,通常調(diào)整對(duì)應(yīng)的位寬和定點(diǎn)參數(shù)即可比較穩(wěn)定地解決機(jī)器學(xué)習(xí)場(chǎng)景的數(shù)值計(jì)算問題。

聯(lián)邦學(xué)習(xí)由于其分布式計(jì)算的特點(diǎn),其計(jì)算邏輯與明文是存在區(qū)別的,相對(duì) MPC、TEE需要額外考量Non IID等實(shí)際存在的數(shù)據(jù)分布問題,一般認(rèn)為聯(lián)邦學(xué)習(xí)的精度效果弱于集中式明文全量數(shù)據(jù)訓(xùn)練的精度效果。

TEE可達(dá)與CPU明文計(jì)算等同的計(jì)算精度,因此在計(jì)算精度這一維度具備明顯優(yōu)勢(shì)。

數(shù)據(jù)參與方數(shù)量

大多數(shù)隱私計(jì)算實(shí)踐始于兩方或三方場(chǎng)景。從趨勢(shì)上看,支持更多的數(shù)據(jù)源有望得到更好的模型效果。因此,對(duì)數(shù)據(jù)參與方數(shù)量的支持能力將是未來的重要考核點(diǎn)之一。

其中,經(jīng)典MPC與聯(lián)邦學(xué)習(xí)因原理上要求參與方實(shí)時(shí)在線,并且這兩類技術(shù)對(duì)帶寬的需求會(huì)隨著參與方的增多進(jìn)一步提高?,F(xiàn)有實(shí)踐通常建議MPC的參與方數(shù)量小于5,否則在非局域網(wǎng)環(huán)境下,其穩(wěn)定性和訓(xùn)練時(shí)長(zhǎng)將會(huì)面臨挑戰(zhàn)。

垂直聯(lián)邦學(xué)習(xí)也存在和MPC類似的問題,但由于其部分計(jì)算能夠本地完成,其性能相較MPC而言更高,垂直場(chǎng)景下通常建議參與方數(shù)量小于10。Cross-silo的水平聯(lián)邦學(xué)習(xí)能支持的數(shù)據(jù)提供方數(shù)量會(huì)更多,但具體數(shù)量與模型大小、模型壓縮率、聚合頻次和client 采樣率等多個(gè)因素相關(guān),其上限約在百級(jí)-萬級(jí)浮動(dòng)。

TEE與MPC代理模式由于支持計(jì)算和數(shù)據(jù)提供方分離,因此在數(shù)據(jù)參與方支持?jǐn)?shù)量維度呈現(xiàn)明顯優(yōu)勢(shì)。

數(shù)據(jù)控制力

在討論數(shù)據(jù)控制力之前,我們需要對(duì)“原始數(shù)據(jù)不出域”這一隱私計(jì)算領(lǐng)域的常用詞進(jìn)行討論:“原始數(shù)據(jù)不出域”的嚴(yán)格定義是什么?原始數(shù)據(jù)加密出域是否屬于原始數(shù)據(jù)出域?若不是,其原因什么?

“原始數(shù)據(jù)不出域”目前缺乏嚴(yán)謹(jǐn)?shù)墓俜蕉x,但是歸根結(jié)底,我們考慮問題的核心是數(shù)據(jù)安全和攻防成本。假設(shè)原始數(shù)據(jù)使用一個(gè)固定密鑰加密出域,但攻擊者無法破解秘鑰,此時(shí)原始數(shù)據(jù)加密出域是安全的,可以認(rèn)為屬于“原始數(shù)據(jù)不出域”。但如果考慮小概率事件,如加密過程可能被破解,或是攻擊者可能通過其他手段如社會(huì)工程學(xué)獲取密鑰,則原始數(shù)據(jù)加密出域不是安全的。此時(shí)聯(lián)邦學(xué)習(xí)等原始數(shù)據(jù)不出域方案確實(shí)更優(yōu),如FedAVG經(jīng)典水平聯(lián)邦算法中,Secure Aggregation 過程只有加密模型參數(shù)出域,由于出域的信息已是降維后的模型參數(shù)等,最不理想的情況下泄露的范圍也限于這些模型參數(shù)權(quán)重信息,依據(jù)這些信息擬合原始數(shù)據(jù)需要一定條件。

因此僅從密碼學(xué)的角度,原始數(shù)據(jù)加密出域本身不是問題。但是考慮到整個(gè)數(shù)據(jù)安全需求,如果要考慮到秘鑰被破解后的最壞情況,則原始數(shù)據(jù)加密出域是存在風(fēng)險(xiǎn)的。

但是,強(qiáng)調(diào)原始數(shù)據(jù)不出域在實(shí)際中很難體系化保證,如聯(lián)邦學(xué)習(xí)的基本原則是原始數(shù)據(jù)不出域,但預(yù)處理等各類算法組件無法完全遵守這個(gè)原則。如基于加法同態(tài)的WOE算法中,有標(biāo)簽的參與方需要將原始標(biāo)簽數(shù)據(jù)同態(tài)加密后出域??偠灾?,在大部分隱私計(jì)算應(yīng)用中,都無法避免原始數(shù)據(jù)的加密出域,需要對(duì)應(yīng)用涉及的所有模塊進(jìn)行詳細(xì)的風(fēng)險(xiǎn)分析。

從上面的討論來看,TEE技術(shù)如果正確地使用了密碼學(xué)技術(shù)和遠(yuǎn)程認(rèn)證機(jī)制創(chuàng)造出安全信道,其計(jì)算過程理論是安全的。但基于筆者對(duì)一些用戶的訪談了解,部分用戶確實(shí)對(duì)TEE的原始數(shù)據(jù)加密出域使用存在顧慮,典型顧慮是:數(shù)據(jù)加密出域到外部TEE后,又發(fā)現(xiàn)TEE爆出硬件漏洞,自己沒有辦法控制。這種安全感上的顧慮是隱私計(jì)算用戶切實(shí)存在的,其本質(zhì)是對(duì)數(shù)據(jù)控制力的擔(dān)憂。

本節(jié)判定的數(shù)據(jù)控制力強(qiáng)弱標(biāo)準(zhǔn)如下。

  • 數(shù)據(jù)控制力強(qiáng):數(shù)據(jù)提供方對(duì)數(shù)據(jù)的計(jì)算過程有強(qiáng)管控,計(jì)算過程需要數(shù)據(jù)提供方參與才能完成,數(shù)據(jù)提供方可以隨時(shí)停止數(shù)據(jù)的使用。

  • 數(shù)據(jù)控制力弱:全量數(shù)據(jù)以加密/分片組合等形式存儲(chǔ)在遠(yuǎn)端,數(shù)據(jù)提供方難于對(duì)計(jì)算進(jìn)行隨時(shí)限制,而需要計(jì)算方的配合。

顯然在用戶體感上,MPC代理模式或經(jīng)典TEE模式數(shù)據(jù)控制力相對(duì)較弱,由于計(jì)算無需用戶參與,因此如若TEE突發(fā)漏洞或代理計(jì)算方存在共謀,數(shù)據(jù)提供方因數(shù)據(jù)已經(jīng)上傳,缺乏簡(jiǎn)單有效的方法停止計(jì)算,無法即時(shí)止損。

經(jīng)典MPC和聯(lián)邦模式由于用戶本身便是計(jì)算參與方之一,可立刻關(guān)閉隱私計(jì)算節(jié)點(diǎn)外網(wǎng)訪問,待安全漏洞修復(fù)后再對(duì)外提供服務(wù),從而確保數(shù)據(jù)的安全。

專有硬件成本

TEE技術(shù)由于依賴專有硬件,如機(jī)構(gòu)此前并未采購(gòu)此類硬件,則需額外的硬件采購(gòu)流程。而經(jīng)典 MPC、聯(lián)邦或者是MPC代理模式則只需普通硬件,機(jī)構(gòu)可復(fù)用已有服務(wù)器。尤其在隱私計(jì)算探索嘗試階段,如可復(fù)用已有普通硬件,可以節(jié)省前序的專有硬件采購(gòu)周期。

信任根和自主可控

目前TEE方案有額外的硬件信任根,這也是TEE用戶需要前置確認(rèn)的信息,需要判斷具體場(chǎng)景是否可以信任硬件信任根的可信方。

在自主可控方面,由于國(guó)密庫(kù)的成熟度較高,MPC和FL技術(shù)路線的國(guó)密化相對(duì)來說支持更容易。而TEE方面,目前市面上成熟度較高的TEE硬件主要產(chǎn)自外企,如Intel以及AMD ,國(guó)產(chǎn)TEE依舊處于完善建設(shè)階段,目前針對(duì)國(guó)產(chǎn)TEE的實(shí)際攻防實(shí)踐偏少,其硬件安全性和漏洞情況還需時(shí)間加以驗(yàn)證打磨。

圖片小結(jié)

本文嘗試對(duì)部分主流的隱私計(jì)算技術(shù)從多種維度進(jìn)行了對(duì)比,可以看到,沒有任何一種單一技術(shù)路線是完美的,業(yè)務(wù)應(yīng)用的實(shí)際技術(shù)選型,還需根據(jù)具體的安全假設(shè)、硬件條件和性能要求等因素綜合考量,選擇最適合業(yè)務(wù)場(chǎng)景的解決方案。

并且,隨著發(fā)展隱私計(jì)算的技術(shù)路線還在持續(xù)增加,本文并未涵蓋所有,后續(xù)更新將拓展討論更多的新型技術(shù)路線,如軟硬件結(jié)合的綜合型技術(shù)方案等。

本文作者

余超凡,螞蟻集團(tuán)隱私智能技術(shù)部技術(shù)總監(jiān),目前是隱語開源框架的密態(tài)計(jì)算方向負(fù)責(zé)人。具有豐富的隱私計(jì)算生產(chǎn)落地經(jīng)驗(yàn),有二十多項(xiàng)隱私計(jì)算相關(guān)專利。

洪澄,中國(guó)科學(xué)院大學(xué)博士,阿里巴巴集團(tuán)安全部雙子座實(shí)驗(yàn)室擔(dān)任資深安全專家,主要從事密碼學(xué)、隱私保護(hù)計(jì)算相關(guān)技術(shù)研究,帶領(lǐng)團(tuán)隊(duì)在頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表論文30余篇。

王磊,浙江大學(xué)計(jì)算機(jī)博士,螞蟻集團(tuán)隱私智能計(jì)算部總經(jīng)理,開源隱私計(jì)算框架“隱語”負(fù)責(zé)人,擁有國(guó)內(nèi)外隱私計(jì)算方向授權(quán)專利40余篇。

段普,美國(guó)TexasA&M University計(jì)算機(jī)科學(xué)博士,現(xiàn)任螞蟻集團(tuán)隱私智能計(jì)算技術(shù)部資深技術(shù)專家,領(lǐng)導(dǎo)密碼學(xué)和安全團(tuán)隊(duì)研發(fā)隱語和相關(guān)隱私計(jì)算平臺(tái)的密碼學(xué)核心協(xié)議和功能,并發(fā)表多篇相關(guān)論文和專利。

參考鏈接

1、 Frank McKeen, Ilya Alexandrovich, Alex Berenzon, Carlos V Rozas, Hisham Shafi, Vedvyas Shanbhogue, and Uday R Savagaonkar. Innovative Instructions and Software Model for Isolated Execution. Hasp, isca, 10(1), 2013.2、Demmler D, Schneider T and Zohner M. ABY – A framework for efficient mixed-protocol secure two-party computation. In: NDSS 2015. The Internet Society, 2015.3、Mohassel P and Rindal P. ABY3 : A mixed protocol framework for machine learning. In: Lie D, Mannan M, Backes M and Wang XF (eds.). ACM CCS 2018. ACM Press, 2018, 35–52. 4、Damg?ard, I., Pastro, V., Smart, N. P., and Zakarias, S. Multiparty computation from somewhat homomorphic encryption. In CRYPTO 2012 (Aug. 2012), R. Safavi-Naini and R. Canetti, Eds., vol. 7417 of LNCS, Springer, Heidelberg, pp. 643–662.5、Gennaro, R., Gentry, C., Parno, B.: Non-interactive verifiable computing: Outsourcing computation to untrusted workers. In: Rabin, T. (ed.) CRYPTO 2010. LNCS, vol. 6223, pp. 465–482. Springer, Heidelberg (2010)6、McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data. Artificial intelligence and statistics. PMLR, 2017: 1273-1282. 7、Vepakomma P, Gupta O, Swedish T, et al. Split learning for health: Distributed deep learning without sharing raw patient data[J]. arXiv preprint arXiv:1812.00564, 2018. 8、Youren Shen, Hongliang Tian, Yu Chen, Kang Chen, Runji Wang, Yi Xu, Yubin Xia, and Shoumeng Yan. Occlum: Secure and efficient multitasking inside a single enclave of intel sgx. In Proceedings of the Twenty-Fifth International Conference on Architectural Support for Programming Languages and Operating Systems, pages 955–970, 2020. 9、Intel. Intel Trust Domain Extensions. https://software.intel.com/content/dam/develop/external/us/en/documents/tdxwhitepaper-v4.pdf , 2020.10、https://en.wikipedia.org/wiki/Fixed-point_arithmetic 11、Hangyu Zhu, Jinjin Xu, Shiqing Liu, and Yaochu Jin. Federated learning on non-iid data: A survey. Neurocomputing, 465:371-390, 2021.12、Bonawitz K, Ivanov V, Kreuter B, et al. Practical secure aggregation for privacy-preserving machine learning[C]//proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 1175-1191.


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉