數(shù)據(jù)隱私與加密學(xué)技術(shù)

責(zé)任編輯：zsheng |來源：企業(yè)網(wǎng)D1Net 2018-12-25 14:24:45 本文摘自：火星財經(jīng)

數(shù)據(jù)隱私的發(fā)展現(xiàn)狀

隨著互聯(lián)網(wǎng)的高速發(fā)展，我們在享受豐富的互聯(lián)網(wǎng)產(chǎn)品和服務(wù)的同時，也在時時刻刻向提供商提供關(guān)于我們自己的全方位個人信息。廣義上來說，所有由我們本人發(fā)起的網(wǎng)絡(luò)使用行為，都可以看做是我們的個人信息。而我們在網(wǎng)上所體現(xiàn)出的所有個人信息，包括我們的瀏覽習(xí)慣、地理位置、設(shè)備IP、使用的瀏覽設(shè)備和瀏覽器的型號都在不斷被收集、存儲和處理。

數(shù)以億計的用戶撐起了全球互聯(lián)網(wǎng)科技企業(yè)超過9萬億美元的市值，而當(dāng)互聯(lián)網(wǎng)發(fā)展愈發(fā)呈現(xiàn)寡頭化趨勢之后，個人數(shù)據(jù)更趨于集中，一旦泄露造成的后果也越來越嚴(yán)重。

根據(jù)，中國互聯(lián)網(wǎng)協(xié)會在2016年發(fā)布的《中國網(wǎng)民權(quán)益保護(hù)調(diào)查報告》顯示，2016年國內(nèi)有6.88億網(wǎng)民曾遭受過不同程度的個人信息泄露，造成的經(jīng)濟(jì)損失估算達(dá)915億元。

數(shù)據(jù)隱私泄露事件層出不窮：

今年1月，掌握著印度10億公民的身份數(shù)據(jù)庫Aadhaar被曝遭網(wǎng)絡(luò)攻擊，該數(shù)據(jù)庫除了記錄人們的名字、電話號碼、郵箱地址等信息外，還涉及人的指紋、虹膜紀(jì)錄等極度敏感的信息。

今年3月，F(xiàn)acebook數(shù)據(jù)泄露丑聞爆發(fā)，至少8700萬用戶的隱私數(shù)據(jù)遭泄露，F(xiàn)acebook股價在之后下跌超過20%。

今年6月，一位ID為「f666666」的用戶在暗網(wǎng)上開始兜售圓通10億條快遞數(shù)據(jù)，該用戶表示售賣的數(shù)據(jù)為2014年下旬的數(shù)據(jù)，數(shù)據(jù)信息包括寄(收)件人姓名，電話，地址等信息，10億條數(shù)據(jù)已經(jīng)經(jīng)過去重處理，數(shù)據(jù)重復(fù)率低于20%，并以1比特幣打包出售。

…...

所以，我們可以看到數(shù)據(jù)泄漏已經(jīng)從姓名、家庭住址、電子郵箱、電話號碼，到個人身份證、護(hù)照號碼，甚至到個人生物識別信息如虹膜、基因信息。對于普通民眾來說，這些重要的身份信息一旦泄露我們就如同裸奔。

對于企業(yè)而言，一旦發(fā)生數(shù)據(jù)泄露的事件，造成的影響和損失也是巨大的。據(jù)IBM研究報告顯示，數(shù)據(jù)泄露事件的平均總成本為220萬美元(被盜數(shù)據(jù)在10000條以下)到690萬美元(被盜數(shù)據(jù)超過 50000條)。

對于那些登上新聞頭條的大規(guī)模數(shù)據(jù)泄露事件，IBM的調(diào)研結(jié)果表明，一次重大數(shù)據(jù)泄露事件(涉及100萬條記錄)的成本可能高達(dá)3949萬美元。這一數(shù)字會隨著遭泄露記錄數(shù)量的增加而增加，這在意料之中。例如，5000萬條記錄的泄露事件可能就會導(dǎo)致?lián)p失3.5億美元。

其實，在數(shù)據(jù)隱私泄露一浪高過一浪的今天，一直領(lǐng)跑標(biāo)準(zhǔn)制定的歐洲和美國早已發(fā)布了數(shù)據(jù)行業(yè)的新規(guī)定。

歐洲最先針對普通消費(fèi)者的數(shù)據(jù)發(fā)動了保護(hù)。今年3月21日，歐盟委員會發(fā)布了兩項提案，提出針對數(shù)字化業(yè)務(wù)活動征收數(shù)字服務(wù)稅(DST)。歐盟認(rèn)為，現(xiàn)有的稅法已經(jīng)難以跟上企業(yè)數(shù)字化運(yùn)營的步伐。DST提案基于總收入(營業(yè)額)繳稅，歐盟各成員國采用3%的統(tǒng)一稅率。這其中包括出售來源于用戶所提供信息、資料和數(shù)據(jù)的收入。

緊接著，今年5月25日，歐盟開始強(qiáng)制實施了被稱為史上最嚴(yán)苛數(shù)據(jù)隱私保護(hù)法的GDPR(General Data Protection Regulation，「通用數(shù)據(jù)保護(hù)條例」)。條例規(guī)定了企業(yè)在對歐盟公民進(jìn)行數(shù)據(jù)收集、存儲、保護(hù)和使用時的新行為標(biāo)準(zhǔn)，也給予了用戶對自己數(shù)據(jù)更廣泛的處理權(quán)和決定權(quán)。普華永道指出：「這將影響在歐洲內(nèi)外保存或使用歐洲公民個人數(shù)據(jù)的每個實體。」

現(xiàn)有法律更加偏向于對個人可識別信息(PII)的保護(hù)，而GDPR則把范圍拓展到了數(shù)字世界里的cookie、device ID、IP地址等個人行為數(shù)據(jù)。針對數(shù)據(jù)收集者，GDPR規(guī)定不能用隱藏默認(rèn)的方式獲取用戶許可，必須提前進(jìn)行明確的提示與詢問，獲得允許后才可以獲取使用用戶數(shù)據(jù);收集之后還需要為用戶提供查看收集數(shù)據(jù)概覽及用途，還必須要設(shè)置用戶刪除的功能。

從用戶的角度，GDPR規(guī)定用戶對自己的數(shù)據(jù)擁有完全的所有權(quán)，即便同意收集方收集，也可以隨時查看并撤回刪除相關(guān)的協(xié)議，在用戶撤回刪除相關(guān)授權(quán)后，數(shù)據(jù)收集者必須立即將相關(guān)數(shù)據(jù)進(jìn)行匿名化處理。

每次違反條例最高處罰金額為該公司年度營業(yè)額的4%，或者2000萬歐元，最后取決于哪個數(shù)值更大。像Google或 Facebook這類的巨頭公司或許能承受起這種程度的罰款，但對于規(guī)模小一些的公司，這種處罰將會是致命的。

如今飛速發(fā)展的的大數(shù)據(jù)、云計算、AI市場無一不嚴(yán)重依賴數(shù)據(jù)，這個最嚴(yán)格條例一出，國際互聯(lián)網(wǎng)企業(yè)一片哀嚎。因此，GDPR也被認(rèn)為掣肘了人工智能和數(shù)據(jù)行業(yè)的發(fā)展。

再看美國數(shù)據(jù)隱私的監(jiān)管現(xiàn)狀，美國早在1996年就開始實施保護(hù)個人醫(yī)療數(shù)據(jù)的健康保險隱私及責(zé)任法案(Health Insurance Portability and Accountability Act，縮寫HIPAA)。

該法案制定了一系列的安全標(biāo)準(zhǔn)，就保健計劃、供應(yīng)商以及結(jié)算中心如何以電子文件的形式來傳送、訪問和存儲受保護(hù)的健康信息做出了詳細(xì)規(guī)定。法案規(guī)定在確保私密性的情況下保存病人信息檔案六年，還詳細(xì)規(guī)定了醫(yī)療機(jī)構(gòu)處理病人信息規(guī)范，以及違法保密原則、通過電子郵件或未授權(quán)的網(wǎng)絡(luò)注銷病人檔案的處罰方案。

HIPAA定義以下信息為「受保護(hù)的健康信息」(PHI):

•姓名

•出生日期，就醫(yī)，入院和出院日期，和死亡日期

•電話號碼，地址(包括市，縣，或郵政編碼)傳真號碼等聯(lián)系方式

•社會安全號碼

•病歷號

•照片

•手指和語音打印

•任何其他獨(dú)特的識別號碼

那么數(shù)據(jù)信息在我國發(fā)展情況又是如何呢?

根據(jù)我國工信部《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》，到2020年大數(shù)據(jù)相關(guān)產(chǎn)品和服務(wù)業(yè)務(wù)收入應(yīng)突破1萬億元，年均復(fù)合增長率保持30%左右，中國將成為全球最大的大數(shù)據(jù)產(chǎn)業(yè)國之一。

黑市交易依然是我國數(shù)據(jù)交易的主流。財經(jīng)網(wǎng)的一篇報道指出，中國大數(shù)據(jù)被黑市壟斷，所有正規(guī)數(shù)據(jù)交易所和第三方公司收入相加一年不到50億元，因此數(shù)據(jù)行業(yè)存在巨大的增長潛力，但如果想擺脫黑市的壟斷，需要在技術(shù)層面提供安全的數(shù)據(jù)分享解決方案。

據(jù)不完全統(tǒng)計，國內(nèi)個人信息泄露數(shù)達(dá)55.3億條左右，平均每人就有4條相關(guān)的個人信息泄露，這些信息最終的命運(yùn)，是在黑市中反復(fù)倒手，直至被榨干價值。其中，80%的數(shù)據(jù)泄露自企業(yè)內(nèi)鬼，黑客僅占20%。直到2017年6月《網(wǎng)絡(luò)安全法》出臺，各類灰色和黑色數(shù)據(jù)產(chǎn)業(yè)才逐漸收斂，但依然暗流涌動。

加密學(xué)的幾種技術(shù)盤點

其實，我們認(rèn)為數(shù)據(jù)行業(yè)交易的應(yīng)該是數(shù)據(jù)的使用權(quán)，而不是數(shù)據(jù)本身。數(shù)據(jù)由于本身易復(fù)制和可傳播的特性，在現(xiàn)行的科技手段下，不能有效地防止數(shù)據(jù)在分享和使用的過程被泄露。

從企業(yè)端來看，大數(shù)據(jù)分析一般由第三方對各類數(shù)據(jù)源進(jìn)行合并、分析和建模。數(shù)據(jù)集中化收集導(dǎo)致隱私信息泄露等風(fēng)險，導(dǎo)致目前只有1%的企業(yè)數(shù)據(jù)向第三方如大數(shù)據(jù)公司、AI公司分享。擁有數(shù)據(jù)的公司無法安全的將數(shù)據(jù)共享或變現(xiàn)，進(jìn)而產(chǎn)生一個個數(shù)據(jù)孤島。

從用戶端來看，大數(shù)據(jù)公司、開發(fā)者和科學(xué)家僅能接觸到有限的數(shù)據(jù)集，并且費(fèi)用高昂。與運(yùn)營商等大數(shù)據(jù)源的合作需要開發(fā)人員現(xiàn)場部署模型于數(shù)據(jù)源的服務(wù)器上，模型算法存在泄露風(fēng)險，且效率低下。

而要想找到數(shù)據(jù)隱私的保護(hù)手段，其實是可從可信硬件和密碼學(xué)兩個方向入手。硬件手段主要是可信執(zhí)行環(huán)境(Trusted Execution Environment)，而密碼學(xué)手段主要有同態(tài)加密(Homomorphic Encryption, HE)，零知識證明(Zero-knowledge Proof, ZKP)，以及安全多方計算(Multi-party Computation)。

同態(tài)加密

同態(tài)加密是一種支持密文運(yùn)算的加密方式。數(shù)學(xué)上，同態(tài)描述了將一個數(shù)據(jù)集合轉(zhuǎn)換為另一個集合的對應(yīng)關(guān)系，同時保持了兩個集合中元素之間的運(yùn)算結(jié)構(gòu)。由于同態(tài)加密中的明文與密文滿足同態(tài)性，因此對應(yīng)的數(shù)學(xué)運(yùn)算，無論是對加密數(shù)據(jù)還是明文數(shù)據(jù)執(zhí)行，都將得到相同的結(jié)果。從而，可在不暴露明文的情況下，利用密文運(yùn)算獲得數(shù)據(jù)計算結(jié)果，實現(xiàn)了數(shù)據(jù)隱私和數(shù)據(jù)處理的并存。

同態(tài)加密有望在云計算中發(fā)揮重要作用，允許公司將加密數(shù)據(jù)存儲在公共云中，并利用云提供商的分析服務(wù)。目前由于理論基礎(chǔ)和技術(shù)發(fā)展的限制，同態(tài)加密的效率距實用差距很大，在短期內(nèi)難以進(jìn)行大規(guī)模的商用。

零知識證明

零知識證明可簡單描述為，證明者能夠在不向驗證者提供任何有用信息的情況下，使驗證者相信某個論斷是正確的證明方法。零知識證明被大量密碼學(xué)協(xié)議用作基本模塊，但在構(gòu)建隱私計算方面仍有多方面技術(shù)難點需要突破，包括一般性函數(shù)的計算，運(yùn)行效率，多方數(shù)據(jù)隱私，可信初始化等問題。

可信執(zhí)行環(huán)境

可信執(zhí)行環(huán)境通過在硬件計算平臺上引入安全軟硬件協(xié)同設(shè)計架構(gòu)來提高系統(tǒng)的安全性。通過基于硬件密鑰的安全代碼加載，強(qiáng)制硬件環(huán)境中計算行為不可作惡。其優(yōu)點是速度較快，缺點是過于中心化，需要信任硬件提供方，并且存在設(shè)計漏洞，易被側(cè)信道攻擊等安全風(fēng)險。

安全多方計算

安全多方計算研究的是在無可信第三方的情況下，幾個相互不信任的參與方如何安全地計算一個約定函數(shù)的問題。

安全多方計算可在明文數(shù)據(jù)不離開各自節(jié)點的前提下，完成多方協(xié)同分析、處理和結(jié)果發(fā)布，適合以下應(yīng)用場景：多個機(jī)構(gòu)之間想共享數(shù)據(jù)以供信息聯(lián)合查詢，但又互不信任，每個機(jī)構(gòu)都需要防止數(shù)據(jù)泄露。利用安全多方計算技術(shù)，可以實現(xiàn)數(shù)據(jù)的安全查詢，即在不泄漏任何一方數(shù)據(jù)的情況下對數(shù)據(jù)整合和分析，如此，企業(yè)可以在我們的技術(shù)的幫助下打通這一原本不可能的場景，并且滿足法律合規(guī)的需求。

安全多方計算對參加計算節(jié)點的算力和帶寬有一定要求。但近幾年科研方面的突破讓計算速度有了指數(shù)級的提升。

安全多方計算或?qū)⒊蔁狳c

綜合考慮安全性、效率、運(yùn)算能力、所能處理問題的復(fù)雜程度，在幾種加密技術(shù)方案中，我們更看好安全多方計算。在近期，它越來越受到重視，被視為區(qū)塊鏈發(fā)展和數(shù)據(jù)安全解決方案的熱點。

自1982年由華裔計算機(jī)科學(xué)家、圖靈獎獲得者姚期智教授提出安全多方計算以來，至今它發(fā)展了30余年，目前安全多方計算效率在迅速提升，約比明文計算慢兩個數(shù)量級，我們認(rèn)為目前已支持中大規(guī)模商用。

數(shù)據(jù)預(yù)處理效率相較 2012 年提高了 200 多倍，計算所需時間不到明文的 10 倍。

目前區(qū)塊鏈的共識過程存在大量冗余計算，中間浪費(fèi)了許多算力和時間成本。并且，所有鏈上信息和智能合約都是公開的，這被視為是企業(yè)大規(guī)模部署Dapp以及敏感數(shù)據(jù)上鏈的重大障礙。安全多方計算恰恰就能改變這一點，它自帶的可驗證計算的特性避免了冗余計算，而且能保證參與運(yùn)算的數(shù)據(jù)的安全與隱私。

我們?nèi)缃裾诟鷼W洲領(lǐng)先的研究型高等院校合作，用安全多方計算去搭建一個多方數(shù)據(jù)安全共享平臺。具體的計算任務(wù)由參與計算的多個節(jié)點共同完成，每個節(jié)點只能拿到數(shù)據(jù)經(jīng)過混淆、掩蓋的數(shù)據(jù)片段。這些片段獨(dú)立存在時沒有任何意義，只有將它們用密碼學(xué)算法重建時才能合并出數(shù)據(jù)明文。我們只需要保證有至少一個誠實節(jié)點，所有數(shù)據(jù)便是安全的。

這種去中心化的技術(shù)杜絕了原始數(shù)據(jù)的泄露，從根本上解決了數(shù)據(jù)共享和使用中的信任問題，所以安全多方計算有廣闊的市場前景。

最后，列舉幾個安全多方計算常見的應(yīng)用場景：

數(shù)據(jù)安全查詢

政府部門的系統(tǒng)中往往儲存了大量的公民個人數(shù)據(jù)和企業(yè)經(jīng)營數(shù)據(jù)，很多商業(yè)機(jī)構(gòu)需要查詢信息用作商業(yè)用途，但政府不希望數(shù)據(jù)被泄露或被拷貝走，同時，有些場景下商業(yè)機(jī)構(gòu)也不希望政府知道其查詢條件。利用安全多方計算技術(shù)，可以實現(xiàn)數(shù)據(jù)的安全查詢。

除此之外，數(shù)據(jù)安全查詢的解決方案還可應(yīng)用在商業(yè)競爭、數(shù)據(jù)合作等眾多領(lǐng)域中。

聯(lián)合數(shù)據(jù)分析

跨機(jī)構(gòu)的合作以及大型企業(yè)的經(jīng)營運(yùn)作經(jīng)常需要從多個數(shù)據(jù)源獲取數(shù)據(jù)，拼湊成全量數(shù)據(jù)再進(jìn)行分析。已有的數(shù)據(jù)分析算法可能導(dǎo)致隱私暴露，安全多方計算平臺可以使原始數(shù)據(jù)在無需歸集與共享的情況下實現(xiàn)計算，保護(hù)目標(biāo)數(shù)據(jù)持有方的隱私及資產(chǎn)安全。

聯(lián)合征信

安全多方計算平臺可賦能金融、保險企業(yè)對客戶的負(fù)債率等風(fēng)險指標(biāo)進(jìn)行聯(lián)合分析。目前各家金融、保險、資產(chǎn)管理機(jī)構(gòu)只掌握客戶部分?jǐn)?shù)據(jù)，從而導(dǎo)致風(fēng)險評估誤差。聯(lián)合分析不泄露各參與方數(shù)據(jù)，對客戶的風(fēng)險有整體評估，在多頭借貸等場景下能有效降低違約風(fēng)險。

多維度健康分析

安全多方計算平臺賦能醫(yī)療機(jī)構(gòu)對病人在多家醫(yī)院的病歷和智能硬件生物數(shù)據(jù)進(jìn)行分析，從而在病人、醫(yī)院和智能硬件廠商數(shù)據(jù)不泄露的情況下，對病人有更精準(zhǔn)的診斷。同時，針對醫(yī)療機(jī)構(gòu)的聯(lián)合數(shù)據(jù)分析可以讓藥品研究機(jī)構(gòu)對某特定地區(qū)特定病種有更全面的了解。

精準(zhǔn)廣告投放

安全多方計算平臺賦能商戶對潛在客戶多維度信息進(jìn)行分析，從而更精準(zhǔn)的投放廣告。廣告投放機(jī)構(gòu)可以從更多數(shù)據(jù)維度對客戶購買意向建模，且數(shù)據(jù)源不泄露個人隱私數(shù)據(jù)。

數(shù)據(jù)匹配

安全多方計算平臺可完成兩方或多方的去中心化數(shù)據(jù)匹配，數(shù)據(jù)無需脫敏。

我們的長期目標(biāo)，是想讓每個人把個人數(shù)據(jù)，包括行為、醫(yī)療、健康和基因數(shù)據(jù)在保護(hù)隱私的情況下安全、高效地變現(xiàn)。如此，不僅能讓更多人意識到數(shù)據(jù)的價值，推動社會對個人隱私的守護(hù)意識，還能解放大量數(shù)據(jù)，增加數(shù)據(jù)流動性，形成雙邊數(shù)據(jù)市場，從而更快推動人工智能的發(fā)展。

關(guān)鍵字：技術(shù)加密隱私數(shù)據(jù)