精品久久一区二区,91久久青青草原线免费,中文字幕精品一区影音先锋

大數據時代 | 令人糾結的人類社會黑匣子致我們終將逝去的隱私

責任編輯：editor005

作者：趙斌

2015-12-04 14:08:22

摘自：全球華人科學博客圈

從好的方面來講，人類行為的大規模數據集有可能從根本上改變我們對抗疾病、設計城市或進行研究的方式。DeepFace的人臉識別效果如此之高，好在他們的目的不是為了侵犯別人的隱私，而是為了保護隱私。

大家在瀏覽網頁中，越來越發現一個令人“驚訝”的現象，有些網站似乎特別了解自己，在一些顯現的地方會不斷向自己推送一些看似自己非常有興趣的內容。原來，互聯網留下了每一個人的行為軌跡，搜索過什么內容，看過什么新聞和視頻，玩過什么游戲，買過什么東西，發過什么言，這些真實的屬性數據都被一一記錄下來，數據分析者認為這甚至比起注冊時填寫的社會屬性等信息更真實。也就是說，時下不少互聯網公司正通過大數據分析，捕捉每一個人的網上行為，并據此來全面地描述目標受眾的屬性特征，對消費者進行360度畫像，進而進行有的放矢的精準營銷和推介個性化廣告。

一、信用卡、手機、瀏覽、交通

過去的精準營銷，無非是先進行市場細分，針對目標客戶進行特征和傾向分析，然后再考慮實現與客戶、消費者一對一的溝通。但是，一個企業不可能將所有的產品購買者或者潛在購買者都列入自己的會員系統，因為消費者們已經厭煩了那些入會廣告。那么一個人互聯網上留下的行為軌跡就是一個重要的突破點。資深互聯網數據專家指出：“大數據就是對每一個個體的精確描述，就是從百萬中間找到一個具體的人。”過去營銷的對象是一群人，一群被標上各類標簽的人，年齡、職業、愛好等，現在互聯網大數據能使企業從一群人當中更細分地去對待每一個消費者、用戶。這些企業越來越相信，大數據能夠讓他們發現新的藍海[1]。

的確，一個人自出生之日，他的數據跟蹤就開始了。他的名字，身高和體重都被記錄下來，還可能有一些照片。幾年后，進入托兒所，首次生日晚會的邀請，在人口普查中被記錄。再長大一些，有了形影不離的身份證、銀行賬戶、信用卡和智能手機。他在網上的行為透露出他不斷變化的興趣、憂慮和欲望。有時他還會特意向朋友、陌生人、公司和政府分享一些自己的數據[2]。

從好的方面來講，人類行為的大規模數據集有可能從根本上改變我們對抗疾病、設計城市或進行研究的方式。無處不在的技術產生了規模巨大的個人元數據。我們的智能手機、瀏覽器、汽車或信用卡產生了我們在什么地方、我們叫什么名字，我們花了多少錢等信息。一些新的領域如計算社會科學(computational social science)依靠元數據來解決一些重要問題，如抗擊瘧疾，研究信息傳播或監視貧困等。對科學家來說，目前這種大規模行為數據集的使用與顯微鏡的發明相提并論。約翰霍普金斯大學2011年獲得了美國國家科學基金會(NSF)120萬美元的資助，建立秒傳億兆(100 gigabit)的網絡，網絡每天可傳輸的數據量相當于8千萬文件柜的文本數據。該項目的負責人Alex Szalay博士說，“在每個科學領域我們都在生成千兆級數據，如果我們沒有與21世紀這個時代相當的數據顯微鏡、更快的網絡和相應的計算能力，我們就被困住了。”在他看來，采用大規模處理能力來過濾千兆級數據的新方法是一種全新的計算，將引發天文學和物理學的新進步，就像17世紀顯微鏡的出現所導致的生物學和化學上的進步。因此，霍普金斯大學這個秒傳億兆的網絡不僅是一個高速網絡，而且是研究和發現必不可少的工具，是21世紀顯微鏡的必需部件[3]。

但是，人們每天流露出的大量數據提供了一些奇妙的新機遇，也帶來了一些新難題。應該注意到，這些有關某個人的大量信息收集只是得到別人表面上的同意，或者根本就沒有得到任何首肯。不久以后，一個人的整個基因組序列也可能伴隨其醫療記錄在全球各地研究人員中共享，安置在生活圈子附近的攝像頭也記錄下一個人的許多行為，甚至當他進入一家商店或機場時就已經通過人臉識別出來。上周(2015-01-30)的Science，發表了以“隱私的終結(The end of privacy )”為題的特刊的17篇文章。今天這篇博文，先向大家介紹其中一篇Montjoye等的報告：在購物中心留下的唯一性：有關信用卡元數據的識別[4]。

根據110萬人3個月的信用卡記錄的研究發現，只需要四個時空節點的數據就足于將90%的人獨一無二地識別出來。如果再增加一個數據，比如某一特定交易的價格，被識別的風險平均增加22%。即使數據集提供的信息比較粗糙，那么在某些方面或者在所有維度下其實也提供了難于隱藏身份的信息。例如，為了保護隱私，可能只提供在某特定地理區域內購物，而不是說在某特定商店內購物，或者在15天內購物而不是說在哪一天內購物。如果類似的數據再增加幾個，就可能具體確定到某個人了。這個研究還發現，女性及在較高收入范圍內的人更容易通過這種方法被識別，這可能是因為他們在其所去商店之間的時間分配有著獨特的模式。

新的計算技術可以結合一些數據片段來識別人或跟蹤他們的行為。信用卡記錄與手機數據具有唯一性，這并不會讓人感到奇怪。但其他大規模元數據集，如網站瀏覽歷史、財務記錄、交通出行等，其實也是具有很高唯一性的。將這些數據收集起來，進行一些技術處理，就可體現出一個人的行為特質。瀏覽網頁或交通出行看似零散的，是一個高維不確定的數據，因為一個人可能會瀏覽各種網站，或者在出行中有各種地鐵出入口的組合。但是，針對一個具體的人來說，他的瀏覽習慣和出行組合是相對穩定的。

該研究還提出了個人可識別信息(PII)的概念，這是美國和歐盟隱私法的基礎，但現在對管理元數據集來說有些力不從心了。一方面，在美國隱私法中，只要略去姓名、家庭地址、電話號碼或其他PII中列出的信息就可以不違反隱私法，而如今在這種具有高度唯一性元數據集存在的背景下，并不足以保護個人的隱私。另一方面，在歐盟提出的數據監管中，要讓隱私法擴展到保護“任何可能涉及到確定或識別某人的信息”，德國電信要達到“不可能識別一個特定人的狀況”，但這些看來都是難于證實的。

從技術的角度來看，該研究結果強調了改變的需要。在可能的情況下，開發出更先進和更互動的個人與群體交互的謹慎隱私技術，以及計算隱私權方面的研究。從政策的角度來看，該研究強調了需要改革數據保護機制，讓其超越PII和匿名性，對被識別可能性進行更定量的評估。找到隱私與利用之間的良好平衡，這對保護元數據絕對有至關重要的作用。

總的來看，盡管有許多方法可用來保護隱藏在大數據文件中的私人信息，但這可能限制了科學家所能進行的研究，因此必須達成一種平衡。一些醫學研究人員坦承，保護患者的數據隱私幾乎是不可能的事兒了。相反，他們正在測試一些新的方法來獲得患者的信任與合作。同時，我們如何思考和看待隱私問題也應該發生一些變化。年輕人的網絡行為已經比年紀大的人暴露了更多有關他們生活的信息。我們想保護什么也是發生變化的，這主要取決于具體的內容、時機或我們將如何推進。正如我們所知，隱私正在終結，我們現在才剛剛開始理解其后果[2]。

二、你的臉和聲音出賣了你

說到利用人體的生物特征進行身份識別的問題，大家肯定首先會想到指紋識別。每個人的指紋是不同的，即使同一個人的十指之間，指紋也有明顯區別，因此指紋用于身份鑒定是非常可靠的。雖然指紋特征并非肉眼可輕易分辨的，但作為身份識別的工具至少也用了上千年了。影像記錄和聲音記錄是現代技術的產物，如果說這些記錄也可以作為生物特征進行身份識別，你可能有些小小的驚訝。

不久之前，我們還認為匿名是安全的。如果一個人的照片出現在抗議游行的隊伍中，可能只有他的朋友能將他認出來，電腦是無能為力的，除非這臺電腦一直在負責搜尋某個人，并針對這個人訓練了人臉照片，而且還必須保證用于識別的照片質量足夠高。在游行隊伍中，某人大聲發表了時間并不算太長的演講，事后如果只有錄音，也不大可能找出這個人是誰。

但目前，這些技術的發展突飛猛進，人臉識別的準確性越來越高，據Facebook的DeepFace研究團隊在機器視覺社區進行的測試發現，人類識別的正確率約為98%，而DeepFace團隊的機器為97.35%，高于其他領域 27%的準確性。這個測試的基準是辨認來自LFW中的兩張照片是否為同一個名人。“我的聲音就是我的密碼。”也許很快大家在給銀行或信用卡公司打電話的時候就會這么說。指紋或虹膜掃描，每個人的聲音都是獨一無二的。安全公司也已經將語音識別作為一個方便的新層進行身份驗證。

DeepFace的人臉識別效果如此之高，好在他們的目的不是為了侵犯別人的隱私，而是為了保護隱私。一旦DeepFace從每天上載的4億張新照片識別出某人，就會警告用戶是否要將這張照片進行模糊化處理，以保障用戶的隱私。

簡單的面部偵測對電腦來說很容易，至少可以與識別常見的花朵、座椅板凳和燈具等物件相媲美。幾乎所有的人臉都有類似的特征：耳朵、鼻子和嘴而且都處在相對固定的位置。這種一致性為電腦的有效識別提供了一個捷徑，因此20年前就已經做到了，一些廉價的相機中都可以采用這種技術來偵測和聚焦面部。但是，識別人臉則比簡單的面部偵測要困難得多，特別是要將人臉作為惟一性標識，那就更是困難重重。與人的指紋不同，人臉總是在不斷變化的。只是微笑一下，人臉就發生了改變。眼角紋、鼻子的反光點、露出的牙齒，統統都在改變。仰天大笑，臉上顯現的形狀很快發生變化。即使有同樣的表情，人的頭發也在不斷發生變化，剛理發后的變化更是非常大。然而，人眼卻能毫不費力地從一堆照片中認出他認識的人，即使這個人他們只見過一面。根據我們所感知的周圍世界，人臉識別可能是人類大腦最擅長之處，而電腦則要與研究者們所稱的A-PIE(衰老、姿勢、照明、表情)進行頑強的斗爭，來自這些因素的噪聲淹沒了人與人之間細微差別。

在深度學習方法的幫助下，電腦取得了進展。正如所有的機器學習工藝，深度學習也是從訓練數據開始的，通過大規模含標簽數據集的學習，理想情況下包括每個人的多張照片。在該領域，素顏檢測數據庫(Labeled Faces in the Wild，LFW)可用于研究非限定臉部識別問題，包含13000多幅從網絡上搜集的臉部圖像，其中有5749位名人的面孔。這個數據庫是在線免費使用的，因此成為人臉識別算法領域最廣泛的測試基準。對電腦來說，人臉也就是明暗不同的像素集合。深度學習系統的訓練首先讓系統自行對比臉部特征并發現其自身的特征，比如眼睛和鼻子，還包括一些無法直觀感受的統計學特性，也就是讓機器和數據說話。系統首先要將面部像素的集群識別為元素，即定義輪廓的邊界。后續處理層將元素組合成非直觀的統計特性，就是那些看起來很普通，但足于區分不同的面孔的特征。這就是深度學習的“深度”：每個處理層的輸入是下面層的輸出。訓練的最終結果是一個人臉的具象模型：比較面孔的圖像并猜測他們是否屬于同一個人的統計機器。系統訓練的面孔越多，這種猜測越準確。

所謂聲紋(Voiceprint)，是指用電聲學儀器顯示的攜帶言語信息的聲波頻譜，一般通過采集一段演講錄音并分析聲音集中區域的頻率而完成的。人類語言的產生是人體語言中樞與發音器官之間一個復雜的生理物理過程，人在講話時使用的發聲器官(舌、牙齒、喉頭、肺、鼻腔)在尺寸和形態方面差異很大，所以每個人的聲紋圖譜都有獨特的，既有相對穩定性，也有一些變異。這種變異可來自生理、病理、心理、模擬、偽裝，也與環境干擾有關。盡管如此，由于每個人的發音器官都不盡相同，因此在一般情況下，人們仍能區別不同的人的聲音或判斷是否是同一人的聲音。

與指紋不同，聲紋需要結合一些行為元素來鑒別。說話的節奏、方言和口音這些特征是很容易區分的。一般的語音識別系統，主要是為了理解說話的內容，因此會盡量減少一些差異，比如降低過高的音量，忽略停頓和口音等。但如果是為了鑒定某個人，這些差異卻是非常重要的。一些聲紋系統應用設備中，通常要求用戶重復一個標準的短語，而盜賊們恰好可利用這點，事先錄下一些短語而糊弄過關。為了擋住這個漏洞，系統就被設計成一種可檢測錄音或合成語音。在這方面，一個更簡單、安全、有效的方法是讓客戶重復讀出一個隨機選擇的文本，盜賊很難準備出所有可能的錄音。還有些系統根本就不需要用戶說什么短語，而是分析一個人的聲音，提取相關特征，與存儲的聲紋進行比較。

要精確說出自動人臉識別將如何使用，以及有什么樣的法律限制，現在還說不清楚。根據目前的資料，美國FBI的識別準確率低于Facebook，導致這種差距的主要原因是其數據庫，FBI所采集的臉部信息圖片質量參差不齊。臉部識別系統采集的最佳照片是正面照，以臉部為中心點 15 度角拍攝。如果不是被拍攝者自愿拍照，一般很難獲得這樣的照片。FBI的道路拍攝難以獲得最有效的臉部信息，鏡頭處于路人之上，角度和畫質都難以達到識別要求。而Facebook 中的圖片大多是拍攝者主動提供的。除此之外，DeepFace的優勢來自更聰明的編程能力。他們通過建立人臉的三維形狀結構克服了識別中A-PIE的部分問題。如果是一張側面照，程序根據它所看到的人臉重建一幅正面容貌。這個“對齊”步驟使DeepFace更加高效，這樣就可以將更多的精力集中在在細微差別上。這個過程占用單核電腦幾分之一秒的時間，這足于讓DeepFace用于智能手機了。經過學習之后，每張人臉都可以用一個256位的哈希(hash)字符串代碼來表示，這種壓縮能力太強大了!10億人的面部數據庫就可以儲存在一個拇指大小的驅動器上。但是，DeepFace最大的優勢其實是它的訓練數據。DeepFace在發表的文章中卻輕描淡寫地稱之為社會面部分類庫(SFC)，這是一個有440萬有標注的人臉數據庫。盡管用戶在注冊時允許Facebook使用他們的個人資料，DeepFace并沒有說明是否征得照片主人的同意。

同樣，聲紋提供了便利和安全，也可能帶來隱私問題，因為它可以讓企業和政府有可能來識別一些并不認識的人，這對匿名言論保護來說是一個挑戰，而這恰好是美國憲法第一修正案中的內容。商業公司為了最求最大利潤，有追蹤消費者移動軌跡和習慣的需求。如果顧客拿起電話或接近收銀員時就被識別出來，這將打開一個市場機遇，讓消費倍感便利。與許多新的認證技術相比，便利性和隱私之間就是一對矛盾。有人擔心，聲紋可以不經他們同意來鑒定說話者，是否侵犯他們的隱私和言論自由。這些技術一旦成熟，它必將產生許多隱私問題，這是非常容易理解的。如何獲得聲紋以及何時獲得聲紋是合法這個問題是非常模糊的。許多國家已立法來規范竊聽，但聲音識別則增加了一個重要的新維度，大多數立法都還未來得及考慮。

私人數據的買賣已經是一個繁華的市場了，有合法的，也有非法的，人臉識別將成為另一個熱門商品。例如，人臉身份證可讓廣告商通過攝像頭捕捉到某個人后來迎合他們的偏好，甚至根據他們所知道的這個人的購物習慣和人口統計學數據而提供不同的價格。但麻煩的是，陌生人也可能從繁華的街道人群中找到你，現實生活中已經無法逃避人臉識別了。美國的FacialNetwork公司利用自己的深度學習系統開發了一個應用程序稱為NameTag(名牌)，可用于智能手機或類似谷歌眼鏡這樣的可穿戴設備中。NameTag不僅能顯示一個人的名字，還可以顯示從社交媒體、交友網站和犯罪數據庫中挖掘的內容。這樣的內容顯然令人反感的，Facebook叫停了FacialNetwork，并阻止它收集用戶信息。Learned-Miller認為更好的人臉識別其可能的商業應用是個麻煩，但他更擔心政府可能濫用這項技術。他說，“我是100% 支持斯諾登的，我們必須提高警惕”。

如果 FBI 取得 Facebook 數據庫中的照片，那么辨識率可就不可同日而語了，FBI 離取得 Facebook 的圖片數據庫到底有多遠呢?Facebook 正在面臨用戶隱私的官司，一旦在這場官司中敗訴，政府部門只需要一紙法院執行令就可以獲取更多有價值的用戶數據了。看來眾人的網絡隱私權又面臨重大挑戰了。一篇表示這種擔心的文章寫道：“很顯然，警察和其他執法部門將使用這種技術搜索我們的照片，而我們卻一無所知”。Facebook也承認如果法官有這樣的請求，他們將提供讓其訪問這些數據的權利。人們知道了這樣的情形非常害怕，但馬薩諸塞大學安姆斯特分校的計算機科學家Learned-Miller教授認為這些擔心是多余的，他說，“如果像Facebook這樣的公司真的踩越社會可接受規則的界限……他們可能會倒閉。如果他們違反了法律，那么公司就可能關張，也有人會因此而被逮捕。”懷疑源于缺乏透明度。而學術研究者在使用這些私人數據進行研究時必須征得別人明確的同意，也就是在注冊網站時他們在最終用戶許可協議(EULA)上點“同意”授予該公司使用他們數據及一些附加條件。這種在線合同其實并不是透明的，沒有多少人真正去認真看了這個合同。

三、令人糾結的人類社會黑匣子

曾經在IT歷史上顯赫一時的美國Sun Microsystems公司似乎總有著超人的先知先覺能力，在公司成立之初的1982年，就接受了約翰·蓋奇(John Gage)的建議，將公司的口號定為“網絡就是計算機”。雖然這句話在目前看來是多么理所當然的事兒，但在互聯網還沒有走入大眾生活，甚至連“信息高速公路”概念都還沒有提出的時候說出這句話，其實是很匪夷所思的。而現在，該理念被認為與云計算思想不謀而合，但這已經是20年之后的事兒了。無獨有偶，1999年，面度正如火如荼發展的互聯網技術，時任該公司CEO的斯科特·麥克尼利(Scott McNealy)在一次發布會上對臺下眾多媒體記者和分析師說道：“你的隱私只剩零了，想開點吧。”，他認為互聯網的分享將徹底“殺死”隱私。自此，關于互聯網時代隱私的爭議不絕于耳，而2013年愛德華·斯諾登披露的棱鏡門事件更是將公眾對隱私問題的關注推到了一個新的高度。有不少人呼吁人們要學會適應這個越來越透明的社會，甚至有人提供一些技巧來拒絕某些互聯網服務。其實，這樣的認識存在著一個嚴重的問題，就是將用戶個人信息的收集過程等同于對隱私的侵犯。

我也曾對此類話題充滿了興趣。我認為社會已經發展到這一步——人類目前并不是擁有選擇信息的自由，相反，通過放棄使用數字科技來達到隱私保護是不可取的。現在的智能手機平均配有七個傳感器，只要人們還在使用互聯網，相關數據就會被搜集，而且會越來越普遍，幾乎可以說是無所不在，無所不包。縱觀人類歷史，每當一個新技術來臨，總有一部分人決定不參與其中，但殘酷的現實告訴我們，最有可能享受新技術帶來利益的是那些總是追隨技術的忠實客戶。在這個新的時代，人們正在發明新的隱私保護方式。例如，在電子交易中，網上支付籍于風控大腦的幫助會變得越來越安全，而且是用得越多的用戶越安全，因為支付系統已經找到了一種更接地氣的創意——通過場景來“認人”。

最早關注弗蘭克帕斯夸(Frank Pasquale)的《黑箱社會》這本書，是源于今年開年之初Nature和Science的幾乎同時對該書的推薦。究竟是什么好書呢?居然得到了這兩本被學術界稱為最高大上刊物的青睞，我充滿了好奇!書名中的black box，讓人聯想到兩個概念：飛機中的黑匣子和系統工程中的黑箱模型。看完這本書，讀者會發現，這個詞的確是一語雙關的。一方面，物聯網、大數據和無處不在的傳感器網絡記錄著我們的世界和世界中的人群，就像我們人人都擁有了自己的一個黑匣子，隨時可以被查閱而采取更好的對策。人類行為的大規模數據集有可能從根本上改變我們對抗疾病、設計城市或進行科學研究的方式，有人甚至將這種大規模數據集的使用行為與顯微鏡的發明相提并論。另一方面，我們個人卻不知道有多少信息被記錄了，這些信息會傳播到什么地方，也不知道哪些人會使用它，使用這些信息的目的何在，更無從知道這些信息的泄露會產生怎樣的后果，依據這些信息所做的判斷是否準確，是否存在偏見或破壞性?這對目前的人類社會來說，就是一個神秘的黑箱運作機制!我們正處于一種迫切希望收集更多的數據，又害怕數據被收集太多的糾結之中，本書就主要針對探討這種糾結進行探討，提供了不少新思維，閱讀該書可能推進我們對于隱私爭議的理解和認識上的更新。

《黑箱社會》這本書最可取之處，是脫離了以往那些空談隱私保護的話題，而是時不時給出了問題的癥結和可能的解決方案。早期的隱私專家只是強調信息威力的力量失衡對社會造成的后果，那些所謂的經典補救措施也就是要求個人知情同意。問題是，只要告訴如何使用這些數據，只要他們同意，隱私就得到了維護嗎?帕斯夸里認為這遠遠不夠。知情同意面對目前的社會已經退化到一個呆板的鬧劇，因為我們大多數人既沒有時間也沒有足夠的專業知識來解讀這個潘多拉魔盒。雖然大數據能夠從大量多維數據和組合中獲得新的洞見，但在如此背景下也只有富人能承擔數據使用的費用，總體上只會加劇系統本身的缺點。因此，帕斯夸里主張隱私保護制度的根本轉變，放棄知情同意這種形式上的做法，去嚴格監管實際使用這些數據的企業和政府機構。難怪Science周刊在書評中稱之為“史詩般的變化”。

對待信息的角力，帕斯夸里在書中強調了三個關鍵詞：信譽、搜索和金融。信譽是被他人認識的結果，搜索為了認識他人，金融則是幫助人們做出經濟決策。各公司都在為挖掘潛在的客戶詳細信息費盡心思，但在面向監管時，卻極盡手段隱藏它們的統計數據和操作規程，也阻止用戶對由此生成的數字檔案進行任何操控，這其實是在制造黑箱。試想，如果這些東西是隱藏的，那么錯誤的數據、無效假設和有缺陷的模型就不能得到糾正，這種黑箱可能最終危及我們所有人。我們如今的生活已經受到了信息的影響，制定一個緊跟時代的信息管理框架已迫在眉睫，其中政府公共部門應發揮什么作用呢?也許，我們需要一個公共機構來利用全面的數據提供信用評分，用一個開放的、可解釋的算法決策工具來代替黑箱系統，而不是靠各自私營企業自己搜集的數據和評定代碼。真正將黑箱社會變成顯式社會，確保最重要公司的關鍵決策是公平的，一視同仁的，并能接受批評。

人臉識別精準營銷機遇號