假設兩個人想要秘密幽會,他們會怎么做?首先,他們不會隨身帶手機,因為他們知道,通過分析手機的位置數據,就很可能發現他們當天在同一時間、同一地點的行蹤。于是,他們商量好在距離某個街區、某個位置的時候關閉手機,來給這次見面“加密”。但是,在那幾個小時內同時消失而后又出現的手機追蹤信息,恰恰可能成為一項可疑點,暴露出兩人見面的時間和地點。
前亞馬遜首席科學家安德雷斯·韋思岸(Andreas Weigend)舉了這個例子來向《陸家嘴》記者闡述了他的觀點:大數據時代下,我們沒有藏身之處。
數據預測的力量
“我們發現人們比想象中更具備可預測性。” 韋思岸說道,在作決定的時候,人們往往想要有一種獨特性。但事實上,數據往往能非常準確地預測人們的行為。
在預測的過程中,最重要的部分是好的變量,因為預測客戶行為的準確性取決于導入算法模型中的數據。然而,令人驚奇的是,人們的購買記錄所發揮的作用往往比不上人們在購買時所處的情境重要。
“舉個例子來說,如果你在亞馬遜搜索數碼相機,那么在購物的過程中,也就是一個在你腦海中不斷創建和保留想要的產品的過程,對于預測消費行為是非常有價值的。” 韋思岸談道。他舉了一個例子,在購買過程中,如果用戶有同時點擊兩件相似產品的行為,這兩件產品就會被標記成替代商品。若是用戶有同時購買兩件商品的行為,這兩件商品就會被標記為互補商品。基于這些匯總點擊和購買數據,亞馬遜就能更好地預測用戶的行為,來為其進行相對應的商品推薦。
在韋思岸看來,用戶不僅應該有創造數據的權利,還應該有修改數據的權利。當用戶把某樣東西標注成禮物的時候,就等于告訴了亞馬遜不要把它算在購買數據內,并通過預測模型來推薦相關的購買物。如果用戶在亞馬遜上創造一份愿望清單,對于用戶來說,他不只是把物品(數據)放進購物車,還能夠修改它。
“在我們的生活中,可能會出現比如我和我的朋友出去吃了一頓飯,他托我幫他買了一本關于嬰兒游泳的書。然而,對于我來說至少在明年一年的時間里,我都不想要亞馬遜向我推薦關于嬰兒游泳的書籍。所以在這個時候,如果用戶可以說‘我是幫別人買的’,就可以避免這種情況。”韋思岸講道,“如果我很想收到關于大數據的書的推薦,我甚至可能通過某種方式來更強調它。賦予用戶修改數據的權利對于他們表現出真正的偏好是至關重要的。”
如果修正數據能夠使人們從中受益,那么他們修改數據的積極性就會很高。韋思岸繼續提出了他的看法,“如果我修改了一些數據,結果是我收到了大數據類書籍的推薦,那么我就會被鼓勵去繼續修改數據。但是,如果我修改了數據之后沒有看到結果,那么我為什么要再花時間去修改?”因此,用戶修改數據的積極性與他們從系統中得到的利益也是相輔相成的。
當《黑鏡》照進現實
當下炙手可熱的黑科技電視劇《黑鏡》在第三季第一集中設計了一個以社交印象評分系統為核心的社會。韋思岸認為,它不僅“把隱性的東西顯性化(make the implicit explicit)”,還在一定程度上詮釋了征信機構的信用評分。
什么是“把隱性的東西顯性化”?
“首先,你思考一下自己到底想要什么,通過把真實的想法說出來,你把隱性的思維顯性化了。如果你說,我確實不想要投資美國股票,因為我不知道特朗普上臺之后會發生什么。在這個事情上,你的表達把隱性的想法顯性化了。另一方面來說,假設你在約會網站上找對象,中國人有些眼睛大,有些眼睛小,你喜歡眼睛小的男生你卻不知道,但是約會網站能夠把你隱性的偏好顯性化,因為它知道每一個你點擊的男生都是小眼睛的。”韋思岸舉了一個非常形象的例子。
那么,當人們把“隱性的東西顯性化”之后,也就是不再能藏住自己的感受的時候,社會會受到什么影響?
韋思岸告訴《陸家嘴》記者,他并不知道人們的行為會發生什么樣的變化,但是《黑鏡》中有幾個令他印象很深刻的場景可以為我們帶來一些有趣的啟發。比如,在一個機場的場景中,女主人公需要出席一場婚禮,工作人員看了她的評分后,告訴她沒有可用的航班,因為他們不能讓一個像她這樣評分的人上那架飛機,她氣急敗壞。人們看了她的表現后,都給她評了更低的分數。隨后,機場安保人員來了,并給予了她暫扣1分,24小時后恢復,在此期間所有低分評價雙倍計算的處罰。
另一方面,女主人公后來被一個卡車司機接走了,讓人慶幸的是,這個女人是世界上最自由的女人,因為她能讓自己的內心達到平和,就像是在冥想或是佛教中的打坐,你不會去追趕下一個想法,你只是讓想法自然地出現,而后消失。很有趣的是,她找到了方法走出了原來的世界,從此引領著自己的生活。
“我認為,芝麻信用評分是我在過去一年半中接觸到的最有趣的事情。” 韋思岸說,“從概念上,我會很堅持地為它說話,因為中國政府在2020藍圖的社會信用部分中,提到在有這么多電子化手段的世界里,我們需要一些告訴人們去相信誰的方法。”可能的話,芝麻信用評分需要更多的維度,因為只有一個評分是不夠的,就像人們在需要醫藥方面建議和購物建議的時候往往會找不同的朋友咨詢一樣。
然而,在現實中也會遇到問題,是誰來決定什么事項會被計入評分?什么是芝麻信用分的決定因素?這些問題如果沒有清楚的答案的話,有可能會導致一些人社會權利的降低。如果有人因為某種原因不喜歡另一個人,在他擁有了那些數據的時候,他就可以找到一些針對這個人的方法。
每一個人都可能在不經意間或多或少地破壞法律規定,比如有時候在沒有紅綠燈的情況下,不知道哪條馬路能過還是不能過。我們的生活中有很多數據點,包括人臉識別、監控錄像等等,現在的問題是那些擁有了數據的人會如何使用這些數據。如果他不喜歡一個人或者一個群體,就有可能會使用一些手段來歧視一部分人。
“如果99%的人會因為芝麻信用評分過上更好的生活,然而1%的人生活的更不好,就會造成問題。哪99.99%的人會過得更好呢?你可能會說,有這個積分是很好的,然而關鍵的問題是,這個分數不能取決于創造它的人們,而是應該取決于社會。” 韋思岸說,“培養數據素養是很重要的,人們知道數據,人們創造他們想要分享的數據,所以我希望人們來決定分享哪些數據,并且知道什么是結果和代價。”
韋思岸認為,人們需要很清楚代價,如果冒了更大的風險,會期待一個更高的回報。“當有人問我要了他們不需要的數據,我會不高興。但如果有人不想分享數據,導致數據精煉后的產品和服務不能帶來他們需要的東西,這也不會是他們想要的結局。”他說道。
韋思岸認為,在大數據由取之于民、歸之于民演變為用之于民的狀態下,人們迫切地需要培養一種數據素養,包括了解數據服務商的工作機制、可改變的參數、可糾正的錯誤、不確定的因素以及預測分享數據可能帶來的結果等等。