電影Ex Machina中基于搜索引擎提供數據的仿生腦
我的智能手環用了將近一年,今天它上面唯一的一顆小按鈕突然脫落,掉進地毯縫里再也找不到了。一年以前,我在我媽的慫恿下買了這個看起來沒什么用處的“智能可穿戴”初代產品,它僅能計步以及通過監測身體的運動狀況來計算出睡眠質量。我媽幾十年來飽受失眠之苦,我不太理解為什么她熱衷于讓一個完全無助于睡眠的電子小玩意兒告訴她昨晚又沒有睡好。不過,我還是給自己買了一個手環,而且出乎意料地戴了一年。買到手,在手機上裝好App,很快我就體會到“量化自我”的樂趣。首先是最基本的計步器功能,讓我頭一次意識到自己每天的運動量是多么可憐,一天一萬步的目標并不是看上去那樣理所當然地能夠達到。睡眠測量雖然不能讓我睡得更好,但至少讓我能夠通過橫向對比來檢驗早睡晚睡、是否做過運動、睡前有沒有喝小酒對睡眠的深淺會有怎樣的影響。配套的App偶爾會提示說:最近你的深睡眠時間比同年齡段的平均值少半小時呀,睡前放松一下吧,溫馨體貼的三言兩語說得人還有點小感動。
其實把自己的數據和他人來做比較,并不是什么新鮮的體驗,在日常的電腦使用中,我們許多年前就早已被卷入一場席卷全國的大比拼之中——“你的開機時間為十五秒,超過了全國85%的電腦用戶”,“您的顯卡得分6345,全國排名28050位”。言下之意當然是要你使用這些報分軟件來幫助優化系統、清理垃圾、下載驅動、從而提升你在全國范圍的排名,并讓你在勝利的喜悅中決定和這些軟件生死相依。
然而,在大數據時代,“你的睡眠時間比別人少”,根本就是出于純粹的體貼。手環和其他可穿戴,社交網絡,搜索引擎,電商,他們不太需要通過激起你無意義的好勝心來穩定用戶群。他們需要的是你的個人化信息,并基于這些信息來更有針對性地改進、研發、推送產品。數據一直都為商業決策提供參考。而大數據之大,按其定義,在于“所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息”。(維基)簡而言之,大數據是大過人工處理能力的數據。而這些大過人工處理能力的數據,又會偶爾展示出驚人的實用性。2010年世界杯的預測帝章魚保羅,到了2014年已經被微軟必應(Bing)取代,淘汰賽預測準確率高達94%。除了體育賽事,必應預測美國國會中期選舉的準確率在95%以上;預測金球獎、奧斯卡得主83%以上;預測選秀節目“與星共舞” 95%,“美國偶像”90%。 所謂學習,就是通過過去的經驗來處理未知的類似狀況;而大數據和流行的“機器學習”就是在模擬人類這一貌似粗疏、實則管用的認知過程。比起過去以構建一個嚴密完備的“人工理性”邏輯系統來實現人工智能的嘗試,基于大數據的機器學習或許更接近于充滿意外和邏輯矛盾的人腦。盡管機器處理大數據的過程看起來像個黑箱,但人腦對于我們自己來說,也差不多是個黑箱。
幾個月前,我戴的這個手環出了新款,帶有更多的傳感器,能測量更多的數據。自我測量、從而自我管理的理念在過去的一年多里已乘著井噴式的可穿戴設備風潮深入人心;但在大數據時代,“自我”已不是重點,“科技以人為本”的理念連同諾記已成明日黃花。我們不僅是最終的消費者,還不自覺地變成了最初的生產者。對我們個人而言用處不大的數據——一天行走的步數,去過的地方,瀏覽過的商品,搜索過的名字——一旦數以萬億計地集結起來,就不僅決定了在下一個網頁我們會看到的廣告,而且還可能決定下一代手機的主要功能,或者下一個可能突飛猛進的科研領域。大數據之大,既在于它超出人工的處理能力,又在于它超出人工的理解、調控能力。大部分人不知道該怎么用這些數據;但它們看起來又是如此地有用。所以害怕落后的生意人直覺的反應當然是,管他以后怎么用,先把數據收集起來再說。當然,他們還沒好心到在知道怎么利用數據掙大錢之前,就先把收集數據的設備免費分發給大家。我們作為數據的提供者,或者各種長期試驗的受試者,竟然還要交錢買一些用處不大的測試工具,這是讓人有點忿忿不平的。所以自然就有龜毛的老外要伸張自己不提供數據的權利,“被遺忘權”,以捍衛個人的神圣隱私。
我對自己的隱私倒并不太關心,盡管隨身設備收集私人信息的邪惡觸手在前兩天又向私處探出一大截——Apple下一代iOS9似乎可以記錄性生活了。(收集此類數據的,前些年還有一個網站http://ijustmadelove.com那時候地理大數據比生理大數據要流行) 甚至還有人推出配套的眾籌項目"Lovely",智能丁丁環,能夠記錄熱量消耗、持續時間和抽插速度。有朝一日,少數派報告或成現實,機器能根據個人的生活行蹤來斷定此人是否即將要犯罪,我先買了絲襪又買了槍,回家可能就會被警察堵在家門口。但到那天來臨之前,我不想為自己泄露給大數據的隱私過于擔心。
我更擔心的,首先一點,是大數據會讓人在自己的生活里變得更愚蠢,更不講道理。如果仔細想想大數據的使用方法,或者“機器學習”的機制,它其實不過就是休謨式的歸納法。太陽每天都照常升起,所以明天早上我們還會看到它。嚴格說來,沒人會確定地知道,在今夜會不會有什么降維攻擊級的意外會讓太陽突然消失,可是大家依然按著“太陽明天照樣升起”的假設安排生活。大數據的運用機制就是這樣一個沒有嚴格因果關系的歸納法。盡管有人工算法來規定機器處理數據的方式,但算法的優劣也是通過反復試錯來提煉它的準確性的,而并不是提供一套類似于牛頓力學的嚴格法則。這大概類似于配中藥,算法的作用就類似于一位老中醫,能夠根據每一味藥的特性來揣測它們的療效,通過調整計量得到一張最理想的藥方,但并不提供背后的病理學解釋。
這樣的使用方式并不能稱之為是科學的。在社會科學研究中,先要有一套含有因果關系的理論,然后才需要用數據來證明,或證否,這個因果關系是否存在。去年“雙十一”之后,阿里的數據分析部門發現,購買內衣罩杯越大的女性購買能力越高。胸大和敗家,兩個因素有關聯,但從數據上是無法區分到底有沒有因果聯系,或者哪個是原因,哪個是結果,一個完整的解釋又是怎樣的。類似“有趣”而無意義的“大數據”統計還有,江蘇省避孕套年用量全國最高,湖北和西藏省最愛買字典。在大數據概念出現之前,大家或許會對這種純粹的數據關聯一笑了之;但在大數據的運用機制下,更多的廣告可能就會被推送給胸更大的女性,情趣用品商戶會瞄準江蘇,而更多的字典可能會被調撥給湖北和西藏的庫存。
數據關聯本來就容易讓人在兩件事之間建立錯誤的因果關系,并產生自己的猜測一定很科學的幻覺;而大數據之“大”似乎可以為這樣的幻覺保駕護航。不僅如此,大數據或許還會喚起一種人類對科技的崇拜,在天文數字一般繁瑣龐雜的數據面前認清人力的界限,心生敬畏,并依賴機器的處理能力,把機器歸納出來的結果當作事實,甚至當作因果理論來接受。人對世界的理解,不僅基于經驗,更是基于頭腦對因果關系的想象和構造。從經驗里能看到蘋果落地,但無法得出萬有引力的理論。一旦因為機器可以收集、處理人力不可能處理的海量經驗,為之大能所折服而信賴它,并且無視歸納法的局限,人們將過上一種其實并不科學、僅僅是極端從眾的生活。
大數據提供的處理結果不僅缺少科學的因果解釋,而且還受制于數據收集的種類限制。現在阿里能通過內衣大小得出胸圍與購買力的關系,卻無法得出胸型種類與購買力的關系。樂觀的導演們愿意構想,日新月異的信息攫取手段將會打破所有私人的屏障。隨著技術和商業的發展,數據收集的觸手有可能會直接探入我們的五臟六腑,了解我們的衣食住行、一舉一動,閱讀我們每一個細微的面部表情和肢體語言,記錄下所有狀況下所有人可能做出的所有反應(這里”所有“大概應該指,大于95%)。以后那些基于”云大腦“的Siri、Cortana們一見面就會成為我們最好的朋友,了解我們的一切好惡并為我們安排好日常起居。但正如電影 Ex Machina (機械姬)提到的一個問題一樣,模擬和現實的區別,對于一個已經能夠完美模擬人類、能通過圖靈測試的機器人來說,究竟在哪里。你夸Siri一句,它會(按云AI里的人類數據所記載的那樣)用快樂的語氣回答說”謝謝“,但它并不是真正能感覺到被人夸獎的愉悅。人與一個基于大數據來模仿人類的完美的機器人,區分或許就在這真實的感受上。人有激情,有目標,有道德感。
會不會一不留神和機器人結了婚,我現在也不愿提前操心。大數據時代,另一個讓我擔心的事情反倒是,人會不會逐漸主動去向機器靠攏,否定那些無法被量化、無法被捕捉,但能使人之為人的那些屬性。今天我們已經對“顏值”,“戰五渣”這種戲仿的偽量化詞匯司空見慣?;蛟S有一天,不能量化的東西都會被視為落后而無用。一個自知見識短淺、經驗不足的新手投資者,或許會因為敬畏大數據的海量信息,而否定自己的直覺。一個處在道德兩難之中的普通人,或許會托付大數據來為自己做出抉擇,并因此扶持了一種人多即正義的民粹價值觀?;蛟S若干年后的婚禮上,緊張而激動的新人會彼此念出手機擬好的誓詞:
“自從愛上了你,每次見到你的頭三分鐘里,我的心跳都會加快平均每分鐘17下。在和你相識相知的三年十個月又十一天里,我的日均卡路里消耗增加了8.2%。我承諾將繼續愛你,關心你。考慮到你我未來五十年的非自然死亡預期都低于0.3%, 從今天算起,我會盡力使我們的婚姻維系到超過全國的平均婚姻時長23.6年至少20%(即28年4個月),并在此期間使我們的幸福感指數超過全國56%的已婚人士。”