最近隨著某自媒體考察團去了趟微軟加速器,然后我發現此前有個認識有點偏差,國內的數據分析類公司并不像我想的那么少。抽象看,未來的世界大概會是這么個模式:一端是各種產品不停的獲取各種數據,一端則是人工智能里的機器學習算法對已經獲取的數據進行吞吐,獲得自己想要的東西。我之前一直認為國內智能硬件比較火,但后端處理數據的還沒起來,但這次看到了些公司,比如GrowingIO既在前端采集數據也在后端作分析多少改變了我的印象。當智能硬件和人工智能的數據處理能力都準備好了,那會形成一種正反饋,讓變化來的越來越快,但有些變化估計不是每個人都喜歡。
這十年到底賣了多少攝像頭
如果同十年前比較,我們會發現這世界上增加的最多的電子產品還不是手機,而是攝像頭。現在不帶攝像頭的手機幾乎沒有,而在此之外當我們用地圖進行導航時,我們就會不停的聽到這里有闖紅燈照相等,在小區、超市里各個屋頂角落也是一定會安裝上攝像頭,近來則更近一部,攝像頭也開始走進家庭成為家庭安防的一個環節。
這么多的攝像頭意味著什么?這意味著原子世界的信息正在被完整采集,這部分數據采集的越多,就越可能在比特的世界里重建一個真實世界。如果想初步感受這趨勢的威力,那可以從違反交規這事來體驗,現在的城市里或者高速上只要你違規或者超速,那就不可能查不出來。車牌的識別率幾乎逼近100%,這樣像超速這種事情,甚至不需要實時拍照,可以記錄進出某個路段的時間。
事情還沒完,不只是攝像頭在大范圍的監控這世界,個人的生活細節也越來越多的記錄到網上,微博、朋友圈在記錄你的言行和觀點,淘寶京東在記錄你的消費,美團、點評在記錄你的看電影和吃飯,滴滴在記錄你的移動位置,支付寶等在記錄你的金錢流向,諸如此類讓生活方便的工具所起的另一個作用就是人事實上在數字世界里可以被越來越精準的描述出來,阻礙人變的透明的越來越不是技術而是某種權限邊界。
故事到這里仍然沒完,即使通過這些工具,那記錄的數據仍然不算精確冗余率很低,比如記錄的聲音可能就很多噪聲,記錄的影響可能很大一段就沒什么價值。又由于量過于龐大,從這些價值密度比較稀疏的數據中提煉出價值也沒那么容易。正在這時候,人工智能的各種突破出現了。
人工智能一邊讓端上的數據采集可以更有效率,比如通過把計算機視覺集成到芯片里讓終端產品只采集更有價值的內容,比如通過各種算法更有效的降噪音采集更精確的聲音。一方面則讓海量數據的分析能在極短的時間內完成。
天網就在那里悄悄萌芽
外媒The Intercept曾經發了一篇惹起極大爭議的文章,大意是說美國反恐過程中通過機器學習算法來對巴勒斯坦人進行分類 ,之后把疑似恐怖分子的人砸死。事情的真相仍然需要進一步的澄清,但整個過程正好充分的說明了上述人工智能與數據采集以及數據分析相結合后的后果。這篇報道中與此相關的描述如下(新智元原創翻譯):
“天網”的工作方式就像一個現代典型的大數據業務應用。這個程序收集來元數據、將它們儲存在NSA的云服務器上,提取相關信息,然后應用機器學習的方法來辨別執行既定行動的線索。除了不像商業應用那樣試圖向目標人群兜售某樣東西之外,這種活動——考慮到美國政府在巴基斯坦的整體業務重心——可能也涉及到美國政府的另一個機構,CIA或者軍方,通過掠食者無人機和地面暗殺小隊(death squads)來執行他們的“尋覓——修正——收工(Find-Fix-Finish)”策略。除了要處理記錄下的蜂窩手機通話數據(所謂的“DNR”,也就是被叫號碼識別數據,包括通話時間、通話長度、誰呼叫誰等數據),“天網”也收集用戶的位置信息,建立詳細的出行檔案。關閉手機則被當做是試圖逃避監控的跡象而受到“天網”的標記。天真地相信更換SIM卡就能防止被追蹤、并且這么做了的人,也會受到“天網”的標記(燒入手機的ESN、MEID或是IMEI會讓手機即使換了SIM卡也會被追蹤痕跡)?;脽羝Q,即使是更換手機也會被探測到并受到標記。這種探測,我們只能猜測(因為幻燈片上沒有對這一點進行詳細介紹),可能是基于其他元數據(比如現實世界中的用戶位置、社交網絡等)不變的基礎上的。
有了完整的元數據集,“天網”就能拼湊出一個人典型的日常軌跡——和誰一起出行、有哪些共同聯系人、和朋友們一起通宵、去其他國家旅行或是永久地搬離了。總體而言,這些幻燈片顯示,NSA的機器學習算法使用超過80種不同的屬性來為人們的“恐怖分子程度”打分。
幻燈片告訴我們,這個程序的假設是,恐怖分子與普通居民在其中一些屬性的行為上有顯著的區別。然而,在Intercept去年的披露中可以清楚地看到,被這個機器學習程序打出最高分的是Ahmad Zaidan,半島電視臺在伊斯蘭堡的分社社長。
這里并不想窮究這事情本身的好壞是非,想強調的是用終端采集數據(上面的例子中主要是手機),云端對數據進行分析提?。ㄉ厦娴睦邮峭ㄟ^機器學習對人的行為特征打分),獲得自己想要的東西(上述例子是標識出恐怖分子),這個過程是不可逆的。一方面我們采集的數據會越來越精確、越來越多,想象下我們說的萬物互聯(IoT)的本質含義,手表、騎行、家電、健康追蹤等,事實上都在加速這一過程。人類在這種浪潮前完全沒有抵抗能力,比如說如果有一天人的血糖可以不抽血就檢測了,并且這種技術可以集成到手表里了,那有多少人會因為擔心數據泄露而不戴手表,仍然采用抽血的方式進行檢查呢。所以世界的數據化,人的數據化是不可抗拒的趨勢,而另一方面計算能力和分析能力會越來越強。
作為結果比特世界對真實世界的描述一定越來越精準。而數據化的程度越高,中介就會被去的越徹底,自動化的程度也就會越高。我們會越來越以數據的思路來思考問題。所以說天網就在那里悄悄的萌芽。
隱私上的爭議其實徒勞而無功
這里最具爭議的地方估計是隱私,但有的時候我們會發現隱私其實與發展往往是對立的。隱私有兩種保護方式,一種是靠規則,比如法律等;一種則是靠物理的手段,比如我就不上網,不用手機。《國家敵人》里的老特工就是用這方式來對抗政府的追蹤。后者與人們的意識形態和歷史傳承深度關聯,但確實會阻礙很多東西的發展,比如說一個朋友告訴我德國人更喜歡用現金,因為這會更好的保護自己的隱私,但這種習慣無疑會阻礙電商這類互聯網業務的發展。這類習慣其實相當于擋在數據化大潮正前端的障礙,體現為和發展相博弈的力量。
最終隱私的保護不可能通過逃避數據化來實現,而只可能依賴于規則和立法。在技術上隱私是處在消亡之中,人越來越是透明人。長線看,也可以說透明人是技術發展必然結果。
小結
這個時代的所有人幾乎都是迷茫的,我們不知道接下來會發生什么,也不知道會發生的事情究竟是好還是壞。技術上變透明這事其實是中性,往好處想可以講它帶來了解決人類不適合處理公共事務這千古難題的契機,往壞處想則可以講它帶來了一個人有能力統治整個世界的可能性。