2/23日隨著搜狐自媒體考察團去了趟微軟加速器,然后我發(fā)現(xiàn)此前有個認識有點偏差,國內(nèi)的數(shù)據(jù)分析類公司并不像我想的那么少。抽象看,未來的世界大概會是這么個模式:一端是各種產(chǎn)品不停的獲取各種數(shù)據(jù),一端則是人工智能里的機器學(xué)習(xí)算法對已經(jīng)獲取的數(shù)據(jù)進行吞吐,獲得自己想要的東西。我之前一直認為國內(nèi)智能硬件比較火,但后端處理數(shù)據(jù)的還沒起來,但這次看到了些公司,比如GrowingIO既在前端采集數(shù)據(jù)也在后端作分析多少改變了我的印象。當(dāng)智能硬件和人工智能的數(shù)據(jù)處理能力都準(zhǔn)備好了,那會形成一種正反饋,讓變化來的越來越快,但有些變化估計不是每個人都喜歡。
這十年到底賣了多少攝像頭
如果同十年前比較,我們會發(fā)現(xiàn)這世界上增加的最多的電子產(chǎn)品還不是手機,而是攝像頭。現(xiàn)在不帶攝像頭的手機幾乎沒有,而在此之外當(dāng)我們用地圖進行導(dǎo)航時,我們就會不停的聽到這里有闖紅燈照相等,在小區(qū)、超市里各個屋頂角落也是一定會安裝上攝像頭,近來則更近一部,攝像頭也開始走進家庭成為家庭安防的一個環(huán)節(jié)。
這么多的攝像頭意味著什么?這意味著原子世界的信息正在被完整采集,這部分數(shù)據(jù)采集的越多,就越可能在比特的世界里重建一個真實世界。如果想初步感受這趨勢的威力,那可以從違反交規(guī)這事來體驗,現(xiàn)在的城市里或者高速上只要你違規(guī)或者超速,那就不可能查不出來。車牌的識別率幾乎逼近100%,這樣像超速這種事情,甚至不需要實時拍照,可以記錄進出某個路段的時間。
事情還沒完,不只是攝像頭在大范圍的監(jiān)控這世界,個人的生活細節(jié)也越來越多的記錄到網(wǎng)上,微博、朋友圈在記錄你的言行和觀點,淘寶京東在記錄你的消費,美團、點評在記錄你的看電影和吃飯,滴滴在記錄你的移動位置,支付寶等在記錄你的金錢流向,諸如此類讓生活方便的工具所起的另一個作用就是人事實上在數(shù)字世界里可以被越來越精準(zhǔn)的描述出來,阻礙人變的透明的越來越不是技術(shù)而是某種權(quán)限邊界。
故事到這里仍然沒完,即使通過這些工具,那記錄的數(shù)據(jù)仍然不算精確冗余率很低,比如記錄的聲音可能就很多噪聲,記錄的影響可能很大一段就沒什么價值。又由于量過于龐大,從這些價值密度比較稀疏的數(shù)據(jù)中提煉出價值也沒那么容易。正在這時候,人工智能的各種突破出現(xiàn)了。
人工智能一邊讓端上的數(shù)據(jù)采集可以更有效率,比如通過把計算機視覺集成到芯片里讓終端產(chǎn)品只采集更有價值的內(nèi)容,比如通過各種算法更有效的降噪音采集更精確的聲音。一方面則讓海量數(shù)據(jù)的分析能在極短的時間內(nèi)完成。
天網(wǎng)就在那里悄悄萌芽
外媒The Intercept曾經(jīng)發(fā)了一篇惹起極大爭議的文章,大意是說美國反恐過程中通過機器學(xué)習(xí)算法來對巴勒斯坦人進行分類 ,之后把疑似恐怖分子的人砸死。事情的真相仍然需要進一步的澄清,但整個過程正好充分的說明了上述人工智能與數(shù)據(jù)采集以及數(shù)據(jù)分析相結(jié)合后的后果。這篇報道中與此相關(guān)的描述如下(新智元原創(chuàng)翻譯):
“天網(wǎng)”的工作方式就像一個現(xiàn)代典型的大數(shù)據(jù)業(yè)務(wù)應(yīng)用。這個程序收集來元數(shù)據(jù)、將它們儲存在NSA的云服務(wù)器上,提取相關(guān)信息,然后應(yīng)用機器學(xué)習(xí)的方法來辨別執(zhí)行既定行動的線索。除了不像商業(yè)應(yīng)用那樣試圖向目標(biāo)人群兜售某樣?xùn)|西之外,這種活動——考慮到美國政府在巴基斯坦的整體業(yè)務(wù)重心——可能也涉及到美國政府的另一個機構(gòu),CIA或者軍方,通過掠食者無人機和地面暗殺小隊(death squads)來執(zhí)行他們的“尋覓——修正——收工(Find-Fix-Finish)”策略。除了要處理記錄下的蜂窩手機通話數(shù)據(jù)(所謂的“DNR”,也就是被叫號碼識別數(shù)據(jù),包括通話時間、通話長度、誰呼叫誰等數(shù)據(jù)),“天網(wǎng)”也收集用戶的位置信息,建立詳細的出行檔案。關(guān)閉手機則被當(dāng)做是試圖逃避監(jiān)控的跡象而受到“天網(wǎng)”的標(biāo)記。天真地相信更換SIM卡就能防止被追蹤、并且這么做了的人,也會受到“天網(wǎng)”的標(biāo)記(燒入手機的ESN、MEID或是IMEI會讓手機即使換了SIM卡也會被追蹤痕跡)。幻燈片稱,即使是更換手機也會被探測到并受到標(biāo)記。這種探測,我們只能猜測(因為幻燈片上沒有對這一點進行詳細介紹),可能是基于其他元數(shù)據(jù)(比如現(xiàn)實世界中的用戶位置、社交網(wǎng)絡(luò)等)不變的基礎(chǔ)上的。
有了完整的元數(shù)據(jù)集,“天網(wǎng)”就能拼湊出一個人典型的日常軌跡——和誰一起出行、有哪些共同聯(lián)系人、和朋友們一起通宵、去其他國家旅行或是永久地搬離了。總體而言,這些幻燈片顯示,NSA的機器學(xué)習(xí)算法使用超過80種不同的屬性來為人們的“恐怖分子程度”打分。
幻燈片告訴我們,這個程序的假設(shè)是,恐怖分子與普通居民在其中一些屬性的行為上有顯著的區(qū)別。然而,在Intercept去年的披露中可以清楚地看到,被這個機器學(xué)習(xí)程序打出最高分的是Ahmad Zaidan,半島電視臺在伊斯蘭堡的分社社長。
這里并不想窮究這事情本身的好壞是非,想強調(diào)的是用終端采集數(shù)據(jù)(上面的例子中主要是手機),云端對數(shù)據(jù)進行分析提取(上面的例子是通過機器學(xué)習(xí)對人的行為特征打分),獲得自己想要的東西(上述例子是標(biāo)識出恐怖分子),這個過程是不可逆的。一方面我們采集的數(shù)據(jù)會越來越精確、越來越多,想象下我們說的萬物互聯(lián)(IoT)的本質(zhì)含義,手表、騎行、家電、健康追蹤等,事實上都在加速這一過程。人類在這種浪潮前完全沒有抵抗能力,比如說如果有一天人的血糖可以不抽血就檢測了,并且這種技術(shù)可以集成到手表里了,那有多少人會因為擔(dān)心數(shù)據(jù)泄露而不戴手表,仍然采用抽血的方式進行檢查呢。所以世界的數(shù)據(jù)化,人的數(shù)據(jù)化是不可抗拒的趨勢,而另一方面計算能力和分析能力會越來越強。
作為結(jié)果比特世界對真實世界的描述一定越來越精準(zhǔn)。而數(shù)據(jù)化的程度越高,中介就會被去的越徹底,自動化的程度也就會越高。我們會越來越以數(shù)據(jù)的思路來思考問題。所以說天網(wǎng)就在那里悄悄的萌芽。
隱私上的爭議其實徒勞而無功
這里最具爭議的地方估計是隱私,但有的時候我們會發(fā)現(xiàn)隱私其實與發(fā)展往往是對立的。隱私有兩種保護方式,一種是靠規(guī)則,比如法律等;一種則是靠物理的手段,比如我就不上網(wǎng),不用手機。《國家敵人》里的老特工就是用這方式來對抗政府的追蹤。后者與人們的意識形態(tài)和歷史傳承深度關(guān)聯(lián),但確實會阻礙很多東西的發(fā)展,比如說一個朋友告訴我德國人更喜歡用現(xiàn)金,因為這會更好的保護自己的隱私,但這種習(xí)慣無疑會阻礙電商這類互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展。這類習(xí)慣其實相當(dāng)于擋在數(shù)據(jù)化大潮正前端的障礙,體現(xiàn)為和發(fā)展相博弈的力量。
最終隱私的保護不可能通過逃避數(shù)據(jù)化來實現(xiàn),而只可能依賴于規(guī)則和立法。在技術(shù)上隱私是處在消亡之中,人越來越是透明人。長線看,也可以說透明人是技術(shù)發(fā)展必然結(jié)果。
小結(jié)
這個時代的所有人幾乎都是迷茫的,我們不知道接下來會發(fā)生什么,也不知道會發(fā)生的事情究竟是好還是壞。技術(shù)上變透明這事其實是中性,往好處想可以講它帶來了解決人類不適合處理公共事務(wù)這千古難題的契機,往壞處想則可以講它帶來了一個人有能力統(tǒng)治整個世界的可能性。