這是一個(gè)大數(shù)據(jù)的時(shí)代,商業(yè)、社會(huì)管理、科研、創(chuàng)業(yè),言必稱大數(shù)據(jù)。
大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。“大數(shù)據(jù)”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數(shù)據(jù)時(shí)代》中提出,指不用隨機(jī)分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進(jìn)行分析處理。所以,大數(shù)據(jù)區(qū)別于以往的數(shù)據(jù)收集的最本質(zhì)區(qū)別是,拋棄人類之前限于成本的的抽樣分析方法,而是存儲(chǔ)一切,分析一切。
大數(shù)據(jù)的理解
這種“數(shù)據(jù)全存”的收集,在互聯(lián)網(wǎng),甚至是移動(dòng)互聯(lián)網(wǎng)出現(xiàn)之前的時(shí)代是不可想象的。現(xiàn)在,隨著儲(chǔ)存能力、計(jì)算能力、互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)、智能手機(jī)的深入生活,收集數(shù)據(jù)的技術(shù)發(fā)達(dá),充滿生活中的各個(gè)場(chǎng)景,“把數(shù)據(jù)全部存起來”成為一種可能。
數(shù)據(jù)雖然存起來了,但如何理解數(shù)據(jù),卻成為一個(gè)問題。
在大數(shù)據(jù)的熱潮中,人們開始相信,只要足夠好的技術(shù),足夠多的數(shù)據(jù),計(jì)算機(jī)能夠比人更了解他們的自己。
有一個(gè)非常經(jīng)典的例子。一位男性顧客到全美第二大零售商塔吉特店中投訴,聲稱商店竟然給他還在讀書的女兒寄嬰兒用品的優(yōu)惠券。后來發(fā)現(xiàn),女兒真的已經(jīng)懷孕了。這被宣揚(yáng)成為數(shù)據(jù)比人更理解人的例子。
實(shí)際上,情況恰好相反。商場(chǎng)知道女兒懷孕,無非是收集了顧客的消費(fèi)數(shù)據(jù)發(fā)現(xiàn)規(guī)律。比如,孕婦在懷孕頭三個(gè)月過后會(huì)購買大量無味的潤(rùn)膚露;在頭20周,孕婦會(huì)補(bǔ)充如鈣、鎂、鋅等營(yíng)養(yǎng)素;當(dāng)女性開始大量采購無味肥皂和特大包裝的棉球時(shí),說明她們的預(yù)產(chǎn)期要來了。然后,憑借這些信息,商場(chǎng)提前郵寄相關(guān)促銷信息。
實(shí)際上,并不是大數(shù)據(jù)更理解人的例子,甚至反應(yīng)了機(jī)器的愚蠢,自作主張,把嬰兒的優(yōu)惠用品寄給了還在讀書的女兒,而且還寄到了她家里。當(dāng)然,預(yù)測(cè)模型可以加入變量,比如年紀(jì)、職業(yè)、婚姻狀況來避免尷尬。但是,人是復(fù)雜的,有很多非理性因素,無法加入所有變量。
大數(shù)據(jù)與計(jì)算能力的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu),依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲(chǔ)、虛擬化技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但是,這種模式的計(jì)算能力僅是在數(shù)量上的增加。如果仍然是把數(shù)據(jù)放入模型,抽樣雖然并不時(shí)髦,但邊際效應(yīng)仍然有效,少量的數(shù)量就能達(dá)到與大數(shù)據(jù)差不多的效果。
所以,只有應(yīng)用各種新的數(shù)據(jù)處理方法,“數(shù)據(jù)”才能成為“大數(shù)據(jù)”,才能從中發(fā)掘出新的意義,進(jìn)而產(chǎn)生新的價(jià)值。機(jī)器計(jì)算相比大腦的優(yōu)勢(shì)在與對(duì)于巨量數(shù)量的處理,如果機(jī)器也同時(shí)也能具有大腦的邏輯、分析、判斷、聯(lián)想、想象、情感能力,則可以輕易超越大腦的智能。
目前,依靠神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí),人工智能已經(jīng)初步嶄露頭角。在這種方法之下,隨著數(shù)據(jù)量的積累,系統(tǒng)會(huì)越來越好。相比過去人工智能的方法很難受益于數(shù)據(jù)量的提升,新的方法之下,20%的貢獻(xiàn)來自方法的改進(jìn),80%來自數(shù)據(jù)量的提升,從而實(shí)現(xiàn)依靠數(shù)據(jù)量推動(dòng)的,系統(tǒng)從量變到質(zhì)變的飛躍。
但是,遺憾的是,機(jī)器的自主學(xué)習(xí),自主對(duì)數(shù)據(jù)的理解,目前還限定在給定的范圍內(nèi)。目前的機(jī)器學(xué)習(xí),基于模仿大腦神經(jīng)的反饋機(jī)制,依據(jù)歷史經(jīng)驗(yàn),人類的所有仿生工程學(xué)上的成功,取得飛躍,都是在徹底弄清楚生理過程的機(jī)制之后,比如,粗淺的模仿鳥的飛翔,可以造出飛行器,但飛機(jī)的基礎(chǔ),是空氣動(dòng)力學(xué)。現(xiàn)在人類大腦的腦科學(xué)的發(fā)展程度還遠(yuǎn)遠(yuǎn)不夠,甚至可以說對(duì)大腦的運(yùn)行過程知之甚少。從這個(gè)角度看,人工智能理解大數(shù)據(jù)還為時(shí)尚早。所以,人類對(duì)于大數(shù)據(jù)的利用,目前來看,基本上還是基于收集技術(shù)上的發(fā)展。基于大數(shù)據(jù)的人工智能,未必有那么樂觀。目前看來,大數(shù)據(jù)還沒有走出數(shù)據(jù)處理能力陰影的跡象。
大數(shù)據(jù)與隱私
不過,即使如此,變化早已發(fā)生。
這是一個(gè)大數(shù)據(jù)的時(shí)代,人人都在電子空間中留下了自己的痕跡。早上起來,打開手機(jī),手機(jī)不斷與基站聯(lián)系,機(jī)主大概在什么地方,經(jīng)過了些什么地方,就留下了痕跡;在路上,打開手機(jī)瀏覽器又再次留下cookie數(shù)據(jù),瀏覽了些什么網(wǎng)頁,很可能被別有用心者收集;或者交通卡,從哪里進(jìn)哪里出,也被服務(wù)器記錄;中午,吃了什么,信用卡可以查詢到消費(fèi)的場(chǎng)所,而飯店的記錄,甚至能精確到吃了什么菜,幾個(gè)人;在上班的時(shí)候,使用聊天工具,可能留下痕跡,很多單位,也有記錄員工操作的軟件;下班了,打車軟件、聊天軟件都可以上傳GPS數(shù)據(jù);晚上,在哪里開了房,不但有消費(fèi)數(shù)據(jù),也有攝像頭精確記錄。這些數(shù)據(jù)綜合起來,不但可以清晰的描述一個(gè)人的生活軌跡、行為、甚至連愛好,乃至不愿意被人發(fā)現(xiàn)的隱私,在別有用心的收集之下,都是清清楚楚的。
不留下這些數(shù)據(jù),個(gè)人在現(xiàn)在的技術(shù)社會(huì)中,就難以舒適生活,甚至難以生存下去。因?yàn)槭謾C(jī)、出行、聊天、支付,乃至整個(gè)現(xiàn)代生活都是建立在這些數(shù)據(jù)之上的、不留下數(shù)據(jù),就無法生活。這就是所謂的大數(shù)據(jù)時(shí)代,我們就生活在這樣一個(gè)時(shí)代。
需要指出的是,這些數(shù)據(jù),應(yīng)該是與身份分離的。簡(jiǎn)單的說,就是收集數(shù)據(jù)的平臺(tái),即使能知道每天城市所有人的出行軌跡,但是,他們必須不能知道,每一條出行的軌跡所對(duì)應(yīng)的人的身份。但是,實(shí)際情況卻是,信息的泄露比比皆是。
實(shí)際上,在現(xiàn)代技術(shù)社會(huì)中,公民不被監(jiān)控,只是由于不值得監(jiān)控,或者在監(jiān)控系統(tǒng)的概率之外。決定這個(gè)概率大小的,是監(jiān)控系統(tǒng)的成本,比如硬件成本、軟件成本,人員成本,乃至部門間的溝通、行政成本。成本變小,公民被監(jiān)控的機(jī)率就會(huì)越大。大數(shù)據(jù)極大的降低了這一成本。這雖然帶來了安全,卻同時(shí)減損了公民的自由。
在911襲擊后,美國(guó)政府為阻止恐怖主義已經(jīng)涉足大規(guī)模數(shù)據(jù)挖掘。在《愛國(guó)者法案》的授權(quán)之下,前國(guó)家安全顧問約翰·波因德克斯特領(lǐng)導(dǎo)國(guó)防部整合現(xiàn)有政府的數(shù)據(jù)集,組建一個(gè)用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識(shí)別可疑人的大數(shù)據(jù)庫。比如,F(xiàn)BI調(diào)查人員秘密從美國(guó)各大圖書館搜集讀者詳細(xì)的讀書記錄,以判斷是否受恐怖主義感染。該項(xiàng)目在一年后因國(guó)會(huì)擔(dān)憂公民自由權(quán)而停止。
但是,不難預(yù)見的是,在大數(shù)據(jù)時(shí)代,公民的個(gè)人隱私與自由,會(huì)被越來越多的大數(shù)據(jù)陰影所包圍。
不妨假設(shè)一下,2019年,蘋果8發(fā)布,這時(shí),手機(jī)已經(jīng)不叫手機(jī),而叫個(gè)人信息終端,人們可以在這上面完成一切;2025年,打車軟件的大數(shù)據(jù)系統(tǒng)已經(jīng)不需要個(gè)人發(fā)出打車需求,你出門的時(shí)候,就已經(jīng)有車停在門口,并且知道你要去哪里;2032年,一個(gè)無遠(yuǎn)弗屆的信息收集機(jī)制被建立起來,同年,國(guó)家統(tǒng)計(jì)局改名為國(guó)家大數(shù)據(jù)中心,一切已經(jīng)不需要統(tǒng)計(jì),一切發(fā)生的時(shí)候就已經(jīng)被統(tǒng)計(jì);2050年,市場(chǎng)取消,在大數(shù)據(jù)與智能制造的配合下,一切個(gè)性化的需求都可以被滿足;2084年,時(shí)間回到100年前。
這一切會(huì)發(fā)生嗎?應(yīng)該不會(huì),但是,某些令人憂慮的領(lǐng)域,卻很可能比令人興奮的領(lǐng)域,更早獲得大數(shù)據(jù)的優(yōu)勢(shì)。
中國(guó)工業(yè)網(wǎng)是以工業(yè)新聞和信息傳播為主業(yè)的綜合性網(wǎng)絡(luò)媒體。 作為國(guó)家工業(yè)和信息化部的合作伙伴,開發(fā)并運(yùn)營(yíng)了國(guó)家履行《禁止化學(xué)武器公約》工作辦公室官方網(wǎng)站和履約信息管理系統(tǒng)。中國(guó)工業(yè)網(wǎng)擁有企業(yè)會(huì)員5萬余家,個(gè)人會(huì)員50萬人,合作協(xié)會(huì)100多家,合作媒體近千家。