1980年,當(dāng)代著名思想家阿爾文·托夫勒在其《第三次浪潮》中將大數(shù)據(jù)描繪為信息社會的重要篇章。人們對于數(shù)據(jù)的海量挖掘和大量運用,不僅標(biāo)志著產(chǎn)業(yè)生產(chǎn)率的增長和消費者的大量盈余,而且也明確地提示著大數(shù)據(jù)時代已經(jīng)到來。它正在影響著社會和科技的每個角落層面,成為不可忽視的重大問題。
其實人類并非初次接觸到大量數(shù)據(jù),對數(shù)據(jù)的運用貫穿人類社會已久。自然數(shù)可以無限數(shù)下去,數(shù)量大到無窮;全國人口普查數(shù)據(jù),每年新增幾十億;工業(yè)革命以來,數(shù)據(jù)已經(jīng)經(jīng)歷過一次又一次的爆發(fā),但為什么不是所有“大”數(shù)據(jù)都被稱為“大數(shù)據(jù)”?我們常聽說的“大數(shù)據(jù)”,究竟是什么樣的數(shù)據(jù)?
大數(shù)據(jù)是什么樣的數(shù)據(jù)?
(一)“大”數(shù)據(jù),高量級
大數(shù)據(jù)的“大”。毋庸置疑,這個“大”相對于人類傳統(tǒng)數(shù)據(jù)的儲存方式,不是一個量級上的大小之分,而是幾何量級的差距。百度地圖平均每天會收到720億次定位請求,百度搜索平均每天收到60億搜索請求,再想想互聯(lián)網(wǎng)上每天有多少次點擊、社交媒體上每天有多少文字和圖片發(fā)出……各種大數(shù)據(jù)平臺一天之內(nèi)收集到的數(shù)據(jù)量就可以超越人類幾千年來文字、圖像的總和。
(二)多維度,細粒度
大數(shù)據(jù)的另一個重要特點是多維度。多維度代表著大數(shù)據(jù)可以對一個事物進行多方位的描述,從而更準(zhǔn)確。社會像素得到了高速提升,這成為了數(shù)字化生活與以往最大的不同。以往粗糙的數(shù)據(jù)被拆解為更加精細的像素粒度,在像素的基礎(chǔ)上,我們可以描繪個人,描繪組織,描述社會,形成一幅繁復(fù)的全景畫像。
以金融征信應(yīng)用為例,傳統(tǒng)金融機構(gòu)在進行征信時,一般采集20個維度左右的數(shù)據(jù),主要包括年齡、收入、學(xué)歷、職業(yè)、房產(chǎn)車產(chǎn)、借貸情況等。然后綜合評分來識別客戶的還款能力和還款意愿,決定信貸額度。
互聯(lián)網(wǎng)公司采用大數(shù)據(jù)方法,所獲得的數(shù)據(jù)維度是傳統(tǒng)銀行的成千上萬倍。BAT都開設(shè)了自己的金融服務(wù),因為擁有全面且巨大的用戶數(shù)據(jù),可以查詢客戶的各種線上記錄,比如是否有批量申請貸款等異常行為;還可以將客戶信息與互聯(lián)網(wǎng)全局信息進行對比,通過欺詐行為模式的比對分析其可信度;更進一步,還可以分析客戶的消費行為和習(xí)慣,結(jié)合填報收入分信息還款能力如何。當(dāng)然,作為用戶的隱私數(shù)據(jù),這些數(shù)據(jù)都不會被公開,用戶所能感受到的便利是征信排隊時間極大地縮短了,因為大數(shù)據(jù)可以在幾秒鐘內(nèi)就對申請者超過1萬條的原始信息進行調(diào)取和審核,迅速核對數(shù)萬個指標(biāo)維度。
對一個陌生人進行征信就好比“盲人摸象”,傳統(tǒng)方法是通過20個盲人去評估一個客戶的信用大象,注定是有缺陷的。而大數(shù)據(jù)的多維度就如同幾萬人同時“摸象”,再把這幾萬人的反饋匯總到一起。維度越多,結(jié)論就越準(zhǔn)確。
(三)非結(jié)構(gòu),高蘊能
結(jié)構(gòu)化數(shù)據(jù)中最基本的數(shù)字、符號等,可以用固定的字段、長短和邏輯結(jié)構(gòu)保存在數(shù)據(jù)庫中,并用數(shù)據(jù)表的形式向人類展現(xiàn),處理非常方便。但是互聯(lián)網(wǎng)時代產(chǎn)生了大量非結(jié)構(gòu)化數(shù)據(jù),對于圖片、視頻、音頻等內(nèi)容,它們的數(shù)據(jù)量巨大卻沒有清晰的結(jié)構(gòu)。比如對于圖像的數(shù)據(jù),我們只能理解為一個二維矩陣上的無數(shù)像素點。非結(jié)構(gòu)化數(shù)據(jù)增長量很快,據(jù)推測將占未來10年新生數(shù)據(jù)總量的90%蘊含巨大能量,應(yīng)用前景廣闊。
例如,在機場等公共場合的個人身份檢查,過去只能根據(jù)旅客提供的身份信息這一主要維度去判斷其身份。而人臉識別、語音識別等技術(shù)應(yīng)用成熟后,大數(shù)據(jù)可以直接通過攝像快速比對審核,增加對個人身份判斷的維度,進行既精確又高效的安全檢查。
大數(shù)據(jù)技術(shù)可以通過圖像識別、語音識別、自然語言分析等技術(shù)計算、分析大量非結(jié)構(gòu)化數(shù)據(jù),大大提升了數(shù)據(jù)維度。
(四)時間性,重復(fù)性
大數(shù)據(jù)是生生不息的流,具有時間性。在微觀視角,對于同一組數(shù)據(jù)而言,它過去就不再回來,就像人無法兩次踏入同一條河流。這一方面是以內(nèi)數(shù)據(jù)量太巨大,無法全部存儲;另一方面是大數(shù)據(jù)和人類生生不息的行動相關(guān),瞬息萬變。
但在宏觀視角,對于所有的大數(shù)據(jù)而言,它的“大”表現(xiàn)為無窮無盡的重復(fù)。對于語音識別來說,正因為人們重復(fù)講述同樣的語句,機器通過反復(fù)識別這些人類語音的細微差別,才能全面掌握人類語音。也正因為人類周而復(fù)始的運動,才讓系統(tǒng)能捕捉城市運動的規(guī)律。“重復(fù)”的數(shù)學(xué)意義是“窮舉”。以往人類無法通過窮舉法來把握一個事情的規(guī)律,只能采用“取樣”來估計,或者通過觀察用簡單明了的函數(shù)哎代表事物規(guī)律,但大數(shù)據(jù)讓窮舉法這種“笨辦法”變得可能了。
“大”數(shù)據(jù)VS“大數(shù)據(jù)”
前面我們已經(jīng)提到,數(shù)據(jù)量大的“大”數(shù)據(jù)并不一定是大數(shù)據(jù),在應(yīng)用時與大數(shù)據(jù)也會有顯著的區(qū)別。
《?學(xué)?摘》成功預(yù)測了1920、1924、1928和1932年的美國總統(tǒng)?選。1920年的調(diào)查范圍只有6個州,隨后調(diào)查的范圍逐步擴?。1936年,《?摘》進?了?次最具雄?的民意 調(diào)查,調(diào)查1000萬?,可謂是一次“大”數(shù)據(jù)。結(jié)果顯示57%的?支持蘭登,?只有43%的?支持羅斯福。但羅斯福卻以史上最?的優(yōu)勢(61%的得票率)當(dāng)選總統(tǒng),為什么?
失敗的原因有很多,其中最主要的原因是抽樣框選擇不當(dāng)。這次調(diào)查的調(diào)查對象是從電話簿和車牌登記名單中選出的,這個抽樣框排除了接近65%的總體元素。這些被排除在外的??多是低收?者,?他們中的?多數(shù)都支持羅斯福的新政。
可見,在抽樣獲得的“大”數(shù)據(jù)中,如果抽樣框是錯的,樣本容量再?也?濟于事。而舍恩伯格在《?數(shù)據(jù)時代》?書中指出,?數(shù)據(jù)相對于傳統(tǒng)數(shù)據(jù)的?個本質(zhì)特征就是?數(shù)據(jù)“不是隨機樣本,?是全體數(shù)據(jù)”。互聯(lián)網(wǎng)時代的?數(shù)據(jù)分析,則主要基于全網(wǎng)的“全體”數(shù)據(jù),?非抽樣獲得的“樣本”數(shù)據(jù),避免了抽樣框誤差。
我們前面反復(fù)討論的大數(shù)據(jù),其實是?類?為留下的電?化的?為痕跡。大數(shù)據(jù)分析的數(shù)據(jù)來源于電子媒介記錄下的行為痕跡,大數(shù)據(jù)分析技術(shù)讓人們有能力去基于行為痕跡庫的總體數(shù)據(jù)去展開分析,這是一次分析能力的飛躍。
同時,大數(shù)據(jù)分析還享受著非介?性研究(nonreactiveresearch)的優(yōu)勢。由于其研究對象是人類行為留下的電子化痕跡,是在研究對象?意識的情況下進?的研究,所以能有效地避免霍桑效應(yīng),獲得更加真實、準(zhǔn)確的結(jié)論。
大數(shù)據(jù)是完美的數(shù)據(jù)嗎?
縱然大數(shù)據(jù)集聚眾多優(yōu)點,但它仍然不是完美的數(shù)據(jù)。
(一)多個體,少變量,數(shù)據(jù)關(guān)聯(lián)難
大數(shù)據(jù)雖然能夠捕捉許多個體在不同場景下的行為痕跡,但是在同一場景下,可以捕捉到的變量卻比傳統(tǒng)數(shù)據(jù)更為有限。在傳統(tǒng)的訪談?wù){(diào)研或者問卷調(diào)研中,研究者可以根據(jù)自己的需要設(shè)計變量,但在大數(shù)據(jù)分析中,研究者對于變量的選取顯然更加被動。在搜索場景下,研究者只能獲得與搜索行為相關(guān)的變量;在社交場景下,研究者只能獲得與社交行為相關(guān)的變量;即使是同一個體的行為,由于技術(shù)平臺的分割性,研究者很難將不同場景下的數(shù)據(jù)關(guān)聯(lián)起來,形成多變量的數(shù)據(jù)。即使同一個體能夠產(chǎn)生多維度的數(shù)據(jù),但如何捕捉和關(guān)聯(lián)更多的維度,卻仍然是一個不易解決的問題。
(二)沉默的螺旋,造成覆蓋偏差
互聯(lián)網(wǎng)的使用雖然已經(jīng)風(fēng)靡全球,但仍然有一部分群體處在互聯(lián)網(wǎng)的邊緣之外,即使是在互聯(lián)網(wǎng)的使用者中,也同樣存在邊緣化的使用者和沉默的使用者。用戶可以選擇在網(wǎng)絡(luò)上保持沉默,隱匿身份,其表現(xiàn)與在現(xiàn)實世界可能會截然不同。當(dāng)研究者試圖收集大數(shù)據(jù)時,往往會得到那些活躍的、開放的用戶的數(shù)據(jù),但在互聯(lián)網(wǎng)的冰山下,還隱藏著大量未被發(fā)掘的信息。研究者只得到數(shù)據(jù)中龐大的一隅,雖然它的量級已經(jīng)令人嘆為觀止,但不可否認,在網(wǎng)絡(luò)上,還有大批量的沉默者,他們存在著,他們行動著,但這部分群體的數(shù)據(jù)卻始終處于缺失狀態(tài)。這種情況對研究者所下的結(jié)論會產(chǎn)生一定程度的誤導(dǎo),而使人在深思時去質(zhì)疑研究的客觀性和合理性。
(三)非介入性研究,存在倫理爭議
大數(shù)據(jù)的捕捉和分析,往往是在用戶不知情的情況下進行的,這與傳統(tǒng)的研究精神并非不謀而合。在傳統(tǒng)的心理學(xué)等研究中,訓(xùn)練有素的研究者將會確保被試知情并同意后才會展開測試和研究,但大數(shù)據(jù)的分析顯然并非如此。
時代的發(fā)展和個體的利益雖然是不可分割的命運共同體,但在微觀層面卻仍然存在著這樣的沖突。即使大數(shù)據(jù)是有缺陷的數(shù)據(jù),人們?nèi)匀徊淮_定,離開了大數(shù)據(jù),我們的社會進步是否會倒退多少年。在技術(shù)進步面前,人們沒有選擇,只有奮力前行。因為技術(shù)不是外來者,正來自人類生產(chǎn)創(chuàng)造本身,和人類的存在同呼吸共命運。