當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

大數(shù)據(jù)，不完美的社會觀察鏡

責(zé)任編輯：zsheng 作者：北大新媒體 |來源：企業(yè)網(wǎng)D1Net 2018-04-15 12:00:32 本文摘自：搜狐新聞

大數(shù)據(jù)(Big Data)一詞最早出現(xiàn)在apache org的開源項目NUTCH中，當(dāng)時科學(xué)家用大數(shù)據(jù)這個術(shù)語來描述在更新網(wǎng)絡(luò)搜索索引的同時進行批量處理或分析的大量數(shù)據(jù)集。

1980年，當(dāng)代著名思想家阿爾文·托夫勒在其《第三次浪潮》中將大數(shù)據(jù)描繪為信息社會的重要篇章。人們對于數(shù)據(jù)的海量挖掘和大量運用，不僅標(biāo)志著產(chǎn)業(yè)生產(chǎn)率的增長和消費者的大量盈余，而且也明確地提示著大數(shù)據(jù)時代已經(jīng)到來。它正在影響著社會和科技的每個角落層面，成為不可忽視的重大問題。

其實人類并非初次接觸到大量數(shù)據(jù)，對數(shù)據(jù)的運用貫穿人類社會已久。自然數(shù)可以無限數(shù)下去，數(shù)量大到無窮;全國人口普查數(shù)據(jù)，每年新增幾十億;工業(yè)革命以來，數(shù)據(jù)已經(jīng)經(jīng)歷過一次又一次的爆發(fā)，但為什么不是所有“大”數(shù)據(jù)都被稱為“大數(shù)據(jù)”?我們常聽說的“大數(shù)據(jù)”，究竟是什么樣的數(shù)據(jù)?

大數(shù)據(jù)是什么樣的數(shù)據(jù)?

(一)“大”數(shù)據(jù)，高量級

大數(shù)據(jù)的“大”。毋庸置疑，這個“大”相對于人類傳統(tǒng)數(shù)據(jù)的儲存方式，不是一個量級上的大小之分，而是幾何量級的差距。百度地圖平均每天會收到720億次定位請求，百度搜索平均每天收到60億搜索請求，再想想互聯(lián)網(wǎng)上每天有多少次點擊、社交媒體上每天有多少文字和圖片發(fā)出……各種大數(shù)據(jù)平臺一天之內(nèi)收集到的數(shù)據(jù)量就可以超越人類幾千年來文字、圖像的總和。

(二)多維度，細粒度

大數(shù)據(jù)的另一個重要特點是多維度。多維度代表著大數(shù)據(jù)可以對一個事物進行多方位的描述，從而更準(zhǔn)確。社會像素得到了高速提升，這成為了數(shù)字化生活與以往最大的不同。以往粗糙的數(shù)據(jù)被拆解為更加精細的像素粒度，在像素的基礎(chǔ)上，我們可以描繪個人，描繪組織，描述社會，形成一幅繁復(fù)的全景畫像。

以金融征信應(yīng)用為例，傳統(tǒng)金融機構(gòu)在進行征信時，一般采集20個維度左右的數(shù)據(jù)，主要包括年齡、收入、學(xué)歷、職業(yè)、房產(chǎn)車產(chǎn)、借貸情況等。然后綜合評分來識別客戶的還款能力和還款意愿，決定信貸額度。

互聯(lián)網(wǎng)公司采用大數(shù)據(jù)方法，所獲得的數(shù)據(jù)維度是傳統(tǒng)銀行的成千上萬倍。BAT都開設(shè)了自己的金融服務(wù)，因為擁有全面且巨大的用戶數(shù)據(jù)，可以查詢客戶的各種線上記錄，比如是否有批量申請貸款等異常行為;還可以將客戶信息與互聯(lián)網(wǎng)全局信息進行對比，通過欺詐行為模式的比對分析其可信度;更進一步，還可以分析客戶的消費行為和習(xí)慣，結(jié)合填報收入分信息還款能力如何。當(dāng)然，作為用戶的隱私數(shù)據(jù)，這些數(shù)據(jù)都不會被公開，用戶所能感受到的便利是征信排隊時間極大地縮短了，因為大數(shù)據(jù)可以在幾秒鐘內(nèi)就對申請者超過1萬條的原始信息進行調(diào)取和審核，迅速核對數(shù)萬個指標(biāo)維度。

對一個陌生人進行征信就好比“盲人摸象”，傳統(tǒng)方法是通過20個盲人去評估一個客戶的信用大象，注定是有缺陷的。而大數(shù)據(jù)的多維度就如同幾萬人同時“摸象”，再把這幾萬人的反饋匯總到一起。維度越多，結(jié)論就越準(zhǔn)確。

(三)非結(jié)構(gòu)，高蘊能

結(jié)構(gòu)化數(shù)據(jù)中最基本的數(shù)字、符號等，可以用固定的字段、長短和邏輯結(jié)構(gòu)保存在數(shù)據(jù)庫中，并用數(shù)據(jù)表的形式向人類展現(xiàn)，處理非常方便。但是互聯(lián)網(wǎng)時代產(chǎn)生了大量非結(jié)構(gòu)化數(shù)據(jù)，對于圖片、視頻、音頻等內(nèi)容，它們的數(shù)據(jù)量巨大卻沒有清晰的結(jié)構(gòu)。比如對于圖像的數(shù)據(jù)，我們只能理解為一個二維矩陣上的無數(shù)像素點。非結(jié)構(gòu)化數(shù)據(jù)增長量很快，據(jù)推測將占未來10年新生數(shù)據(jù)總量的90%蘊含巨大能量，應(yīng)用前景廣闊。

例如，在機場等公共場合的個人身份檢查，過去只能根據(jù)旅客提供的身份信息這一主要維度去判斷其身份。而人臉識別、語音識別等技術(shù)應(yīng)用成熟后，大數(shù)據(jù)可以直接通過攝像快速比對審核，增加對個人身份判斷的維度，進行既精確又高效的安全檢查。

大數(shù)據(jù)技術(shù)可以通過圖像識別、語音識別、自然語言分析等技術(shù)計算、分析大量非結(jié)構(gòu)化數(shù)據(jù)，大大提升了數(shù)據(jù)維度。

(四)時間性，重復(fù)性

大數(shù)據(jù)是生生不息的流，具有時間性。在微觀視角，對于同一組數(shù)據(jù)而言，它過去就不再回來，就像人無法兩次踏入同一條河流。這一方面是以內(nèi)數(shù)據(jù)量太巨大，無法全部存儲;另一方面是大數(shù)據(jù)和人類生生不息的行動相關(guān)，瞬息萬變。

但在宏觀視角，對于所有的大數(shù)據(jù)而言，它的“大”表現(xiàn)為無窮無盡的重復(fù)。對于語音識別來說，正因為人們重復(fù)講述同樣的語句，機器通過反復(fù)識別這些人類語音的細微差別，才能全面掌握人類語音。也正因為人類周而復(fù)始的運動，才讓系統(tǒng)能捕捉城市運動的規(guī)律。“重復(fù)”的數(shù)學(xué)意義是“窮舉”。以往人類無法通過窮舉法來把握一個事情的規(guī)律，只能采用“取樣”來估計，或者通過觀察用簡單明了的函數(shù)哎代表事物規(guī)律，但大數(shù)據(jù)讓窮舉法這種“笨辦法”變得可能了。

“大”數(shù)據(jù)VS“大數(shù)據(jù)”

前面我們已經(jīng)提到，數(shù)據(jù)量大的“大”數(shù)據(jù)并不一定是大數(shù)據(jù)，在應(yīng)用時與大數(shù)據(jù)也會有顯著的區(qū)別。

《?學(xué)?摘》成功預(yù)測了1920、1924、1928和1932年的美國總統(tǒng)?選。1920年的調(diào)查范圍只有6個州，隨后調(diào)查的范圍逐步擴?。1936年，《?摘》進?了?次最具雄?的民意調(diào)查，調(diào)查1000萬?，可謂是一次“大”數(shù)據(jù)。結(jié)果顯示57%的?支持蘭登，?只有43%的?支持羅斯福。但羅斯福卻以史上最?的優(yōu)勢(61%的得票率)當(dāng)選總統(tǒng)，為什么?

失敗的原因有很多，其中最主要的原因是抽樣框選擇不當(dāng)。這次調(diào)查的調(diào)查對象是從電話簿和車牌登記名單中選出的，這個抽樣框排除了接近65%的總體元素。這些被排除在外的??多是低收?者，?他們中的?多數(shù)都支持羅斯福的新政。

可見，在抽樣獲得的“大”數(shù)據(jù)中，如果抽樣框是錯的，樣本容量再?也?濟于事。而舍恩伯格在《?數(shù)據(jù)時代》?書中指出，?數(shù)據(jù)相對于傳統(tǒng)數(shù)據(jù)的?個本質(zhì)特征就是?數(shù)據(jù)“不是隨機樣本，?是全體數(shù)據(jù)”。互聯(lián)網(wǎng)時代的?數(shù)據(jù)分析，則主要基于全網(wǎng)的“全體”數(shù)據(jù)，?非抽樣獲得的“樣本”數(shù)據(jù)，避免了抽樣框誤差。

我們前面反復(fù)討論的大數(shù)據(jù)，其實是?類?為留下的電?化的?為痕跡。大數(shù)據(jù)分析的數(shù)據(jù)來源于電子媒介記錄下的行為痕跡，大數(shù)據(jù)分析技術(shù)讓人們有能力去基于行為痕跡庫的總體數(shù)據(jù)去展開分析，這是一次分析能力的飛躍。

同時，大數(shù)據(jù)分析還享受著非介?性研究(nonreactiveresearch)的優(yōu)勢。由于其研究對象是人類行為留下的電子化痕跡，是在研究對象?意識的情況下進?的研究，所以能有效地避免霍桑效應(yīng)，獲得更加真實、準(zhǔn)確的結(jié)論。

大數(shù)據(jù)是完美的數(shù)據(jù)嗎?

縱然大數(shù)據(jù)集聚眾多優(yōu)點，但它仍然不是完美的數(shù)據(jù)。

(一)多個體，少變量，數(shù)據(jù)關(guān)聯(lián)難

大數(shù)據(jù)雖然能夠捕捉許多個體在不同場景下的行為痕跡，但是在同一場景下，可以捕捉到的變量卻比傳統(tǒng)數(shù)據(jù)更為有限。在傳統(tǒng)的訪談?wù){(diào)研或者問卷調(diào)研中，研究者可以根據(jù)自己的需要設(shè)計變量，但在大數(shù)據(jù)分析中，研究者對于變量的選取顯然更加被動。在搜索場景下，研究者只能獲得與搜索行為相關(guān)的變量;在社交場景下，研究者只能獲得與社交行為相關(guān)的變量;即使是同一個體的行為，由于技術(shù)平臺的分割性，研究者很難將不同場景下的數(shù)據(jù)關(guān)聯(lián)起來，形成多變量的數(shù)據(jù)。即使同一個體能夠產(chǎn)生多維度的數(shù)據(jù)，但如何捕捉和關(guān)聯(lián)更多的維度，卻仍然是一個不易解決的問題。

(二)沉默的螺旋，造成覆蓋偏差

互聯(lián)網(wǎng)的使用雖然已經(jīng)風(fēng)靡全球，但仍然有一部分群體處在互聯(lián)網(wǎng)的邊緣之外，即使是在互聯(lián)網(wǎng)的使用者中，也同樣存在邊緣化的使用者和沉默的使用者。用戶可以選擇在網(wǎng)絡(luò)上保持沉默，隱匿身份，其表現(xiàn)與在現(xiàn)實世界可能會截然不同。當(dāng)研究者試圖收集大數(shù)據(jù)時，往往會得到那些活躍的、開放的用戶的數(shù)據(jù)，但在互聯(lián)網(wǎng)的冰山下，還隱藏著大量未被發(fā)掘的信息。研究者只得到數(shù)據(jù)中龐大的一隅，雖然它的量級已經(jīng)令人嘆為觀止，但不可否認，在網(wǎng)絡(luò)上，還有大批量的沉默者，他們存在著，他們行動著，但這部分群體的數(shù)據(jù)卻始終處于缺失狀態(tài)。這種情況對研究者所下的結(jié)論會產(chǎn)生一定程度的誤導(dǎo)，而使人在深思時去質(zhì)疑研究的客觀性和合理性。

(三)非介入性研究，存在倫理爭議

大數(shù)據(jù)的捕捉和分析，往往是在用戶不知情的情況下進行的，這與傳統(tǒng)的研究精神并非不謀而合。在傳統(tǒng)的心理學(xué)等研究中，訓(xùn)練有素的研究者將會確保被試知情并同意后才會展開測試和研究，但大數(shù)據(jù)的分析顯然并非如此。

時代的發(fā)展和個體的利益雖然是不可分割的命運共同體，但在微觀層面卻仍然存在著這樣的沖突。即使大數(shù)據(jù)是有缺陷的數(shù)據(jù)，人們?nèi)匀徊淮_定，離開了大數(shù)據(jù)，我們的社會進步是否會倒退多少年。在技術(shù)進步面前，人們沒有選擇，只有奮力前行。因為技術(shù)不是外來者，正來自人類生產(chǎn)創(chuàng)造本身，和人類的存在同呼吸共命運。

關(guān)鍵字：社會數(shù)據(jù)