大數據,已經為人類創造出一個嶄新的環境。信息技術使人類置身于一個嶄新的數字化的數據環境,這個環境一方面擴大了人類的理解,另一方面,作為個體則必須在這個特定的環境中對自己的目的、價值和意圖進行重建,從而達到強調自己個性和分享他人個性的理解。
各行各業,當下是言必稱數據。那么究竟何為大數據呢?根據我的理解,如果說互聯網是關于“物”的,那么大數據就是關于“人”的,所以說只有關于人的數據才能稱之為大數據。大數據并非數據大。純粹從量上看,大數據在互聯網上早就存在了,在其基礎之上,催生了整個搜索產業。可當下時髦的“大數據”一詞卻有所不同,它所展示的是以網絡為依托的新型社會媒體的一個方面。由于直接與人相關,大數據成了金礦,有待人們進行數據挖掘,并從中尋求各種機會。數據挖掘已是相當成熟的領域,它把人的行為的結構化數據與其背景和人口統計學的信息相結合,已經產生出很多成果和應用,如有的放矢的廣告和營銷等。人們可以把社會媒體大數據中提取出的自然語言文本的情感挖掘視為一種數據挖掘的自然延伸。由于大數據的無限開放性,未來的潛力甚至更大。
人的行為維度具有無限的可能性,但人的資源卻又是有限的。那么如何協調無限和有限的關系?由于有了海量的數據和強大的計算處理能力,有了人與人、人與物的互聯互通,就是可以成就人的行為的無限可能性。舉個例子來說,電子商務把這一點體現得淋漓盡致。但傳統的數據由于屬性有限,個體參與度較低,其價值預期比例大,即數據處于壓縮狀態,而無法協調無限和有限的關系。大數據體現的結果就是將傳統的數據“解壓縮”,使其數據密度大大減小,從而放大個體數據的效應。由于大數據是關于人的,那么它就不單是一個技術問題,而且也是一個管理問題。認識到這一點就要破除傳統的管理辦法,將數據打通,使其不斷更新,避免產生“數據孤島”現象。那么,首先就要給出“全量數據”,也就是說,關鍵的數據不能缺失;其次,那些關鍵信息是不能靠專家規定。
大數據是關于人的,可是它們卻都要被計算機處理。因此關于人的數據一定要有關于原始大數據的“元數據”,它們是為機器服務的。必須通過元數據的語義標示并賦予其意義,才能被機器處理。因此,若想從數據中發現知識,就必需大量的元數據。元數據就好比影視劇中的“橋段”,將機器中的原始數據與人的行為連接起來。而大數據挖掘技術恰恰就是針對元數據的。盡管如此,大數據還是有其無法企及的地方。大致可以歸納為以下幾點:不能沒有有效的商業模式,不能替代管理的決策力,不能保證消除噪音,不能進行無目的的知識發現,不能一次建模終身受益,不能替代領域專家,不能忽略數據標注,等等。同時也要看到,大數據并非一個終極階段,它的出現不過是人類歷史進程的一個環節,其重要意義在于是計算機技術為整個人類帶來變革中的一步。回顧歷史,計算機從上個世紀50年代起就在人類歷史上開始了潛移默化的革命,其根本標志就是“數字化”,以及物理世界和虛擬世界的無縫接合。
既然是歷史的一個發展環節,那么也就可以對未來趨勢做出一定的預測。與以往歷史上其他重要變革都是一樣的,要通過資源——大數據——的原始積累,再過渡到商業和社會服務的差異化(即因人而異),直到人類對虛擬世界的行業和社會服務加以規范以實現公平合理的數據資源分配。始于18世紀的工業革命經歷了一百多年,但這次數字的革命將以更快的形式發生。由大數據引發的下一代技術很可能是更大規模的、面向數字化行業的轉變。因而,使得現在物理世界的眾多傳統行業將向數字世界全面或部分轉換和融合。這種轉變也讓許多現在需要眾多專家的領域以另一種形式出現。具體可以體現在很多行業的在整體的“食物鏈”的上下游的改變。醫生、科學家和教師等,到了那一天或許變成為大數據輸送原料的數據采集者和分析結果的“工人”。
在工業社會,通過利用人們日常生活所留下的各種數據,便可以掌控人的生活方式、習慣、下落以及社會關系等。而到了信息社會,這些數據必然會被數字化,因而人們的各種道德行為、倫理準則和社會生活也會隨之產生相應的改變。信息技術使人類置身于一個嶄新的數字化的數據環境,這個環境一方面擴大了人類的理解,另一方面,作為個體則必須在這個特定的環境中對自己的目的、價值和意圖進行重建,從而達到強調自己個性和分享他人個性的理解。任何技術都傾向于創造一個新的人類環境。而信息技術、電腦網絡乃至最近問世的大數據,已經為人類創造出一個嶄新的環境。