在方法論方面,大數(shù)據(jù)帶來了三大挑戰(zhàn)。第一,是分析基礎(chǔ);第二,計算的模式與計算方法需要推倒重來;第三,根本性判定需要條件。
大數(shù)據(jù)的挑戰(zhàn)和問題
談?wù)摯髷?shù)據(jù)是時代話題,擁有大數(shù)據(jù)是時代特征,解讀大數(shù)據(jù)是時代任務(wù),應(yīng)用大數(shù)據(jù)是時代機(jī)遇。這四句話概括出大數(shù)據(jù)時代。從本質(zhì)上說,數(shù)據(jù),就是指資料的信息化、數(shù)字化,大數(shù)據(jù)的復(fù)雜性體現(xiàn)在四個方面,第一,海量性;第二,實(shí)踐性;第三,異構(gòu)性;第四,分布性。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的四個特點(diǎn)。什么是大數(shù)據(jù)技術(shù)?嚴(yán)格地講,是沒有定義的。
目前,有關(guān)大數(shù)據(jù)搜集、整理、成熟、解讀或應(yīng)用的技術(shù),我們統(tǒng)稱為大數(shù)據(jù)。在日常生活中,大數(shù)據(jù)的價值到底在哪里?需要強(qiáng)調(diào)四個方面。
第一,提供社會科學(xué)的方法論,實(shí)現(xiàn)基于數(shù)據(jù)的決策,助推管理革命。這也正是目前大數(shù)據(jù)最熱的領(lǐng)域是在社會科學(xué)方面的原因所在。大數(shù)據(jù)改變了人們對文科、理科的認(rèn)識。社會科學(xué)最大的問題在于沒有一個可普遍遵循的、可重復(fù)和被所有人接受的公共方法論,而利用大數(shù)據(jù),彌補(bǔ)了這個缺憾。
第二,形成科學(xué)研究的新范式,支持基于數(shù)據(jù)的科學(xué)發(fā)現(xiàn),減少對精確模型與假設(shè)的依賴,使過去不能解決的問題變得可能解決。也就是說,我們有一種方法能夠較小地依賴于模型和依賴于假設(shè),形成了第四種科研范式。
第三,形成高新科技的新領(lǐng)域,推動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等行業(yè)深入發(fā)展,形成大數(shù)據(jù)產(chǎn)業(yè)。互聯(lián)網(wǎng)能實(shí)現(xiàn)如何把信息技術(shù)中的人、環(huán)境、機(jī)器,溝通在一起來處理問題,這是未來的發(fā)展。而大數(shù)據(jù),則是實(shí)現(xiàn)信息化的組成,換句話說,即實(shí)現(xiàn)機(jī)器和機(jī)器的交換、人和機(jī)器的交換,是以數(shù)據(jù)的形式來溝通、來交換的。
第四,大數(shù)據(jù)成為社會進(jìn)步的新引擎,深刻改變?nèi)祟惖乃季S、生產(chǎn)和生活方式,推動社會變革和進(jìn)步。
理性認(rèn)識大數(shù)據(jù)
信息技術(shù)革命與經(jīng)濟(jì)社會活動的交融催生了大數(shù)據(jù)。大數(shù)據(jù)是經(jīng)濟(jì)社會、現(xiàn)實(shí)世界、管理決策的片斷記錄,蘊(yùn)含著碎片化信息。隨著分析技術(shù)與計算技術(shù)的突破,解讀這些碎片化信息成為可能,這是大數(shù)據(jù)成為一項(xiàng)新的高新技術(shù)、一類新的科研范式、一種新的決策方式乃至一種文化的原由。大數(shù)據(jù)是指數(shù)量特別巨大、種類繁多、增長極快、價值稀疏的復(fù)雜數(shù)據(jù),簡而言之,是“大而復(fù)雜”的數(shù)據(jù)集。作為信息資產(chǎn),大數(shù)據(jù)的價值需要運(yùn)用全新的處理思維和解譯技術(shù)來實(shí)現(xiàn)。
大數(shù)據(jù)具有大價值
大數(shù)據(jù)的價值主要通過大數(shù)據(jù)技術(shù)來實(shí)現(xiàn)。大數(shù)據(jù)技術(shù)是基礎(chǔ)性信息技術(shù),它刻畫了新一代信息技術(shù)中機(jī)器與機(jī)器、機(jī)器與人之間信息交換的內(nèi)容特征,構(gòu)成了現(xiàn)代信息技術(shù)的基本信息處理模式。因此,大數(shù)據(jù)從信息載體這一底層捕捉到了信息化的共性基礎(chǔ)、未來發(fā)展與普適技術(shù)。這說明,大數(shù)據(jù)熱潮的來臨是一種必然,大數(shù)據(jù)技術(shù)不會是過眼云煙。
科學(xué)理解大數(shù)據(jù)的“大”
數(shù)據(jù)的積累是一個從量變到質(zhì)變的過程。當(dāng)數(shù)據(jù)積累不夠多時,沒有人能讀懂這些“碎片”背后的故事。但隨著數(shù)據(jù)的積累,特別是超過某個臨界值后,這些“碎片”整體所呈現(xiàn)的規(guī)律就會在一定程度上被顯現(xiàn)出來。可以認(rèn)為,這一從量變到質(zhì)變的臨界值是區(qū)分?jǐn)?shù)據(jù)“大”與“不大”的標(biāo)準(zhǔn)。所以,大數(shù)據(jù)的“大”是相對的,是與所關(guān)注的問題相關(guān)的。只有這樣理解,才能避免產(chǎn)生大數(shù)據(jù)能解決所有問題的誤讀。
科學(xué)理解大數(shù)據(jù)的“復(fù)雜”
由于具有海量性、快變性、異構(gòu)性和分布性等復(fù)雜特性,大數(shù)據(jù)技術(shù)是一項(xiàng)不斷發(fā)展的技術(shù),并非已經(jīng)成熟。這當(dāng)然并不妨礙運(yùn)用現(xiàn)有大數(shù)據(jù)技術(shù)從現(xiàn)實(shí)的各種大數(shù)據(jù)中獲得價值,但我們必須清楚:大數(shù)據(jù)的價值實(shí)現(xiàn)是無止境的,大數(shù)據(jù)理論、技術(shù)和產(chǎn)業(yè)將相伴而行。這是大數(shù)據(jù)發(fā)展的基本形態(tài)。
大數(shù)據(jù)帶來三大挑戰(zhàn)
數(shù)據(jù)的獲取是基本的,因此,數(shù)據(jù)的程序和處理是基本的。大數(shù)據(jù)的資源管理與規(guī)模,大數(shù)據(jù)高效和處理信息技術(shù),大數(shù)據(jù)分析和處理統(tǒng)計學(xué)的計算技術(shù),這三者中,大數(shù)據(jù)扮演的是不同的角色。
比如,大數(shù)據(jù)分析和大數(shù)據(jù)處理,兩者是有區(qū)別的。處理,如統(tǒng)計,查詢,排序,比例,融合,對齊等等,統(tǒng)稱為數(shù)據(jù)處理。數(shù)據(jù)處理的邏輯,是計算機(jī)嚴(yán)格的邏輯運(yùn)算。但是,處理與分析的深層次是不一樣的,那么,大數(shù)據(jù)分析會涉及到哪些問題?比如,數(shù)據(jù)中間呈現(xiàn)了什么樣的發(fā)展趨勢,數(shù)據(jù)中間有什么共性結(jié)構(gòu),數(shù)據(jù)鏈如何關(guān)聯(lián)?數(shù)據(jù)有什么特定的模式,相互之間如何對應(yīng)?如何分析?以及優(yōu)化與控制等等。這是大數(shù)據(jù)分析。因此,分析相對于處理來說,并不是邏輯運(yùn)算,而是用人工智能的方式來處理。在數(shù)據(jù)分析技術(shù)上,我國目前的發(fā)展相當(dāng)緩慢。有數(shù)據(jù)表明,目前全世界有4% 的大數(shù)據(jù),但是真正用來做分析的不到0.4%。
在方法論方面,大數(shù)據(jù)帶來了三大挑戰(zhàn)。第一,是分析基礎(chǔ);第二,計算的模式與計算方法需要推倒重來;第三,根本性判定需要條件。依賴于樣本是獨(dú)立組成的假設(shè),分析出來的結(jié)果可能是謬誤的。“基礎(chǔ)不牢,地動山搖”,就是這個道理。換句話說,如果大數(shù)據(jù)的分析技術(shù)不建立起來的話,很多的假設(shè)都是不成立的,大數(shù)據(jù)的危險性可想而知。
科學(xué)技術(shù)是關(guān)鍵,分析技術(shù)是處理辦法,根本性判定,這是當(dāng)前最值得關(guān)注的三個問題。為此,需要建立的三大基礎(chǔ):第一,統(tǒng)計學(xué)基礎(chǔ);第二,計算理論的基礎(chǔ);第三,模擬技術(shù)。
大數(shù)據(jù)的機(jī)遇是什么?最大的機(jī)遇是學(xué)科發(fā)展問題。什么叫學(xué)科發(fā)展機(jī)遇?以融合信息、數(shù)學(xué)、計算、數(shù)據(jù)為一體的數(shù)據(jù)科學(xué)正式形成。這對于大學(xué)人才的培養(yǎng),對于學(xué)科的設(shè)置等各方面將起到根本性作用。