與不可再生的石油不同,海量的數(shù)據(jù)仍在每天以驚人的速率增長(zhǎng),而在之江實(shí)驗(yàn)室網(wǎng)絡(luò)空間大搜索研究中心研究員安靜斌看來,在可見的未來,數(shù)據(jù)將繼續(xù)以指數(shù)型的趨勢(shì)實(shí)現(xiàn)爆炸式的增長(zhǎng),“我們以后會(huì)有量子計(jì)算、有5G、6G的信息基礎(chǔ)設(shè)施、有各種各樣的可穿戴設(shè)施和物聯(lián)網(wǎng),這些都是可以看到的未來,它們所帶來的龐大數(shù)據(jù)量是現(xiàn)在遠(yuǎn)遠(yuǎn)不能比的。”
如何從海量且依舊在爆炸增長(zhǎng)的數(shù)據(jù)中,挖掘出更多能夠轉(zhuǎn)化為實(shí)際效益的“黃金”,這實(shí)際上就是人們口中的“大數(shù)據(jù)”、安靜斌所稱的“數(shù)據(jù)科學(xué)”所希望探索的重要課題,而對(duì)于普通人而言,這些經(jīng)過分析、轉(zhuǎn)化之后的數(shù)據(jù)信息,最終如同逐漸匯聚的涓涓細(xì)流,潛移默化中影響我們生活的方方面面。
聯(lián)通孤島
“數(shù)據(jù)科學(xué)的誕生,實(shí)際上是數(shù)據(jù)量暴增的必然結(jié)果,也就是我們所說的量變產(chǎn)生質(zhì)變,而隨著大數(shù)據(jù)時(shí)代的到來,除了海量性之外,數(shù)據(jù)也產(chǎn)生了新的特性,包括多元性、易構(gòu)性、稀疏性。”從一個(gè)計(jì)算機(jī)專業(yè)畢業(yè)的博士開始,經(jīng)歷了從數(shù)據(jù)庫(kù)時(shí)期到大數(shù)據(jù)時(shí)代的轉(zhuǎn)變,安靜斌與數(shù)據(jù)打了20余年的交道,他深刻感知著這些變化的軌跡。
安靜斌回憶,在信息化時(shí)代的初期,數(shù)據(jù)其實(shí)十分簡(jiǎn)單,政府部門、企業(yè)部門對(duì)內(nèi)部員工的信息登記和管理,構(gòu)成了最早的數(shù)據(jù),“簡(jiǎn)單來說,就是把員工的姓名、身份證號(hào)碼、聯(lián)系方式這些數(shù)據(jù),和建檔案一樣,以文件的形式一個(gè)個(gè)保存起來,但是沒有相應(yīng)的工具,檢索起來很麻煩,需要一個(gè)一個(gè)打開去查找。”
其后,伴隨著互聯(lián)網(wǎng)的普及,數(shù)據(jù)量開始增加,為了方便快速檢索、提高數(shù)據(jù)的管理效率,出現(xiàn)了數(shù)據(jù)庫(kù)的技術(shù),安靜斌介紹,作為信息管理系統(tǒng)最底層的一個(gè)核心技術(shù),數(shù)據(jù)庫(kù)有著很強(qiáng)的目標(biāo)性,“這數(shù)據(jù)庫(kù)中,每一個(gè)字段的含義是非常確切的,而且數(shù)據(jù)都是有用的。”
以一個(gè)銀行的數(shù)據(jù)系統(tǒng)為例,在最早的銀行數(shù)據(jù)管理系統(tǒng)中,用戶的賬戶余額是最核心的數(shù)據(jù),也就是說,銀行除了保存用戶的身份信息數(shù)據(jù),實(shí)時(shí)更新用戶的賬戶余額數(shù)據(jù)之外,對(duì)于用戶的轉(zhuǎn)賬、收入、支出等等業(yè)務(wù)都不會(huì)記錄。
而到了大數(shù)據(jù)時(shí)代,銀行會(huì)把用戶賬戶上的轉(zhuǎn)賬、業(yè)務(wù)、資金流轉(zhuǎn)等數(shù)據(jù)保存下來。
在這樣的情況下,數(shù)據(jù)的價(jià)值不再像原本那樣集中,但海量的數(shù)據(jù)中,隱藏著用戶的消費(fèi)習(xí)慣、收入支出水平、潛在的業(yè)務(wù)辦理可能等等信息,例如,一個(gè)經(jīng)常在轉(zhuǎn)入余額后短時(shí)間內(nèi)就完成消費(fèi)的賬戶,可能就是推廣貸款業(yè)務(wù)的潛在客戶。“這些海量的數(shù)據(jù)就像是沙子,數(shù)據(jù)科學(xué)現(xiàn)在要做的,就是利用我們現(xiàn)在信息系統(tǒng)的高處理能力,在里面淘金。”
之江實(shí)驗(yàn)室網(wǎng)絡(luò)空間大搜索研究中心副研究員許浩將原本的數(shù)據(jù)管理系統(tǒng)中,數(shù)據(jù)相互沒有聯(lián)通、各自沉淀的狀況稱為“孤島”,關(guān)于同一個(gè)目標(biāo)的不同數(shù)據(jù)沉積在不同的孤島中,當(dāng)人們?cè)噲D對(duì)這個(gè)目標(biāo)進(jìn)行數(shù)據(jù)化的分析,就需要一點(diǎn)一點(diǎn)去提取數(shù)據(jù),才能看到目標(biāo)的全貌。
許浩舉例,政務(wù)處理是一個(gè)非常典型的案例,也是之江實(shí)驗(yàn)室正在與杭州市政府合作探尋的新方向,“比如說,一個(gè)剛剛來到杭州工作的人,他想看看自己有沒有落戶的資格,那么他的居住信息在公安局,工作信息、社保信息在社保局,教育信息在教育部,通過大數(shù)據(jù),可以把這些信息打通。現(xiàn)在杭州是最多跑一次,以后我們說一次都不用跑,所有的信息都整合在一起,查詢、辦理全部數(shù)字化、電子化,打破這些孤島。”
思維變革
一個(gè)也許會(huì)令很多人吃驚的事實(shí)是,如今的大數(shù)據(jù)行業(yè),早已不是人們印象中IT技術(shù)男的天下。
安靜斌認(rèn)為,數(shù)據(jù)科學(xué)發(fā)展到如今,已經(jīng)不再是局限于IT領(lǐng)域的一種技術(shù),而是一個(gè)綜合性的學(xué)科,成為了一種支撐性的技術(shù),“比如說醫(yī)學(xué)出身的,做智能診斷、電子病歷,生物學(xué)出身的,研究基因測(cè)序、基因分析,管理學(xué)出身的,就在做智慧城市這些。”
許浩就是一個(gè)“跨界大數(shù)據(jù)”的典型例子,他攻讀了經(jīng)濟(jì)學(xué)博士后,選擇從事數(shù)據(jù)科學(xué),“這其實(shí)是一個(gè)必然的趨勢(shì),數(shù)據(jù)科學(xué)的發(fā)展,對(duì)于經(jīng)濟(jì)學(xué)以及其他很多學(xué)科,都產(chǎn)生了巨大的沖擊。”
以經(jīng)濟(jì)學(xué)領(lǐng)域?yàn)槔趥鹘y(tǒng)的經(jīng)濟(jì)學(xué)模型中,需要在特定的條件下,對(duì)一定數(shù)量的樣本進(jìn)行數(shù)據(jù)分析,而在大數(shù)據(jù)的支撐下,即使是用非常簡(jiǎn)單數(shù)據(jù)數(shù)學(xué)模型,也可以在擺脫原本的一些特定條件的前提下,通過對(duì)全樣本的數(shù)據(jù)分析,得到更加有價(jià)值的結(jié)論。
許浩認(rèn)為,這實(shí)際上是對(duì)傳統(tǒng)思維和方法論的變革,“我們可以看到,越來越多最頂級(jí)、最前沿的經(jīng)濟(jì)學(xué)家金融學(xué)家,他們發(fā)表的論文已經(jīng)超出了常規(guī)的一些方法和數(shù)據(jù),用全量的數(shù)據(jù)來做研究,這是跟傳統(tǒng)方式完全不同的數(shù)據(jù)來源,就好像原來我們需要非常精準(zhǔn)精密、設(shè)計(jì)好的實(shí)驗(yàn)環(huán)境,但現(xiàn)在不管在哪里,我們都可以做這個(gè)實(shí)驗(yàn)。”
在科研領(lǐng)域之外,數(shù)據(jù)科學(xué)作為一門應(yīng)用科學(xué)和革命性的技術(shù),正在對(duì)許多行業(yè)進(jìn)行重構(gòu)洗牌,例如,在我們?nèi)缃耦l頻提起的新零售領(lǐng)域,大數(shù)據(jù)的挖掘是供應(yīng)鏈得以優(yōu)化的關(guān)鍵,在電商平臺(tái),利用大數(shù)據(jù)為用戶提供定制化、個(gè)性化產(chǎn)品和服務(wù)已經(jīng)卓有成效,而在餐飲、服裝等等行業(yè)中,利用數(shù)據(jù)分析選址、研發(fā)新產(chǎn)品、定價(jià)也成了重要趨勢(shì)。
這樣的趨勢(shì)下,傳統(tǒng)企業(yè)除了關(guān)注自身發(fā)展之外,也需要外部數(shù)據(jù)系統(tǒng)來判定行業(yè)形勢(shì),從而做出理性的決定,這是運(yùn)營(yíng)思維上的徹底改變,“從小了來說,阿里巴巴的一個(gè)商鋪,他可以通過購(gòu)買一些數(shù)據(jù)增值服務(wù),了解到商品的季節(jié)波動(dòng)、定價(jià)區(qū)間,從而明白如何打敗自己的競(jìng)爭(zhēng)對(duì)手,更廣泛一些的話,制造業(yè)、工業(yè)等等,都受到了影響。”
這些細(xì)密瑣碎的變化,其實(shí)只是大數(shù)據(jù)帶來的一部分,安靜斌笑言:“從人類歷史的這樣一個(gè)角度出發(fā),我們本身作為從業(yè)者而言,能夠參與到這樣一個(gè)革命性的行業(yè)中去,這是一件很有成就感的事情。”
野蠻生長(zhǎng)
作為下一代革命性技術(shù)人工智能的重要依托技術(shù),國(guó)內(nèi)的大數(shù)據(jù)行業(yè)在全球走在了前列。
安靜斌稱,得益于中國(guó)龐大的互聯(lián)網(wǎng)經(jīng)濟(jì)體量,以及總的人口規(guī)模,中國(guó)每年的數(shù)據(jù)增長(zhǎng)量在全球排名前列。2018年5月,中國(guó)工信部副部長(zhǎng)陳肇雄在貴陽(yáng)“數(shù)博會(huì)”上表示,預(yù)計(jì)到2020年,中國(guó)數(shù)據(jù)總量全球占比將達(dá)20%,將成為數(shù)據(jù)量最大、數(shù)據(jù)類型最豐富的國(guó)家之一。
國(guó)家級(jí)發(fā)展戰(zhàn)略的高度定位,是大數(shù)據(jù)行業(yè)得以快速發(fā)展的重要原因。2015年9月,國(guó)務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,提出要從頂層設(shè)計(jì)層面,加強(qiáng)對(duì)大數(shù)據(jù)行業(yè)的支持,此后,各部委密集發(fā)文,從各個(gè)維度全力支持大數(shù)據(jù)行業(yè)的發(fā)展。
在政策的高度關(guān)注下,國(guó)內(nèi)大數(shù)據(jù)行業(yè)增長(zhǎng)迅猛,智研咨詢發(fā)布的《2018-2024年中國(guó)大數(shù)據(jù)行業(yè)發(fā)展趨勢(shì)及投資戰(zhàn)略研究報(bào)告》顯示,2012年,我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模約為35億元,而2017年,大數(shù)據(jù)市場(chǎng)規(guī)模達(dá)到358億元,增長(zhǎng)十倍,預(yù)計(jì)到2020年,大數(shù)據(jù)行業(yè)市場(chǎng)規(guī)模將達(dá)到730億元。
由大數(shù)據(jù)技術(shù)帶來的企業(yè)規(guī)模增長(zhǎng)及社會(huì)效益則更難以估量,“我們的政府在變得智能化、數(shù)字化,我們的企業(yè)在探索中優(yōu)化,包括媒體也在做數(shù)字化轉(zhuǎn)型,大數(shù)據(jù)帶來的沖擊是方方面面的,未來還會(huì)有更多的新應(yīng)用、新技術(shù)落地。”
在生長(zhǎng)與探索之中,一些過快發(fā)展留下的問題不可避免。
在許多關(guān)于大數(shù)據(jù)的討論中,隱私問題繞之不去,曾被“莆田系”、“血友吧”事件纏身的百度李彥宏發(fā)表過這樣的言論,“中國(guó)人更加開放,對(duì)隱私問題沒有那么敏感,很多情況下他們?cè)敢庥秒[私交換便利性,那我們就可以用數(shù)據(jù)做一些事情。”
實(shí)際上,國(guó)內(nèi)更多大數(shù)據(jù)公司的做法與李彥宏所言并無區(qū)別,許浩表示,由于國(guó)內(nèi)在相關(guān)立法方面相對(duì)滯后,國(guó)內(nèi)的大數(shù)據(jù)公司正在野蠻生長(zhǎng),“為什么叫野蠻生長(zhǎng)?拿到數(shù)據(jù)就是王,他們不會(huì)管這個(gè)數(shù)據(jù)是從哪來的,數(shù)據(jù)有沒有道德或是法律上的風(fēng)險(xiǎn),在他們的思維里,拿到了數(shù)據(jù)就可以賺錢。”
對(duì)于一個(gè)年輕的行業(yè)而言,這并非可以持續(xù)的常態(tài)。安靜斌稱,“大數(shù)據(jù)這個(gè)行業(yè)還遠(yuǎn)遠(yuǎn)未能達(dá)到它的上限,還在一個(gè)發(fā)展期,我們希望政府、相關(guān)部門可以看到這一點(diǎn),在給予它更多照顧的同時(shí),也應(yīng)該對(duì)它進(jìn)行一些約束。