“大數(shù)據(jù)”一詞越來越火辣,煽情全球。出于一種職業(yè)精神和科學良知,我和我的團隊,近幾年來深入調(diào)研剖析“大數(shù)據(jù)”產(chǎn)業(yè)到底是怎么回事。從美國的SaaS、亞馬遜、谷歌、蘋果、思科到中國的華為、騰訊、浪潮及航天某某研究所;從美國北卡三角地、舊金山的硅谷、波士頓的哈佛及MIT到中國的北京中關(guān)村、深圳前海、清華大學及北大----等等。我們通過諸多神不知鬼不覺的走訪、調(diào)查和分析,終于可以撕下“大數(shù)據(jù)”神秘的面紗,也確實搞明白了:數(shù)據(jù)處理技術(shù)如何才能服務(wù)于各個產(chǎn)業(yè)領(lǐng)域的技術(shù)升級和業(yè)態(tài)創(chuàng)新;同時也搞清楚了:為什么海內(nèi)外相當一些所謂的“技術(shù)權(quán)威”及科研機構(gòu),能夠靠玩概念、攢項目從政府和投資人那里攫取大把大把的資金,最后卻沒有實質(zhì)性成果。而實實在在的大數(shù)據(jù)成果,卻來自一流的IT企業(yè)內(nèi)部。最近幾個月,受邀走訪調(diào)研了全國二十多家科技產(chǎn)業(yè)園區(qū),感觸良多,不吐不快。
1、撕開“大數(shù)據(jù)”的神秘面紗:原來如此!
技術(shù)進步及社會演進,正在推動整個人類的生活生存方式、消費結(jié)構(gòu)全面轉(zhuǎn)型,并加速邁向數(shù)字化時代。可以預(yù)見,未來十多年,“大數(shù)據(jù)”思維及技術(shù)創(chuàng)新,將更猛烈、更深刻地顛覆傳統(tǒng)產(chǎn)業(yè)形態(tài)。這意味著:幾乎各個產(chǎn)業(yè)領(lǐng)域都將迎來基礎(chǔ)數(shù)據(jù)工程建設(shè)及大數(shù)據(jù)應(yīng)用系統(tǒng)建設(shè)兩方面的爆發(fā)式發(fā)展的機遇。因此,說大數(shù)據(jù)產(chǎn)業(yè)是值得挖掘的金山銀山,一點也不過分。但這并不等于“大數(shù)據(jù)”是萬能的、大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展可以隨心所欲。
現(xiàn)在,中國經(jīng)濟運行雖然已經(jīng)步入嚴寒季節(jié),但“大數(shù)據(jù)”一詞熱得燙嘴,無論是政府官員、產(chǎn)業(yè)精英,還是IT領(lǐng)域、高等學府、高技術(shù)開發(fā)區(qū),如果開口閉口不說“大數(shù)據(jù)”,似乎都不好意思“混在當下”;如果嘴里偶爾能蹦出一兩個諸如Hadoop、Storm、Spark、IOE的時髦名詞,就更顯出一幅業(yè)內(nèi)高手的神態(tài)。其實,我要說的是:“大數(shù)據(jù)”并不是什么新鮮玩意兒,自從工業(yè)革命開始以來,數(shù)據(jù)科學就越來越得到人們的重視,只是到了21世紀初,數(shù)據(jù)應(yīng)用的積累,深深觸動了產(chǎn)業(yè)重構(gòu)和業(yè)態(tài)創(chuàng)新,“大數(shù)據(jù)”一詞才應(yīng)運而生。“大數(shù)據(jù)”并非數(shù)據(jù)越多越好、運算量越大越好,其綜合含義應(yīng)當是:針對并服務(wù)于某個特定目標的立體數(shù)據(jù)生態(tài)系統(tǒng),而且這個系統(tǒng)中的前端功能模型、中斷數(shù)據(jù)架構(gòu)及后端算法及編程,是一個統(tǒng)一體系。確切地說,“大數(shù)據(jù)”概念的內(nèi)涵及外延,主要體現(xiàn)在三個層面:
一是基于行業(yè)趨勢及產(chǎn)業(yè)業(yè)態(tài)創(chuàng)新的需求端“功能模塊”的構(gòu)建,這是一個需要具有大數(shù)據(jù)思維邏輯的產(chǎn)業(yè)經(jīng)濟的命題。比如:如果要優(yōu)化一個區(qū)域的旅游產(chǎn)業(yè)結(jié)構(gòu)、投資結(jié)構(gòu)、資源配置結(jié)構(gòu),可以通過完善產(chǎn)業(yè)供給鏈達到延伸游客消費鏈的目的,這就需要建立區(qū)域性的動態(tài)運行的“旅游產(chǎn)業(yè)大數(shù)據(jù)”信息系統(tǒng),而此舉首先要做的是:產(chǎn)業(yè)發(fā)展物理模塊的策劃、設(shè)計、搭建和論證。這項工作是實施這項大數(shù)據(jù)項目的“前提”。
二是基于產(chǎn)業(yè)發(fā)展功能模塊基礎(chǔ)的“數(shù)據(jù)模塊”的搭建設(shè)計,這是一個緊密服務(wù)于應(yīng)用端訴求的有效數(shù)據(jù)關(guān)系分析、確定算法的復(fù)雜過程,這也是數(shù)據(jù)建模及搭建特別功能屬性的數(shù)據(jù)倉庫的過程,需要用人力思維與計算機算法的有機結(jié)合。目前,這個領(lǐng)域的技術(shù)才剛剛開始向產(chǎn)業(yè)領(lǐng)域滲透,未來可拓展空間很大。
三是基于數(shù)據(jù)模塊進行的數(shù)據(jù)挖掘、采集、清洗和應(yīng)用編程。這個過程實際上是“技術(shù)工人”的工作,多數(shù)計算機及信息系統(tǒng)專業(yè)的人都可以完成,如果在熟練應(yīng)用傳統(tǒng)計算機信息系統(tǒng)應(yīng)用軟件的基礎(chǔ)上,熟練掌握Hadoop 、Spark、IOE等操作系統(tǒng),就可以完成此項工作,但更多的工作量還得基于Excel來完成,因此,把Excel玩熟玩透是玩好大數(shù)據(jù)的基礎(chǔ),或許更有價值。
綜合來看,大數(shù)據(jù)人才的價值主要體現(xiàn)在上述的前兩個層面。
2、一流的大數(shù)據(jù)人才到底隱身何處?
當下的中國乃至全球,能真正看清“大數(shù)據(jù)”的真正面目,并通過數(shù)據(jù)革命引領(lǐng)產(chǎn)業(yè)創(chuàng)新的優(yōu)秀人才屈指可數(shù),到是人云亦云、跟風弄潮者確實不少。可以不夸張地說,全球范圍類,類似Perntland(MIT)、Norvig(Google)、Geoffrey Hinton(Google)、鄂維南(北大)、Andrew Ng吳恩達(百度)這樣的大數(shù)據(jù)專家,全球也不過二三百人,而赴其后塵者的新銳大數(shù)據(jù)專家,估計全球不過千人左右。
所謂的大數(shù)據(jù)專家,不單是計算機及信息系統(tǒng)領(lǐng)域的專家,也不是行業(yè)及專業(yè)領(lǐng)域里的權(quán)威,而是善于把應(yīng)用訴求端與數(shù)據(jù)技術(shù)服務(wù)端,用大數(shù)據(jù)思維整合到一起的復(fù)合專家,通俗來講,是市場行家、產(chǎn)業(yè)及產(chǎn)品專家、有效數(shù)據(jù)資源識別及配置高手的復(fù)合體。大數(shù)據(jù)專家既可以是一位在某個行業(yè)領(lǐng)域里具有這三項功能的復(fù)核人才,比如:MIT的Perntland、谷歌的Norvig、百度的吳恩達等大牛,也可以是具有這三項功能的人形成的“人才組合Team”,比如亞馬遜的物流物聯(lián)研究小組。真正的大數(shù)據(jù)專業(yè)人才之所以太稀少,是因為他們的思維細微深深扎根于市場,他們是從市場上“野蠻”生成的,絕非閉門于高等學府可以修煉出來的。
上述的這些大數(shù)據(jù)專家到底隱身潛伏在哪里呢?俗話說:大隱隱于市。他們就隱身于一流的科技公司埋頭鉆研。縱觀全球,百分之七八十的優(yōu)秀大數(shù)據(jù)專業(yè)人才,都就職于全球頂尖的科技公司,在高等學府和基礎(chǔ)研究機構(gòu)的大數(shù)據(jù)專家的確很少。蘋果、亞馬遜、谷歌、高通、SaaS、思科、華為、騰訊、阿里、百度等等全球前50家頂尖企業(yè),幾乎壟斷了大數(shù)據(jù)專家,然而,他們未必意識到自己就是一流的“大數(shù)據(jù)”專家。相反,有不少深居高等學府、科研機構(gòu)和咨詢公司的一般的計算機及網(wǎng)絡(luò)技術(shù)專業(yè)人士,卻自詡為“大數(shù)據(jù)專家”,在全球范圍內(nèi)混吃混喝。
今天的中國,我們看到的是不少偽專家一方面給企業(yè)家、投資人灌迷糊湯,一方面給政府官員貼膏藥。有些所謂的大數(shù)據(jù)專家,頭頂不少學術(shù)桂冠,雖然立項后拿到了政府和投資人的項目經(jīng)費,卻老虎吃天不知如何下口,索性關(guān)起門來,只停留在“Excel”的基礎(chǔ)上閉門坐車,盲目地搗鼓數(shù)據(jù)庫。值得警惕的是:投機心態(tài)驅(qū)使下的一些缺乏實戰(zhàn)經(jīng)驗的“學術(shù)權(quán)威”,正在編制“大數(shù)據(jù)”陷阱,政府及投資人如果不能認清“大數(shù)據(jù)”的真面目,很容易就掉入“陷阱”,盲目投資。
3、中國要振興“大數(shù)據(jù)產(chǎn)業(yè)”得先做好兩件事
很多人在玩弄新概念和時髦名詞方面,似乎有天生的優(yōu)越基因。現(xiàn)在,不少人開始大肆忽悠“大數(shù)據(jù)”產(chǎn)業(yè),其中不乏別有用心的投機者和半生不熟的技術(shù)官僚。從目前情形看,圍繞“大數(shù)據(jù)”產(chǎn)業(yè),正在形成技術(shù)官僚“小圈子”。在有些人看來,名利雙收的機會又來了。很顯然,從中央到地方,政府財政對大數(shù)據(jù)產(chǎn)業(yè)的研究及扶持資金,規(guī)模空前且不斷增多;市場投資人也越來越青睞大數(shù)據(jù)概念及其應(yīng)用的產(chǎn)業(yè)。但是,針對大數(shù)據(jù)的研究成果,全世界尚沒有考核標準和評價辦法。對此,應(yīng)當引入“涇渭分明”的透明機制,并重點向骨干企業(yè)、有應(yīng)用價值及創(chuàng)新技術(shù)含量的企業(yè)傾斜。可謂“涇渭分明”?就是:應(yīng)用研究與基礎(chǔ)研究分軌運行---針對企業(yè),側(cè)重于大數(shù)據(jù)產(chǎn)業(yè)的應(yīng)用投入;針對高等院校、科研機構(gòu),重點支持與大數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)領(lǐng)域的研究。切記不要被不熟悉市場、不了解產(chǎn)業(yè)特征、知識結(jié)構(gòu)老化的“技術(shù)官僚”所把控。
中國作為全球經(jīng)濟產(chǎn)出體量最大、消費需求規(guī)模最大的新型經(jīng)濟體,大數(shù)據(jù)產(chǎn)業(yè)對推動各個產(chǎn)業(yè)領(lǐng)域的創(chuàng)新發(fā)展,具有不可估量的發(fā)展空間。但是,振興“大數(shù)據(jù)”產(chǎn)業(yè),既不能盲目受產(chǎn)業(yè)領(lǐng)域?qū)<业挠绊懀矐?yīng)當突破“技術(shù)官僚”的小圈子,面向市場、面向一流的科技企業(yè)、面向年輕的技術(shù)隊伍。大致來說,應(yīng)當在兩個方面發(fā)力:
一是加速大數(shù)據(jù)應(yīng)用的系統(tǒng)工程建設(shè)。這是最主要的、也是見效最快的,此舉需要具備“喬布斯式的組合混搭思維”加速推進中國的大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,即:用大數(shù)據(jù)思維模式把行業(yè)、產(chǎn)業(yè)專家與數(shù)據(jù)專家有機結(jié)合起來,直面各個行業(yè)領(lǐng)域的產(chǎn)業(yè)轉(zhuǎn)型及業(yè)態(tài)創(chuàng)新。
二是加速基礎(chǔ)數(shù)據(jù)工程建設(shè)。這是一項基礎(chǔ)研究,是慢功夫,需要在西方現(xiàn)有的技術(shù)軟件基礎(chǔ)上創(chuàng)新研發(fā),短期內(nèi)要有突破性的成果還比較難,但要舍得投入。這方面應(yīng)當由數(shù)據(jù)技術(shù)專家領(lǐng)銜和主導,在高等院校和對應(yīng)的科研機構(gòu)完成。從長遠看,此舉是提升國家大數(shù)據(jù)技術(shù)水準的戰(zhàn)略舉措。
切記:不要將上述兩個方面混為一談。但這與“產(chǎn)學研一體化”不矛盾。
4、關(guān)于“大數(shù)據(jù)產(chǎn)業(yè)”,需要強調(diào)的幾個概念
1)“大數(shù)據(jù)產(chǎn)業(yè)”并非一個獨立的產(chǎn)業(yè),他只是一個服務(wù)性的工具。大數(shù)據(jù)技術(shù)的研究及應(yīng)用,是以市場訴求及產(chǎn)業(yè)經(jīng)濟發(fā)展需要為基礎(chǔ)的,它不過是服務(wù)于特定目標的技術(shù)手段。因此,目前最最緊缺的是行業(yè)性的大數(shù)據(jù)專才,比如醫(yī)學領(lǐng)域急需要懂得人體生命科學及健康學的具有大數(shù)據(jù)思維的專家。
2)大數(shù)據(jù)思維比大數(shù)據(jù)本身更重要,物理模塊比數(shù)字模塊更有價值。因此,大數(shù)據(jù)人才并非只有數(shù)理學科的專業(yè)人才,而是混合型人才,比如:能夠?qū)懹嬎銠C編碼程序的人比比皆是、身價也不高,因為他們只知其然不知其所以然。然而,大數(shù)據(jù)時代的“架構(gòu)師”不是單純的數(shù)字建模和初級的行業(yè)知識,而是能夠獨立策劃設(shè)計出產(chǎn)業(yè)創(chuàng)新發(fā)展物理模塊的專家。也就是說,玩“大數(shù)據(jù)”的技術(shù)圈子,若單純靠Hadoop、MR、Storm、Spark、Kafka、Dataflow這些數(shù)據(jù)處理技術(shù),只能搭建出沒有使用價值的空中樓閣,其研究只能自困于小圈子而漸漸窒息。因此,如果大數(shù)據(jù)的研發(fā)及應(yīng)用,只是數(shù)據(jù)技術(shù)的“圈內(nèi)人”,那的確是一種悲哀。
3)“沒有數(shù)據(jù)源”是個偽命題。我最近跟不少談吐大數(shù)據(jù)的人士交流過程中,大家普遍有這樣的感嘆:中國的數(shù)據(jù)壟斷與分割很嚴重,搞大數(shù)據(jù)研究缺乏數(shù)據(jù)資源,根本得不到政府各個職能部門及中國電信、中國聯(lián)通這樣的數(shù)據(jù),怎么搞研究?而且也沒有數(shù)據(jù)交易市場。其實,“沒有數(shù)據(jù)源”這是一個偽命題。事實上在美國、在歐洲、在日本,數(shù)據(jù)作為一種核心的資源,在很多領(lǐng)域、在很大程度上也是不公開的,即使美國硅谷一些專家呼吁建立數(shù)據(jù)交易市場,那也是太過天真的想法,不可能完全實現(xiàn)。越是大數(shù)據(jù)時代,數(shù)據(jù)資源越是寶貴,任何機構(gòu)和個人越是不會輕易泄露自己的數(shù)據(jù)信息。其實,并不是數(shù)據(jù)越多越好、數(shù)據(jù)流量越大越好,有效數(shù)據(jù)及數(shù)據(jù)關(guān)系才是最重要的。因此,大數(shù)據(jù)研究與應(yīng)用,在很大程度上是研究模式和研究方法問題,如果把握好應(yīng)用端的明確訴求,采集有效數(shù)據(jù)樣本并不是太難。比如:類似Hadoop(2006年發(fā)布的分布式數(shù)據(jù)開發(fā)應(yīng)用程序),Spark(UC Berkeley AMP lab發(fā)布的數(shù)據(jù)并行計算框架軟件)、Dataflow(數(shù)據(jù)流)等等大數(shù)據(jù)軟件及名詞,最初都源自谷歌等IT企業(yè)及美國一些理工科大學的實驗室。它源自實踐也必然生存和成長于實踐。因此,推動大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的“數(shù)據(jù)源”主要來自自身,第三方研究服務(wù)者的數(shù)據(jù)主要來自需求方的委托。特別需要說明的是,一個真正的大數(shù)據(jù)專家應(yīng)當具備的最基本的“真功夫”是:根據(jù)產(chǎn)業(yè)發(fā)展需求設(shè)計有效的數(shù)據(jù)樣本并建立模擬應(yīng)用系統(tǒng),然后在實踐中驗證。
4)、市面上諸多大數(shù)據(jù)培訓忽悠的成分很大
前不久在南方某城市參加一個大數(shù)據(jù)主題的專業(yè)會議,會議主辦方根據(jù)經(jīng)驗預(yù)估,設(shè)定了150人的接待規(guī)模,可實際上報名到會的翻了一倍。因為會議主題是“金融業(yè)大數(shù)據(jù)”及“大數(shù)據(jù)培訓研討”。參會人員多一半為國內(nèi)各地高校的計算機及數(shù)學應(yīng)用院系的負責人。參會者流露出的一大困惑情緒是:現(xiàn)在“大數(shù)據(jù)”很熱,可是高校竟然連本像樣的“大數(shù)據(jù)”教材都沒有,這方面的師資力量十分脆弱;而社會上諸多“大數(shù)據(jù)”培訓班,基本上是忽悠人。有的培訓機構(gòu)甚至承諾:一周培訓就可以具有“數(shù)據(jù)架構(gòu)師”的能力,薪資翻幾番。
我曾在北京的一個大數(shù)據(jù)高級研討班上,私下請教一位大數(shù)據(jù)授課專家(他自稱承擔國家重點科研項目):如果不懂一個行業(yè)或者產(chǎn)業(yè)領(lǐng)域的市場特征及業(yè)務(wù)結(jié)構(gòu)行為邏輯,怎么搭建數(shù)據(jù)模型。他回答說,涉及行業(yè)及產(chǎn)業(yè)需求端,我們不負責,我們只負責根據(jù)具體的要求完成數(shù)據(jù)建模和確定合適的算法。我又問:如果需求方不具備大數(shù)據(jù)思維,陳述跑偏或者你理解有誤,最后的產(chǎn)品成果無法有效運轉(zhuǎn)怎么辦?他說:那責任在委托方。可想而知,現(xiàn)在市面上的大數(shù)據(jù)專家們在忙什么?大都忙著攢項目圈資金,然后惡補美國十年前就已經(jīng)發(fā)布的諸如Hadoop這樣的計算機軟件。學幾個計算機軟件并不難,但是研發(fā)創(chuàng)新這樣的軟件并非易事,如何有效應(yīng)用這些軟件,也需要很好的內(nèi)功。
5)大數(shù)據(jù)的應(yīng)用有盲區(qū),也有局限
在很多人看來,未來的數(shù)字世界,大數(shù)據(jù)無所不能。這實在是一個誤區(qū)。大數(shù)據(jù)技術(shù)的進步及應(yīng)用普及,主要還是基于應(yīng)用端的訴求。然而,數(shù)據(jù)分析和應(yīng)用,有兩個關(guān)鍵點:一是數(shù)據(jù)的有效性及數(shù)據(jù)資源配置條件的設(shè)定;二是不同數(shù)據(jù)流、數(shù)據(jù)模塊之間的線性及非線性關(guān)系。如果不具備這兩個前提,后續(xù)的數(shù)據(jù)分析、數(shù)據(jù)倉庫構(gòu)建等,就無法完成,更無法實現(xiàn)OLAP(Online Analytical System)功能。還有一些領(lǐng)域永遠是不可知的,比如:包括人類在內(nèi)的動物的思維神經(jīng)系統(tǒng)的數(shù)字化,這方面幾乎是上帝設(shè)計的“密碼箱”,如果人類真能夠打開它,那不是科技進步,而是人類的災(zāi)難。大數(shù)據(jù)不是萬能的,老老實實地基于人類經(jīng)濟及社會進步的理性訴求,推動大數(shù)據(jù)產(chǎn)業(yè)的理性發(fā)展才是正途。因此,未來中國大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,應(yīng)當著眼于中國經(jīng)濟社會發(fā)展進步的未來趨勢及生產(chǎn)力水平,構(gòu)建不同行領(lǐng)域的大數(shù)據(jù)生態(tài)循環(huán)系統(tǒng)。