大數據產業發展的核心目的是什么?其目的是服務于各個行業的產業升級和業態創新,而不是惟大數據而大數據,既不應陷入大數據發展盲區,更不要掉入少數學院派技術“權威”挖掘的“大數據”陷阱。
大數據產業發展的核心目的是什么?其目的是服務于各個行業的產業升級和業態創新,而不是惟大數據而大數據,既不應陷入大數據發展盲區,更不要掉入少數學院派技術“權威”挖掘的“大數據”陷阱。
“大數據”一詞越來越火辣,煽情全球。出于一種職業精神和科學良知,江濡山及其團隊,近幾年來深入調研剖析“大數據”產業到底是怎么回事。從美國的SaaS、亞馬遜、谷歌、蘋果、思科到中國的華為、騰訊、浪潮及航天某某研究所;從美國北卡三角地、舊金山的硅谷、波士頓的哈佛及MIT到中國的北京中關村、深圳前海、清華大學及北大……江濡山團隊通過諸多神不知鬼不覺的走訪、調查和分析,終于可以撕下“大數據”神秘的面紗。
江濡山“不吐不快”的調查分析結果,廓清了大數據概念,同時建議我國發展大數據產業要從兩方面發力,即加速大數據應用的系統工程建設和基礎數據工程建設。詳情參見下文。
1.撕開“大數據”的神秘面紗:原來如此!
技術進步及社會演進,正在推動整個人類的生活生存方式、消費結構全面轉型,并加速邁向數字化時代。可以預見,未來十多年,“大數據”思維及技術創新,將更猛烈、更深刻地顛覆傳統產業形態。這意味著:幾乎各個產業領域都將迎來基礎數據工程建設及大數據應用系統建設兩方面的爆發式發展的機遇。因此,說大數據產業是值得挖掘的金山銀山,一點也不過分。但這并不等于“大數據”是萬能的、大數據產業的發展可以隨心所欲。
現在,中國經濟運行雖然已經步入嚴寒季節,但“大數據”一詞熱得燙嘴,無論是政府官員、產業精英,還是IT領域、高等學府、高技術開發區,如果開口閉口不說“大數據”,似乎都不好意思“混在當下”;如果嘴里偶爾能蹦出一兩個諸如Hadoop、Storm、Spark、IOE的時髦名詞,就更顯出一幅業內高手的神態。其實,我要說的是:“大數據”并不是什么新鮮玩意兒,自從工業革命開始以來,數據科學就越來越得到人們的重視,只是到了21世紀初,數據應用的積累,深深觸動了產業重構和業態創新,“大數據”一詞才應運而生。“大數據”并非數據越多越好、運算量越大越好,其綜合含義應當是:針對并服務于某個特定目標的立體數據生態系統,而且這個系統中的前端功能模型、中斷數據架構及后端算法及編程,是一個統一體系。確切地說,“大數據”概念的內涵及外延,主要體現在三個層面:
一是基于行業趨勢及產業業態創新的需求端“功能模塊”的構建,這是一個需要具有大數據思維邏輯的產業經濟的命題。比如:如果要優化一個區域的旅游產業結構、投資結構、資源配置結構,可以通過完善產業供給鏈達到延伸游客消費鏈的目的,這就需要建立區域性的動態運行的“旅游產業大數據”信息系統,而此舉首先要做的是:產業發展物理模塊的策劃、設計、搭建和論證。這項工作是實施這項大數據項目的“前提”。
二是基于產業發展功能模塊基礎的“數據模塊”的搭建設計,這是一個緊密服務于應用端訴求的有效數據關系分析、確定算法的復雜過程,這也是數據建模及搭建特別功能屬性的數據倉庫的過程,需要用人力思維與計算機算法的有機結合。目前,這個領域的技術才剛剛開始向產業領域滲透,未來可拓展空間很大。
三是基于數據模塊進行的數據挖掘、采集、清洗和應用編程。這個過程實際上是“技術工人”的工作,多數計算機及信息系統專業的人都可以完成,如果在熟練應用傳統計算機信息系統應用軟件的基礎上,熟練掌握Hadoop、Spark、IOE等操作系統,就可以完成此項工作,但更多的工作量還得基于Excel來完成,因此,把Excel玩熟玩透是玩好大數據的基礎,或許更有價值。
綜合來看,大數據人才的價值主要體現在上述的前兩個層面。
2.一流的大數據人才到底隱身何處?
當下的中國乃至全球,能真正看清“大數據”的真正面目,并通過數據革命引領產業創新的優秀人才屈指可數,到是人云亦云、跟風弄潮者確實不少。可以不夸張地說,全球范圍類,類似Perntland(MIT)、Norvig(Google)、Geoffrey Hinton(Google)、鄂維南(北大)、Andrew Ng吳恩達(百度)這樣的大數據專家,全球也不過二三百人,而赴其后塵者的新銳大數據專家,估計全球不過千人左右。
所謂的大數據專家,不單是計算機及信息系統領域的專家,也不是行業及專業領域里的權威,而是善于把應用訴求端與數據技術服務端,用大數據思維整合到一起的復合專家,通俗來講,是市場行家、產業及產品專家、有效數據資源識別及配置高手的復合體。大數據專家既可以是一位在某個行業領域里具有這三項功能的復核人才,比如:MIT的Perntland、谷歌的Norvig、百度的吳恩達等大牛,也可以是具有這三項功能的人形成的“人才組合Team”,比如亞馬遜的物流物聯研究小組。真正的大數據專業人才之所以太稀少,是因為他們的思維細微深深扎根于市場,他們是從市場上“野蠻”生成的,絕非閉門于高等學府可以修煉出來的。
上述的這些大數據專家到底隱身潛伏在哪里呢?俗話說:大隱隱于市。他們就隱身于一流的科技公司埋頭鉆研。縱觀全球,百分之七八十的優秀大數據專業人才,都就職于全球頂尖的科技公司,在高等學府和基礎研究機構的大數據專家的確很少。蘋果、亞馬遜、谷歌、高通、SaaS、思科、華為、騰訊、阿里、百度等等全球前50家頂尖企業,幾乎壟斷了大數據專家,然而,他們未必意識到自己就是一流的“大數據”專家。相反,有不少深居高等學府、科研機構和咨詢公司的一般的計算機及網絡技術專業人士,卻自詡為“大數據專家”,在全球范圍內混吃混喝。
今天的中國,我們看到的是不少偽專家一方面給企業家、投資人灌迷糊湯,一方面給政府官員貼膏藥。有些所謂的大數據專家,頭頂不少學術桂冠,雖然立項后拿到了政府和投資人的項目經費,卻老虎吃天不知如何下口,索性關起門來,只停留在“Excel”的基礎上閉門坐車,盲目地搗鼓數據庫。值得警惕的是:投機心態驅使下的一些缺乏實戰經驗的“學術權威”,正在編制“大數據”陷阱,政府及投資人如果不能認清“大數據”的真面目,很容易就掉入“陷阱”,盲目投資。
3.中國要振興“大數據產業”得先做好兩件事
很多人在玩弄新概念和時髦名詞方面,似乎有天生的優越基因。現在,不少人開始大肆忽悠“大數據”產業,其中不乏別有用心的投機者和半生不熟的技術官僚。從目前情形看,圍繞“大數據”產業,正在形成技術官僚“小圈子”。在有些人看來,名利雙收的機會又來了。很顯然,從中央到地方,政府財政對大數據產業的研究及扶持資金,規模空前且不斷增多;市場投資人也越來越青睞大數據概念及其應用的產業。但是,針對大數據的研究成果,全世界尚沒有考核標準和評價辦法。對此,應當引入“涇渭分明”的透明機制,并重點向骨干企業、有應用價值及創新技術含量的企業傾斜。可謂“涇渭分明”?就是:應用研究與基礎研究分軌運行---針對企業,側重于大數據產業的應用投入;針對高等院校、科研機構,重點支持與大數據關聯的基礎領域的研究。切記不要被不熟悉市場、不了解產業特征、知識結構老化的“技術官僚”所把控。
中國作為全球經濟產出體量最大、消費需求規模最大的新型經濟體,大數據產業對推動各個產業領域的創新發展,具有不可估量的發展空間。但是,振興“大數據”產業,既不能盲目受產業領域專家的影響,也應當突破“技術官僚”的小圈子,面向市場、面向一流的科技企業、面向年輕的技術隊伍。大致來說,應當在兩個方面發力:
一是加速大數據應用的系統工程建設。這是最主要的、也是見效最快的,此舉需要具備“喬布斯式的組合混搭思維”加速推進中國的大數據產業發展,即:用大數據思維模式把行業、產業專家與數據專家有機結合起來,直面各個行業領域的產業轉型及業態創新。
二是加速基礎數據工程建設。這是一項基礎研究,是慢功夫,需要在西方現有的技術軟件基礎上創新研發,短期內要有突破性的成果還比較難,但要舍得投入。這方面應當由數據技術專家領銜和主導,在高等院校和對應的科研機構完成。從長遠看,此舉是提升國家大數據技術水準的戰略舉措。
切記:不要將上述兩個方面混為一談。但這與“產學研一體化”不矛盾。
4.關于“大數據產業”,需要強調的幾個概念
1)“大數據產業”并非一個獨立的產業,他只是一個服務性的工具。
大數據技術的研究及應用,是以市場訴求及產業經濟發展需要為基礎的,它不過是服務于特定目標的技術手段。因此,目前最最緊缺的是行業性的大數據專才,比如醫學領域急需要懂得人體生命科學及健康學的具有大數據思維的專家。
2)大數據思維比大數據本身更重要,物理模塊比數字模塊更有價值。
因此,大數據人才并非只有數理學科的專業人才,而是混合型人才,比如:能夠寫計算機編碼程序的人比比皆是、身價也不高,因為他們只知其然不知其所以然。然而,大數據時代的“架構師”不是單純的數字建模和初級的行業知識,而是能夠獨立策劃設計出產業創新發展物理模塊的專家。也就是說,玩“大數據”的技術圈子,若單純靠Hadoop、MR、Storm、Spark、Kafka、Dataflow這些數據處理技術,只能搭建出沒有使用價值的空中樓閣,其研究只能自困于小圈子而漸漸窒息。因此,如果大數據的研發及應用,只是數據技術的“圈內人”,那的確是一種悲哀。
3)“沒有數據源”是個偽命題。
我最近跟不少談吐大數據的人士交流過程中,大家普遍有這樣的感嘆:中國的數據壟斷與分割很嚴重,搞大數據研究缺乏數據資源,根本得不到政府各個職能部門及中國電信、中國聯通這樣的數據,怎么搞研究?而且也沒有數據交易市場。其實,“沒有數據源”這是一個偽命題。事實上在美國、在歐洲、在日本,數據作為一種核心的資源,在很多領域、在很大程度上也是不公開的,即使美國硅谷一些專家呼吁建立數據交易市場,那也是太過天真的想法,不可能完全實現。越是大數據時代,數據資源越是寶貴,任何機構和個人越是不會輕易泄露自己的數據信息。其實,并不是數據越多越好、數據流量越大越好,有效數據及數據關系才是最重要的。因此,大數據研究與應用,在很大程度上是研究模式和研究方法問題,如果把握好應用端的明確訴求,采集有效數據樣本并不是太難。比如:類似Hadoop(2006年發布的分布式數據開發應用程序),Spark(UC Berkeley AMP lab發布的數據并行計算框架軟件)、Dataflow(數據流)等等大數據軟件及名詞,最初都源自谷歌等IT企業及美國一些理工科大學的實驗室。它源自實踐也必然生存和成長于實踐。因此,推動大數據產業發展的“數據源”主要來自自身,第三方研究服務者的數據主要來自需求方的委托。特別需要說明的是,一個真正的大數據專家應當具備的最基本的“真功夫”是:根據產業發展需求設計有效的數據樣本并建立模擬應用系統,然后在實踐中驗證。
4)市面上諸多大數據培訓忽悠的成分很大。
前不久在南方某城市參加一個大數據主題的專業會議,會議主辦方根據經驗預估,設定了150人的接待規模,可實際上報名到會的翻了一倍。因為會議主題是“金融業大數據”及“大數據培訓研討”。參會人員多一半為國內各地高校的計算機及數學應用院系的負責人。參會者流露出的一大困惑情緒是:現在“大數據”很熱,可是高校竟然連本像樣的“大數據”教材都沒有,這方面的師資力量十分脆弱;而社會上諸多“大數據”培訓班,基本上是忽悠人。有的培訓機構甚至承諾:一周培訓就可以具有“數據架構師”的能力,薪資翻幾番。
我曾在北京的一個大數據高級研討班上,私下請教一位大數據授課專家(他自稱承擔國家重點科研項目):如果不懂一個行業或者產業領域的市場特征及業務結構行為邏輯,怎么搭建數據模型。他回答說,涉及行業及產業需求端,我們不負責,我們只負責根據具體的要求完成數據建模和確定合適的算法。我又問:如果需求方不具備大數據思維,陳述跑偏或者你理解有誤,最后的產品成果無法有效運轉怎么辦?他說:那責任在委托方。可想而知,現在市面上的大數據專家們在忙什么?大都忙著攢項目圈資金,然后惡補美國十年前就已經發布的諸如Hadoop這樣的計算機軟件。學幾個計算機軟件并不難,但是研發創新這樣的軟件并非易事,如何有效應用這些軟件,也需要很好的內功。
5)大數據的應用有盲區,也有局限。
在很多人看來,未來的數字世界,大數據無所不能。這實在是一個誤區。大數據技術的進步及應用普及,主要還是基于應用端的訴求。然而,數據分析和應用,有兩個關鍵點:一是數據的有效性及數據資源配置條件的設定;二是不同數據流、數據模塊之間的線性及非線性關系。如果不具備這兩個前提,后續的數據分析、數據倉庫構建等,就無法完成,更無法實現OLAP(Online Analytical System)功能。還有一些領域永遠是不可知的,比如:包括人類在內的動物的思維神經系統的數字化,這方面幾乎是上帝設計的“密碼箱”,如果人類真能夠打開它,那不是科技進步,而是人類的災難。大數據不是萬能的,老老實實地基于人類經濟及社會進步的理性訴求,推動大數據產業的理性發展才是正途。因此,未來中國大數據產業的發展,應當著眼于中國經濟社會發展進步的未來趨勢及生產力水平,構建不同行領域的大數據生態循環系統。