一、 國內(nèi)外大數(shù)據(jù)的發(fā)展狀況及應用
1、大數(shù)據(jù)已深耕于經(jīng)濟領域且創(chuàng)造了巨大的經(jīng)濟價值
美國的大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)創(chuàng)造了巨大的價值,具體表現(xiàn)在:
1)大數(shù)據(jù)使美國醫(yī)療服務質(zhì)量得到提高。
對于醫(yī)療服務的提供方和支付方來說,在減少醫(yī)療成本的同時不斷提高醫(yī)療質(zhì)量和效率仍然是一個難以實現(xiàn)的目標,而這也是改善民生的重大機遇。2010年,全美醫(yī)療支出占國內(nèi)生產(chǎn)總值的17.9%,比2000年增長13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的醫(yī)療資源。
對這些疾病和其他相關健康服務的管理將深刻地影響國家的福祉。在這方面大數(shù)據(jù)可以發(fā)揮作用。為在廣大人群中取得最有效的醫(yī)療效果,更多地使用電子健康記錄(電子健康檔案),并與新的分析工具相結合,將提供挖掘信息的機會。研究人員可以利用信息尋找有效的統(tǒng)計趨勢,并依據(jù)真實的醫(yī)療服務質(zhì)量開展醫(yī)療評估。
2)大數(shù)據(jù)使美國的交通更加便利。
通過完善信息和自動駕駛功能,大數(shù)據(jù)有可能在許多方面徹底改變交通的面貌。開車的人多,交通堵塞就多,其后果是浪費能源,造成全球氣候變暖,耗費時間和金錢。手持設備、車輛和道路上的分布式傳感器則可以提供實時交通信息。這些信息,再加上更好的自動駕駛功能,可以使駕駛更安全,交通堵塞更少。智能汽車日益互聯(lián)的新型交通生態(tài)系統(tǒng)有可能徹底改變道路使用方式。
3)大數(shù)據(jù)使美國的教育質(zhì)量得到提升。
大數(shù)據(jù)可以對美國教育及其在全球經(jīng)濟中的競爭力產(chǎn)生深遠影響。例如,通過深入地跟蹤和分析學生的在線學習活動——精細至每個鼠標點擊動作,研究人員能夠確定學生的學習方式和提高學習的方法。這種分析可以針對成千上萬的學生進行,而不是孤立的小型研究。課程和教學方法,無論是在線的,還是傳統(tǒng)的,都可以根據(jù)大規(guī)模分析所收集到的信息進行修訂。
4)大數(shù)據(jù)提高了美國的征稅效率。
由于迅速發(fā)現(xiàn)異常的能力日益增加,政府稅務部門可以縮小“稅收缺口”,即納稅人應付稅款與其自愿繳稅額之間的差額,并且對于那些試圖進行不當納稅申報的人,會深刻地改變他們的行為方式。大多數(shù)稅務機構實行“自愿繳稅與追討欠稅并舉”的模式。在這種模式下,它們接受納稅人的納稅申報單并辦理退稅,并對一部分納稅申報單進行抽查,以找出有意或無意欠稅的情況。
大數(shù)據(jù)則能夠提高欺詐檢測的水平,在納稅申報之初就揭露違規(guī)情況,減少問題退稅的發(fā)放。資料表明,在醫(yī)療領域每年產(chǎn)生3000億美元的潛在價值;在公共管理部門,每年產(chǎn)生2500億美元的潛在價值;在個人位置數(shù)據(jù)領域,每年產(chǎn)生1000億美元的市場;在零售業(yè)能夠增加60%的營業(yè)額;在制造業(yè)部門,能夠降低50%的產(chǎn)品開發(fā)及裝配成本。
5)大數(shù)據(jù)在歐洲公共管理部門得到深入應用。
大數(shù)據(jù)在OECD組織中的歐洲國家公共管理部門創(chuàng)造了1500到3000億歐元或更高的潛在經(jīng)濟價值,這些經(jīng)濟價值主要通過政府公共管理機構開支的減少、轉移支付的下降及稅收的增加來實現(xiàn)。三是全球大數(shù)據(jù)人才需求將上升并且出現(xiàn)供需缺口。Gartner咨詢公司預測,到2015年,大數(shù)據(jù)人才需求達到440萬人,人才需求缺口將達到三分之一。
2、歐美等發(fā)達國家把數(shù)據(jù)資產(chǎn)上升到國家信息戰(zhàn)略高度
1)美國已經(jīng)布局大數(shù)據(jù)產(chǎn)業(yè)。
美國政府將大數(shù)據(jù)視為強化美國競爭力的關鍵因素之一,把大數(shù)據(jù)研究和生產(chǎn)計劃提高到國家戰(zhàn)略層面。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認為大數(shù)據(jù)是“未來的新石油與礦產(chǎn)”,將“大數(shù)據(jù)研究”上升為國家意志,對未來的科技與經(jīng)濟發(fā)展必將帶來深遠影響。
以美國科學與技術政策辦公室(OSTP)為首,國土安全部、美國國家科學基金會、國防部、美國國家安全局、能源部等已經(jīng)開始了與民間企業(yè)或大學開展多項大數(shù)據(jù)相關的各種研究開發(fā)。美國政府為之撥出超過2億美元的研究開發(fā)預算。奧巴馬指出,通過提高從大型復雜的數(shù)字數(shù)據(jù)集中提取知識和觀點的能力,承諾幫助加快在科學與工程中的步伐,改變教學研究,加強國家安全。
據(jù)悉,美國國防部已經(jīng)在積極部署大數(shù)據(jù)行動,利用海量數(shù)據(jù)挖掘高價值情報,提高快速響應能力,實現(xiàn)決策自動化。而美國中央情報局通過利用大數(shù)據(jù)技術,將分析搜集的數(shù)據(jù)時間由63天縮減到27分鐘。
2012年5月美國數(shù)字政府戰(zhàn)略發(fā)布,更是提出要通過協(xié)調(diào)化的方式,所有部門共同提高收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)所需核心技術的先進性,并形成合力;擴大大數(shù)據(jù)技術開發(fā)和應用所需人才的供給。以信息和客戶為中心,改變聯(lián)邦政府工作方式,為美國民眾提供更優(yōu)公共服務。
2)歐盟及日韓將會緊隨其后。
繼美國率先開啟大數(shù)據(jù)國家戰(zhàn)略先河之后,歐盟、日本及韓國等國家也將跟進,預計不久相應的戰(zhàn)略舉措也將出臺。數(shù)據(jù)規(guī)模及運用數(shù)據(jù)的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制也將成為國家間爭奪的焦點。
法國政府為促進大數(shù)據(jù)領域的發(fā)展,將以培養(yǎng)新興企業(yè)、軟件制造商、工程師、信息系統(tǒng)設計師等為目標,開展一系列的投資計劃。法國政府在其發(fā)布的《數(shù)字化路線圖》中表示,將大力支持“大數(shù)據(jù)”在內(nèi)的戰(zhàn)略性高新技術,法國軟件編輯聯(lián)盟曾號召政府部門和私人企業(yè)共同合作,投入3億歐元資金用于推動大數(shù)據(jù)領域的發(fā)展。
法國生產(chǎn)振興部部長ArnaudMontebourg、數(shù)字經(jīng)濟部副部長FleurPellerin和投資委員LouisGallois在第二屆巴黎大數(shù)據(jù)大會結束后的第二天共同宣布了將投入1150萬歐元用于支持7個未來投資項目。這足以證明法國政府對于大數(shù)據(jù)領域發(fā)展的重視。法國政府投資這些項目的目的在于“通過發(fā)展創(chuàng)新性解決方案,并將其用于實踐,來促進法國在大數(shù)據(jù)領域的發(fā)展”。眾所周知,法國在數(shù)學和統(tǒng)計學領域具有獨一無二的優(yōu)勢。
日本為了提高信息通信領域的國際競爭力、培育新產(chǎn)業(yè),同時應用信息通信技術應對抗災救災和核電站事故等社會性問題,日本總務省于2012年7月新發(fā)布“活躍ICT日本”新綜合戰(zhàn)略,今后日本的ICT戰(zhàn)略方向備受關注。其中最為關注的是其大數(shù)據(jù)政策(從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力),日本正在針對大數(shù)據(jù)推廣的現(xiàn)狀、發(fā)展動向、面臨問題等進行探討,以期對解決社會公共問題作出貢獻。
2013年6月,安倍內(nèi)閣正式公布了新IT戰(zhàn)略——“創(chuàng)建最尖端IT國家宣言”。“宣言”全面闡述了2013~2020年期間以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略,提出要把日本建設成為一個具有“世界最高水準的廣泛運用信息產(chǎn)業(yè)技術的社會”。
3、我國大數(shù)據(jù)的國家戰(zhàn)略
爭奪新一輪技術革命制高點的戰(zhàn)役已經(jīng)打響,中國政府在美國提出《大數(shù)據(jù)研究和發(fā)展計劃》的2012年也批復了“十二五國家政務信息化建設工程規(guī)劃”,總投資額估計在幾百億,專門有人口、法人、空間、宏觀經(jīng)濟和文化等五大資源庫的五大建設工程。我國的開放、共享和智能的大數(shù)據(jù)的時代已經(jīng)來臨!
2012年8月份國務院制定了促進信息消費擴大內(nèi)需的文件,推動商業(yè)企業(yè)加快信息基礎設施演進升級,增強信息產(chǎn)品供給能力,形成行業(yè)聯(lián)盟,制定行業(yè)標準,構建大數(shù)據(jù)產(chǎn)業(yè)鏈,促進創(chuàng)新鏈與產(chǎn)業(yè)鏈有效嫁接。
同時,構建大數(shù)據(jù)研究平臺,整合創(chuàng)新資源,實施“專項計劃”,突破關鍵技術。大力推進國家發(fā)改委和中科院基礎研究大數(shù)據(jù)服務平臺應用示范項目,廣東率先啟動大數(shù)據(jù)戰(zhàn)略推動政府轉型,北京正積極探索政府公布大數(shù)據(jù)供社會開發(fā),上海也啟動大數(shù)據(jù)研發(fā)三年行動計劃。
當前,在政府部門數(shù)據(jù)對外開放,由企業(yè)系統(tǒng)分析大數(shù)據(jù)進行投資經(jīng)營方面,上海無疑是先行一步。2014年5月15日,上海市自今年起推動各級政府部門將數(shù)據(jù)對外開放,并鼓勵社會對其進行加工和運用。
根據(jù)上海市經(jīng)信委印發(fā)的《2014年度上海市政府數(shù)據(jù)資源向社會開放工作計劃》,目前已確定190項數(shù)據(jù)內(nèi)容作為2014年重點開放領域,涵蓋28個市級部門,涉及公共安全、公共服務、交通服務、教育科技、產(chǎn)業(yè)發(fā)展、金融服務、能源環(huán)境、健康衛(wèi)生、文化娛樂等11個領域。
其中市場監(jiān)管類數(shù)據(jù)和交通數(shù)據(jù)資源的開放將成為重點,這些與市民息息相關的信息查詢屆時將完全開放。這意味著企業(yè)運用大數(shù)據(jù)在上海“掘金”的時代來臨,企業(yè)投資和上海民生相關的產(chǎn)業(yè)如交通運輸、餐飲等,可以不再“盲人摸象”。
在立足國家戰(zhàn)略和產(chǎn)業(yè)政策推動大數(shù)據(jù)收集和分析技術快速發(fā)展的同時,我們也應清醒地認識到避免數(shù)據(jù)壟斷和保護數(shù)據(jù)安全的重要性,及早開展相關法律法規(guī)的探討和研究。
伴隨著大數(shù)據(jù)時代的來臨,世界各國對數(shù)據(jù)的重視提到了前所未有的高度。套上大數(shù)據(jù)的光環(huán)后,原本那些存放在服務器上平淡無奇的陳年舊數(shù)一夜之間身價倍增。按照世界經(jīng)濟論壇報告的看法,“大數(shù)據(jù)為新財富,價值堪比石油”。正如大數(shù)據(jù)之父維克托所預測,“雖然數(shù)據(jù)還沒有被列入企業(yè)的資產(chǎn)負債表,但這只是一個時間問題。”
今天的國家將大數(shù)據(jù)視為國家戰(zhàn)略,并且在實施上,也已經(jīng)進入到企業(yè)戰(zhàn)略層面,這種認識已經(jīng)遠遠超出當年的信息化戰(zhàn)略。我們上面介紹了許多國外的動態(tài),末了自然也要落腳到本國,思考本國可能采取的發(fā)展道路。但是,尚未見到網(wǎng)絡安全戰(zhàn)略和信息化發(fā)展戰(zhàn)略全文(據(jù)說兩會期間公布,也就是這幾天),我們也不妨先總結國外的情形,以便進行比較。
2014年2月27日中央網(wǎng)絡安全和信息化領導小組宣告成立,組長習近平指出,沒有網(wǎng)絡安全就沒有國家安全,沒有信息化就沒有現(xiàn)代化。建設網(wǎng)絡強國,要有自己的技術,有過硬的技術;要有豐富全面的信息服務,繁榮發(fā)展的網(wǎng)絡文化;要有良好的信息基礎設施,形成實力雄厚的信息經(jīng)濟;要有高素質(zhì)的網(wǎng)絡安全和信息化人才隊伍;要積極開展雙邊、多邊的互聯(lián)網(wǎng)國際交流合作。從話的另一方面也說明目前我們沒有自己的過硬技術,網(wǎng)絡文化還有點問題,基礎設施還是太差,人才隊伍素質(zhì)跟不上需求,也沒有可靠的盟友,信息經(jīng)濟實力太弱。
毫無疑問,中國的底子太薄了。但是,大數(shù)據(jù)是信息化時代的“石油”。開發(fā)大數(shù)據(jù)資源的能力將影響未來國家的核心競爭力。我國不能幻想走在別人修好的道路,更不能等靠,只能依賴自身能力加速前行,這種能力就是將數(shù)據(jù)轉化為信息和知識的速度與技術,而這種轉化速度和技術,則決定了大數(shù)據(jù)技術能力的高低。
二、我國大數(shù)據(jù)的發(fā)展趨勢及誤區(qū)
1、我國大數(shù)據(jù)的發(fā)展趨勢
在全球經(jīng)濟、技術一體化的今天,我國IT行業(yè)已經(jīng)開啟了大數(shù)據(jù)的起航之旅,大數(shù)據(jù)已經(jīng)在經(jīng)濟領域發(fā)揮重要作用。據(jù)計世咨訊預測,2012年,政府、互聯(lián)網(wǎng)、電信、金融等領域市場規(guī)模占據(jù)近一半的市場份額。大數(shù)據(jù)在主要經(jīng)濟領域的發(fā)展趨勢如下:
1)大數(shù)據(jù)在經(jīng)濟預警方面發(fā)揮重要作用
在2008年金融危機中,阿里平臺的海量交易記錄預測了經(jīng)濟指數(shù)的下滑。2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,預示了經(jīng)濟危機的來臨。數(shù)以萬計的中小制造商及時獲得阿里巴巴的預警,為預防危機做好了準備。
2)大數(shù)據(jù)分析成為市場營銷的重要手段
與傳統(tǒng)的市場研究方法不同,大數(shù)據(jù)的市場研究方法不再局限于抽樣調(diào)查,而是基于幾乎全樣本空間。例如,百度擁有中國最大的消費者行為數(shù)據(jù)庫,覆蓋95%的中國網(wǎng)民,搜索市場占比達87%。百度基于最真實的用戶行為數(shù)據(jù)和多維度研究工具,幫助寶潔精準的定位了消費者的地域分布、興趣愛好等信息,根據(jù)百度分析的結論,寶潔適時地調(diào)整了營銷策略。
3)大數(shù)據(jù)在臨床診斷、遠程監(jiān)控、藥品研發(fā)等領域發(fā)揮重要作用
我國目前已經(jīng)有十余座城市開展了數(shù)字醫(yī)療。病歷、影像、遠程醫(yī)療等都會產(chǎn)生大量的數(shù)據(jù)并形成電子病歷及健康檔案。基于這些海量數(shù)據(jù),醫(yī)院能夠精準地分析病人的體征、治療費用和療效數(shù)據(jù),可避免過度及副作用較為明顯的治療,此外還可以利用這些數(shù)據(jù)進行實現(xiàn)計算機遠程監(jiān)護,對慢性病進行管理等。
4)大數(shù)據(jù)為金融領域的客戶管理、營銷管理及風險管理提供重要支撐
大數(shù)據(jù)能夠解決金融領域海量數(shù)據(jù)的存儲、查詢優(yōu)化及聲音、影像等非結構化數(shù)據(jù)的處理。金融系統(tǒng)可以通過大數(shù)據(jù)分析平臺,導入客戶社交網(wǎng)絡、電子商務、終端媒體產(chǎn)生的數(shù)據(jù),從而構建客戶視圖。依托大數(shù)據(jù)平臺可以進行客戶行為跟蹤、分析,進而獲取用戶的消費習慣、風險收益偏好等。針對用戶這些特性,銀行等金融部門能夠?qū)嵤╋L險及營銷管理。
當前,我國正處在全面建成小康社會征程中,工業(yè)化、信息化、城鎮(zhèn)化、農(nóng)業(yè)現(xiàn)代化任務很重,建設下一代信息基礎設施,發(fā)展現(xiàn)代信息技術產(chǎn)業(yè)體系,健全信息安全保障體系,推進信息網(wǎng)絡技術廣泛運用,是實現(xiàn)四化同步發(fā)展的保證。大數(shù)據(jù)分析對我們深刻領會世情和國情,把握規(guī)律,實現(xiàn)科學發(fā)展,做出科學決策具有重要意義。
中國人口居世界首位,將會成為產(chǎn)生數(shù)據(jù)量最多的國家,但我們對數(shù)據(jù)保存不夠重視,對存儲數(shù)據(jù)的利用率也不高。此外,我國一些部門和機構擁有大量數(shù)據(jù)卻不愿與其他部門共享,導致信息不完整或重復投資。政府應通過體制機制改革打破數(shù)據(jù)割據(jù)與封鎖,應注重公開信息,應重視數(shù)據(jù)挖掘。美國聯(lián)邦政府建立統(tǒng)一數(shù)據(jù)開放門戶網(wǎng)站,為社會提供信息服務并鼓勵挖掘與利用。
2、我國大數(shù)據(jù)行業(yè)的誤區(qū)
誤區(qū)一:只有搞大數(shù)據(jù)技術開發(fā)的,才是真正“圈內(nèi)人”。
筆者曾經(jīng)參加過若干會議,70%是偏技術的,在場的都是國內(nèi)各個數(shù)據(jù)相關項目經(jīng)理和技術帶頭人,大家討論的話題都是在升級CDH版本的時候有什么問題,在處理Hive作業(yè)的時候哪種方式更好,在Storm、Kafka匹配時如何效率更高,在Spark應用時內(nèi)存如何釋放這些問題。參會者都一個態(tài)度:不懂大數(shù)據(jù)技術的人沒資格評論大數(shù)據(jù),您要不懂Hadoop2.0中的資源配置,不懂Spark在內(nèi)存的駐留時間調(diào)優(yōu),不懂Kafka采集就別參加這個會!對了,最近Google完全拋棄MR只用Dataflow了,您懂嗎?不懂滾粗!
在這里我想說,技術的進步都是由業(yè)務驅(qū)動的,某寶去了IOE才能叫大數(shù)據(jù)嗎,我作為一個聾啞人按摩師用結繩記事完成了對于不同體型的人,用什么按摩手法進行全流程治療,就不叫大數(shù)據(jù)分析了嗎?技術發(fā)展到什么程度,只有一小部分是由科學家追求極致的精神驅(qū)動,大部分原因是因為業(yè)務發(fā)展到一定程度,要求技術必須做出進步才能達成目標的。
所以,真正的大數(shù)據(jù)“圈內(nèi)人”至少要包含以下幾種人:
1)業(yè)務運營人員。
比如互聯(lián)網(wǎng)的產(chǎn)品經(jīng)理要求技術人員,必須在用戶到達網(wǎng)站的時候就算出他今天的心情指數(shù),而且要實現(xiàn)動態(tài)監(jiān)測,這時候只能用Storm或者Spark來處理了;比如電信運營商要求做到實時營銷,用戶進入營業(yè)廳的時候,必須馬上推送短信給用戶,提示他本營業(yè)廳有一個特別適合他的相親對象(呈現(xiàn)身高、三圍、體重等指標),但是見面前要先購買4G手機;再比如病人來到銀行開戶,銀行了解到用戶最近1周曾經(jīng)去醫(yī)院門診過兩次,出國旅游過3次,帶孩子游泳兩次,馬上客戶經(jīng)理就給客戶推薦相關的銀行保險+理財產(chǎn)品。這些業(yè)務人員,往往是驅(qū)動技術進步的核心原因。
2)架構師。
架構師有多么重要,當一個業(yè)務人員和一個工程師,一個說著業(yè)務語言,一個說著技術術語在那里討論問題的時候,工程師往往想著用什么樣的代碼能馬上讓他閉嘴,而架構師往往會跳出來說“不,不能那樣,你這樣寫只能解決一個問題并且會制造后續(xù)的若干問題,按照我這個方案來,可以解決后續(xù)的若干問題!”一個非技術企業(yè)的IT系統(tǒng)水平,往往有70%以上的標準掌握在架構設計人員手里,盡快很多優(yōu)秀的架構師都是從工程師慢慢發(fā)展學習而來的,IT架構的重要性,很多企業(yè)都意識到了,這就是很多企業(yè)有CTO和CIO兩個職位,同樣重要!架構之美,當IT系統(tǒng)平穩(wěn)運行的時候沒人能感受到,但是在一個煙囪林立、架構混亂的環(huán)境中走過的人眼中,IT開發(fā)一定要架構現(xiàn)行,開發(fā)在后!
3)投資人。
老板,不用說了,老板給你吃穿,你給老板賣命,天生的基礎資料提供者,老板說要有山便有了山,老板說要做實時數(shù)據(jù)處理分析,便有了Storm,老板說要做開源,便有了Hadoop,老板還說要做迭代挖掘,便有了Spark……
4)科學家。
他們是別人眼中的Geek,他們是別人眼中的高大上,他們是類似于霍金一樣的神秘的早出晚歸晝伏夜出的眼睛男女,他們是驅(qū)動世界技術進步的核心力量。除了世界頂級的IT公司(往往世界技術方向掌握在他們手中),其他公司一般需要1-2個科學家足以,他們是真正投身于科學的人,不要讓他們?nèi)タ紤]業(yè)務場景,不要讓他們?nèi)タ紤]業(yè)務流程,不要讓他們?nèi)ビ嬎愠杀荆灰屗麄內(nèi)タ紤]項目進度,他們唯一需要考慮的就是如何在某個指標上擊敗對手,在某個指標上提高0.1%已經(jīng)讓他們可以連續(xù)奮戰(zhàn),不眠不休,讓我們都為這些科學家喝彩和歡呼吧。在中國,我認為真正的大數(shù)據(jù)科學家不超過百人……
5)工程師。
工程師是這樣一群可愛的人,他們年輕,沖動,有理想,又被人尊稱為“屌絲”“鍵盤黨”,他們孜孜不倦的為自己的理想而拼搏,每次自己取得一點點進步的時候,都在考慮是不是地鐵口的雞蛋灌餅又漲了五毛錢。他們敏感,自負,從來不屑于和業(yè)務人員去爭論。工程師和科學家的不同點在于,工程師需要頻繁改動代碼,頻繁測試程序,頻繁上線,但是最后的系統(tǒng)是由若干工程師的代碼組合起來的。每個自負的工程師看到系統(tǒng)的歷史代碼都會鄙視的發(fā)出一聲“哼,這垃圾代碼”,之后便投入到被后人繼續(xù)鄙視的代碼編寫工作中去。
6)跟風者。
他們中有些是培訓師,有些是殺馬特洗剪吹,有些是煤老板有些是失足少女。他們的特點就是炒,和炒房者唯一不同的就是,他們不用付出金錢,他們認為只要和數(shù)據(jù)沾邊就叫大數(shù)據(jù),他們有些人甚至從來沒碰過IT系統(tǒng),他們是渾水摸魚、濫竽充數(shù)的高手,他們是被前幾種人鄙視的隱形人。不過我想說,歡迎來炒,一個行業(yè)炒的越兇,真正有價值的人就更能發(fā)揮自己的作用。
誤區(qū)二:只有大數(shù)據(jù)才能拯救世界
大數(shù)據(jù)目前的技術和應用都是在數(shù)據(jù)分析、數(shù)據(jù)倉庫等方面,主要針對OLAP(OnlineAnalyticalSystem),從技術角度來說,包含我總結的兩條腿:一條腿是批量數(shù)據(jù)處理(包括MR、MPP等),另一條腿實時數(shù)據(jù)流處理(Storm、內(nèi)存數(shù)據(jù)庫等)。
在此基礎上,部分場景又發(fā)現(xiàn)MR框架或?qū)崟r框架不能很好的滿足近線、迭代的挖掘需要,故又產(chǎn)生了目前非常火的基于內(nèi)存數(shù)據(jù)處理Spark框架。很多企業(yè)目前的大數(shù)據(jù)框架是,一方面以Hadoop2.0之上的Hive、Pig框架處理底層的數(shù)據(jù)加工和處理,把按照業(yè)務邏輯處理完的數(shù)據(jù)直接送入到應用數(shù)據(jù)庫中;另一方面以Storm流處理引擎處理實時的數(shù)據(jù),根據(jù)業(yè)務營銷的規(guī)則觸發(fā)相應的營銷場景。同時,用基于Spark處理技術集群滿足對于實時數(shù)據(jù)加工、挖掘的需求。
以上描述可以看出,大數(shù)據(jù)說白了就是還沒有進入真正的交易系統(tǒng),沒有在OLTP(OnlineTransactionsystem)方面做出太大的貢獻。至于很多文章把大數(shù)據(jù)和物聯(lián)網(wǎng)、泛在網(wǎng)、智慧城市都聯(lián)系在一起,我認為大數(shù)據(jù)不過是條件之一,其余的OLTP系統(tǒng)是否具備,物理網(wǎng)絡甚至組織架構都是重要因素。
最后還想說,大數(shù)據(jù)處理技術,再炫如Google的Dataflow或成熟如Hadoop2.0、數(shù)據(jù)倉庫、Storm等,本質(zhì)上都是數(shù)據(jù)加工工具,對于很多工程師來說,只需要把數(shù)據(jù)處理流程搞清楚就可以了,在這個平臺上可以用固定的模版和腳本進行數(shù)據(jù)加工已經(jīng)足夠。畢竟數(shù)據(jù)的價值70%以上是對業(yè)務應用而言的,一個炫詞對于業(yè)務如果沒有幫助,終將只是屠龍之術。任何技術、IT架構都要符合業(yè)務規(guī)劃、符合業(yè)務發(fā)展的要求,否則技術只會妨礙業(yè)務和生產(chǎn)力的發(fā)展。
隨著時代變遷,大浪淘沙,作為數(shù)據(jù)行業(yè)的一員,我們每個人都在不同的角色之間轉換,今天你可能是科學家,明天就會變成架構師,今天的工程師也會變成幾年后的科學家,部分人還終將步入跟風者的行列。
三、我國大數(shù)據(jù)發(fā)展的機遇和困境
1、大數(shù)據(jù)迎來大發(fā)展的機遇
大數(shù)據(jù)的快速發(fā)展,使它成為IT領域的又一大新興產(chǎn)業(yè)。據(jù)中央財經(jīng)大學中國經(jīng)濟管理研究院博士張永力估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟件行業(yè)的兩倍。我國2012年大數(shù)據(jù)市場規(guī)模大約4.7億元,2013年增速將達到138%,達到11.2億元,產(chǎn)業(yè)發(fā)展?jié)摿Ψ浅>薮蟆?/p>
1)政府積極介入推動
2009年,聯(lián)合國啟動“全球脈動計劃”,借大數(shù)據(jù)推動落后地區(qū)發(fā)展。2012年1月,世界經(jīng)濟論壇年會把“大數(shù)據(jù)、大影響”作為重要議題。美國從開放政府數(shù)據(jù)、開展關鍵技術研究和推動大數(shù)據(jù)應用三方面布局大數(shù)據(jù)產(chǎn)業(yè)。美國在開放政府上非常積極,通過Data.gov開放37萬個數(shù)據(jù)集,并開放網(wǎng)站的API和源代碼,提供上千個數(shù)據(jù)應用。除了推動本國政府數(shù)據(jù)開放,美國倡導發(fā)起全球開放政府數(shù)據(jù)運動,已有41個國家響應。美國政府還投資兩億美元促進大數(shù)據(jù)核心技術研究和應用,把大數(shù)據(jù)放在與集成電路、互聯(lián)網(wǎng)同等重要的位臵,從國家層面推進。
2)資本市場也對大數(shù)據(jù)鐘愛有加
2012年4月,大數(shù)據(jù)分析公司Splunk高調(diào)宣傳大數(shù)據(jù),引發(fā)投資者關注。12月初,為企業(yè)市場提供Hadoop解決方案的創(chuàng)業(yè)公司Cloudera獲得6500萬美元融資,估值約為7億美元。近期,高盛聯(lián)席主席斯科特。斯坦福說:“投資大數(shù)據(jù)及其運用回報率最高”。大數(shù)據(jù)領域的企業(yè)并購熱度也在上升,單筆平均并購金額方面,大數(shù)據(jù)超過云計算位居IT領域榜首,在總并購額上也位居第二。
3)人才需求巨大
據(jù)一家國際咨詢公司,蓋特納咨詢公司預測大數(shù)據(jù)將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。麥肯錫公司預測美國到2018年需要深度數(shù)據(jù)分析人才44萬—49萬,缺口14萬—19萬人;需要既熟悉本單位需求又了解大數(shù)據(jù)技術與應用的管理者150萬,這方面的人才缺口更大。中國是人才大國,但能理解與應用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源。
4)各方積極參與
大數(shù)據(jù)的火爆,也帶動了國內(nèi)學術界、產(chǎn)業(yè)界和政府對大數(shù)據(jù)的熱情。2011年以來,中國計算機學會、中國通信學會先后成立了大數(shù)據(jù)委員會,研究大數(shù)據(jù)中的科學與工程問題,科技部的《中國云科技發(fā)展“十二五”專項規(guī)劃》和工信部的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》等都把大數(shù)據(jù)技術作為一項重點予以支持。
其中工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術作為4項關鍵技術創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項關鍵技術創(chuàng)新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數(shù)據(jù)”密切相關。
應用方面,中國三大通信運營商都在結合自身業(yè)務情況,積極推進大數(shù)據(jù)應用工作,并取得了較好的進展。電子商務企業(yè)阿里巴巴提出要做中國數(shù)據(jù)分析第一平臺,通過掌握的企業(yè)交易數(shù)據(jù),借助大數(shù)據(jù)技術自動分析判定是否給予企業(yè)貸款,全程不會出現(xiàn)人工干預。據(jù)透露,截至目前阿里巴巴已經(jīng)放貸300多億元,壞賬率約0.3%左右,大大低于商業(yè)銀行。
研發(fā)企業(yè)方面,我國能夠處理大數(shù)據(jù)的企業(yè)并不是很多。北京永洪科技在這方面做的不錯。永洪科技在大數(shù)據(jù)、分布式計算、數(shù)據(jù)分析等領域具備核心競爭力、自主創(chuàng)新并擁有多項發(fā)明專利。推出的Z系列產(chǎn)品在大數(shù)據(jù)的應用分析中在國際上也是領先的。
大數(shù)據(jù)的熱潮觸發(fā)了一場思想啟蒙運動,使得“大數(shù)據(jù)是資產(chǎn),不是包袱”、“要拿數(shù)據(jù)說話”等觀念逐步深入人心,改變了以往不重視數(shù)據(jù)積累,不相信數(shù)據(jù)分析等認識。有了這種思維模式的改變,大數(shù)據(jù)的應用就有了希望。
2、大數(shù)據(jù)落地面臨的困難
應該說,全球來看,對大數(shù)據(jù)認識、研究和應用還都處于初期階段。特別是對我國來說,大數(shù)據(jù)真正落地,還需要邁過三道坎。
1)數(shù)據(jù)是否足夠豐富和開放
豐富的數(shù)據(jù)源是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的前提。而我國數(shù)字化的數(shù)據(jù)資源總量遠遠低于美歐,每年新增數(shù)據(jù)量僅為美國的7%,歐洲的12%,其中政府和制造業(yè)的數(shù)據(jù)資源積累遠遠落后于國外。就已有有限的數(shù)據(jù)資源來說,還存在標準化、準確性、完整性低,利用價值不高的情況,這大大降低了數(shù)據(jù)的價值。
同時,我國政府、企業(yè)和行業(yè)信息化系統(tǒng)建設往往缺少統(tǒng)一規(guī)劃和科學論證,系統(tǒng)之間缺乏統(tǒng)一的標準,形成了眾多“信息孤島”,而且受行政壟斷和商業(yè)利益所限,數(shù)據(jù)開放程度較低,以鄰為壑、共享難,這給數(shù)據(jù)利用造成極大障礙。制約我國數(shù)據(jù)資源開放和共享的一個重要因素是政策法規(guī)不完善,大數(shù)據(jù)挖掘缺乏相應的立法,無法既保證共享又防止濫用,一方面欠缺推動政府和公共數(shù)據(jù)的政策,另一方面數(shù)據(jù)保護和隱私保護方面的制度不完善抑制了開放的積極性。因此,建立一個良性發(fā)展的數(shù)據(jù)共享生態(tài)系統(tǒng),是我國大數(shù)據(jù)發(fā)展需要邁過去的第一道砍。
2)是否掌握強大的數(shù)據(jù)分析工具
要以低成本和可擴展的方式處理大數(shù)據(jù),這就需要對整個IT架構進行重構,開發(fā)先進的軟件平臺和算法。這方面,國外又一次走在我們前面。特別是近年來以開源模式發(fā)展起來的Hadoop等大數(shù)據(jù)處理軟件平臺,及其相關產(chǎn)業(yè)已經(jīng)在美國初步形成。
而我國數(shù)據(jù)處理技術基礎薄弱,總體上以跟隨為主,難以滿足大數(shù)據(jù)大規(guī)模應用的需求。如果把大數(shù)據(jù)比作石油,那數(shù)據(jù)分析工具就是勘探、鉆井、提煉、加工的技術。我國必須掌握大數(shù)據(jù)關鍵技術,才能將資源轉化為價值。應該說,要邁過這道坎,開源技術為我們提供了很好的基礎。
3)管理理念和運作方式能否適配數(shù)據(jù)化決策
大數(shù)據(jù)開發(fā)的根本目的是以數(shù)據(jù)分析為基礎,幫助人們做出更明智的決策,優(yōu)化企業(yè)和社會運轉。哈佛商業(yè)評論說,大數(shù)據(jù)本質(zhì)上是“一場管理革命”。大數(shù)據(jù)時代的決策不能僅憑經(jīng)驗,而真正要“拿數(shù)據(jù)說話”。因此,大數(shù)據(jù)能夠真正發(fā)揮作用,深層次看,還要改善我們的管理模式,需要管理方式和架構的與大數(shù)據(jù)技術工具相適配。這或許是我們最難邁過的一道坎了。
四、對我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的建議
大數(shù)據(jù)有巨大的社會和商業(yè)價值,就看會不會挖掘,是否善于運用數(shù)據(jù)分析的結果。同時,它又是一個應用驅(qū)動性很強的服務,要做好大數(shù)據(jù)產(chǎn)業(yè),為經(jīng)濟發(fā)展提供更大的動力,需要從以下幾人方面入手。
1、建立一套運行機制。
大數(shù)據(jù)建設是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運行機制,以促進建設過程中各個環(huán)節(jié)的正規(guī)有序,實現(xiàn)統(tǒng)合,搞好頂層設計。
2、規(guī)范一套建設標準。
沒有標準就沒有系統(tǒng)。應建立面向不同主題、覆蓋各個領域、不斷動態(tài)更新的大數(shù)據(jù)建設標準,為實現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡互連、信息互通、資源共享奠定基礎。
3、搭建一個共享平臺。
數(shù)據(jù)只有不斷流動和充分共享,才有生命力。應在各專用數(shù)據(jù)庫建設的基礎上,通過數(shù)據(jù)集成,實現(xiàn)各級各類指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。
4、培養(yǎng)一支專業(yè)隊伍。
大數(shù)據(jù)建設的每個環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術、懂管理的大數(shù)據(jù)建設專業(yè)隊伍。
五、結論
目前,大數(shù)據(jù)在電信、智慧城市、電子商務及社交娛樂等行業(yè)已經(jīng)出現(xiàn)規(guī)模化應用,中國大數(shù)據(jù)市場將進入高速發(fā)展時期。大數(shù)據(jù)真正的價值體現(xiàn)在從海量且多樣的內(nèi)容中提取用戶行為、用戶數(shù)據(jù)、特征并轉化為數(shù)據(jù)資源,對數(shù)據(jù)資源進一步加以挖掘和分析,增強用戶信息獲取的便利性,實現(xiàn)從產(chǎn)品價值導向到以客戶體驗價值為中心導向的轉換,客戶體驗的提升也正是激發(fā)信息消費的根本原因。
中國信息消費市場規(guī)模量級巨大,增長迅速。在網(wǎng)絡能力的提升、居民消費升級和四化加快融合發(fā)展的背景下,新技術、新產(chǎn)品、新內(nèi)容、新服務、新業(yè)態(tài)不斷激發(fā)新的消費需求,而作為提升信息消費體驗的重要手段,大數(shù)據(jù)將在行業(yè)領域獲得廣泛應用。
大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素,大數(shù)據(jù)的演進與生產(chǎn)力的提高有著直接的關系。隨著網(wǎng)速的大幅提升,數(shù)據(jù)也將迎來爆發(fā)式增長,快速獲取、處理、分析海量、多樣化的交易數(shù)據(jù)、交互數(shù)據(jù)與傳感數(shù)據(jù),從而實現(xiàn)信息再價值化,對大數(shù)據(jù)的利用將成為企業(yè)提高核心競爭力和搶占市場先機的關鍵。大數(shù)據(jù)因其巨大的商業(yè)價值正在成為推動信息產(chǎn)業(yè)變革的新引擎。
中國發(fā)展大數(shù)據(jù),具有得天獨厚的優(yōu)勢,主要體現(xiàn)在我國的特殊的國情,擁有獨特的位勢和經(jīng)濟社會高速穩(wěn)定發(fā)展,給大數(shù)據(jù)及其應用帶來了巨大的發(fā)展空間。大數(shù)據(jù)在我國各領域和不同行業(yè)的應用潛力巨大、機遇重大。大數(shù)據(jù)的核心技術進展和大數(shù)據(jù)應用有可能帶來我國新興戰(zhàn)略性產(chǎn)業(yè)發(fā)展的新機遇。