《大數據時代:生活、工作與思維的大變革》作者之一維克托·邁爾-舍恩伯格曾表示,如同望遠鏡讓人類能夠感知宇宙,顯微鏡讓人類能夠觀測微生物一樣,大數據開啟了一次重大的時代轉型。
大數據,可謂當下IT領域最時髦的詞,簡單說就是從各種數據中快速獲取價值信息的能力。
美國是最早發現和使用大數據科學價值的國家。2012年3月,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將“大數據戰略”上升為國家戰略,奧巴馬政府甚至將大數據定義為“未來的新石油”。當時美國政府聲明說通過提高美國從大型復雜的數據集中提取知識和管理的能力,來加強整個國家的競爭力,這被認為是跟互聯網同一個級別的時代。顯然,大數據不止是一個詞匯,更是一門技術,是一個產業時代。
而中國作為世界上人口最多、GDP排名第二的國家,成立大數據國家隊是非常及時的。大數據的精髓在于“大”,它不是抽樣而是全樣,它不是盲人摸到的象腿或者是象鼻子,而是整個大象本身,大數據的精妙處在于用的人越多越增持,通過這樣一個模糊的宏觀判斷,能夠完成一個精準的個體推薦,從而會讓整個生產效率得到極大提高。
不過作為一個新生領域,盡管大數據意味著大機遇,擁有巨大的應用價值,但同時也遭遇工程技術、管理政策、人才培養、資金投入等諸多領域的大挑戰。只有解決這些基礎性的挑戰問題,才能充分利用這個大機遇,讓大數據為企業為社會充分發揮的最大價值與貢獻。
挑戰一:數據來源錯綜復雜
豐富的數據源是大數據產業發展的前提。而我國數字化的數據資源總量遠遠低于美歐,每年新增數據量僅為美國的7%,歐洲的12%,其中政府和制造業的數據資源積累遠遠落后于國外。就已有有限的數據資源來說,還存在標準化、準確性、完整性低,利用價值不高的情況,這大大降低了數據的價值。
現如今,幾乎任何規模企業,每時每刻也都在產生大量的數據,但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在于掌握規模龐大的數據信息,而在于對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是如何獲取大量有價值的數據。
未來,數據采集是一個很大的市場,因為分析的數據模型可以根據需求和思維做,但所有的前提是你的數據采集要準,現在的問題一個是采集不到,一個是采集錯了,還有一個是采集效率受到網絡帶寬限制,這幾個都做不到的話數據價值很難用起來。
大數據時代,我們需要更加全面的數據來提高分析預測的準確度,因此我們就需要更多便捷、廉價、自動的數據生產工具。除了我們在網上使用的瀏覽器有意或者無意記載著個人的信息數據之外,手機、智能手表、智能手環等各種可穿戴設備也在無時無刻地產生著數據;就連我們家里的路由器、電視機、空調、冰箱、飲水機、凈化器等也開始越來越智能并且具備了聯網功能,這些家用電器在更好地服務我們的同時,也在產生著大量的數據;甚至我們出去逛街,商戶的WIFI,運營商的3G網絡,無處不在的攝像頭電子眼,百貨大樓的自助屏幕,銀行的ATM,加油站以及遍布各個便利店的刷卡機等也都在產生著數據。
隨著移動互聯、云計算等技術的飛速發展,無論何時何地,手機等各種網絡入口以及無處不在的傳感器等,都會對個人數據進行采集、存儲、使用、分享,而這一切大都是在人們并不知曉的情況下發生。你的一舉一動、地理位置、甚至一天去過哪些地方,都會被記錄下來,成為海量無序數據中的一個數列,和其他數據進行整合分析。
比如,當你用手機掃描二維碼,并將其用微博轉發的時候,你的消費習慣、偏好,甚至你的社交圈子的信息,就已經被商家的大數據分析工具捕獲。大數據平臺在提供服務的同時,也在時刻收集著用戶的各種個人信息:消費習慣、閱讀習慣甚至生活習慣。這些數據,一方面給人們帶來了諸多便利,但另一方面,由于數據的管理還存在漏洞,那些發布出去或存儲起來的海量信息,也很容易被監視、被竊取。
大數據散發出不可估量的商業價值。但讓人感到不安的是,信息采集手段越來越高超、便捷和隱蔽,對公民個人信息的保護,無論在技術手段還是法律支撐都依然捉襟見肘。人們面臨的不僅是無休止的騷擾,更可能是各種犯罪行為的威脅。大數據時代,誰來保護公民的個人隱私?既是每個人都應當思考的問題,也是政府部門不可推卸的責任。
挑戰二:數據挖掘分析模型建立
步入大數據時代,人們紛紛在談論大數據,似乎這已經演化為新的潮流趨勢。數據比以往任何時候都更加根植于我們生活中的每個角落。我們試圖用數據去解決問題、改善福利,并且促成新的經濟繁榮。人們紛紛流露出去大數據的高期待以及對大數據分析技術的格外看好。然而,關于大數據分析,人們鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因主要有以下兩點:一是對于大數據分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大數據分析中的某些重大要件或技術還不成熟。大數據時代下數據的海量增長以及缺乏這種大數據分析邏輯以及大數據技術的待發展,正是大數據時代下我們面臨的挑戰。
大數據的大,一般人認為指的是它數據規模的海量。隨著人類在數據記錄、獲取及傳輸方面的技術革命,造成了數據獲得的便捷與低成本,這便使原有的以高成本方式獲得的描述人類態度或行為的、數據有限的小數據已然變成了一個巨大的、海量規模的數據包。這其實是一種片面認識。其實,前大數據時代也有海量的數據集,但由于其維度的單一,以及和人或社會有機活動狀態的剝離,而使其分析和認識真相的價值極為有限。大數據的真正價值不在于它的大,而在于它的全面:空間維度上的多角度、多層次信息的交叉復現;時間維度上的與人或社會有機體的活動相關聯的信息的持續呈現。
另外,要以低成本和可擴展的方式處理大數據,這就需要對整個IT架構進行重構,開發先進的軟件平臺和算法。這方面,國外又一次走在我們前面。特別是近年來以開源模式發展起來的Hadoop等大數據處理軟件平臺,及其相關產業已經在美國初步形成。而我國數據處理技術基礎薄弱,總體上以跟隨為主,難以滿足大數據大規模應用的需求。如果把大數據比作石油,那數據分析工具就是勘探、鉆井、提煉、加工的技術。我國必須掌握大數據關鍵技術,才能將資源轉化為價值。應該說,要邁過這道坎,開源技術為我們提供了很好的基礎。
因此,現在已經有很多企業開始意識到,要想真正在Hadoop平臺上做數據分析、數據挖掘的應用,有兩種選擇,要么就是匯聚一個懂數據、懂分析、懂編程又要有技巧的技術團隊來操作,要么就是選擇某家商業公司推出的成熟的大數據平臺。
總而言之,目前盡管計算機智能化有了很大進步,但還只能針對小規模、有結構或類結構的數據進行分析,談不上深層次的數據挖掘,現有的數據挖掘算法在不同行業中還難以通用。
挑戰三:數據開放與隱私的權衡
數據應用的前提是數據開放,這已經是共識。有專業人士指出,中國人口居世界首位,但2010年中國新存儲的數據為250PB,僅為日本的60%和北美的7%。目前我國一些部門和機構擁有大量數據但寧愿自己不用也不愿提供給有關部門共享,導致信息不完整或重復投資。2012年中國的數據存儲量達到64EB,其中55%的數據需要一定程度的保護,然而目前只有不到一半的數據得到保護。
下面,我們來看一下美國在數據開放方面的做法。美國政府提供政策和經費保障,使數據信息中心群成為國家信息生產和服務基地,保障數據信息供給不斷,利用網絡把數據和信息最便捷、及時地送到包括科學家、政府職員、公司職員、學校師生在內所有公民的桌上和家庭中,把全社會帶進了信息化時代。
縱觀國內,我國政府、企業和行業信息化系統建設往往缺少統一規劃和科學論證,系統之間缺乏統一的標準,形成了眾多“信息孤島”,而且受行政壟斷和商業利益所限,數據開放程度較低,以鄰為壑、共享難,這給數據利用造成極大障礙。制約我國數據資源開放和共享的一個重要因素是政策法規不完善,大數據挖掘缺乏相應的立法,畢竟我國還沒有國家層面的專門適合數據共享的國家法律,只有相關的條例、法規、章程、意見等。無法既保證共享又防止濫用,一方面欠缺推動政府和公共數據的政策,另一方面數據保護和隱私保護方面的制度不完善抑制了開放的積極性。因此,建立一個良性發展的數據共享生態系統,是我國大數據發展需要邁過去的一道砍。
開放與隱私如何平衡,亦是一大難題。任何技術都是雙刃劍,大數據也不例外。如何在推動數據全面開放、應用和共享的同時有效地保護公民、企業隱私,逐步加強隱私立法,將是大數據時代的一個重大挑戰。
全社會開放與共享數據還很難,這讓數據質量大打折扣。數據增值的關鍵在于整合,但自由整合的前提是數據的開放。在大數據的時代,開放數據的意義,不僅僅是滿足公民的知情權,更在于讓大數據時代最重要的生產資料、生活數據自由地流動起來,準確全面應用起來,以推動知識經濟和網絡經濟的發展,促進中國的經濟增長由粗放型向精細型轉型升級。然而戰略觀念上的缺失、政府機構協調困難、企業對數據共享的認識不足及投入不夠、科學家對大數據的渴望無法滿足等都是大數據在當前我國發展應用中不得不面對的困難。
挑戰四:大數據管理與決策
大數據的技術挑戰顯而易見,但其帶來的決策挑戰更為艱巨。大數據至關重要的方面,就是它會直接影響組織怎樣作決策、誰來作決策。在信息有限、獲取成本高昂且沒有被數字化的時代,組織內作重大決策的人,都是典型的位高權重的人,要不然就是高價請來的擁有專業技能和顯赫履歷的外部智囊。但是,在今時今日的商業世界中,高管的決策仍然更多地依賴個人經驗和直覺,而不是基于數據。
大數據開發的根本目的是以數據分析為基礎,幫助人們做出更明智的決策,優化企業和社會運轉。哈佛商業評論說,大數據本質上是“一場管理革命”。大數據時代的決策不能僅憑經驗,而真正要“拿數據說話”。因此,大數據能夠真正發揮作用,深層次看,還要改善我們的管理模式,需要管理方式和架構的與大數據技術工具相適配。這或許是我們最難邁過的一道坎了。
大數據應用領域仍窄小,應用費用過高,制約大數據應用。國內能利用大數據背后產業價值的行業主要集中在金融、電信、能源、證券、煙草等超大型、壟斷型企業,其他行業談大數據價值為時尚早。隨著企業內部的資料量愈來愈大,日后大數據將成為IT支出中的主要因素,特別是數據儲存所耗費的成本,很可能造成企業負擔,甚至望而卻步。因此有遠見的CIO必須預先做好準備。
挑戰五:大數據人才缺口
如果說,以Hadoop為代表的大數據是一頭小象,那么企業必須有能夠馴服它的馴獸師。在很多企業熱烈擁抱這類大數據技術時,精通大數據技術的相關人才也成為一個大缺口。
大數據建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支懂指揮、懂技術、懂管理的大數據建設專業隊伍。
可以說,真正啟動大數據在企業和社會的全面應用,面臨的不僅僅是技術和工具問題,更重要的是要轉變經營思維和組織架構,才能真正地挖掘這座大數據“金礦”。那么在大數據時代,我們要做哪些應對之策,以握戰略制勝之點?
整合與開放是基石
大數據服務創業公司Connotate對800多名商業和IT主管進行了調查。結果顯示,60%受調查者稱:“目前就說這些大數據投資項目肯定能夠帶來良好回報尚為時過早。”之所以如此,是由于當前大數據缺乏必需的開放性:數據掌握在不同的部門和企業手中,而這些部門和企業并不愿意分享數據。大數據是通過研究數據的相關性來發現客觀規律,這依賴于數據的真實性和廣泛性,數據如何做到共享和開放,這是當前大數據發展的軟肋和需要解決的大問題。
2012年美國大選,奧巴馬因數據整合而受益。在奧巴馬的競選團隊中有一個神秘的數據挖掘團隊,他們通過對海量數據進行挖掘幫助奧巴馬籌集到10億美元資金;他們通過數據挖掘使競選廣告投放效率提升了14%;他們通過制作“搖擺州”選民的詳細模型,每晚實施6.6萬次模擬選舉,推算奧巴馬在“搖擺州”的勝率,并以此來指導資源分配。奧巴馬競選團隊相比羅姆尼競選團隊最有優勢的地方:對大數據的整合。奧巴馬的數據挖掘團隊也意識到這個全世界共同的問題:數據分散在過多的數據庫中。因此,在前18個月,奧巴馬競選團隊就創建了一個單一的龐大數據系統,可以將來自民意調查者、捐資者、現場工作人員、消費者數據庫、社交媒體,以及“搖擺州”主要的民主黨投票人的信息整合在一起,不僅能告訴競選團隊如何發現選民并獲得他們的注意,還幫助數據處理團隊預測哪些類型的人有可能被某種特定的事情所說服。正如競選總指揮吉姆·梅西納所說,在整個競選活中,沒有數據做支撐的假設很少存在。
2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”,將“大數據研究”上升為國家意志。一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分。國內智慧城市建設目標之一就是實現數據的集中共享。
因此,從社會、國家領域而言,我國亟須在國家層面對大數據給予高度重視,特別需要從政策制定、資源投入、人才培養等方面給予強有力的支持;另一方面,建立良性的大數據生態環境是有效應對大數據挑戰、用好大數據的主要出路,需要科技界、工業界以及政府部門在國家政策的引導下共同努力,通過消除壁壘、成立聯盟、大數據質量標準、建立專業組織等途徑,建立和諧的大數據生態系統。
力推合作共贏的商業模式
隨著云計算、大數據技術和相關商業環境的不斷成熟,越來越多的“軟件開發者”正在利用跨行業的大數據平臺,打造創新價值的大數據應用,而且這一門檻正在不斷降低。因為首先,數據擁有者能夠以微乎其微的成本獲取額外的收入,提高利潤水平;其次,大數據設備廠商需要應用來吸引消費者購買設備,發展合作共贏的伙伴關系勢必比單純銷售設備要有利可圖,一些具有遠見的廠商已經開始通過提供資金、技術支持、入股等方式來扶持這些“軟件開發者”;第三,行業細分市場的數據分析應用需求在不斷加大,對于整個大數據產業鏈來說,創新型的行業數據應用開發者必將是未來整個大數據產業鏈中最為活躍的部分。
未來,有三種企業將在”大數據產業鏈“中處于重要地位:掌握海量有效數據的企業,有著強大數據分析能力的企業,以及創新的“軟件開發者”。社交網絡、移動互聯網、信息化企業、電信運營商都是海量數據的制造者,Facebook公司手中掌握著8.5億用戶,淘寶注冊用戶超過3.7億,騰訊的微信用戶突破3億,這些龐大用戶群所提供的數據,正在等待時機釋放出巨大商業能量。可以預測,在不久的將來,Facebook、騰訊、電信運營商等海量數據持有者或者自我延伸成為數據分析提供商,或者與IBM、ZTE等企業密切對接成為上下游合作企業,大數據產業鏈將在某個爆發時點到來之際,以令人驚訝的速度成長壯大。
大數據的殺傷力 需防患于未然
大數據時代,傳統的隨機抽樣被“所有數據的匯攏”所取代,人們的思維決斷模式,已可直接根據“是什么”來下結論,由于這樣的結論剔除了個人情緒、心理動機、抽樣精確性等因素的干擾,因此將更精確、更有預見性。不過,由于大數據過于依靠數據的匯集,一旦數據本身有問題,就很可能出現“災難性大數據”,即因為數據本身的問題,而導致錯誤的預測和決策。
大數據的理論是“在稻草堆里找一根針”,而如果“所有稻草看上去都挺像那根針”呢?過多但無法辨析真偽和價值的信息和過少的信息一樣,對于需要作出瞬間判斷、一旦判斷出錯就很可能造成嚴重后果的情況而言,同樣是一種危害。“大數據”理論是建立在“海量數據都是事實”的基礎上,而如果數據提供者造假呢?這在大數據時代變得更有害,因為人們無法控制數據提供者和搜集者本人的偏見。擁有最完善數據庫、最先接受“大數據”理念的華爾街投行和歐美大評級機構,卻每每在重大問題上判斷出錯,這本身就揭示了“大數據”的局限性。
不僅如此,大數據時代造就了一個數據庫無所不在的世界,數據監管部門面臨前所未有的壓力和責任:如何避免數據泄露對國家利益、公眾利益、個人隱私造成傷害?如何避免信息不對等,對困難群體的利益構成傷害?在有效控制風險之前,也許還是讓“大數據”繼續待在籠子里更好一些。
大數據的經濟價值已經被人們認可,大數據的技術正逐漸成熟,一旦完成數據的整合和監管,大數據爆發的時代即將到來。我們現在要做的,就是選好自己的方向,為迎接大數據的到來,提前做好準備。
以未來的視角看,無論是政府、互聯網公司、IT企業還是行業用戶,只要我們以開放的心態、創新的勇氣擁抱“大數據”,大數據時代就一定有屬于中國的機會。
大數據人才培養 迫在眉睫
大數據相關人才的欠缺將會成為影響大數據市場發展的一個重要因素。據Gartner預測,到2015年,全球將新增440萬個與大數據相關的工作崗位,且會有25%的組織設立首席數據官職位。大數據的相關職位需要的是復合型人才,能夠對數學、統計學、數據分析、機器學習和自然語言處理等多方面知識綜合掌控。未來,大數據將會出現約100萬的人才缺口,在各個行業和領域,大數據中高端人才都會成為最炙手可熱的人才,涵蓋了大數據的工程師、規劃師、分析師、架構師、應用師等多個細分領域和專業。因此需要社會、高校和企業共同努力去培養和挖掘。企業可以與學校聯合培養人才,或建立專門的數據科學家團隊,或與專業的數據處理公司合作,以解人才之急。
當大數據被討論得熱火朝天時,我們更需要冷靜地思考,如何讓技術扎實而有效地落地。雖然距離大數據時代我們還有很長的路要走,但正象孫正義昨天在烏鎮演講時最后說的:“我想說的是,我們要有信心,中國幾年后將成為世界最大的經濟體,人類的未來將充滿了機遇,會充滿了很多的快樂,有很多的光明憧憬等待著我們”。