就像空氣和水一樣,數據在我們周圍自然而然地存在著。每一次點擊鼠標,每一次刷卡消費,每一次撥打電話,每一次駕車出行……數據便已生成。我們每一個人既是數據的消費者,也是數據的生產者,每天都生成海量數據。
研究表明,過去5年里,人類行為產生的數據量增長了10倍,而在接下來10年中,這一增長將達到29倍。軟件巨頭EMC公司預計,到2020年,全球數據使用量將達到大約40ZB(1ZB=10億TB)。這些數據意味著什么,對我們有何價值?這就是當前最熱門的“大數據”研究。中國工程院院士高文說:“不管你是否認同,大數據時代已經來臨,并將深刻地改變著我們的工作和生活。”
被視為戰略資源
一家電信運營商運用社交分析,篩選了3.65億段電話記錄,找出可能流失的客戶并提供針對性的服務,大大提高了季度收益;一家金融服務公司從570億筆ATM交易中檢測出了欺詐模式……這是體現大數據價值的一些典型例子。
凱格總裁兼首席科學家杰米·霍華德說,與傳統的、結構化的、關系型數據不同,“電話記錄”等數據是非結構化的。據國際數據公司調查,非結構化數據在大數據中約占80%至90%,包括網絡日志、語音、視頻、圖片、地理位置、傳感信息等。作為新的尚未開發的信息源,非結構化數據分析可以揭露以前很難或無法確定的重要相互關系。
“這是最關鍵的。”大數據的出現讓人們放棄了對因果關系的渴求,轉而關注相關關系,人們只需知道“是什么”,而不用知道“為什么”,這顛覆了千百年來人類的思維模式,對人類的認知方式和交流方式提出了新挑戰。
除了體量大、數據類型繁多這兩個特征外,能否快速實時處理海量數據是衡量是否是大數據的關鍵維度。杰米·霍華德說:“大數據并非只有數百個TB才算得上,有時候數百個GB的數據也可稱為大數據,這主要要看數據的處理速度。如果能在1秒之內分析處理通常情況下需要花費1個小時的數據,這種變化帶來的價值是非常巨大的。”
目前,隨著移動互聯網、云計算、物聯網等新一代信息技術的普及應用,智能手機、平板電腦、PC以及遍布各個角落的傳感器,正在越來越多地接入到網絡,成為數據來源和承載方式。各種交互數據、傳感數據正源源不斷從各行各業迅速生成。這些數量龐大、種類廣泛、迅速產生和更新的大數據,蘊含著前所未有的社會價值和商業價值。
杰米·霍華德說,像能源、原材料一樣,大數據已成為提高未來競爭力的關鍵要素。比如,通過遍布各地的電子眼和監控攝像頭,警務系統可以基于大數據識別一些危險的人或危險的行為,發現苗頭進行預警。比如,通過車上的GPS和手機,當交通進入擁堵狀態,交管部門可以通過手機信號的大數據運用,提示車主進入某個路段要收費,從而控制交通流量,等等。麥肯錫的最新調查研究顯示,大數據可以在任何一個行業內創造更多價值。如,零售業可以利用大數據提高60%的運營利潤,歐洲政府利用大數據每年可以減少1000億歐元的開支,同時避免偷稅漏稅行為。
鑒于大數據潛在的巨大影響,很多國家或國際組織都將大數據視作戰略資源,并將大數據提升為國家戰略。美國政府把大數據看成是“未來的新石油”。2012年3月,美國奧巴馬政府宣布了“大數據研發計劃”,并設立了2億美元的啟動資金,希望增強海量數據收集、分析萃取能力,認為這事關美國的國家安全和未來競爭力。聯合國推出的“全球脈動”項目,希望利用“大數據”預測某些地區的失業率或疾病爆發等現象,以提前指導援助項目。
主要是商業應用
盡管大數據應用在國防、反恐、安全以及社會管理等諸多領域,不過,企業應用還是大數據的主要推動者。IBM商業價值研究院的一項研究表明,在各個行業中,大數據業務主要集中在滿足以客戶為中心這一目標上。被調查企業認為,大數據有能力更好地了解和預測客戶行為,并因此改善客戶體驗。
在互聯網時代,在網上留下的每個“足跡”,聚集了大量的“前兆性”行為數據,如購買商品前先瀏覽、比價,觀看電影前先搜索影評等,把這些數據搜集起來,通過進一步分析便可快速獲取影響未來的信息。“這就意味著,借助大數據技術,公司可以比以往任何時候都更加了解消費者。”
阿里小貸就是運用大數據了解和預測客戶行為的典范。
對于大多數小微企業或個體戶而言,規模較小、風險大,如果無抵押、無擔保,從銀行獲得貸款的難度很大。不過,阿里小貸卻與眾不同,借款者憑借的是企業的“信譽”這一資源,不用提交任何抵押與擔保。
信譽從何而來?阿里金融高級專家年勁飛說,阿里巴巴、淘寶、天貓這些“阿里系”的電商平臺,每天記錄著各個商家、網店等小微企業的銷售額、信用記錄、顧客流量、評論、商品價格和存貨等各類數據。顯然,阿里對此了如指掌。“通過分析大量企業以及消費者行為數據,信用體系建立起來了,阿里小貸由此而生。”
像阿里小貸一樣,在金融、電信、媒體、制造、醫療、地產等行業,大數據顛覆傳統的故事輪番上演。沃爾瑪基于數據分析的結果,將某些商品放置在一起;eBay通過數據分析技術,精確計算出廣告中的每一個關鍵字為公司帶來的回報以優化廣告投放,2007年以來eBay產品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%。
除了作為大數據服務消費者的企業躍躍欲試,作為大數據服務提供者的企業也早已卷入其中。IT巨頭如英特爾、IBM、甲骨文、微軟等,早已對大數據的存儲、處理和應用進行布局,在大數據的管理和分析上投入了巨額資金。2010年以來,歐美IT巨頭掀起了一輪與大數據相關的并購潮。英特爾并購了安全軟件制造商McAfee等大數據處理以及架構廠商來彌補自己在軟件上的能力;IBM通過并購數據分析公司來增強自己在海量數據處理上的實力。這些IT巨頭幾乎搶占了搜索服務、數據庫、服務器、存儲設備、數據挖掘等核心價值環節。
國內的淘寶、百度、騰訊以及金蝶軟件等也加入了大數據的生產、研究、應用行列。金蝶國際軟件集團有限公司首席科學家、高級副總裁張良杰告訴記者:“我們參與搭建的全國中小企業信息平臺,匯集了4000萬家企業,通過對這些企業海量數據的挖掘和分析,能夠對經濟運行狀況作出準確的預警,有助于國家相關部門作出應對決策。”
無論作為消費者還是供應商,企業開拓了大數據廣闊的市場前景。據預計,從2013年到2018年,全球大數據市場將會出現年均26%的增長率,即從今年的148.7億美元增長到2018年的463.4億美元。
瓶頸有待突破
大數據在帶來機遇的同時,也帶來了不可忽視的一系列挑戰。
“‘存不下’和‘查不快’,是我們面臨的兩大難題。”中國工程院院士高文說。現在數據源源不斷地產生,除非增加存儲設備,但如此一來勢必會增加存儲成本。“目前,街頭攝像頭拍攝的視頻數據,通常只會存一段時間,有的保存三個月,有的保存一個月,就被覆蓋掉,為什么會這樣?就是因為存不起,費用太高。”高文表示,提高視頻的壓縮效率是解決存儲問題的途徑之一,目前科研人員正在從事第三代編碼技術的研究,以減少空間占用。
在數據處理上,由于大數據中大部分都是非結構化的數據,現有的軟件和工具主要適用于以結構化數據為主的傳統數據,要想及時捕捉、存儲、聚合和管理這些大數據,以及對數據進行深度分析和挖掘,需要新的技術和能力。而我國數據存儲、處理技術基礎薄弱,總體上以跟隨為主,難以滿足大數據大規模應用的需求。
此外,掌握非結構化數據或流數據的分析技能,對大多數企業來說是一個持續的挑戰。在這些領域中,盡管硬件和軟件已經成熟,但技能仍然缺乏。在美國,對高技能數據分析人才的需求,可能超出目前預測供應量的50%至60%。到2018年,美國需要新增多達14萬至19萬名專家。“人才緊缺的狀況如果不解決將嚴重影響大數據應用。”凱格總裁兼首席科學家杰米·霍華德說。
“大數據”對個人信息獲取渠道拓寬的需求引發了另一個重要問題:隱私和便利性之間的沖突。一方面,大數據需要共享、數據開放、平臺利用,而目前我國一些部門和機構擁有大量數據但受行政壟斷和商業利益所限,數據開放程度也較低,有些部門把一些數據當成自己的,放那里既不使用,也不提供給研究者。專家指出,這是我國大數據研究的軟肋和需要解決的大問題。
另一方面,消費者在享受大數據帶來好處的同時,個人購買偏好、健康和財務情況的海量數據被收集,對隱私的擔憂也在增大。高文表示,從純技術角度來說,美國的“棱鏡”項目是一個典型的通過分析海量通訊數據獲取安全情報的大數據案例,但嚴重侵犯了個人隱私。
“這些瓶頸與挑戰,是國內外大數據發展當中都面臨的問題,只是我國在某些方面表現得更為突出。”高文說,“因此我們應該下定決心迎頭趕上。”