在剛剛過去的2013年,以電商和互聯網企業為代表的IT先驅們不斷試水大數據業務,電信、金融以及保險等傳統行業也對大數據的發展前景予以充分肯定并積極布局;另一方面,那些從事數據庫、信息管理、數據分析與挖掘的IT服務提供商們不斷從旁搖旗吶喊,致使大數據保持了高頻率的媒體曝光度;甚至在資本市場中,那些具備大數據潛能的IT企業也被評為“績優股”,相關的技術收購和企業兼并也在緊鑼密鼓地進行中。
不難看出,繼云計算在ICT領域大行其道之后,“大數據”接棒成為下一個炙手可熱的關鍵詞。許多未能在云計算“炒作期”內聲名鵲起的企業都試圖加入大數據行列,希望借此掀開下一輪的行業風潮,但問題是,大數據真的來了嗎?
答案似乎是令人失望的,無論從大數據的用戶需求、開放數據源、技術手段、商業模式還是法律法規方面來看,距離真正的商用都有很長一段路要走。而這段必經的過渡期并不會因大數據所蘊藏的巨大能量而縮短,相反的,大數據的“落地之旅”還要等到業界對大數據的“熱炒”褪去,才會真正開始。
這一點在Gartner給出的大數據炒作周期模型(Hype Cycle for Big Data)中得到了充分印證。Gartner認為,所有的新興技術概念都要經歷“概念孕育期—泡沫炒作期—泡沫幻滅期—應用發展期—成熟生產期”,大數據也不例外。而目前,大數據正處于“泡沫炒作期”且該趨勢還會繼續攀升,相比之下,云計算已經度過了炒作期的最高峰,進入到“泡沫幻滅期”的下坡階段。
Gartner研究總監曾劭清告訴《通信世界》記者:“大數據只有進入‘泡沫幻滅期’后,才會真正面對來自市場、用戶、技術以及應用等方面的現實挑戰。而目前,那些‘大數據’的積極參與者們必須要面對技術未成熟、數據難統一、應用粗放式以及法律未健全等一系列的待解難題。”
大數據是多種技術的集合體
對于大數據的理解,業界往往存在兩種誤區,其一認為大數據即當下與日俱增的網絡流量,基于互聯網/移動互聯網業務和數量的不斷攀升,每時每刻都在產生PB級的內容信息和網絡信令,但其實,這僅是“大數據”的一部分。
那些人與物、物與物的網絡互聯和信息交替為“大數據”奠定了數據基礎,業界對于大數據的不斷重視更多的是源于物聯網的發展。基于傳感網、物聯網、社交網絡、視頻語音智能搜索系統產生了大量的商業模式和運營體系,相應的移動設備、追蹤器、射頻傳感等器件產品也開始大量涌現,由此可能引發出的信息量將不可估計。
另一類誤解是,大數據的技術核心在于數據庫和分析挖掘工具,其實不然。所謂大數據,是涵蓋了處理時效(Velocity)、數據格式(Variety)與數據量(Volume)三大類內容,因此所需的技術也非單一,而是多種前沿技術的綜合體。除了處理常規的結構化數據,企業還需要對那些大量的非結構化數據進行捕捉、收集、清洗、挖掘和分享等。
為此,Gartner羅列了近50種相關技術,如基于Hadoop的SQL接口編程、面向電子商務的大數據分析能力等等,這些技術距離成熟可能還需要2到5年甚至10年的時間,而他們的成熟與否將直接決定大數據何時才能走出過渡階段。
“慶幸的是,我們已看到一些關鍵技術的成熟和部署速度在不斷加快,比如文本分析(Text Analytics)、內存中分析(In-Memory Analytics)、智能電子裝置(Intelligent Electronic Devices)、社交媒體監測(Social Media Monitors)、語音識別技術(Speech Recognition)等。這些技術的成熟將有效支撐大數據從前端采集到后端分析的完整技術鏈條。”曾劭清總監這樣表示。
國內數據開放尚存挑戰
技術是大數據的實現手段,而數據源則是根本基礎。按照中國工程院院士鄔賀銓的話說,大數據強調的不是數據而是挖掘,我國需要盡快制定“信息保護法”和“信息公開法”,既要鼓勵面向群體而且服務社會的數據挖掘,又要防止針對個體侵犯隱私的行為,提倡數據共享又要防止數據被濫用。
事實也是如此,數據的公開化與合法化對于大數據產業生態起著至關重要的作用。在美國,由于政府、公共、民生等行業早已將數據開放化,不僅數據免費而且軟件代碼也開放源代碼,這使得大數據的應用創新層出不窮。
FlyOnTime.us就是一家“讓數據說話”的企業。該網站將歷史航班延誤時間的數據、美國聯邦公司航空管理局的機場信息以及美國國家海洋和大氣管理局的以往氣象報告和國家氣象服務的實時狀態聯合起來,由此可以很準確地判斷出惡劣環境下某一特定機場的航班延遲情況,用戶實現了航班的實時查詢、延遲判斷以及在平臺上進行交互和反饋。
但在中國,數據公開化和合法化還存在著太多挑戰。在合規性方面,我國至今尚沒有形成國家層面的有關數據共享的法律,只有相關的條文、法規以及章程和意見作為支撐。各部門、各行業的數據相互獨立。
類似淘寶、京東這類電商企業的BI營銷和內容推送等多是基于互聯網用戶過往的交易信息和瀏覽記錄,而這種粗放式的數據分析與挖掘方式雖然可以針對個體進行營銷,但由于無法了解更深入的用戶信息(比如用戶的個人信息、收入水平、位置信息、喜愛偏好等),對于促進再次消費的能力還很有限。
而一個完整的用戶信息圖譜起碼需要三方力量的配合,首先是銀行提供的個人信息、薪資水平、消費能力等,其次是運營商提供的家庭成員信息、位置信息以及定位服務,最后是電商平臺的消費記錄、搜索瀏覽記錄等。但現階段,銀行、電信運營商以及電商還無法實現用戶數據的共享。
多領域企業試水“大數據”
不過在互聯網領域,包括淘寶、阿里巴巴、京東、亞馬遜等知名電商已經在數據應用方面做出了不小的成果。淘寶架構師毛波對此表示,每年的“雙十一”都是一次挑戰,面對每分鐘數億次的交易量,淘寶需要提前進行數據分析并做好各種應對高并發性的預案。“在這方面,雖然Hadoop的實時分析并不占優勢,但可用做之前的預測準備,對往年情況如用戶消費習慣、搜索習慣、瀏覽習慣等數據進行分析,作為當天數據分析的基礎。”
IT服務商們也打響了有關“大數據”的暗戰。IBM、SAP、Oracle以及Teradata等傳統的從事數據庫、數據倉庫以及分析工具的IT服務商們不斷強化自身在大數據領域的技術能力,對于一些創新技術的企業收購也在進行當中。而類似浪潮、HP、DELL等IT硬件廠商也在迎合大數據的市場需求,推出面向數據分析的硬件方案以及相關分析平臺。據了解,聯想希望借助大數據完成自身“由硬及軟”的完美蛻變,其自主研發的大數據分析平臺正在公司內部試用,2014年有望面世。
在金融、電力、航空等行業領域內,傳統的信息和數據的獲取渠道正在擴大,基于用戶的社交信息、電子商務以及移動終端上所產生的非結構化數據也被收集過來,由此構建更為完整的用戶全景視圖。比如,花旗銀行在向用戶推薦金融產品時會基于“全景”數據進行分析,當儲戶為孩子開辦了信用卡,銀行則推薦給用戶“成長學習”類的理財基金,而當某儲戶有了裝修計劃后,該銀行也會立即推薦適合的分期式貸款業務。
海外運營商靠大數據“掙錢”
在電信領域,三家運營商很早就開始了數據分析實踐,不過很大程度上這種分析都是為了內部優化。比如通過收集網管系統中各地區的信號強弱質量和用戶掉話率,可以分析出各個細分地區的無線網絡信號的覆蓋情況,進而對移動網絡的性能和指標進行微調,優化網絡覆蓋能力。與此同時,運營商鼓勵內部創新,一些省公司基于自身數據平臺建立BI系統、客戶挽留系統等,對于保持用戶滿意度和增強用戶粘性起到了一定的促進作用。
而在海外運營商看來,大數據也可以賺錢。在2012年,西班牙電信Telefonica創立了獨立業務單元Telefonica Dynamic Insights,以合法化的方式在英國向政府機關、零售商等出售收集到經過整理的匿名統計性的用戶信息。比如英國倫敦郊區新開了一家大型購物中心,西班牙電信通過移動網絡收集到活躍在購物中心附近的用戶群體,通過分析他們的個人信息(如性別、年齡、居住地址以及家庭成員等)得出該購物中心的主流消費群的年齡、收入、家庭結構以及喜愛偏好等信息,用以更好地促進賣家進行針對性營銷。然而,Telefonica短期內并不會將該業務在德國開展,因為德國有一些全球最嚴格的數據保護法案。
當然,這些被出售的信息都是統計性的,并非針對個體成員,西班牙電信早在用戶進行業務辦理時,就通過或優惠或贈送的方式獲得了用戶公開自身數據的許可。