具有“大數據時代預言家”之稱的維克托·邁爾曾經在自己的著名論著《大數據時代》中預言——物聯網(IOT)技術的發展將極大地改變傳統數據存儲分析領域。這就難怪有那么多的公司正試圖投身物聯網大潮。據麥肯錫全球研究院的最新報告顯示:到2025年,物聯網行業的總營收將達6.2萬億美元。
但正如維克托擔心的一樣——這些弄潮兒們真的為物聯網將造就的大數據時代做好準備了嗎?
當然,除了技術層面的考慮,安全問題也不容忽視。但是,筆者更關心的是:全球大多數的數據中心(包括那些專門非盈利性的數據存儲和分析機構)對由物聯網即將帶來的海量數據似乎毫無準備。
當然有一些科技公司仍然堅持認為自己完全有能力管理好自己的數據中心,但是當數據量以PB或者EB為單位增加時,不知道這些公司是否還認為筆者庸人自擾?如果依舊固執己見,那么他們就不得不對相應的基礎設施進行大筆的投資。而相對聰明的公司會選擇業界領先的云存儲公司作為自己的戰略同盟。所以,由物聯網引起的大數據潮流將會助推云存儲和云計算的發展。
物聯網產生的大數據處理過程可以歸結為三個基本步驟:數據采集、數據存儲和數據分析。數據采集和存儲是基本的功能,而大數據時代真正的價值蘊含在數據分析中。對于大數據時代的到來,有專家曾經估計有半數以上的大數據公司可能夭折,而原因是他們未能掌握數據采集相關技術。當然也并不是說過了數據采集這個難關就可以萬事大吉,接下來在數據存儲方面仍有一連串的挑戰。比如,公司必須掌握如分布式計算、并行計算等先進的存儲計算方法。
2009年,甲型H1N1流感病毒肆虐全球。與流感病毒傳播速度相比,美國政府對流感病例的申告制度顯得效率低下。這時候人們才重新注意流感病毒爆發前幾周,谷歌公司幾位工程師在《Nature》上發表的一篇文章。在文章中,谷歌公司通過對全美境內5000萬條最頻繁檢索的詞條和美國疾控心公布的季節性流感傳播數據進行比較發現:在未來一段時間很可能爆發一次大規模的流感疫情,而且清楚預測出了具體的地區和州。最后疫情爆發的時候,疾控中心驚訝地發現谷歌公司的預測竟然與疫情爆發地精準吻合。所以,對于大數據時代而言真正的意義在于數據分析。
數據分析的挑戰還在于將新的物聯網數據和已有的數據庫整合。iDoNews認為,有兩個方面最令人頭疼。首先,軟件方面——原來的數據庫與物聯網數據庫之間使用的存儲方法不同,這時候就要求公司不得不靠大量的人工重新定義原來的海量數據。第二,硬件方面——兩種數據庫之間所使用硬件介質(服務器、磁盤等存儲介質和網絡等基礎設施)不同,這將導致公司需要進行更大規模的基礎設施建設。
這時候如果還有公司想靠自己一方的努力管理本公司數據,那無疑是作死。
為此,真正有眼光的企業可以采用如下三種方案:
第一種,也是最流行的方式——利用成熟的第三方數據庫服務(DBaaS),如亞馬遜的Redshift。這種模式的優勢在于,客戶公司不需要具備安裝、管理和運行任何大型數據庫的經驗和技術。
第二種,利用大數據托管服務。托管服務供應商(MSP)將負責數據收集、數據庫管理并提供進行分析和提取數據集的服務。這種模式不僅使企業專注于其商業價值所在的數據分析而將一些較難處理的事情外包,而且還使企業用戶無需大量先期投入就可以快速進入大數據應用的市場化階段,同時也解決了很多企業在該領域的技術短缺。
第三種,基于云計算的數據庫矩陣解決方案。這種模式主要針對那些具有多種不同類型、甚至非聯系型數據庫的公司。這些公司通常要求數據存放于多個數據中心,并且既存于公共端也可能存在私有的云端。公司不僅要求不同類型數據庫的解決方案,而且對自身的大數據也有不同的應用需求。美國主機服務商ServePath下的GoGrid云計算平臺正致力于這種數據庫管理服務。
物聯網的價值在于其數據,而物聯網帶來的史無前例的數據規模將驅動現在的數據服務企業發生根本性改變,這要求企業調整其大數據戰略。
等著瞧吧,物聯網必然催生出大數據管理領域的大贏家。