云端的大數據就像科幻小說里對未來的描繪一樣:它在這,只是不是很均勻地分布罷了。
高調的廠商,比如AWS、谷歌、微軟、IBM和Rackspace等,都提供云基礎的Hadoop和NoSQL數據庫平臺來支持大數據應用程序。很多初創公司都引入了云平臺上的管理服務,按需部署自己的系統。大數據和云計算的融合往往是互聯網公司的首先項,尤其是初創的軟件和數據服務供應商。
但很多主流公司并不像互聯網公司那樣看重云端數據管理。一些公司擔心云端的數據安全和隱私保護。一些公司還在大型機和其他本地系統里運行大部分操作。存儲在本地的數據量之大,讓數據遷移充滿挑戰。另外,現存數據中心可用的處理能力讓AWS和谷歌等公有云的成本優勢不值一提,即使公司對于云系統所謂的降低成本、增加彈性有興趣,最終也未必會選擇它。
花旗集團就是一個例子。隨著網絡成為普及的應用界面,金融服務公司面對的是洪水般的非結構化數據。它還需要處理線上金融應用程序中不同的數據結構。這些挑戰讓花旗集團最后選擇了MongoDB NoSQL數據庫。MongoDB獲得了AWS和其他云平臺的支持。花旗數據公司負責平臺工程的全球領導者Michael Simone表示,花旗選擇了在云端應用該軟件。不過它應用的是私有云,應用限定在紐約公司的防火墻內,由它的IT部門全權管理。
在紐約的MongoDB大會上,Simone告訴與會者:“目前,我們還沒有擴展私有云或集成公有云的打算。花旗集團的數據中心很大,技術積累也很深厚,我們可以構建自己的內部部署的云就算。”
大數據云才剛剛開始
總體來看,在云端運行大數據系統仍然是小眾行為。在數據倉庫研究院開發的大數據成熟度模型中,十個月內有222名IT和業務專家完成了線上測評,只有19%的人表示它們的組織在用公有云、私有云和混合云支持大數據應用程序。另有40%的人表示正在考慮云部署,同時有超過三分之一的人表示它們沒有使用云計算的計劃。在企業管理協會和9sight咨詢公司開展的線上調查中,云計算使用比例略高:259名受訪者中,39%的人表示他們的大數據安裝包括云系統。
WeatherChannel公司是采用了公有云的案例,Basho技術公司在AWS可用性區域的多個分區運行了Basho技術公司的NoSQL數據庫Riak的復制實例,處理和存儲來自衛星、雷達系統、天氣站等來源的混合數據。該數據庫每五分鐘就為預測引擎更新3萬6千多地理天氣網格的視圖,它還用于歸檔歷史數據。
美國TWC公司執行副總裁兼CIO Bryson Koehler認為,Riak的容錯技術和同時支持內存和硬盤存儲的功能特別好。經過比較,因為處理效果低,主流關系型數據庫并不能適應高容量的云環境,至少不能以較低的成本適應高容量的云環境。
但是,在云端部署NoSQL軟件也是旨在擴大TWC靈活性的更廣泛的IT戰略的題中之義。公司在谷歌云和AWS上運行應用程序,以免被任何供應商或技術鎖定。
云計算:更多選擇 更多可能
公有云供應商已經為了滿足大數據需求,已經擴展了數據管理能力,不止包含關系型數據庫。例如,亞馬遜近幾年拓寬了AWS云選項,包含了很多新興技術,比如NoSQL數據庫DynamoDB、Hadoop部署ElasticMapReduce和ElastiCache內存緩存服務、Redshift數據倉庫和Kinesis流數據系統。
美國咨詢公司Cloud Technology Partners高級副總裁DavidLinthicum表示:“AWS和其他云供應商也創建了相當成熟的服務。一些可用的數據管理云平臺已經發展到第五代第六代了。”
[page]
對于擁有強大的內部處理能力的大公司來說,給大數據管理池增加云基礎的系統并不是必須的。美國云服務咨詢公司Nimbo的首席基礎架構師Aaron Ebertowski表示:“為什么要企業定購它們已經有了的東西呢?企業已經在存儲架構投了成百上千美元,不會輕易舍棄的。”
業績要求也是公有云不受大數據用戶青睞的原因之一。加拿大海洋網絡(ONC)是一家非營利性機構,該機構管理著英屬哥倫比亞的一對海洋氣象臺,計劃建立一個公司內部私有云,為使用海洋傳感器提供數據的應用模擬地震和海嘯創造條件。
目標在于更加準確地預測可能發生的自然災害帶來的后果,為政府當局采取預防措施緩解自然災害給人們帶來的影響,Benoit Pirenne這樣說道,他是ONC的數字基礎設施主管。
需求——充足的大數據力量
該機構位于維多利亞大學,去年春天得到了一項三年項目的批準和資金支持。計劃進行的分析工作包括收集傳感器的多次測定結果,運行預測模型以得出可能發生的所有情況集。但是完成這項工作需要大量數據和強大的計算能力,Pirenne說道。
“要計算現實狀況中的“模擬”幾乎是不可能完成的任務,就算在非常高級的平行云系統中也不行。”他說。因此,ONC正在與IBM合作構建一個內部云加過來處理流程和分析工作。
新興的管理服務供應商——例如Altiscale, BitYota, Qubole, Treasure Data和Rackspace'sObjectRocket附屬公司等——稱他們通過以低于云平臺供應商的價格接管部署和管理任務,能夠為用戶企業將大數據云裝置做的更方便、更劃算。
美國的Sellpoints公司是一個線上營銷和分析服務供應商,使用Hadoop和Spark的流程工具迅速構建查詢表格,查詢數據量達到TB用戶網頁活躍度數據,BennyBlum如此說,他是Sellpoint公司業績營銷和分析的副總裁。
Hadoop實用工具
Blum的公司首先將其自身的Hadoop系統應用到了亞馬遜彈性計算云(或EC2)平臺上。但是現在該公司已經換成了Altiscal的Hadoop作為服務供應。這一服務也在亞馬遜云上運行,但是Blum表示將Hadoop的構造和管理下線為Sellpoints帶來了紅利。“Altiscale為我們管理了基礎設施,這樣我們就不必為維護集群而付運營費了。”
但是至少迄今為止,該類服務的用戶基本都是這些新興企業自身。大多是服務供應商的顧客基礎還維持在一位數或兩位數。
RickSherman是AthenaIT解決方案這一美國咨詢公司的創始人,他認為有理由相信基于云端的Hadoop服務尤其能夠在更廣闊的基礎上運行。“人們在使用自給自足的Hadoop時遇到了一堵墻,”他說。“這在時間和技巧上都需要付出很多。我認為最終Hadoop作為服務會比公司內部Hadoop更具吸引力。”
然而有些企業還完全沒有準備好接受公有云中的Hadoop,而且近期內也不會準備好接受。這就是Ayad Shammout所面臨的問題,他是美國Beth Israel Deaconess醫學中心(BIDMC)的數據平臺和商務智能主管。去年他還是位獨立咨詢師的時候,就與另一位咨詢師合作,為BIDMC做了一個大數據和云計算定義證明項目。為了降低SQL服務器數據庫上的存儲量和流程需求,他們使用了Azure HDInsight,Microsoft的基于云端的Hadoop發行,用以卸載應用審計日志的存檔文件,這些日志用于微軟的Azure云管理報告。
Shammout表示示范項目展示出了在云端云頂Hadoop應用的潛力。他還認為像BIDMC這種衛生保健型供應商最終能夠將其實現。但是在未來幾年之內,美國的聯邦健康保險可移植性法案和問責制法案還阻礙著生產的展開。
“如果三四年前我跟你談論云端,我會說‘這不會發生的。’”Shammout說道。“現在我認為云端會在某些部門實現應用。我的期望是再過三四年,云數據隱私就不成問題了。”