Hadoop有多火?從業界的一系列舉動就可以看出來。包括甲骨文、微軟、Sybase在內的主流數據庫廠商都紛紛發布了Hadoop連接器產品,為的就是讓用戶可以在傳統關系型數據庫與開源分布式處理系統之間更輕松地傳輸信息。
這些廠商將Hadoop連接器軟件視為“大數據管理”戰略的重要一環,但是并不是只有主流的數據庫廠商在做這件事。像數據倉庫提供商Teradata以及惠普公司的Vertica都推出了類似的Hadoop產品,也不乏Informatica、Talend這樣的數據集成軟件廠商。而像Hortonworks、Cloudera以及MapR這樣的創業公司也在這一生態系統中扮演了非常重要的角色。
OpenLogic公司的技術總監Rod Cope在使用Hadoop方面有著非常豐富的經驗,他告誡用戶在使用Hadoop連接器之前,需要考慮應用到場景以及對數據的需求。Cope介紹他的公司使用了Hadoop、Hbase和一個列式的NoSQL數據庫組合,它們作為OpenLogic主營業務的一部分,能夠幫助其客戶審計軟件應用,以核查所使用的嵌入式開源代碼是否符合相關的許可。OpenLogic目前尚未部署任何連接器軟件,但是Cope表現出對這一技術的幾大好奇,他認為可以使用這樣的軟件來將頻繁訪問的數據從一個關系型數據庫轉移到Hbase上面做歸檔。
但是Cope認為,Hadoop連接器軟件也并不能解決所有問題,感興趣的用戶需要注意加載數據的速度。在處理大數據的時候,人們往往對性能的標準并不如之前那么關注,如果加載數據到Hadoop用戶的時間超長,那么使用連接器的意義就不大了。問題其實并不出在Hadoop上,而是你加載的數據源。
Ventana研究機構的分析師David Menninger表示,Hadoop分布式文件系統(HDFS)以及在其基礎之上構建的數據庫產品能夠為用戶提供非常好的數據管理與分析解決方案,這是相對于傳統關系型數據庫和數據倉庫而言。這些數據可能是機器生成的大數據,比如Web搜素日志、社交媒體信息、手機通話記錄以及其他一些非結構化的數據。
Menninger指出,Hadoop連接器軟件使用的一個典型場景,就是企業使用Hadoop系統從大量的非結構化數據源中抽取少量結構化分析信息,然后再將其傳輸到關系型數據庫當中以便使用BI工具進行進一步的分析。
Hadoop連接器座右銘:各得其所
Menninger表示:“目前用戶將信息放到關系型數據庫中,主要是因為用Hadoop數據源還不能輕松地制作報表。業界中有一套成熟的報表和分析系統,當然這都是針對關系型數據而言。”
這樣的數據傳輸并不一定是一錘子買賣,也許你正在計算某一事件的發生次數,然后又想要計算兩件事一起發生的次數。你可以返回到數據源,然后再處理一遍信息,這就是為什么人們不會把非結構化的數據刪除,它們可以存放在Hadoop中。
此外,同SQL數據庫相比,Hadoop為高級分析和數據挖掘應用提供了更好的環境。比如分析客服電話日志以及社交媒體上的信息,找出客戶的興趣點以及對某一產品的口碑。這對于SQL來說是非常困難的一件事,但是它可以通過Hadoop連接器來把信息傳輸到關系型數據庫或者數據倉庫當中。
Tynt多媒體公司的副總裁Cameron Befus表示,他們使用了Hadoop來為超過50萬的用戶提供分析服務。此外,Tynt還使用了開源的MySQL數據庫來作為后端的支持。到目前為止,Befus還沒有看到部署Hadoop連接器的必要,他說:“我們的確會把數據進行轉移,但這通常是很直接的。我們會把文件從Hadoop直接導入MySQL中,如果使用連接器的話也許會輕松一些,但是這對我們來說并不是什么難題。”
但IT分析師認為隨著Hadoop的普及,這樣的連接器軟件使用頻率將逐漸多起來。像Menninger這樣的分析師認為,公司希望能夠把基于Hadoop的分析結果導入更大的業務環境中去,這也是連接器技術發展的推動力。當我們看大數據的時候什么最重要?那就是這些數據能夠告訴我關鍵的問題是什么。用戶希望能夠在非結構化數據、流數據、有意義的數據以及高度結構化的數據之間構建一座橋梁,以便能夠通過分析來找到問題根源所在。