前言:在大數據時代,傳統的業務模式已經不能適合新形勢的發展要求,一次大變革已經悄然拉開序幕。
在日前舉行的2012 Teradata天睿公司大數據分析方案研討會上,Teradata高級解決方案顧問李向前對IT專家網記者表示,由于SQL和MapReduceSQL各自的缺陷和優勢,二者都無法獨立承擔大數據分析的重任,綜合二者之長的SQL-MapReduce,才是大數據分析的趨勢。
Teradata認為,當前非結構化的數據增長更快,每天都產生大量的數據,分析的豐富程度也在增加。因此,大數據的分析,需要一個快速的、簡單的、scale-up的分析平臺。
李向前表示,首先,在大數據時代,傳統的SQL已經不能滿足所有的業務需求,一些查詢不靈活、不直觀或者很難準確表述,且DB系統會選擇一個較差的執行計劃執行,效率低下。其次,傳統的UDF存在一定的缺陷,運算函數非常有限,表函數無法做到并行處理,固定的schema限制了重復使用。第三,大數據分析的需求可能用RDBMS無法滿足。
正式由于上述原因,在大數據成為最新挑戰的今天,始建于2011年在谷歌執行一個大數據處理的Map/Reduce系統逐漸受到關注。Map/Reduce是一種并行編程模式,定義有Map/Reduce兩個函數,并且獨立于任何特定的實現。MapReduce可以擴展支持到非常大的數據規模,克服了傳統數據倉庫擴展性限制和難以表達等問題,已經被很多知名的數據規模比較大的互聯網公司使用;MapReduce還提供高效的編程模式,簡單、移動,并實現最大程度的并行。
然而,Teradata認為,MapReduce有一個致命的弱點,即非常依賴于編程實現。這意味著,MapReduce很難重復使用,隨著新的業務問題不斷的出現,都需要重新編碼,這無疑加大了使用難度和工作量,也間接增加了企業的投入成本。
李向前表示,彌補代溝的最佳選擇是SQL-MapReduce.
SQL/MapReduce(簡稱SQL/MR)是Aster Data的一個框架,支持當前流行的Java和C預言,用戶可以將代碼安裝在nCluster中,可以在數據庫中由SQL調用,系統將自動并行執行。
李向前介紹,SQL/MR以“21世紀的UDF(a UDF for21st century)”為目標,致力于提供良好的可擴展性,友好的分析界面和開發界面。
可擴展性:非常容易讓數百臺服務器的硬件資源發揮作用;容錯性由系統自動處理。
分析界面:分析師可以用類似SQL語言靈活表述;開發人員開發被分析師廣泛使用的工具;查詢的語義無需與具體的實現方式混合在一起。
開發界面:簡單易懂的編程模式;便捷的開發平臺服務,開發人員盡可能自由發揮。
Aster Data是Teradata收購獲得的資產。為將不同渠道的數據放在一起,并且充分利用傳統SQL的作用,Aster Data提供了一個支持行列混合存儲的機制,并且結構化數據與非結構化數據可以分開存儲,聚合分析,其底層有一個高速互聯的連接器。
簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。