在當(dāng)今企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。大數(shù)據(jù)將挑戰(zhàn)企業(yè)的存儲(chǔ)架構(gòu)、數(shù)據(jù)中心的基礎(chǔ)設(shè)施等,也會(huì)引發(fā)數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、商業(yè)智能、云計(jì)算等應(yīng)用的連鎖反應(yīng)。未來企業(yè)會(huì)將更多的TB級(jí)(1TB=1024GB)數(shù)據(jù)集用于商務(wù)智能和商務(wù)分析。到2020年,全球數(shù)據(jù)使用量預(yù)計(jì)將暴增44倍,達(dá)到35.2ZB(1ZB=10億TB)。大數(shù)據(jù)正在徹底改變IT世界。10月幾大科技巨頭的舉動(dòng)使更多人意識(shí)到所謂的高科技泡沫——即“大數(shù)據(jù)”正在無限的膨脹。
微軟與Hortonworks合作開發(fā)Hadoop
早在今年2月,微軟的HPC開發(fā)團(tuán)隊(duì)就公布了被稱為“Dryad”的分布式計(jì)算平臺(tái)。這也標(biāo)志著微軟向Windows HPC Server用戶提供了能夠進(jìn)行海量數(shù)據(jù)處理的工具。微軟推出Dryad的目就是鼓勵(lì)開發(fā)者們?cè)赪indows或者.Net平臺(tái)上編寫大規(guī)模的并行應(yīng)用程序。在當(dāng)時(shí)這也被視為微軟在大數(shù)據(jù)領(lǐng)域與Hadoop對(duì)抗的有力產(chǎn)品。
但微軟卻于10月12日在西雅圖舉行的SQL PASS 2011峰會(huì)上出乎所有人預(yù)料的宣布將與從雅虎分拆出來的Hortonworks合作開發(fā)Hadoop,并將在Apache Hadoop上實(shí)現(xiàn)搭建Windows Azure以及Windows Server平臺(tái)。同時(shí)基于Hadoop的Windows Server還會(huì)與微軟現(xiàn)有的BI工具聯(lián)合處理任務(wù)。
微軟與Hortonworks深度合作的目標(biāo)是借助Hortonworks在此領(lǐng)域的專長幫助最大化將Hadoop集成到微軟的產(chǎn)品之中。同時(shí)兩家的合作可幫助簡化下載、安裝和配置等幾個(gè)Hadoop的相關(guān)技術(shù)。包括HDFS、Hive、Pig。這將有利于企業(yè)通過Hadoop拓寬自身的業(yè)務(wù)。微軟還將編寫新的ODBC驅(qū)動(dòng)程序并擴(kuò)展自己現(xiàn)有的查詢系統(tǒng)到Hive。這樣一來用戶將能夠直接從Excel、PowerView執(zhí)行Hadoop查詢。
Red Monk分析師Stephen O'Grady也很看好Windows和Hadoop的結(jié)合。他表示這將是非常具有吸引力的,這將吸引大量的Windows用戶。微軟在此領(lǐng)域具有競爭的實(shí)力。
大數(shù)據(jù)領(lǐng)域 Oracle硬件、軟件齊發(fā)力
Oracle作為全球最大的關(guān)系型數(shù)據(jù)庫提供商也不甘寂寞,在其產(chǎn)品鏈條中加入了被稱為“NoSQL Database”的NoSQL數(shù)據(jù)庫。NoSQL Database是Oracle在2011 Oracle全球大會(huì)上宣布推出的Oracle Big Data Appliance的一個(gè)組成部分。Big Data Appliance是一個(gè)集成了Hadoop、NoSQL Database、Oracle數(shù)據(jù)庫Hadoop適配器、Oracle數(shù)據(jù)庫Hadoop裝載器及R語言的系統(tǒng)。
而Oracle的在大數(shù)據(jù)領(lǐng)域的投入還遠(yuǎn)不止這些。他們不僅在軟件層面推出了Oracle Big Data Appliance,在硬件層面Oracle還推出Exalytics。Exalytics目標(biāo)非常明確,就是針對(duì)大數(shù)據(jù)。Oracle推出的In-Memory計(jì)算就是在Big Data時(shí)代能夠提供海量信息——包括結(jié)構(gòu)化、半結(jié)構(gòu)化、數(shù)據(jù)集及非結(jié)構(gòu)化數(shù)據(jù)的分析。同時(shí)Exalytics還能夠支持混合的數(shù)據(jù)源——包括Oracle數(shù)據(jù)庫、Teradata、微軟SQL Server以及獨(dú)立的Essbase數(shù)據(jù)庫共同使用。
并且Exalytics的硬件和軟件配置也相當(dāng)強(qiáng)悍:1TB內(nèi)存和48核心的處理器;支持OBIEE 11g;200GB/s帶寬的TimesTen并行內(nèi)存數(shù)據(jù)庫;支持內(nèi)存并行處理的Essbase OLAP服務(wù)器;新的面向高帶寬分析的用戶界面以及最快的連通Exadata的Infiniband連接。
以往,Oracle在云計(jì)算領(lǐng)域一直顯得有些保守,但隨著Oracle在此次大會(huì)在硬件和軟件兩個(gè)層面同時(shí)推出強(qiáng)有力的產(chǎn)品。這也標(biāo)志著Oracle在云計(jì)算領(lǐng)域邁出了劃時(shí)代的一步。
IBM將DB2與NoSQL數(shù)據(jù)庫有機(jī)結(jié)合
同樣是在10月,在IBM舉辦的IOD 2011大會(huì)上,IBM數(shù)據(jù)庫服務(wù)器部門副總裁Curt Cotner宣布IBM將在明年推出內(nèi)置NoSQL技術(shù)的DB2旗艦級(jí)數(shù)據(jù)庫管理系統(tǒng)。
IBM在NoSQL技術(shù)領(lǐng)域已具備了一些經(jīng)驗(yàn),其自身的Rational Jazz協(xié)作軟件交付平臺(tái)就是使用了“triplestore”技術(shù),而“triplestore”技術(shù)同NoSQL數(shù)據(jù)庫中所涉及到的技術(shù)大致相同。triplestore技術(shù)允許用戶簡潔并快速的檢索元數(shù)據(jù)和其他相關(guān)信息。
不過IBM Rational團(tuán)隊(duì)最終發(fā)現(xiàn)triple并不具備其所想要的可用性特征,例如故障轉(zhuǎn)移、橫向擴(kuò)展到多個(gè)節(jié)點(diǎn)等等。IBM Rational團(tuán)隊(duì)發(fā)現(xiàn)如果其在短時(shí)間內(nèi)接收大量的triple,NoSQL存儲(chǔ)的索引將會(huì)鎖住數(shù)據(jù)庫。Rational團(tuán)隊(duì)實(shí)際上是從開源社區(qū)中借用NoSQL triplestore,然后進(jìn)行修改,使其嵌入到DB2數(shù)據(jù)庫中,通過這樣的修改將能夠使用DB2索引、日志、高可用性解決方案以及DB2數(shù)據(jù)庫中所有的功能。
Cotner表示經(jīng)過修改后的NoSQL功能在DB2數(shù)據(jù)庫中運(yùn)行速度將會(huì)比之前的開源產(chǎn)品快4倍以上,同時(shí)還可以消除可用性以及可擴(kuò)展性帶來的問題。現(xiàn)今NoSQL功能還在開發(fā)過程中,不過Rational團(tuán)隊(duì)將會(huì)在未來為DB2集成更多NoSQL的功能。
大數(shù)據(jù)在企業(yè)的未來
管理大數(shù)據(jù)的能力將成為那些越來越多地使用新形式信息——比如文本、社交媒體——的企業(yè)的核心能力。這種能力將幫助企業(yè)尋找最好的模式來支持商業(yè)決策,即所謂的基于模式的戰(zhàn)略。作為一種變化引擎,基于模式的戰(zhàn)略將充分利用模式尋找流程中所有的維度。然后,它為新商業(yè)解決方案的建模提供基礎(chǔ),讓企業(yè)更好地適應(yīng)新的環(huán)境。處理大數(shù)據(jù)的增長并利用大數(shù)據(jù)的能力將成為許多企業(yè)的優(yōu)先任務(wù),否則未來幾年他們將受制于這些數(shù)據(jù)和他們的競爭對(duì)手。