在《大數據將給我們帶來怎樣的變化?(上)》中,我們分析了大數據的真正含義,以及業內對其的誤解。下面,我們將通過一些具體的案例來展現,大數據時代的來臨,將給我們的商業模式帶來怎樣的變化。
新型RDBMS
行業觀察家們認為升級后的關系數據庫管理系統就是大數據,這是無需爭辯的。Olofson說:“我認為它滿足更快,更大,更便宜這三個衡量標準”。比如天睿資訊公司的系統就是個例子,它比以前更便宜,而且自身也是一個可擴展的聚合系統,他補充道。
但其他人卻不這么認為。 “通常使用RDBMS和標準BI工具進行的一般性處理其實不能算是大數據,”高德納公司數據管理分析師Marcus Collins說。 “這種處理很早之前就有了。”
那么,誰在真正使用大數據呢?
一年前,大數據技術的主要用戶還都是像Facebook和雅虎這樣的大型互聯網企業,它們希望借此技術分析點擊流數據。但今天,“這項技術的使用已經不僅限于這些大型網絡公司了,它正在走進任何你能想到的存有大量數據的公司,”Collins 說。銀行,公共事業單位,智能社區—都已搭上了大數據這趟列車。
雖然大數據的某些技術還不成熟,存在使用風險,但還是有一些人對它非常熱衷,因為他們需要這些技術,比如建立由社會化媒體推動的網絡服務時就要用到其中的某些技術。這些試吃螃蟹的人對這些項目的發展做出了很大的貢獻。
同樣地,大數據技術也已經對Catalina公司產生了革命性的影響。 這家位于佛羅里達圣彼得斯堡的公司有一個2.5PB的大型客戶忠誠度數據庫,里面存有1.9億多家美國雜貨店多年來的購買歷史記錄。其中最大的一個單數據庫里就有多達4250億行數據,僅這一個數據庫中,每天公司需要處理的數據就有6.25億行。
通過分析這些數據,Catalina幫助消費商品主要生產商和大型連鎖超市預測消費者可能買什么,以及誰會對新產品感興趣。
“我們想把技術應用于數據,而不是把數據丟給技術”,Eric Williams,Catalina執行副主席兼CIO說。 “現在已經有了能讓SAS這樣的公司將它們的分析技術應用于數據庫的技術了,整個公司因此產生了很大的改變。我們過去一直在這么做,但受到了很大的限制,因此無法深入到我們想到的程度。因此我們只能使用自己研發的工具,但因為還很初級,所以它能完成的工作非常有限。大數據技術對我們而言真是及時雨啊,它改變了整個公司。”
除了在自己的專有系統中使用了一些開源軟件之外,Catalina也在Netezza數據庫平臺中使用了SAS分析法。
一些公司正在“開發可通用于基于Intel的硬件的技術,這種技術可使硬件具備操作二級和三級產品的能力,例如SAS分析法的計分法就可直接應用于運行數據庫的Netezza(軟件),”Williams 說。 “能使用這項技術并將其直接作用于數據庫意味著Catalina可以將數據開采方案的研發時間從數周縮減到大約幾個小時。”
根據2010年10月美國銀行主管大數據和分析法的前總經理Abhishek Mehta在Hadoop World大會上的發言,大數據正在從根本上改變美國銀行的營業模式。 “我覺得現在的Hadoop就像是20年前的Linux。我們都已經看到了Linux對企業軟件領域的發展作出的貢獻。軟件行業被極大程度地分化了,Hadoop將來也一樣,討論其是否會發生已經完全沒有意義,目前的焦點在于它什么時候到來。”
除了能進行點擊量和交易分析之外,Hadoop 還可以讓美國銀行具備快速處理業務問題的能力。 “現在,作為銀行的一員,我已經可以想到欺騙行為消失的那天了,”Mehta說。“現在我已經可以建一個模型,把過去五年里發生在個人身上的每一起詐騙案例都存進去,而不是只抽取幾個樣本建個模型,發現了模型里沒有的新案例時,就重新建一次模型。這樣的日子已經過去了。”
公共事業行業也正在意識到指尖敲擊之下產生的巨大數據量,以及這些數據會帶來的價值。一家美國中西部的公共事業單位已經在使用Hadoop 分析智能儀表收集的錄入信息了,以前這些智能儀表主要被用來作記賬自動化,但也能收集關于線路安培數的波動信息。 “如果你收集到這方面的信息后對其進行分析,你會發現某個地方的轉換器將會出現故障,從而能提前采取應對措施。”Olofson說。 “或者如果發生了供電中斷,他們會在用戶打電話詢問前及時發現情況并采取行動。”
沿著這個思路,他還看到公共事業單位使用大數據將帶來的其他好處—通過監控和檢測電網以及對電網進行微調來改善客戶服務質量,減少運行成本--但如此一來可能需要對老化的基礎設計進行有效升級。
品牌營銷商們正在用Hadoop對社會化媒體作情感分析實驗?,F在越來越多的服務供應商也開始使用Hadoop,幫自己的客戶篩選Twitter用戶們正熱衷于談論的產品,以及對這些產品有怎樣的想法。
繼續保持謹慎
大數據技術發展很快。目前正在使用該技術的公司有一大批技術上格外出眾的IT員工,能對技術的進步并根據公司要求做出適當調整。
“如果你還沒有能力這么做,那就去找一家服務供應商來合作吧--比如找一家云服務公司--或者再等一等,等到大數據發展到一定程度就有大量成熟的軟件產品和服務了。”Olofson 建議說。 “到時候至少有些東西是你的員工可以理解的了。”
毫無疑問,數據讀取方式已經發生了根本性地轉變。但分析師們認為大數據技術不會徹底取代現在的數據庫和數據讀取工具。
“現在的數據處理唯一做的就是建立相對復雜的模型,里面沒有太多的數據。”高德納公司的Collins說。“而如今的大數據會給你大量的數據--所以你應該不再需要那么復雜的模型了。這可能意味著數據處理模式已經完成了升級。”
“我的觀點是數據庫市場事實上將因此得到擴展,”Olofson說。 “他們會使用像MapReduce這樣的技術,不論是通過Hadoop或是其它的廣告宣傳,來生成一些有趣的商業智能數據,這些數據在以前是根本無法得到的。然后,為了再次使用這些數據并追蹤歷史模型,他們將把它們存入數據庫并真正擴大它的使用范圍。”
是否具備擴展能力是一個挑戰,Collins說,另一個挑戰是“還沒有成形的結構模型來利用該項技術。我們還在一邊學習一邊摸索。”
他說,隨著軟件包的引入,附帶在軟件包里的某些工具正在導致技術風險的擴散,但這項技術主要還是一個編程接口--這對于商務智能而言是一種倒退。比如,Collins說“Hadoop是一個技術含量很高的系統,商務智能的發展將其推向了普通企業,進入了桌面電腦之中,并擁有一個非常友好的界面。”我們已經讓Hadoop退了一步,新的賣家們將幫助它回到用戶社區,那個它應該去到的地方。
“大數據應該跳出IT的圈子,而且我們必須把工具放到業務部門用戶的手里”他補充道。 “但現在這種想法還沒有實現。”