企業應慎重選擇一款大數據設備,以便確保其對于企業業務的價值。
似乎選擇一款單一的、優化架構的方法來處理大數據是有一定意義的。
一款專門由硬件和軟件組合所搭建起來的設備顯然應該要比手工胡亂拼湊起來的設備要好很多,不是嗎?
上述這一邏輯已然在數據管理人員的圈子中得到了廣泛的認同。
例如,甲骨文已經收購了Exadata公司,并創建了一款被稱為甲骨文大數據設備的系統。該結合了Sun的硬件與各種不同的軟件方法,以便在一款設備中處理不同類型的數據。
而IBM公司在收購了Netezza公司之后,也采取了類似的方法,創建了一套被稱為PureData的設備。
另外,戴爾和惠普也都有推出一系列的大數據應用設備;Teradata公司收購了Aster公司,并隨后推出了其集成的大數據平臺;日立數據系統具有超級橫向擴充平臺(Hyper Scale-Out Platform,HSP);而EMC公司則推出了其數據計算設備;存儲專家DataDirect Networks公司有其被命名為SFA12K的大數據設備。
企業可以有許多不同的方式來進行大數據分析——自行構建方法,并將大數據作為服務只是一對常用的組合,但這些方法都充滿了問題,而供應商正在努力幫助您企業避免。對于企業對大數據的利用而言,采用一款大數據設備的方法似乎正風靡一時,但大數據設備的選擇是否真的如同其看上去那么簡單呢?
要深入挖掘,首先就要充分了解到底什么是大數據。
關于大數據的五大特性
往往在太多數時候,大數據仍然僅被關注到了其龐大的數據信息量。然而,如果是這樣的話,那么這應該只是一個大量數據的問題,而不是大數據;龐大的數據量只是大數據的五大特征之一。
想要充分理解大數據所帶來的問題,就必須了解大數據的其他幾個方面的特性,以及由這幾大特性綜合作用所為大數據世界創造的問題和提供的相關機遇。
如前所述,有海量的數據被處理。然而,如果所有這些被處理的數據都是正式的、結構化的數據,那么,擁有適當的橫向擴展計算、存儲和網絡平臺的標準數據庫應該是足夠的。
當您看到數據種類的多樣性時,這些問題才真正開始突顯,混合了結構化數據和非結構化數據的數據集合亟待進行處理。大多數的數據具有一定的層次結構,無論其承載的載體是否是一個微軟Word文檔的格式;或是以逗號分隔的機器對機器的數據;或是圖像,視頻或音頻數據。然后是數據的傳輸速度的特性,這一特性這有2個方面。首先是數據被呈現給分析環境的速度。例如,實時數據分析處理物聯網的數據,往往需要處理大量小數據包的數據,沒有人能夠延遲來使其減緩。其次是分析得出結果的速度。
例如,在金融交易中,與其他交易員相比,下游的交易員得到結果往往要稍微晚幾毫秒的時間。而在生產線上,對于某個問題的識別往往需要在其成為一個問題之前采取行動,這樣才能夠使得生產線得以繼續經營,而不是停掉整條生產線來進行處理。大數據的準確性這一特性也很重要。糟糕的數據分析往往會導致質量很差的輸出。
因此,任何大數據系統必須能夠檢查其所分析的數據的質量,或者上游的數據源是能夠值得信任的。最后的一大特性是大數據的價值。其實,這一點才是真正驅動企業進行任何大數據活動項目的推動因素。其應該在大數據的五大特性中被排在第一位。進行大數據分析的決策必須建立在其價值之上,從而使得企業得出相應結果:這種分析是否真的是值得的?
其對于企業業務活動及其成功的真正影響在何處?在某些情況下,Quocirca公司已經看到了大數據分析所帶來的一些進展,因為這“似乎的確是個好主意”——但在為何要使用這種IT資源的背后必須要有扎實的商業理由。因此,任何向您企業吹捧一款大數據系統的供應商,都必須有相應的信息來針對您企業大數據的每種特性。因此,將各個方面的數據都納入關系數據庫中,不強迫結構化數據作為二進制大對象不應是處理大數據的方式。
同樣,那些在象牙塔中宣稱關系型數據庫的日子已經結束了,所有一切數據都可以納入一款持續的Hadoop存儲或NoSQL數據庫的說法也是錯誤的。然而,針對專業的不同數據系統采取一種斷開連接的方法也將無法奏效。例如,對數據縮減非持久的Hadoop系統采用MapReduce,分離關系和非關系的持久性存儲將導致無法處理大數據速率的要求。
單一的分析方法
對于真正的大數據分析,大數據的五大特性需要加以處理,而數據以一種單一的方法匯聚,實際可以進行業務分析。這便是設備的方式發揮其作用的時候了。通過借助Hadoop環境,并將其在同一臺設備中與關系型和非關系型數據存儲進行混合,智能化可內置于整個系統,以確保恰當的數據在恰當的時間駐留在合適的存儲中。所需的分析層可以優化,以確保性能是符合分析目的。這是一個所有相關供應商都在為之戰斗的一個戰場。
然而,仍有人認為購買一個大的數據設備需要注意的領域。對于大多數組織而言,大數據將涉及大量的數據。為了提供所需的分析速度,大數據設備中的大多數將有大量的內存,使內存分析發生。因此,確保設備有足夠的內存是采購大數據設備所需考慮的一大關鍵。該設備將需要擴展,太小的內存將導致數據系統的交付將比預期的慢,然后數據就會在低速存儲系統中進出。查看設備是否是純粹旋轉的,基于磁力盤額。隨著固態存儲器的出現,從磁盤檢索數據的速度已大幅增加,但仍遠低于存儲系統。使用固態存儲器的系統比使用磁盤的速度快得多。此外,要注意混合系統,其是頂部層的固態和較低層的磁盤存儲的一個混合。除非有一個智能的軟件管理隨時駐留在此的數據,當分析系統試圖從內存中獲取數據看到數據不在那里,然后下降到固態,發現數據不存在,并下降到磁盤,并將數據從那里納入到內存時,有可能是主要的性能問題。
展望未來
現在需要尋求將Hadoop,NoSQL與關系型數據庫匯集到一起的系統的方法。然而,也可以展望未來。很長一段時間,Quocirca建議不要使用Hadoop作為一個持久性存儲,而不是取決于其MapReduce的能力,作為數據過濾器,來降低在任何環境所需分析的數據量。
MapR公司是Apache Drill項目的領軍,而Hortonworks則推出了其Hive Stinger計劃,兩大項目均顯示了在在Hadoop存儲中啟用SQL查詢的承諾。諸如IBM和Actian公司這樣的供應商,有商業化的Hadoop-SQL產品,能夠處理一些目前Hadoop作為一個持久性存儲的速度問題。在NoSQL終端的數據存儲,Basho公司則采取一種不同的方法。通過啟用其Riak NoSQL數據庫節點的網格,每個節點處理大數據的不同方面,他們希望能夠創造出“所有規則的其中一環”:一個可以針對不同數據類型的變化速度處理數據壓縮的數據庫。
最后,尋找不會將您捆綁在特定工作方法的系統。使用現有的商業智能(BI)系統的技能已經建立,而無需學習新的技能,大數據系統的選擇應該能夠使現有的BI工具能夠分層。現在,大數據分析仍處于相對不成熟的水平。企業自行打造的方法不太可能能夠提供投資回報率,而一款專業的大數據設備則可能只是在短時間內解決了某個問題。因此,企業應謹慎選擇一款大數據設備,確保該項業務的價值足以彌補您企業的該項支出。