現在,大數據這個話題甚至比云計算還要火。EMC公司副總裁、銷售部全球首席技術官Patricia Florissi博士認為:“目前,我們對于大數據能夠帶給人們什么樣的利益,能夠在多大程度上影響人們的生活和工作還沒有一個深刻的認識。現在,我去亞馬遜網站買書,絕不會只買一本書,而會根據網站的推薦信息,購買其他一些我感興趣的東西。這就是大數據時代給人們生活帶來的新變化。”
大數據需求真實存在
大數據是一場變革,它不僅影響了人們的生活、工作,更重要的是影響了人們思考問題的方式。很多人認為,大數據的主要作用就是幫助廠商更準確地了解消費者的消費行為,比如買了某個品牌手機的用戶通常會再購買另一個品牌的衣服。其實,大數據的功用遠不止這些,大數據將在很大程度上影響人們的決策和行為模式。
Patricia Florissi告訴記者:“通過與客戶的交流我們發現,很多客戶現在并不明白大數據到底能給他們帶來什么樣的價值。但是不管客戶現在是不是理解大數據的內涵,絕大多數的客戶面對大數據不會袖手旁觀。許多企業內部至少會有一個部門或一個人在做與大數據相關的事。”
云計算剛興起的時候,很多人熱衷于討論云計算是不是一種具有變革性的創新技術,是“新瓶裝新酒”還是“新瓶裝舊酒”。大數據是不是也存在類似的問題呢?云計算改變的是IT的消費模式,大數據則改變了我們工作、生活和思考問題的方式。Patricia Florissi認為,大數據不僅僅是數據量大,而是代表了三個新的趨勢:第一,海量數據改變了人們看待事物、看待數據的角度;第二,因為有了云計算,人們有能力部署更大規模的存儲,具有更強的處理海量數據的能力;第三,人們已經具備了一定的知識和技術水平,可以進行大數據分析。
Patricia Florissi舉了印刷機的例子。印刷機是15世紀發明的,但是印刷機的大量商業化應用卻發生在其后幾百年。印刷機剛出現時,雖然有能力快速印制出很多書,但那時會讀書、寫字的人并不多。隨著人類文明的進步,人們掌握了更多文化知識以后,印刷機才真正有了用武之地。大數據處理和分析也會經歷這樣一個發展過程。大數據出現后,如果人們沒有足夠的存儲空間和存儲能力,那么就只能把大量的數據刪除;如果人們有了足夠的存儲能力,但是沒有分析數據的能力,那么大數據也沒有價值可言,就像面對大量的金礦石,卻無法從其中提煉出金子一樣;如果有了存儲能力和數據分析能力,但人們本身不具備解讀數據的能力,那么也無法挖掘出數據的價值。“現在,我們已經擁有了存儲能力、數據分析能力和數據解讀能力,因此大數據應用對我們來說并不是虛幻的,而是真實存在的。”Patricia Florissi表示。
實時處理能力更重要
很多人一談到大數據,首先會想到非結構化數據的處理。IDC的統計數據表明,非結構化數據已經占數據總量的80%~90%。因此,處理多樣化的數據成了許多用戶關注的焦點。但是有的存儲廠商認為,再過一段時間,用戶就不會再關心數據到底是結構化的還是非結構化的,因為數據實時處理才是大數據處理的關鍵。
Patricia Florissi認為,用戶對數據實時處理的需求正變得越來越迫切。人們對數據實時分析的關注度已經超越了對數據本身準確性的關注度,這正是數據量激增帶來的變化。“如果用戶只擁有少量數據或數據樣本,那么數據的準確性對于用戶來說是非常重要的;如果用戶面對的是海量數據,那么數據的準確性就不再那么重要,因為大量的數據可以彌補數據準確性的不足。”Patricia Florissi表示,“數據的價值是有時間性的。比如,我今天拿到了一張商場的優惠券,明天就可以用這張優惠券去買一條裙子,而幾周或幾個月以后,沒人會再理會這些信息。”
EMC現在就擁有這樣的技術和能力,可以找到非結構化數據中的一些結構化特征,這樣就可以把針對結構化數據的某些分析方法和分析技巧用于處理和管理非結構化的數據。
存儲可變形
在即將舉行的EMC World大會上,EMC將發布其“軟件定義存儲”(SDS)的新產品。不過,在新產品正式發布之前,Patricia Florissi拒絕向記者透露產品的技術細節。
Patricia Florissi認為,SDS將顛覆現有的存儲市場,軟件定義網絡(SDN)將顛覆現有的網絡世界,軟件定義數據中心(SDDC)將顛覆現有的數據中心市場。這些變革將匯集成一股強大的力量,顛覆整個IT市場。
“軟件定義”的意思是智能從硬件轉向軟件。以手機為例,使用者會根據自己的喜好在手機中安裝不同的應用軟件,因此每個人的手機都是不同的。“軟件定義”賦予了手機一種新的能力,即靈活地通過軟件來定義硬件配置的能力。另一個例子,以前用戶如果購買了多臺網絡設備,就不得不動用人力對每一臺網絡設備進行配置,不僅費時費力,而且不管如何改變設備的配置,網絡設備的基本功能也不會被改變。用戶如果采用了SDN,只需極少的硬件,就能將網絡設計成自己需要的樣子,讓網絡設備具有用戶想要的功能。硬件就像是一塊膠泥,它可以按照用戶的需求,經由軟件被塑造成各種形態。
“從存儲的角度看,以前存儲設備分工明確,文件存儲只能存儲文件,塊存儲只能存儲塊數據。SDS的概念出現后,用戶就可以在一個統一的存儲平臺上,對所有的文件、塊數據、對象數據進行統一存儲和管理。”Patricia Florissi表示,“存儲虛擬化只是SDS的一個子集。通過虛擬化技術,用戶可以分別構建文件的虛擬存儲池或塊數據的虛擬存儲池,而SDS構建的是一個全面的數據池,可以把用戶需要的不同功能分配到不同的軟件層面中去。”
存儲管理包括控制管理和數據管理兩方面:控制管理決定數據存儲在哪個信息塊中,而數據管理的任務是以盡可能快的速度把數據遷移到一個合適的地方,這是兩種不同的功能。在軟件定義的存儲中,執行控制管理功能的那部分硬件將變得越來越不重要,它只是一種便宜的存儲介質。因為專業化的數據需要以非常快的速度來存儲,所以在數據管理層面,硬件的專業化要求越來越高。
Pivotal是新起點
2013年初,EMC與VMware合資成立了一家專注于大數據與云計算業務的公司——Pivotal。該公司的成立有利于EMC進一步推動其大數據整體戰略的落實與發展。Patricia Florissi表示:“EMC今后將把重點放在存儲與數據管理上,云計算、大數據和可信計算將成為公司的三大戰略核心。為了滿足云計算和大數據的應用需求,存儲必須在靈活性、經濟性和可用性方面有進一步的提升。”
具體到大數據的處理,EMC更關注如何對存儲進行擴展,包括橫向擴展與縱向擴展,同時還要考慮信息在不同的存儲層級之間快速、安全的移動,使信息移動最優化。用戶還應該著重考慮如何對大數據進行備份和歸檔。除了大數據的概念以外,現在業界還在熱烈討論一個新概念——快數據,其目標是以極快的速度處理海量的數據。為了提升數據處理的效率,數據的處理和分析工作應該無限接近數據,也就是在數據產生地進行數據處理。
Patricia Florissi歸納說:“在大數據方面,EMC與Pivotal分工明確,Pivotal主要做大數據分析,而EMC的核心業務是大數據管理。”