時至今日,“Bigdata”(大數據)時代的來臨已經毋庸置疑,尤其是在電信、金融等行業, 幾乎已經到了“數據就是業務本身”的地步。在這其中,還挾裹著一個更為重要的趨勢,即數據的社會化(Socialization of Data)。從博客論壇到游戲社區再到微博,從互聯網到移動互聯網再到物聯網,人類以及各類物理實體的實時聯網已經而且還將繼續產生難以估量的數據。對于時刻關注市場走向的企業來講,他們需要關注的數據顯然已經不僅限于企業內部數據庫中的業務數據,還要包括互聯網(以及未來的物聯網)上各類網絡活動所產生的相關數據記錄。
顯然,大數據是一種創新,它在任何時候都知道你在哪里。我們可以以有效方式利用這些數據,而且已經看到了市場需求。
日前,在北京舉辦的大數據世界論壇上,內存計算、實時查詢、有效的存儲管理、智能挖掘分析,成為了眾多IT人士關注的焦點。
用戶需求——海量+實時分析
來自IDC全球存儲及大數據研究項目副總裁Benjamin Woo表示,到2020年,全球數據使用量預計暴增44倍,達到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是說全球大概需要376億個1TB硬盤來存儲數據。
而另一個需求則來自于對海量數據的實時查詢訪問需求。在數據倉庫誕生的第一天,一直就有一個話題,要把大查詢分解成小任務,這些小任務由一臺臺的機器來完成。
“我們的要求在于,上億條數據的分析能夠在5秒鐘內完成”,中國民族證券信息技術部總經理顏陽表示,在證券行業由于發展的波動性很大,因此證券公司的投入也是基于量入為出,采用了MPP(大規模并行處理)架構的數據庫(數據倉庫)。其基本特征在于是由多個SMP服務器通過節點互連,而每個節點只能訪問本地資源,是一種完全無共享的結構,因此擴展性很好。當基于此數據庫來開發應用時,不需要考慮服務器由多少節點組成,也不需要考慮負載問題。
顯然,和NUMA架構(非一致性存儲訪問)相比,MPP的優勢在于更適合復雜的數據總和分析與處理。當然它也需要借助支持MPP的數據庫系統來屏蔽節點之間的負載均衡與調度復雜性。
同時,顏陽也給出了BI和ETL工具選型建議——兼容性、操作性、功能性、展現力、維護性。他表示,在數據中心,每一個轉換要保證數據的完整性和準確性,要進行安全性的管理和控制,這些都要通過開發工具加上適度的編程來實現。如果開發團隊對這個工具的理解和整合程度不好的話,最后的數據倉庫的數據會形成很多垃圾,甚至造成很多錯誤的數據出現。因此,要兼顧五個方面去開展。
大數據并不等于IT重構
本次大會傳遞出來的另一個信息是,對真正需要大數據的企業而言,大數據的需求并不等于IT重構。
實際上,并非所有的數據都需要進行分析,對企業而言,核心在于找出關鍵的數據,并運用適合MPP系統的相干數據,得到一些結構化的數據,而一些非結構化的數據,可以用Hadoop進行處理。
另一方面,大數據的基礎架構需要的是前瞻性,隨著數據的不斷增長,用戶需要從硬體、軟件層面思考需要什么樣的架構去實現。必然,未來需要的是一個能夠支持非常好的、可擴張性的、對文件存儲友好的文件系統。
目前,不管是IBM、EMC還是SAP都推出了自己的Bigdata Total solution,從中對比我們可見一斑。
IBM——數據倉庫一體機
IBM將數據倉庫做成了硬件化的產品,標配Power服務器、存儲,再加上剛收購的Netezza。Netezza新型數據倉庫一體機渠道經理鄭曉軍表示,“凡是玩過云計算、Hadoop的用戶,對于Netezza的環境搭建只是小菜一碟。”據了解,Netezza一體機是一個小型的、成集成度很高的多機并行處理環境。其架構基于MPP,由兩個Hosts系統接受查詢請求,查詢語句將分散成幾十個或者上百個分片,傳給第二層,第二層的每一個單元是一樣的(內部名稱S-Blades分區內存),再把每一個分片看成MPP環境中的每一臺機器,中間的網絡構成MPP網絡。
當數據存進去的時候,會把數據平均的分在所有的節點上,節點的均衡是由Netezza自己來決定的。數據存在硬盤的時候用的格式是“Zone Maps”,把一張表里所有的字段,根據值不同,分了所有的分片。有了Zone Maps之后,FPGA掃描的時候,只會讀取那些包含記錄的區域,這些地方硬盤加速效率很高的。如果數據修改的話,會在新增添的數據記錄里面增添,定時會對數據重組,進行壓縮,這些都是通過后臺進程管理的。
EMC——自服務數據倉庫
Greenplum Chorus是EMC的數據云平臺,堆棧了各種大數據分析工具(業務分析、BI、統計等)。
EMC中國研發中心首席技術官陶波表示,Greenplum Chorus構成主要由自助式的調配、數據服務協作分析所組成。當用戶同時部署Chorus、VMware、Greenplum后,可以完全實現自服務,自服務可以是一個服務器,也可以生成一個沙箱,而這個沙箱既可以基于虛擬化的IT云計算平臺上,也可以是在Greenplum的數據庫上。同時,用戶可以把在企業云里面其他的原數據導入到自己的沙箱中進行操作。與此同時,開發者還可以創造一個合作環境,在分享數據的同時要控制授權,避免私人數據被不適當的使用。比如寫一段R代碼,并把R代碼進行分享,同時看到別人的評論,可以隨時隨地的進行自己的工作。
SAP——內存計算+開放平臺
SAP在此次大會上提出了開放的內存計算平臺HANA,據SAP解決方案和架構部總經理張志琦介紹,HANA將成為SAP未來的平臺,未來所有的應用都會發布在HANA平臺之上,并且用作實時分析。而HANA將主要用于實時處理大量交易數據的軟件,包括數據建模、數據和生命周期管理、安全、運營的工具,基于行業標準為多個接口提供支持。
“內存比磁盤計算快1000000倍,傳統數據庫磁盤讀取速度是5毫秒,內存數據庫磁盤讀取速度是5納秒。用戶可以利用內存高速的性能,更快速的獲取數據、匯總數據、分析數據。此外,大數據時代,一臺服務器不一定夠,用戶可以通過分而治之的方式將動態的服務器分到不同的節點上,快速的進行數據分散計算、數據分散匯總、獲取更快速的結果。每臺服務器還有更多的CPU,可以在總的內存計算中更給力。所有的數據都可以通過分布式的環境。”
張志琦表示,“HANA將是一個開放的平臺,SAP將和業務伙伴等在HANA之上開發應用,體現更多的支持。SAP HANA平臺將支持更多的內存應用程序,比如報表、運營報告、能力分析加速器,更多的獲取價值。HANA不僅僅是分析應用,更多的是一個業務應用。我們希望企業可以在不需要IT人員關注的情況下就可以獲得信息的獲取。這本身是SAP HANA平臺提供的能力。”
數據分析職業未來很吃香
隨著大數據的流行,可以預見的是,數據分析師將是將來最熱門的行業之一,大量的行業比如政府、能源行業、互聯網行業都需要數據科學家,而這些數據科學家要不斷的提出關鍵性、對業務有重大啟示性的問題。阿里巴巴目前已經有一百多個數據分析家,他們不同的部門都在對數據進行分析,共享對于數據的分析以及和數據管理員、企業管理層形成合作性的數據分析。
Informatica企業數據集成產品管理總監鄭瑋表示,大數據分析師可能會有越來越大的需要,可能是IT組織的一部分,也可能是業務組織的一部分。從互聯網的情況來看,提供用戶的價值,可以發掘很多用戶價值,比如汽車銷售等等有直接的銷售影響。在世界的各個地方,尤其是一些數據比較多的、比較成熟的行業中,會有大量的數據分析、數據科學家的需求。
Teradata天睿公司首席客戶官周俊凌談到,企業必須要有一些專注于數據研究的科學家,一旦有了數據科學家,企業需要對數據科學要進行相關培訓,了解相關的業務。
IBM硅谷實驗室大數據項目總監Steven Sitze則認為,現在一些大的企業都有數據分析師。而這些數據分析師現在并沒有分析大量或者子類型的數據,這在發展工具上會有很大的機會。對企業而言,光有一個大數據的平臺是不夠的,要有一些發展的工具幫助他們利用來展示大數據的分析展示能力。
觀察:大數據產業才剛剛上路
對數據存儲廠商來說,不管是大數據還是海量數據還是有不少挑戰存在,首當其沖的是,他們必須要強化關聯式數據庫的效能,增加數據管理和數據壓縮的功能。
因為過往關聯性數據庫產品處理大量數據時的運算速度都不快,需要引進新技術比如Hadoop來加速數據查詢的功能。另外,數據存儲的廠商也開始嘗試不只采用傳統硬盤來存儲數據,像是使用快速閃存的數據庫、閃存數據庫等,都逐漸產生。
另一個挑戰就是傳統關聯性數據庫無法分析非結構化數據,因此,并購具有分析非結構化數據的廠商以及數據管理廠商,是目前數據存儲大廠擴展實力的方向。
同時,數據管理的影響也在于對數據安全的考量。IDC軟件市場分析師吳乃沛表示,大數據對于存儲技術與資源安全也都會產生沖擊。首先,快照、重復數據刪除等技術在大數據時代都很重要,就衍生了數據權限的管理。
舉例來說,現在企業后端與前端所看到的數據模式并不一樣,當企業要處理非結構化數據時,就必須制定出是IT部門還是業務單位才是數據管理者。由于這牽涉的不僅是技術問題,還有公司政策的制定,因此界定出數據管理者是企業目前最頭痛的問題,而這一切,對大數據而言,不管是技術還是應用都才剛剛上路。