在日前舉辦英特爾大數據技術及行業應用論壇上,英特爾數據中心軟件部售前顧問黎超給出了假設大數據平臺的五個建議,包括工業標準硬件、開源軟件與商業軟件相結合、橫向擴展架構、彈性系統,以及能和現有平臺集成。
黎超強調,Hadoop不能解決所有的大數據問題,需要和企業其他的組件進行緊密集成,形成一個完整有效的大數據處理方案。
根據IDC的數字宇宙的研究,全球不同設備產生的數據,預計2020年將會突破40ZB,而中國的整個數據量屆時將超過8ZB,增長率將是2012年的23倍。從這些數據中汲取業務價值,是每一個企業組織的熱切渴望。
黎超就是針對傳統數據平臺應對當前的大數據應用需求所面臨的巨大挑戰給出上述建議的。眾所周知,當數據量爆炸增長,傳統的數據處理方式通常會力不從心,這也是大數據技術成為熱門的一個重要原因。
英特爾數據中心軟件部售前顧問黎超
大數據的共性需求與挑戰
大數據在金融、電信、醫療和智慧城市等多個領域都能發揮巨大的作用,黎超分析了當前大數據建設過程中的五個共性需求,以及傳統平臺在處理這些需求面臨的挑戰。
五個共性需求包括:
需要更廣泛的數據視角
除了企業內部自身產生的業務數據,還需要從企業外部廣泛的數據源進行數據的收取,比如從社交網絡收取數據。
更長期的持有原始格式的數據
以便我們進行數據模型的打破和重組。最終實現不斷變化的分析需求,最小化數據失真,實現數據全方位的洞察。
數據本身是有時效性的,面對海量數據的時候希望用
最快的速度實現數據的價值
數據平臺有非常良好的可用性來滿足非常高的業務連續性的需求,必須隨時可以提供服務。
良好的系統彈性
在數據增長的時候,可以根據數據規模隨時進行資源的再分配和重組,即云計算的技術手段。
面對這些需求,當數據爆發性的增長,傳統數據平臺面臨諸多挑戰,包括如下幾點:
持有數據的成本
傳統方式用大量的高端磁盤陣列,用很好的服務器支撐數據應用,產生的價值可能比投入的資源還要高,得不償失。
傳統數據平臺的性能
數據從網格時代的TB級漲到云計算時代的PB級規模的時候,但對響應時間要求卻沒有變化,所以新平臺必須很好地支持數據分析的實時性的要求。
傳統平臺的可用性、業務連續性保障
傳統BI的數據庫平臺,通常采用冗余的方式(如備份)來保證數據不丟失。但是當系統硬件真正出現故障的時候,依然會造成業務上的停頓。
平臺的彈性
需要根據業務發展需求動態地調整資源使用,避免重要應用和次要應用產生資源沖突。
建設大數據平臺的五個建議
針對這些需求和挑戰,黎超認為,企業建設大數據平臺可以采用以下的五個策略:
第一,硬件上盡量使用符合工業標準的開放平臺
來降低大數據物理平臺的投入成本。
第二,軟件平臺上盡量采用開源平臺和商業化相結合的軟件。開源的好處是靈活多變,可以支持更多需求,可以隨時根據企業的需求變化進行相應的改造。但是它的缺點是沒有商業化的支撐,當出了問題的時候不知道找誰進行相應的服務。所以把二者結合在一起,如同Linux一樣,才能真正做到大數據平臺無論是初期建設成本還是后期維護成本都是可控的。
第三,這個平臺應該通過硬件的增加來實現系統的性能和存儲的線性擴展。如果拿牛拉車比喻這個系統,一個車套用牛的數量是有限的,只有不斷地增加車的數量才可以同時拉更多的貨物。所以,要把傳統的縱向擴展的思維變成了橫向擴展的思維。此外還不應該依賴于硬件框架來保證系統的高可用性,軟件架構上就應該保證整個系統的可用性。
第四,整個系統具有良好的伸縮性,可以根據業務變化進行資源動態調配。
第五,應該保護原有的投資,能跟以前的數據平臺進行緊密的集成,為用戶形成完整有效的大數據解決方案。
黎超提醒說,就好像沒有一種萬能靈藥能解決所有的病癥,數據平臺也應該根據實際應用場景進行取舍。最有效的方案是把新的數據平臺和原有的數據平臺進行相應的集成。
如何使用Hadoop平臺
當前Hadoop已經成為大數據的一種標準平臺,從2007年開始,越來越多的廠家,包括英特爾、IBM、ORACLE都支持Hadoop,還有很多互聯網企業選擇了Hadoop支持其核心業務,如淘寶、FaceBook、雅虎都有數千節點的集群。
黎超認為,Hadoop對于互聯網行業,具有成本可控、方便數據的打破和重組和不依賴與硬件的高可用性等三大優勢。但他指出,由于研發成本和需求差異的原因,傳統行業不能像互聯網企業那樣直接使用開源軟件,就像很少有電信企業、金融企業用開源的Linux。
英特爾把Hadoop看作大數據平臺中的Linux,在Hadoop的研發上投入了大量的力量。黎超介紹,英特爾Hadoop發行版和開源版本的重要區別在于產品化的支持,以及軟件易用性、可用性、穩定性、可管理性上的諸多改進。英特爾針對x86架構做了優化,很多的應用場景的性能和開源版相比有最大10倍的提高。這是沒有底層的能力和理解的純粹軟件公司難以做到的。其他的改造,如支持Hbase的傳感器采集,高清圖片的高并發入庫等。
并沒有哪一種平臺能解決所有的問題,黎超指出,Hadoop不能解決大數據里面所有的問題。英特爾的觀點是把Hadoop和企業其他的組件進行相應的緊密集成,形成一個完整有效的大數據處理方案。據悉,英特爾Hadoop發行版提供了一些工具和接口,能夠使現在的Hadoop和其他數據庫之間更容易用。
黎超進一步解釋說,一些低價值密度的數據,比如說互聯網上的網頁,微博、微信上收集到的數據,可以放在Hadoop里,如果長期存儲在關系型數據庫里成本會很高。另外還有很多不同標準數據來源的數據,在進入關系型數據庫之前可以把它沉積在Hadoop里進行相應的數據預處理,更長期的保有數據原始格式,以滿足將來對數據的處理需求。
英特爾建議的架構
是,在整個企業內部應用Hadoop架設一個大的數據資源池,收集各個來源的原始數據進行長期的存放。再在Hadoop上進行數據的清洗和相應的數據處理,并進行數據的不斷重組,然后可以把更有價值的數據推到原有的關系型數據庫上。當然,也可以根據需要直接在Hadoop上進行復雜的分析結果的展現。
其他專家的精彩觀點摘要:
IDC周震剛:實施大數據“三要三不要”
IDC企業系統與軟件研究組高級研究經理周震剛總結了實施大數據解決方案的六個要點。(詳見《越過大數據陷阱 IDC專家談“三要三不要”》)他特別提到,千萬不要低估大數據的數據中心網絡和設計的影響,不能給大數據解決方案留下瓶頸。
英特爾苗凱翔:討論大數據一定是端到端的
英特爾數據中心軟件部中國區首席技術官苗凱翔表示,大數據戰略一定是端到端的理念。這是因為很多的數據都是從終端、網絡、從商務領域轉移過來,這些數據很大部分可能是前端用戶過來或者物聯網設備上過來的,所以應用場景的數據處理,實時性要求和網絡帶寬都要考慮到才能解決。
英特爾在大數據方面的定位,就是為企業大數據應用提供端到端的支撐,甚至正在研究端到端的Hadoop。
當然,英特爾的重心還在計算平臺的優化,包括內存處理提高性能、萬兆網絡和AVX、橫向擴展架構和分布式存儲(Hadoop)等。
用友徐春華:并行計算與列存儲是關鍵
用友醫療衛生信息系統有限公司副總裁、用友智慧健康研究院首席專家徐春華表示,對醫療數據處理平臺來說,最重要的兩點,是并行計算框架,和基于列的數據的存儲架構。
徐春華認為,制約醫療數據處理的一個非常關鍵在于數據的歷史版本太多?;诹械臄祿旒夹g,能夠使它在運行時根據每一行確立它的數據結構,同類異構的數據,結構化的和非結構化的數據,可以存儲在同一張表里進行統籌運用。并行計算框架則可以通過加入計算節點的方法,同時解決海量數據的存儲和計算的擴展問題。
他介紹,用友的思路就是運用現在數據處理平臺上關于分布式計算框架和列存儲以及非結構化數據管理、行存儲可以并合的這四個特性進行了一些處理。