2013年即將畫上句號,這一年IT界關注的焦點之一即“智慧城市”,媒體甚至將2013年稱為智慧城市發展元年。隨著智慧城市大帷幕的開啟,大數據也作為其中一個主角走上了舞臺,并伴隨著大數據搜集和分析技術的發展,未來的交通、零售、醫療、安全、教育等領域都將發生重大變化。大數據將在智慧城市中擔當重任,也使得當前大數據的研究更加緊迫和關鍵。
大數據研究前沿 北大重點實驗室擔重任
如今越來越多的領域都需要使用大數據分析和挖掘技術,大數據的獲取、挖掘和分析不只是生產工具,而且它已經成為科學進程的組成部分,未來不論在自然科學還是社會科學方面,很多研究都將由大數據驅動。大數據研究這一具有挑戰性的課題,目前由國內最頂尖的高等學府北京大學重點研究實驗室承擔,也就是北京大學機器感知與智能教育部重點實驗室(以下簡稱北大重點實驗室)。
北大重點實驗室是一個橫跨多個研究領域的實驗室,目前涉及的主要領域包括計算機科學、智能科學技術、心理學以及認知科學等,是一個多學科交叉科研機構。實驗室以實現高度智能化的機器感知系統為目標,并緊密結合國民經濟和社會發展的要求,開展機器感知、智能信息處理與認知科學方面的基礎與應用基礎研究。目前實驗室的主要研究方向有感知機理,計算智能與知識發現,視感知,聽感知,數字媒體技術,可視化與視覺計算。
北大重點實驗室承擔著多學科的重點研究,并一直走在科技的前沿,這次北大重點實驗室承接了大數據研究這一項目后,將工作重點不僅放在了研發用于處理海量數據的新技術和系統上面,還放在了確保個人資料的收集、處理和分析在一個嚴密、安全的環境下進行上面。同時,北大重點實驗室還承擔著如何利用大數據解決交通運輸、城市規劃、衛生、財政和教育等現實中不同領域的問題,以及如何通過大數據建立分析模型,來預測傳染病的傳播并進行輿情分析等研究方向。
大數據研究面臨的挑戰及北大重點實驗室IT選型重點
目前,參與大數據研究的各方面臨著一些技術上的挑戰,其中包括:
1. 非結構化和半結構化數據的高效處理
據統計,目前采集到的數據85%以上是非結構化和半結構化數據,而傳統的關系數據庫技術無法勝任這些數據的處理,因為關系數據庫系統的出發點是追求高度的數據一致性和容錯性。
2. 如何探索大數據復雜性、不確定性特征描述的刻畫方法及大數據的系統建模
這一問題的突破是實現大數據知識發現的前提和關鍵。從長遠角度來看,依照大數據的個體復雜性和隨機性所帶來的挑戰將促使大數據數學結構的形成,從而導致大數據統一理論的完備。從短期而言,學術界鼓勵發展一種一般性的結構化數據和半結構化、非結構化數據之間的轉化原則,以支持大數據的交叉工業應用。管理科學,尤其是基于最優化的理論將在發展大數據知識發現的一般性方法和規律性中發揮重要的作用。
3. 數據異構性與決策異構性的關系對大數據知識發現與管理決策的影響
由于大數據本身的復雜性,這一問題無疑是一個重要的科研課題,對傳統的數據挖掘理論和技術提出了新的挑戰。在大數據環境下,管理決策面臨著兩個“異構性”問題:“數據異構性”和“決策異構性”。傳統的管理決定模式取決于對業務知識的學習和日益積累的實踐經驗,而管理決策又是以數據分析為基礎的。
4. 數據的去冗余和高效率低成本的數據存儲
數據中有大量的冗余,消除冗余是降低開銷的重要途徑。大數據的存儲方式不僅影響效率也影響成本,需要研究高效率低成本的數據存儲方式。需要研究多源多模態數據的高質量獲取與整合的理論和技術、錯誤自動檢測與修復的理論和技術、低質量數據上的近似計算的理論和算法等。
5. 大數據的有效融合
數據不整合就發揮不出大數據的大價值。大數據的泛濫與數據格式太多有關。大數據面臨的一個重要問題是個人、企業和政府機構的各種數據和信息能否方便地融合。
6. 適合不同行業的大數據挖掘分析工具和開發環境
不同行業需要不同的大數據分析工具和開發環境,應鼓勵計算機算法研究人員與各領域的科研人員密切合作,在分析工具和開發環境上創新。當前跨領域跨行業的數據共享仍存在大量壁壘,海量數據的收集,特別是關聯領域的同時收集還存在很大挑戰。
7. 大幅度降低數據處理、存儲和通信能耗的新技術
大數據的獲取、通信、存儲、管理與分析處理都需要消耗大量的能源。在能源問題日益突出的今天,研究創新的數據處理和傳送的節能方法與技術是重要的研究方向。
顯然,這些挑戰是大數據研究者共同面臨的,而北大重點實驗室IT選型的重點就是針對上述的挑戰,找到合適的解決方案。
北大重點實驗室IT架構解決方案
經過大量的前期調查,比較和分析準備工作,北大重點實驗室最后選擇了華為基于高性能服務器RH5885 V2的HANA數據處理平臺。HANA提供的對大量實時業務數據進行快速查詢和分析以及實時數據計算等功能,在很大程度上得益于華為RH5885 V2服務器的高可靠、高性能和高可用性的支撐。
華為RH5885 V2是新一代四路/八路機架服務器,采用Intel Xeon E7-8800/4800系列處理器,支持6核、8核及10核CPU類型,最高頻率2.66GHz,最大30MB L3緩存空間,完全能滿足大數據分析、挖掘對服務器提出的具備強大處理性能的要求;支持兩個高性能GPU,這就在很大程度上提升了系統圖形處理與浮點計算能力,恰好滿足了大數據分析中圖形展示對服務器提出的高性能GPU要求。
RH5885 V2其他的特點還包括:可靈活擴展,八路服務器支持128條內存,最大容量4TB;可靠性高,支持多達35項容錯特性;維護簡單,支持免開箱維護和綠色環保等。這些特點都為HANA提供了強大的硬件支撐,讓HANA能夠順暢地進行大數據的各種應用。
北大重點實驗室繼續引領大數據研究前沿
華為高性能服務器RH5885V2的HANA一體機應用于北大重點實驗室后,經過近一年的使用,以事實證明了其高可靠、高性能的領先優勢,不僅如此,北大重點實驗室的相關負責人認為:“華為創新的SSD 高速存儲卡,使一體機I/O 性能提升了5 倍,僅系統硬件就幫助北大重點實驗節省投資60%,一體機方案優勢明顯。更重要的是,通過使用華為高性能服務器RH5885V2的HANA一體機,優越的性能幫助我們的研究取得事半功倍的效果,并在智能化大數據領域的研究始終走在國內的最前沿。“而華為也在此次與北大重點實驗室的合作中,更細致的把握了教育行業及大數據應用的需求特點,幫助更多的中國教育行業用戶及大數據應用用戶構建更加卓越的IT系統架構。