第五屆云計算大會第二天各種分論壇也紛紛響鑼,云計算與大數據專題論壇很好的為我們闡釋了大數據如何與云計算相輔相成,為什么沒有大數據的需求,云計算的功用也不能完全發揮。
據介紹,業界正在逐步開始區分大數據和云計算兩個概念,對大數據的需求主要集中在分析和應用當面,關注數據架構,并面向業務問題解決。對云計算的需求主要在資源的服務模式方面,主要指資源動態分配和按需付費的商業模式。
我們在看回大數據本身,中國工程院院士倪光南這樣認為“大數據從數據挖掘、商業智能(BI)發展而來。”我們從數據量、數據特性、數據來源、應用領域四個方面給商業智能和大數據做個比較,兩者還是有著明顯區別。
據悉,大數據有著“實時”性的特征但并不意味著真正的實時,而往往是近似的實時,并且其還具有新的數字數據源特點。
我們現在看到的大數據分別包括了個人、公共部門、私人部門三種,這些數據共享后,進行數據挖掘和分析,可以對突發事件更快的跟蹤和響應、對違紀性質和變化的更好了解、對需要服務地區的準確定位、對于供求關系的預測能力。這一流程組成了我們大數據的生態系統。
倪光南為我們講述了大數據的典型處理流程包括數據獲取和記錄、數據清潔/抽取/標注、數據的整合/聚類/表達、數據分析/建模、以及數據解釋等5個階段。而在處理過程中,異構行、規模、及時性、復雜性和隱私權等問題是大數據想要創造價價值所需解決的困難。
而在分析過程中我們要從數據中發現關聯性,從而正確提供更快速近似的預測。但是許多新數據源的價值不在于規模和速度,而在于包含的信息豐富性。姜欣也認同相關性分析是大數據分析中的主要方法。