大數據自誕生之日起,業界對它的概念、技術和應用就存在一定爭議。究竟什么是大數據?有哪些大數據技術?大數據的未來是怎樣的?每個人都有自己的理解。在大數據產品評選活動舉辦之際,筆者采訪了此次擔任評委的幾位專家學者,看看專家眼中的“大數據”是什么樣的?
容力現任雅虎北京全球研發中心研發總監,負責雅虎在線廣告精準投放產品的北京研發團隊,致力于基于海量數據的用戶行為分析和挖掘,以及在大數據平臺上優化顯示廣告的個性化投放。在加入雅虎北京全球研發中心之前,容力曾經在美國微軟公司擔任資深研發經理,領導多個工程師和研究工程師團隊,負責有關顯示廣告和內容廣告產品的算法與平臺技術的研發。
大數據從互聯網邁向企業級
談到大數據的概念,容力表示,“大數據”的概念是在十多年前伴隨著互聯網的迅猛發展而誕生的。雖然它由互聯網而生,其應用卻早已不限于互聯網行業。簡單地說,“大數據”就是超越傳統數據處理軟件(如關系型數據庫)處理能力的超大規模的數據集,大數據技術可以及時地、在應用所需求的時間內實現有效信息的獲取、組織、管理和處理。最為關鍵的是,大數據技術代表著對數據資源的思維方式的轉變——我們從哪里獲取數據,如何分析數據,以及如何從分析結果中實現盈利。近幾年來,大數據技術的變革主要集中在從傳統數據源之中以及之外尋求新的價值點。
▲雅虎北京全球研發中心研發總監 容力
容力認為,大數據技術的發展存在三個方面的挑戰:數據量、處理速度和數據多樣性。目前IT行業的大數據技術主要致力于解決前兩個方面的問題。如果從另一個角度來看,在商業實踐中, 這兩方面的挑戰可以歸為兩類典型的大數據問題--計算密集型(computing intensive ,比如天氣預報)和數據密集型(data intensive,比如互聯網數據分析)。常用的用于解決這兩類問題的技術有:Hadoop、MapReduce、Big Table/HBase、Hive、SAP HANA、Dremel、Storm和Spark等。
隨著近年半導體技術和應用的飛速發展,得益于硬件價格的不斷降低,容力注意到大數據技術發展的重點正在從網格批處理計算處理方式,轉向內存中(in-memory)實時流數據計算的處理方式。 近來流行的Storm、Kafka和SAP HANA都是這一類的大數據處理技術。隨著實時流數據分析和實時決策技術的成熟,大數據應用得以迅速從互聯網領域延伸到提供企業級的大數據解決方案,例如提供金融服務和智能商業信息。
大數據人才短缺面臨挑戰
談到大數據的技術趨勢,容力表示,隨著大數據技術從概念走向成熟, 商業智能的決策響應時間將成為許多公司成功與否的關鍵。數據分析進行的越快,商業決策就越有潛在價值。許多企業已經通過從大數據的批處理到實時流數據處理的轉變獲得了競爭優勢。大數據解決方案在企業數據快速分析方面的貢獻有目共睹,更快速高效的數據分析有助于企業獲取更有價值的信息,繼而實現關鍵的商業決策。
同時,企業在享受大數據便利的同時也面臨著相關人才短缺的挑戰。一份麥肯錫公司的研究報告表明,預計至2018年,僅美國就將有14-19萬名擁有大數據深度分析能力的人才缺口,同時還需要150萬位可以通過大數據分析做出有效決策的經理人和分析師。
更多精彩盡在2014年4月10日-12日在北京五洲皇冠國際酒店舉辦的第五屆中國數據庫技術大會,2月29日之前訂票可享受7.8折最低票價。