大家都知道百度是一個互聯網公司,其實,百度本身是一個大數據公司,因為做搜索引擎業務,不掌握大數據是玩不轉的。百度大數據首席布道師陶海亮在2014中國大數據應用論壇上如此說到。
據陶海亮介紹,大數據對一些行業的應用提出了很多挑戰,主要來自三個方面,首先最底層的是數據存儲和計算規模的挑戰,然后是數據管理挖掘技術方面缺乏,最上層的是,對于大部分傳統企業來說,像機器學習和人工智能的技術,并不被IT人員所掌握,很多行業要熟悉大數據,其實面臨著比較大的困難。
今年4月份,百度發布了百度大數據引擎戰略,這一戰略將百度多年來在大數據應用方面積累的技術能力開放出來,各行各業都可以使用。“針對最底層,大數據引擎有開放云,也就是說的比較多云計算,但百度的規模更大一些,并含有獨有技術。在云開放上面有數據工廠,即新一代數據庫管理技術,以及挖掘方法。數據工廠上面最核心的成為百度技術,叫做百度大腦。”陶海亮說到。
據陶海亮介紹,百度曾經管理的數據是超過EB級別的,每天新增的數據是TB級別,百度的整體服務器超過了幾十萬臺,單級別的達到上萬臺。