大數據對于很多人來說并不陌生,這一說法常常在我們生活中也是屢見不鮮。但是大數據到底能在中國已經發展到什么階段了呢?美國麻省理工的阿萊克斯 彭特蘭(Alex Pentland)教授認為,中國擁有百度這樣的公司,政府部門的興趣,使得中國的大數據發展狀況良好。
彭特蘭認為,深度學習技術比傳統人工智能更加高級,能夠通過數據的搜集和發掘幫助人類更好地做出決定。而百度精確預測世界杯,是一次深度學習(Deep Learning)技術運用的成功案例,百度的大數據產品將幫助人們在更多的預測領域做出更好的選擇。
百度大數據在預測領域的應用已經涵蓋了城市預測、景點預測、高考預測、疾病預測等多個領域。未來,百度還將推出房地產預測、票房預測、就業預測和金融預測等大數據預測產品。
在今年4月24日的百度技術開放日上,百度CEO李彥宏推出了百度大數據引擎。百度大數據引擎一共分三個部分。
開放云:百度的大規模分布式計算和超大規模存儲云。過去的百度云主要面向開發者,大數據引擎的開放云則是面向有大數據存儲和處理需求的“大開發者”。
百度的開放云擁有超過1.2萬臺的單集群,超過阿里飛天計劃的5k集群。百度開放云還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規模商用ARM服務器的公司,而ARM架構的特征是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)應用在機器學習領域的公司,實現了能耗節省的目的。
數據工廠:開放云是基礎設施和硬件能力,你可以把數據工廠理解為百度將海量數據組織起來的軟件能力。就像數據庫軟件的位置一樣。只不過數據工廠是被用作處理TB級甚至更大的數據。
百度數據工廠支持單詞百TB異構數據查詢,支持SQL-like以及更復雜的查詢語句,支持各種查詢業務場景。同時百度數據工廠還將承載對于TB級別大表的并發查詢和掃描,大查詢、低并發時每秒可達百GB,在業界已經是很領先的能力了。
百度大腦:有了大數據處理和存儲的基礎之后,還得有一套能夠應用這些數據的算法。圖靈獎獲得者N.Wirth(沃斯)提出過“程序=數據結構+算法”的理論。如果說百度大數據引擎是一個程序,那么它的數據結構就是數據工廠+開放云,而算法則對應到百度大腦。
百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。此前它們被應用在語音、圖像、文本識別,以及自然語言和語義理解方面,被應用在不少App,還通過百度Inside等平臺開放給了智能硬件。現在這些能力將被用來對大數據進行智能化的分析、學習、處理、利用。百度深度神經網絡擁有200億個參數,是全球規模最大的,它擁有獨立的深度學習研究院(IDL)和較早的布局,在人工智能上百度已經快了一步,現在貢獻給業界表明了它要開放的決心。
彭特蘭在評價百度大數據產品時說,百度已經逐漸找到了如何把紙上談兵的數據轉化為具有實際運用價值的產品的有效方式。
他還指出,百度是世界人口最多國家的第一大搜索引擎,因而在發展大數據領域具有非常好的天然優勢,并且百度本身是一個強大的公司,擁有強大的技術和市場作為支撐,也正是基于此,他們成了這個行業的翹楚之一。
百度大數據也吸引了世界上最大的組織:聯合國。近期聯合國與百度宣布啟動戰略合作,共建大數據聯合實驗室,這也成為聯合國開發計劃署在全球范圍內首次攜手科技企業建立大數據實驗室。據悉,聯合國開發計劃署與百度大數據聯合實驗室的目標是探索利用大數據解決全球性問題的創新模式。
近期,現階段,實驗室的研究重點是環保、健康兩大領域,未來還將針對教育、災害管理等人類發展的眾多議題展開深入研究。
百度攜手聯合國開發計劃署共建大數據聯合實驗室,意味著百度大數據已成為政府、國際組織、環保、醫療等各個領域真正的“火眼金睛”。不僅為可持續問題提供解決方案,更為建立持續跨界合作營造了全新機制。
就目前而言,大數據作為一種顛覆性的新型產業,產業估值僅為200億美元左右,與產業的整體支出尚不成比例。
因此,盡管大數據時代已經到來,但大數據的黃金時代還尚未完全到來,至少在某些應用領域大數據還存在諸多不確定性,但是以百度的大數據聯合實驗室為轉折點,一個大數據應用的全新模式已經開啟,這也意味著一個大數據引領的新時代的來臨。
(阿萊克斯 彭特蘭(Alex Pentland)作為MIT人類動力實驗室主任,不僅是可穿戴設備先驅,更被《福布斯》雜志選為全球七大權威大數據專家之一,他和他的學生共開啟了30多個創業公司,其中涌現出谷歌眼鏡及人臉識別技術等眾多產品。)