百度大數據走出煉丹爐
9月2日消息, 世界杯已過去兩個多月,但百度通過大數據實現了對世界杯相對精準的預知,“完勝”微軟、谷歌、高盛等IT大佬,至今依然令人印象深刻。而早在今年百度大數據開放大會上,搞計算機學術理論的懷進鵬校長談到大數據,聽眾們還覺得是一記悶棍。
實際上,懷校長的演講在開頭部分講了大數據在這個時代對我們傳統思維的沖擊,一些價值觀的建立,而可穿戴之父阿萊克斯·彭特蘭則從另一個角度解讀了關于大數據的一些看法。
可穿戴之父談百度大數據:精確預測向全球創新借力
全球七大權威大數據專家之一的阿萊克斯·彭特蘭(Alex Pentland)日前接受專訪時談到,百度精確預測世界杯是一次深度學習技術運用的成功案例,同時他還談到了對百度大數據戰略的看法,認為百度的成功在于它超越了創新的地域邊界,懂得如何向全球創新借力。
彭特蘭指出:“深度學習技術比傳統人工智能更加高級,能夠通過數據的搜集和發掘幫助人類更好地做出決定。”
彭特蘭在評價百度大數據產品時說,正如與其他公司一樣,百度開發了許多非常棒的產品和應用,這說明百度已經逐漸找到了如何把紙上談兵的數據轉化為具有實際運用價值的產品的有效方式。
他還指出,百度是世界人口最多國家的第一大搜索引擎,因而在發展大數據領域具有非常好的天然優勢,并且百度本身是一個強大的公司,擁有強大的技術和市場作為支撐,也正是基于此,他們成了這個行業的翹楚之一。
說到大數據,究竟什么是大數據呢?
以百度為例。百度大數據引擎一共分三個部分。
開放云:百度的大規模分布式計算和超大規模存儲云。過去的百度云主要面向開發者,大數據引擎的開放云則是面向有大數據存儲和處理需求的“大開發者”。
百度的開放云擁有超過1.2萬臺的單集群,超過阿里飛天計劃的5k集群。百度開放云還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規模商用ARM服務器的公司,而ARM架構的特征是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)應用在機器學習領域的公司,實現了能耗節省的目的。
數據工廠:開放云是基礎設施和硬件能力,你可以把數據工廠理解為百度將海量數據組織起來的軟件能力。就像數據庫軟件的位置一樣。只不過數據工廠是被用作處理TB級甚至更大的數據。
百度數據工廠支持單詞百TB異構數據查詢,支持SQL-like以及更復雜的查詢語句,支持各種查詢業務場景。同時百度數據工廠還將承載對于TB級別大表的并發查詢和掃描,大查詢、低并發時每秒可達百GB,在業界已經是很領先的能力了。
百度大腦:有了大數據處理和存儲的基礎之后,還得有一套能夠應用這些數據的算法。圖靈獎獲得者N.Wirth(沃斯)提出過“程序=數據結構+算法”的理論。如果說百度大數據引擎是一個程序,那么它的數據結構就是數據工廠+開放云,而算法則對應到百度大腦。
百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。此前它們被應用在語音、圖像、文本識別,以及自然語言和語義理解方面,被應用在不少App,還通過百度Inside等平臺開放給了智能硬件。現在這些能力將被用來對大數據進行智能化的分析、學習、處理、利用。百度深度神經網絡擁有200億個參數,是全球規模最大的,它擁有獨立的深度學習研究院(IDL)和較早的布局,在人工智能上百度已經快了一步,現在貢獻給業界表明了它要開放的決心。
大數據能干啥?
百度將基礎設施能力、軟件系統能力以及智能算法技術打包在一起,通過大數據引擎開放出來之后,擁有大數據的行業可以將自己的數據接入到這個引擎進行處理。同時,一些企業在沒有大數據的情況下,還可以使用百度的數據以及大數據成果。
舉幾個例子可能你更加清楚百度大數據引擎究竟是什么。
[page]
許多政府部門擁有海量大數據——大數據經典之作《大數據》也是在講美國政府的大數據。但政府部門幾乎都沒有大數據處理和挖掘技術。交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大數據,衛生部門擁有流感法定報告數據、全國流感樣病例哨點監測和病原學監測數據,公安部門有大量的視頻監控數據。如果這些數據與百度的搜索記錄、全網數據、LBS數據結合,在利用百度大數據引擎的大數據能力,則可以實現智能路徑規劃、運力管理、流感預測、疫苗接種指導、安防追逃等等。
許多企業也擁有海量大數據——通信、金融、物流、制造、農業等行業。不過,它們幾乎都沒有大數據能力,坐擁海量數據卻一籌莫展。這時候如果能夠應用百度大數據引擎,則可以對海量數據進行可靠低成本的存儲,進行智能化的由淺入深的價值挖掘。在百度技術開放日上,中國平安便介紹了如何利用百度的大數據能力加強消費者理解和預測,細分客戶群制定個性化產品和營銷方案。
可以看出,大數據引擎的輸入實際上是百度擁有的大數據以及行業已有的大數據,而輸出則是各種行業應用成果,也就是大數據的“價值”。
百度大數據走出煉丹爐
近日,聯合國與百度宣布啟動戰略合作,共建大數據聯合實驗室,這也成為聯合國開發計劃署在全球范圍內首次攜手科技企業建立大數據實驗室。百度將利用自己強大的技術創新實力,助力聯合國解決環保、健康等人類發展問題。
百度攜手聯合國開發計劃署共建大數據聯合實驗室,獻禮互聯網大會,意味著百度大數據已完全走出了“煉丹爐”,全面普及應用,成為政府、國際組織、環保、醫療等各個領域真正的“火眼金睛”。
據悉,聯合國開發計劃署與百度大數據聯合實驗室的目標是探索利用大數據解決全球性問題的創新模式。對于百度的大數據聯合實驗室來說,首先將目光聚焦在電子垃圾問題,開發“百度回收站”,通過收集與分析電子垃圾有關大數據,將得出的有效信息與知識為社會所用,推動電子垃圾回收產業發展,為解決世界電子垃圾回收問題提供政策參考,此舉也是中國企業勇于承擔解決全球發展問題的擔當表現。
短時期哪些行業將會首先從大數據中獲益?
美國可穿戴設備先驅阿萊克斯·彭特蘭這樣說,在短期內大數據會幫助公司和企業的內部運營更加有效。在長一點時期內,我認為會大數據會讓公司和企業更加深入和綜合,例如酒店經營,酒店不僅僅提供住宿而是綜合客人的整個旅行體驗。電子商店變得更符合你的個性化風格,因為他們了解你和你感興趣的東西。