10月17日,QCon2014年全球軟件開發大會在上海光大會展中心舉辦,作為全球頂級的技術盛會,QCon每年都會在倫敦、北京、東京、紐約、圣保羅、上海、舊金山召開。
會上,百度研究院大數據實驗室科學家沈志勇做了主題為《從數據到智能》的主題演講,著重向業界介紹了百度大數據引擎以及大數據智能分析應用案例等內容。分享了百度大數據智能分析技術的構想,同時結合項目中的實踐,通過一些具體的案例分析,為大家介紹基于百度大數據智能分析領域的一些技術與經驗。
隨著互聯網的不斷發展普及,大數據一直是一個互聯網界乃至全行業最熱門的話題,同時也被認為是下一個創新競爭和生產力的前沿。再加上百度大數據在業內的各種領先技術,沈志勇的演講無疑成了本屆QCon最火爆的現場之一。
沈志勇表示,百度希望憑借自己的大數據智能挖掘技術,與整個產業界實現在大數據上的“共同富裕”。
大數據時代來臨百度注定會是一只領頭羊
我們都處在一個信息爆炸的社會,我們感知世界的方式可以通過搜索等手段轉化成數據,在國內,百度無疑是搜索領域的領頭羊,人們每天用百度搜索,當用戶搜索行為被記錄下來后,數據就形成了。
僅從百度的搜索業務看,作為國內最大的搜索引擎,每天要索引天量的網頁,同時響應天量的用戶搜索請求。根據沈志勇介紹,目前百度擁有2000PB的大數據存儲能力,并且通過數據分析、數據挖掘等手段,百度每天可以處理10-100PB的數據量。在大數據領域上,搜索引擎的數據搜集能力,或者說產生數據的能力毋庸置疑,這也促使百度將這方面的技術運用的爐火純青,可以說百度天生就是一家大數據公司。
其實在大數據的處理方面,智能分析已經越來越引起業界的重視關聯和挖掘大數據已經成了業界最為關心的事情,無論是銀行、保險、電信,還是傳統軟件廠商、互聯網公司、創業公司,都能夠借助大數據讓自己的生產和運營更為順暢。
可是由于條件所限,很多公司自己做不了大數據,正是看到了這一點,百度做為國內最早進行大數據技術研究的公司之一,大數據技術領域“先富起來的人”,在尋找“先富帶動后富”的,希望能與整個產業界,實現在大數據上的“共同富裕”。
在互聯網時代,一個公司想要發展用戶體驗、實現商業變現、制定決策系統等,離不開大數據智能分析技術的支持。百度在智能分析技術的很多積累,尤其是應用于廣告的超大規模機器學習技術在世界上是領先的。
“如今,百度專門成立了大數據實驗室BDL,并且百度大數據引擎還將百度大腦、百度數據工廠、百度開放云作為3級開放平臺開放給業界,希望能夠憑借百度的大數據技術推動整個行業的發展。”沈志勇說。
大數據的魔力從預測旅游到預測體育
在現場,最令聽眾感興趣是沈志勇分享的百度預測項目實踐。沈志勇通過小伙伴們支持的百度大數據部的旅游預測項目和世界杯預測項目向大家闡述了基于百度大數據的預測中的一些技術與經驗。
沈志勇表示,人流量預測一直是旅游行業的一大難題,旅游管理機構和旅游目的地企業都渴望做到對未來“心中有數”,可是結果往往不甚理想。百度旅游預測基于百度大數據的預測模型。一方面,百度通過其LBS產品反映了全國所有景區的歷史人流數據;另一方面,從百度的搜索日志中,得知用戶想去的任何景點旅游的需求數據,以及該地在近期將舉辦的大型活動、民俗集會等相關信息,還可以獲取對應時間下的天氣、空氣質量等數據。“這些數據通常是按照時間排列的一系列數值,這些因素對目標數值影響的效果在我們采用的模型中被量化、系統化,進而可以預測將來。”沈志勇說。
百度對于人流量的精準預測得到了社會的普遍肯定,小長假期間被央視等各大媒體作為預測范本報道宣傳。可以說百度預測的出現無論對旅游行業宏觀把握和調控,還是對目的地營銷活動的引導,以及對旅游人流流向和流量的調整,都具有很大的現實意義。
另一個典型的案例是世界杯預測:在2014年世界杯比賽中,包括Yahoo、微軟、Google在內的互聯網公司對比賽進行了基于大數據分析的預測。結果百度的預測是最準確的,獨冠群雄。
除了上述的兩類預測,百度目前還與中國疾病預防控制中心進行合作,基于百度搜索數據來構建傳染病預測模型,結果顯示與病例實際數據具有極高的一致性。同時百度預測也可以進行經濟指數預測、高考預測,并且百度還開放了預測開放平臺給業界,如果你有歷史數據,希望預測未來走勢可以通過預測開放平臺進行預測。
大數據的未來民生、企業都能惠及的巨大價值
沈志勇指出,除了預測,百度大數據實驗室還有很多正在探索的方向,這些方向既有惠及民生的,也有服務企業,了解企業需求和真正“痛點”,提供完整的預測解決方案,可以幫助企業實現智能運維/運營。
一個典型的例子是,百度基于對海量大數據的智能分析,可以對使用百度產品的用戶進行畫像,即通過用戶輸入的搜索詞來理解用戶的意圖,從而就能實現個性化的精準廣告推薦提升用戶對廣告的點擊率和對產品的訂單轉化率。
在惠及民生的公益事業方面,近日,百度已經和聯合國簽署協議,建立了大數據聯合實驗室。該實驗室的成立意味著百度將利用自身大數據技術幫助聯合國去解決一些全球性問題。同時,聯合國把百度視為合作伙伴,也說明了百度在大數據智能分析領域的技術實力以及在創新能力上的先進性。
無論是惠及民生的預測還是惠及企業的預測,這些預測能力的背后,都是百度強大的數據挖掘和人工智能算法。業內人士指出,現在,很多行業快速積累了大量的數據,但苦于沒有數據分析的技術,無法看透數據中蘊藏的無限價值。百度智能分析技術的出現給了業界關于大數據挖掘的全新可能。
沈志勇透露,百度是一個大數據公司,有著非常大的數據量,這些信息最終產生了價值,而隨著互聯網的不斷發展目前這些價值正在向連接人與服務的方向發展。未來,百度將持續大力投入發展智能分析技術,并希望開放數據處理能力,把數據思維引入、滲透到傳統行業來促使產業升級。希望未來百度的大數據智能分析技術能夠和行業深度融合,和傳統行業、互聯網同行一起挖掘出大數據的價值,更好的把控未來。