產生于互聯網的大數據應用,現階段正在向其他行業領域滲透,成為行業創新和轉型的重要驅動力。根據百度多年來在大數據領域的創新與實踐,闡述了大數據驅動搜索引擎的發展,介紹了百度大數據引擎和行業應用實踐。重點分析了大數據發展的關鍵因素,并提出了大數據和人工智能是未來信息技術發展的重要方向。
1 引言
隨著移動互聯網、物聯網的快速發展,信息采集成本不斷降低,加速物理世界向網絡空間的量化。數字世界與現實世界的融合過程中產生并積累了大量的數據。根據國際數據公司(IDC)發布的研究報告,全球所有信息數據中90%產生于近幾年,數據總量正在以指數形式增長,從2003年的5 EB,到2013年4.4ZB,并將于2020年達到44 ZB,如圖1所示。
圖1 全球數據總量
數據爆炸將我們推向大數據時代,大數據是新一輪信息技術革命與人類經濟社會活動的交匯融合的必然產物,數據的關聯和挖掘將創造新的價值,提升效率。數據將和自然資源、人力資源一樣成為國家最重要的戰略資源,將成為產業升級的重要推動力。
大數據因其蘊含的社會價值和商業價值,已經成為一項重要的生產要素,大數據的應用將改變傳統行業的商業模式,拉動產業升級。數據已經成為傳統行業的核心資產。產生于互聯網的大數據應用,現階段正在向制造業、金融及商業、醫療衛生、國計民生等各個領域滲透。各行業也已經意識到數據價值挖掘的重要意義,加速探索并布局大數據應用。越來越多機構、企業都迫切希望從不同渠道獲取的多種類型、結構復雜的大數據中挖掘出有價值的趨勢洞察,快速、準確地制定決策,驅動商業和行業創新。
2 從搜索引擎說起,大數據面面觀
2.1 搜索引擎是個天然的大數據服務
大數據是信息技術及其應用發展到一定階段的“自然現象”,源于信息技術的不斷廉價化以及互聯網及其所帶來的無處不在的信息技術延伸應用。可以說大數據應用和技術是在互聯網的快速發展中產生的,互聯網企業尤其是搜索引擎公司是大數據實踐的先行者和領跑者。搜索引擎連接了人和信息、人和服務,本身就是一個完美的大數據應用實例,其目的就是為了更好地理解用戶的搜索需求,將信息與用戶匹配起來。
百度是當今中國人獲取信息的最主要入口,每天響應來自138個國家和地區的數十億次搜索請求,覆蓋95%以上的中國網民,平均每個中國網民每天使用10次百度。為了獲得更好的用戶體驗和搜索的精準對接,百度不斷在技術上挑戰自我,在搜索的實踐中積累了整套大數據的處理和實踐技術,占據了世界領先的地位。同時,百度也積極在大數據的商業實踐上不斷探索,并取得了顯著的成績。
2.2 海量的數據資源是大數據實踐的基礎
百度擁有海量的數據基礎,擁有EB級別的超大數據存儲和管理規模,并達到100PB/天的數據計算能力,可達到毫秒級響應速度。百度已收錄全世界超過一萬億張網頁,相當于5 000個國家圖書館的信息量總和。同時承擔著每天百億次的訪問請求,可離線完成1000億網頁的處理與分析,時效性網頁從更新到索引只需要幾十秒,實現大數據量級下的低延遲和秒級響應。
百度的數據具有實時性和全面性的特點,囊括了全網搜索數據、全網評論信息、百度內部數據以及第三方合作數據等跨行業、跨地域基礎數據,海量的數據基礎是百度引領大數據實踐的基礎。
2.3 高效的云計算基礎設施提供強大的計算能力
面臨龐大數據量帶來的計算能力和網絡帶寬的新挑戰,百度自主研發超大規模分布式存儲和計算系統,目前能夠支持14 款用戶過億的產品。其中分布式存儲系統可以存儲長文本、語音、視頻等異構數據,實現單集群文件數達100億;大規模分布式計算系統通過自研技術提升50% 以上MapReduce的性能,實時流計算系統吞吐量達10GB/s;百度創新性地實現了基于大數據的智能自動化運維框架,滿足超大規模集群運維的需求,實時分析3萬以上監控指標;2 min內完成分析和故障定位,保證系統可用性為99.99%。百度是全球首家大規模商用ARM服務器的公司,建立了大規模GPU并行化平臺,單GPU計算能力可比百片CPU,極大程度地降低了能耗和計算成本。
百度自主研發萬兆交換機,逐步從吉比特網絡向萬兆網絡大規模切換,正在研制的4萬兆交換機也已經開始小規模試點和驗證,百度的萬兆集群是國內互聯網行業首個萬兆交換機的規模應用。
基于完全自主知識產權的高性能服務器、整機柜和網絡設備等,百度自主設計并建設了數個亞洲一流的數據中心,自主研發了整機柜服務器并已投入使用數十萬臺。通過基礎設施、IT設備及軟件協同,定制低功耗服務器等多項綠色節能技術,百度自建數據中心全年約一半時間實現完全免費冷卻(freecooling)。 2013年,該數據中心最佳PUE(power usage effectiveness,電力使用效率)為1.16,成為國內最節能、最環保的數據中心。
2.4 人工智能技術全面提升大數據處理能力
百度高度重視人工智能技術的發展,經過多年的堅持努力,在語音識別、圖像識別、自然語言理解、機器學習、智能交互、數據挖掘、個性化推薦的研究和應用領域打下扎實的技術積累,攻克多項技術難題,人工智能技術已經達到國際領先水平。
百度目前已擁有全球最大規模的深度神經網絡,并實現全球最大規模的GPU并行計算平臺。百度的深度學習技術被應用在語音、圖像、文本識別、自然語言處理和 CTR預估等商業產品領域,取得顯著的成效。同時,百度也積極將人工智能技術應用于大數據領域,通過機器學習和深度學習等技術提升數據智能,尋求現有問題的解決方案,并實現更好的預測。
3 大數據推動搜索引擎的演進
以百度為例,用戶在搜索的過程中留下信息,其中有大量的文本、圖片和影音等數據,形成了海量的數據資源,百度對這些復雜的異構數據進行處理分析,發掘價值,實現更多大數據應用。大數據技術推動著搜索引擎不斷向前演進。
3.1 智能交互
隨著用戶需求更趨于復雜化和個性化,從最初的獲取信息,到現階段希望能夠通過搜索引擎直接獲取答案、連接服務,這就需要實現海量數據的挖掘和智能處理,實現人和服務的精準匹配。另外用戶也更趨向于自然的交互方式,據統計,現階段在百度的搜索請求中10%是以語音的形式表達的,而未來5年使用語音和圖像來表達需求的比例將超過50%。基于如此真實強大的需求,為了不斷提升用戶體驗,百度在圖像識別和語音識別這兩項前沿技術領域實現突破,并取得了一系列領先成果。
百度在2010年開始進行智能語音及相關技術研發,推出了第一代基于云端識別的互聯網應用“掌上百度”。2012年11月,百度上線了中國第一款基于DNN 的漢語語音搜索系統,成為最早采用DNN技術進行商業語音服務的公司之一。目前已經積累了數萬小時的聲學訓練語料和海量文本語料[1],線上語言模型體積超過100GB,支持小時級別的海量語言模型更新。語音識別DNN深達9層,基于聽覺感知的深度學習聲學建模技術可以實現更高的精準度和識別率。在安靜情況下,百度的普通話識別率已達到95%以上,處于國際領先水平。百度語音技術對內應用于手機百度、百度輸入法、百度地圖、百度導航等一系列產品,同時對外推出開放平臺,提供多個垂直領域的識別和解析服務,合作伙伴超過30個,覆蓋汽車、醫療、手機、電商、家電和車載等十幾個領域和方向。
在圖像識別領域,百度在2012年底將深度學習技術成功應用于OCR識別和人臉識別,并推出相應的PC端和移動端搜索產品[2]。 2013年,深度學習模型被成功應用于一般圖片的識別和理解。目前百度的人臉識別準確率超過98%,處于國際領先水平,圖像識別技術已經用于手機百度、百度識圖等多個應用中。從百度的經驗來看,深度學習應用于圖像識別不但大大提升了準確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率。目前利用CNN(卷積神經網絡)和RNN(遞歸神經網絡)技術,百度成功地實現將圖像內容生成自然語言的描述性句子或段落,從而在高層語義層面建立了圖像和自然語言之間的橋梁,也就是“機器讀圖”,這可以說是人工智能領域的一次技術飛躍。
3.2 知識圖譜
當用戶使用搜索引擎時,需要的不止是索引到相關的網頁,更希望找到答案、加深了解以及發現更多的內容。為了使搜索引擎更智能,信息的組織方式正在由網頁之間的超鏈聯系向海量實體之間的知識聯系演變,知識圖譜就是基于海量的互聯網數據,實現這種演變的最為重要的技術之一。
知識圖譜包含了萬物以及它們之間的聯系,用實體以及實體關系刻畫這個世界。如圖2所示,百度知識圖譜依托于強大的互聯網數據分析技術,對互聯網海量數據進行挖掘,并應用高效精準的算法對數據進行分類梳理,將復雜的知識體系通過數據挖掘、信息處理、知識計量和圖形繪制顯示出來,構建宏大的知識網絡,以圖文并茂的方式展現知識的方方面面,讓人們更便捷地獲取信息、找到所求,這恰恰與百度的使命一脈相承。
圖2 百度知識圖譜示例
為了使互聯網中海量的數據及內容為機器所理解,進而形成知識供用戶獲取并使用,百度知識圖譜以實體為基點,創建了基于語義的鏈接關系,從海量的數據中提取出精華信息,完成了知識的匯集、整理、再加工,構建了與國際標準接軌的數據“智囊”,目前已建成涵蓋近20領域、幾十類別、上億實體量的龐大知識數據庫。通過強大的平臺與靈活的機制,應用到20多個產品線之中,為用戶帶來多角度、全方位的搜索體驗提升。
3.3 深度問答
深度問答是一種基于海量互聯網數據和深度語義理解的智能系統,基于對用戶自然語言的理解,實現對海量數據的深層分析和語義理解,并通過搜索和語義匹配技術,提煉出答案信息,對信息進行聚合、提煉,給出最全面、準確的結果。其實現的難點主要在于正確理解用戶復雜和多變的需求,并掌握海量結構化的知識庫數據,這就需要強大的人工智能技術和海量復雜的大數據處理能力。深度問答其關鍵技術包括問題分析和理解技術、實體知識體系建模技術、文本分析和關系抽取技術以及語義分析和排序技術等。
● 問題分析和理解技術:針對不同類型的問題,提取答案的技術也會不同。根據可采用的技術,問題可以大致分為實體類問題和非實體類問題兩大類。實體類問題是指答案是實體的問題,對于實體類問題,問題的答案可以是唯一實體或者實體的列表,需要通過問題分析技術分析出實體類別;對于非實體類的問題,需要通過問題分析技術,把這些類型的問題跟實體類問題區分開來,因為這些問題的答案不再是實體,答案的形態也更加復雜。
● 實體知識體系建模技術:實體類問答離不開實體知識體系的支撐,實體的類別、實體間的同位、上下位關系都十分重要。因此,一個完備的實體知識體系建設(ontology)對于問題回答十分必要。實體的同位、上下位關系可以通過整合多種來源的知識獲取,包括一些結構化的數據如百度百科,也可以從普通文本中挖掘。
● 文本分析和關系抽取技術:對文本的深層分析是深度問答用到的一項基礎技術。如圖3所示,文本的分析分為多個層次,包括分詞、實體識別、句法分析乃至語義角色標注,在這些分析的基礎上可以進行知識獲取。而通過對海量數據進行深層分析,可以有效過濾文本分析引入的噪音,使得知識更加精準。文本分析和關系抽取技術不僅可以用于從普通文本抽取知識,也可以用于語義匹配。
圖3 文本分析和知識抽取技術示例
4 百度大數據引擎及行業應用實踐
4.1 百度大數據引擎
百度堅信技術改變互聯網,互聯網可以改造傳統行業。為了助力傳統行業快速進入這個大數據的時代,充分發掘和利用大數據的價值,百度對外發布大數據引擎,向外界提供大數據存儲、分析及挖掘的技術能力,這也是全球首個開放大數據引擎。
如圖4所示,百度大數據引擎主要包含三大組件:開放云、數據工廠和百度大腦。開放云可以將企業原本價值密度低、結構多樣的小數據匯聚成可虛擬化、可檢索的大數據,解決數據存儲和計算瓶頸;數據工廠對這些數據加工、處理、檢索,把數據關聯起來,從中挖掘出一定的價值;百度大腦是建立在百度深度學習和大規模機器學習基礎上,最終實現更具前瞻性的智能數據分析及預測功能,以實現數據智能,支持科學決策與創造。百度積極開放輸出百度大腦的能力,一方面助力國家在人工智能、大數據等技術上的整體提升;另一方面也幫助行業轉型升級,提升企業的核心競爭力。
圖4 百度大數據引擎
這三大組件作為3級開放平臺支撐百度核心業務及其拓展業務,也將作為獨立或整體的開放平臺,給各行各業提供支持和服務,支持百度的核心商業應用及社會企業的新興商業模式。
4.2 百度行業應用大數據實踐
4.2.1 公眾生活領域——大數據預測
百度基于海量的數據處理能力,利用機器學習和深度學習等手段建立模型,可以實現公眾生活的預測業務。目前,在百度預測產品中已經推出了景點舒適度預測和城市旅游預測、高考預測、世界杯預測等服務。
以世界杯預測為例,在2014年巴西世界杯的四分之一決賽前,百度、谷歌、微軟和高盛分別對4強結果進行了預測,結果顯示:百度、微軟結果預測完全正確,而谷歌則預測正確3支晉級球隊;在小組賽階段的預測,谷歌缺席,微軟、高盛的準確率也低于百度。總體來看,無論是小組賽還是淘汰賽,百度的世界杯結果預測中均領先于其他公司。最終,百度又成功預測了德國隊奪冠,如圖5所示。
圖5 百度世界杯預測
預測準確度來自百度對大數據的強大分析能力和超大規模機器學習模型。在對體育數據的研究過程中,百度的科學家發現類似保羅章魚的賽事預測完全有可能借助大數據的分析能力完成。因此,百度收集了2010-2013年全世界范圍內所有國家隊及俱樂部的賽事數據,構建了賽事預測模型,并通過對多源異構數據的綜合分析,綜合考慮球隊實力、近期狀態、主場效應、博彩數據和大賽能力等5個維度的數據。最終實現了對2014年巴西世界杯的成功預測。
4.2.2 公共衛生領域——疾病預測
通過百度搜索數據與醫療數據、醫保數據等關聯,并結合圖像識別和語音識別技術、可穿戴設備數據采集等,通過大數據分析與挖掘能力可以實現人群疾病分布關聯分析等。通過對大量臨床電子病歷、臨床經驗和科研成果等醫學信息數據進行學習和理解,繪制人類疾病圖譜(人群分布),并建立疾病分析模型和治療路徑模型。這也將極大推動疾病研究、醫藥研發、藥品監管、居民醫療服務和全民健康教育等事業發展。
百度與中國疾病預防控制中心(CDC)合作開發的疾病預測產品,基于對網民每日更新的互聯網搜索的分析、建模,實時反饋流感、手足口、性病、艾滋病等傳染病,糖尿病、高血壓、肺癌、乳腺癌等流行病的爆發數據,并預測疾病流行趨勢,是國家疾病控制機構傳統監測體系的有力補充。結合大數據輿情分析、公共衛生危機事件預警產品,有效地融合非結構化大數據,建立了基于互聯網的新興公共衛生數據資源共享機制與服務價值鏈。
4.2.3 企業IT應用——硬盤故障預測
百度全球有幾十個的數據中心或者內容分發網絡(CDN)節點,擁有數十萬臺服務器和數萬臺交換機,200多萬塊硬盤。這些硬盤的年報錯率為4%~7%,月均硬盤故障超過1萬起,占全部硬件故障的80%以上。百度通過大數據分析與機器學習技術,對9億條實例進行采集處理,選取15萬個訓練樣本,監控240個特征的實時變化,構建預測模型,并通過機器學習的算法可以提前一天預測出硬盤故障并遷移數據,該系統可以節約帶寬70%、節約計算資源85%、節省服務器運行消耗10%,每年節省1萬多塊硬盤。如圖6所示,基于大數據實現硬盤故障預測的方法也可以用于實現行業硬件系統的運維和管理中。
圖6 基于大數據的硬盤故障預測
4.2.4 企業IT應用——智能化運維
近年來百度在服務器規模、數據規模、單集群規模等方面出現爆發式增長。百度服務器的規模近5年來增長了15倍以上,達到數十萬臺。數據規模已達到EB級別。在云計算和大數據時代,集群規模和數據量爆發式增長,如何管理好云計算平臺、如何提供高質量的服務,是云計算的核心問題之一。
為了應對云計算和大數據應用帶來的新的需求和挑戰,百度同樣利用大數據技術,把在線服務運維轉向智能化管理模式,并走在了行業的前列。百度已經建立起了六大數據倉庫之一的運維數據倉庫,囊括了服務器、網絡、系統、程序、變更等各個方面的實時及歷史狀態數據,每天更新數據量接近100TB。
基于對運維大數據的挖掘、對歷史數據的學習和異常模式識別,實現對流量數據的預測。通過對包括訪問速度、系統容量、帶寬、成本等在內的10多個因子的實時自動分析,實現了在眾多數據中心間的流量自動調度,決策時間也由人工判斷的10幾分鐘大幅縮短到1min。這個系統的實際效果在故障中得到很好的檢驗,例如系統在沒有人工介入的情況下智能地把流量調度到另外的數據中心,拒絕流量僅有幾千個,避免類似故障可能造成數千萬的流量損失。
4.2.5 社會治理領域——上海外灘踩踏事故大數據分析
用戶去目的地之前,一般都會提前利用百度地圖搜索地點和規劃路線。同時,百度的搜索詞也會有一定的提前量預測某一事件。因此,對百度數據的分析可以應用于社會治理領域,實現基于大規模人群的事件預警和分析。
2015 年初的上海外灘踩踏事件發生后,百度秉承“以數據說話”的理念,通過對百度的定位數據、搜索數據進行挖掘,對當時的情況進行了數據化描述。圖7標明了南京東路地鐵站附近區域、外灘源附近區域、事發地陳毅廣場附近區域和外灘區域位置在2014年12月31日事發當時的人群熱力圖。顏色越深表示人群越密集,顏色越淺表示越稀疏。
圖7 外灘地區人群熱力圖
對當晚外灘區域的人流進行量化分析,得到了如圖8所示的人群流動方向分布情況。圖8中每一扇形分區代表不同的人流方向,扇區半徑表示該方向人流量大小。圖 8(a)和圖8(b)表示2014年中秋和國慶當晚的情況,可以看出,人流方向比較簡單和清晰,即南北向人流較多,其他方向人流較少。圖8(c)顯示了跨年當晚外灘區域的人流方向,除了南北雙向的人流,還有其他多個方向人流,人群流動方向分布混亂。
圖8 人群流動方向分布情況
為了挖掘用戶行為的時空特性,百度對大量歷史群體聚集場合的數據進行進一步分析,包括鳥巢足球賽等。分析發現,相關地點的地圖搜索請求峰值會早于人群密度高峰幾十分鐘出現。圖9為外灘的搜索量和人群數量之間的互相關性相對于時延的變化曲線,其中橫軸的值為時延量,負值表示提前量。例如,橫坐標-10對應的縱坐標值就是提前10h的搜索量與人群數量的相關性。從圖9中可以發現,兩個量的互相關性曲線在-1.5 h時達到了峰值,這意味著,根據地圖上相關地點搜索的請求量,至少可能提前幾十分鐘預測出人流量峰值的到來。
圖9 搜索量和人群數量相關性曲線
5 結束語
隨著我國各行業信息化的快速發展,數據量激增,我國已經成為數據大國。未來如何將這些數據得以有效、科學地利用,挖掘數據價值,將我國建設為大數據技術強國,是信息化發展的重要戰略問題。進入大數據時代,數據類型已不是單一的結構化數據,非結構化數據占有非常大的比重,但是如果現有技術手段無法將大量的非結構化數據與結構化數據進行統一和整合,就無法發掘數據中的重要價值。而對于這些非結構化的數據進行分析和挖掘并實現其價值,人工智能是重要的技術發展方向。大數據和計算技術的發展帶來了人工智能的新浪潮,人工智能的本質特征之一是學習的能力,也就是說系統的性能會隨著經驗數據的積累而不斷提升。所以,大數據時代的到來給人工智能的發展提供前所未有的機遇。
如圖10所示,在人工智能領域,存在著一個正循環:通過人工智能技術不斷優化產品,讓優秀產品吸引更多用戶,更多用戶產生更多數據,而更多的數據可以使人工智能的性能得到提升,從而讓產品更優秀。
圖10 基于大數據的人工智能正循環
在過去的20年里,中國企業很多時候都只能扮演技術跟隨者的角色,但是現階段我國互聯網企業在大數據處理和人工智能等領域不斷取得突破,推動了這個正循環運轉加速,引領我國信息技術的發展,并在世界范圍內樹立技術強國的形象,推動我國的大數據產業成熟和發展。
參考文獻
[1] 涂蘭敬. 百度的技術突破與應用. 中國計算機報, 2015-01-05
Tu LJ. Technology breakthrough and application of the Baidu. Chinese ComputerNewspaper, 2015-01-05
[2] 都大龍, 余軼男, 羅恒等. 基于深度學習的圖像識別進展:百度的若干實踐. 中國計算機學會通訊, 2015,11(4)
Du D L, Yu Y N, Luo H, et al. Progress of image recognition basedon deep learning:some of the Baidu practice. Communications of the CCF,2015,11(4)