在人人必談互聯網和大數據的時代,作為國內互聯網三大巨頭之一的百度公司,擁有國內第一大搜索引擎,其如何利用“先天優勢”布局謀篇大數據是業界十分關注的話題。
此前曾有多位專家對百度大數據引擎進行解析,在近日舉行的中關村大數據日上,百度大數據部總監薛正華從百度人的視角對其大數據業務進行了一次全面介紹,展望了大數據的未來。
揭秘大數據引擎
雖然百度積累大數據的時間已久,但真正向公眾提出“大數據引擎(BIG ENGINE)”的概念還是在2014年4月第四屆“技術開放日”上。
當時,百度高級副總裁王勁宣布正式推出“大數據引擎”,通過三大組件—開放云、數據工廠、百度大腦,希冀將其大數據能力開放給社會。
最底層的開放云是信息化的基礎設施,中間層的數據工廠對大數據進行存儲管理,再上升到百度大腦。這是一個基于人工智能的系統,利用語音識別技術、大數據技術等挖掘分析數據價值。
百度創始人李彥宏曾對“百度大腦”表示出這樣的期待:“相信隨著硬件成本越來越低,計算能力越來越提升,計算機的能力將非常接近人的能力。”
現在,百度的服務器已經達到幾十萬臺,分布在全國多個數據中心,同時還有一個分布全國的內容分發網絡(CDN)保障其應用性能。在硬件方面,他們也作了很多嘗試及創新,包括自研的核心萬兆交換機,以及輸入和輸出設備(IO)瓶頸的突破。其在固態硬盤(SSD)也進行了研發,讓數據能夠更快地加載到大數據計算系統中來。
“眾所周知,獲取大數據的核心問題之一就是IO瓶頸,即數據"吃不到嘴里"。”薛正華表達了在硬件上進行探索的初衷。雖然去年才正式提出大數據引擎的概念,但據薛正華介紹,其大數據引擎各層早已具備服務能力,且應用在各個產品線上。
據了解,百度目前在基礎設施這一層所開放出來的服務包括服務器、CDN、基于位置的服務(LBS)、緩存服務等。數據工廠則主要對大數據進行存儲,現在每天處理的數據量已經超過50Pb(拍字節),且數量還在不斷增長。
薛正華表示,如何在高數據級別中進行快速查找、定位等具有技術挑戰。
而在引擎最頂層的百度大腦,則依賴于產品線數據以及第三方合作伙伴的數據。薛正華介紹,百度大腦對這些數據進行深度學習,利用數據檢索語言(DRL)深度學習架構計算系統挖掘數據價值,這些價值再應用于搜索引擎的廣告服務、在研的機器人及無人駕駛系統等。
大數據“落地”
2014年,李彥宏曾表示,希望大數據引擎對外開放,不僅能服務百度,也能服務更多企業、政府機構和其他直接用戶。技術的開放將帶來更低的成本、更可靠和更安全的系統。
但是,大數據到底能幫助人們做什么呢?
薛正華說:“我認為大數據可以運用到感知、認知、分析、決策、發現和創造等層面。”
他介紹了其大數據引擎和一家民營醫院合作的案例:年輕家長對孩子的皮膚狀況擔憂,但她不知道有什么問題。因此,百度開發了一款App,只要拿手機對著患者皮膚拍照,傳輸到百度大腦,這里有100萬個病例分析,通過比對和分析能知道病種。接下來,則能從知識庫中將相關疾病的詳細信息及重要解決辦法等轉化成語音,最后發送到App上,同時提供文字和語音供家長參考。
“BaiduEye則利用前端攝像頭把人們看到的東西拍下來,傳送到百度大腦進行處理,處理完成后以語音形式傳回來,整個過程可以在極短時間內完成。”薛正華說。
據介紹,百度大腦目前在視覺、聽覺、位置等方面都進行了嘗試,取得了一定進展,下一步可能在味覺、嗅覺等方面進一步探索。
薛正華認為,其大數據除了對感知、認知有幫助,對決策也有不可爭議的意義。
“百度現在全網有億級的數據,用 DSL(數字用戶線路)計算分析和處理,能夠挖掘出很多隱藏在數據背后的真相。”薛正華說。
例如,百度司南可以幫助分析競爭對手的定位、客戶在哪兒等。
據介紹,百度司南曾與馬自達公司合作,通過分析馬自達6的競爭對手等相關情況,建立數據模型,找出和馬自達6相關以及最接近的產品。接下來,百度司南根據IP地址,發現華北地區搜索馬自達6的用戶很多,從而判斷這將是個新的重點銷售區域。
薛正華認為,此前,這些工作應該由第三方調研機構完成,但是通過數十億級的數據分析,結果將更準確。
通過大數據,還能研究國家經濟指數的變化,特別是中小企業景氣指數,可預知經濟變化趨勢。其主要原理是,利用海量的網民行為進行數據分析。比如,對行業的產品搜索熱度以及幾十萬家的企業客戶在一段時間內的廣告投放量進行分析,結合其他一切數據,能提前3個月知道各行業的經濟指數,甚至能細化到某個地區各行業的熱度。最終結果證明,其和國家統計局公布的數據契合度非常高,結合度達到95%。
通過大數據也能監測疾病的傳播。傳染病一般暴發后再做流行病調查,耗時很長。而當某地暴發傳染病危機時,疫情的搜索會呈現爆發式增長。
“通過搜索行為分析在第一時間快速挖掘情況,對大量數據實時分析和處理,這就是大數據的價值所在。”薛正華說。