近年來,大數據已經成為了信息技術最為關注的熱點之一,各行各業都在探討如何利用大數據創造商業價值,一時間眾說紛紜,各種關于大數據的應用方案接踵而來。作為全球最大的中文搜索引擎,百度每天響應來自138個國家和地區的60億次搜索請求,它是一家真正擁有大數據的企業,在這個數據為王的信息時代,百度搜索如何應用大數據?大數據在搜索引擎效果測試和優化中有哪些應用價值?
在百度第二屆開放研究計劃中,百度網頁搜索測試部的阮星華和南開大學的張建忠合作,共同承擔了“機器學習在搜索引擎效果測試和改進中的應用”這一IT主題研究項目。據了解,這個項目就是百度利用大數據分析搜索引擎缺陷并優化搜索引擎的成功案例之一。
據阮星華介紹,參與“機器學習在搜索引擎效果測試和改進中的應用”這一項目的成員,主要是來自百度網頁搜索測試部的張鑫、李卓、張敏等,以及南開大學的研究生張文、朱曉曦,他和南開大學的張建忠教授作為合作雙方的接口人,對項目實施具體負責。
“互聯網上的網頁數量巨大,內容樣式多種多樣,少量網頁還存在內容作弊,用戶的需求表達方式也各有不同。因此難免會出現一些檢索結果不好,不能滿足用戶需求的情況,這種情況我們稱之為Bad Case,也就是產品缺陷。而我們這個項目所做的,就是通過機器學習的方法自動或半自動挖掘Bad Case,進而推動產品做有針對性的改進;其次是通過對海量數據的分析發現改進產品的思路和方案,并推動實現從而提高產品的效果和體驗。”談起項目的出發點,阮星華表示,搜索引擎并不是對每一個查詢都能給出最好的結果,存在一些用戶需求沒有滿足、體驗不好的情況(Bad Case),他們需要基于海量搜索數據進行分析發現這些Bad Case,推動產品升級改進,使搜索引擎更加精準。
研究過程中,他們發現了多類Bad Case,如不出官網結果、搜索結果摘要差甚至無摘要、相關性差、搜索詞糾錯錯誤等,對此,他們針對大搜索建立十多個缺陷挖掘模型,建立起“用戶滿意度挖掘模型”、“尋址類搜索挖掘模型”、“糾錯詞Bad Case挖掘模型”等不同Bad Case類型的挖掘方法。在過去的一年時間中累計挖掘各類產品缺陷超過5萬個,有效推動產品的升級和改進,成為產品升級決策的一個重要參考依據。
例如,當用戶使用搜索引擎查找某個網址的時候,有可能會因為查詢詞不合適、網頁未收錄或者相關性排序不合理等原因導致搜索結果中沒有出現用戶想要的網址或者想要的網址比較靠后,阮星華和他的團隊所做的一部分工作就是找出這樣的信息,精確展現真實的官網,僅這一部分工作,就為產品線挖掘了大量精確官網數據,大大提高了尋址類需求的滿足度,為用戶提供更加準確的搜索結果。
“為了讓搜索結果更準確、用戶體驗更好,我們在這個項目中通過數據分析,做了很多優化工作。比如用戶在百度中搜索劉德華,搜索結果不僅展現劉德華的相關資料,還會在網頁右側‘其他人還搜’中展現于劉德華關系密切的人物,更貼心的是,在網頁底端的‘相關搜索’中,還有各類與劉德華相關的搜索熱詞。我們通過數據分析提出針對“其他人還搜”和“相關搜索”兩個區域的改進措施,有效提升了這兩個區域的點擊率。根據我們的數據統計,在‘知心百科“其他人還搜”卡片內實體入退場策略優化’中,我們的項目研究成果給“其他人還搜”帶來了11.4%的點擊率提升;在‘相關搜索’結果優化后,我們帶來了約17%的“相關搜索”結果點擊收益,這些數據充分說明在我們在大數據挖掘中得到的價值判斷是正確的,對網民的需求分析比較到位。”
據悉,“機器學習在搜索引擎效果測試和改進中的應用”這一項目取得了十分豐厚的成果,無論是從技術發展還是人才培養角度來說,都具有重大意義。“這個項目取得了9項技術成果,并發表了一篇論文,獲得了3項相關專利,其中一項專利還被評為百度公司的一級專利,而且我們這個項目還獲得百度質量部總監最高獎和創新獎,這些成果和榮譽對我們來說,很有激勵意義。”阮星華對“機器學習在搜索引擎效果測試和改進中的應用”這個項目能夠取得如此豐厚的成果表示欣喜。此外,他還特別指出,參與該項目的兩位實習生張文和朱曉曦,也通過校招的途徑正式加入了百度網頁搜索測試部,即將成為他們中的一份子。而且,通過該項目,百度和南開大學計算機與控制工程學院建立測試課程合作,加深了外界對測試的理解以及對百度質量部的認識,也為校企合作提供了人才培養的平臺,這是此次合作的意外收獲。
“我們在項目中一旦發現Bad Case,就會分析歸類并推動解決,所以隨著項目的進行,我們的研究成果不斷上線被應用,及時地為用戶提供更精準更智能的搜索服務。”對于研究成果的應用,阮星華頗為自豪,“通過2013年一年的研究,我們對基于大數據的搜索引擎缺陷分析以及產品改進有了一些積累,今后,我們將更加深入優化不同的缺陷挖掘模型,能夠更全面更快速的發現搜索引擎不同維度的缺陷,加速產品迭代,讓用戶使用更智能更精準的搜索引擎。”