人工智能已成為當下科技界最熱門的研究領域,就搜索而言,達到“讓機器理解人的語言”這個目標必然離不開自然語言處理技術的支撐。而自然語言處理領域一個繞不過的問題就是實體識別(Entity Recognition)。通過對用戶搜索內容的語義分析,挖掘出其核心實體,再進行搜索結果的匹配,這一技術的實現可以支持泛需求類型的實體檢索,幫助解決用戶更具體、更挑剔的需求。百度公司創始人、董事長兼首席執行官李彥宏曾表示,人工智能已在多個領域展現可能,正迎來井噴式創新,即將進入發展的黃金時期。這些技術一旦應用到各個領域,就能產生無窮無盡的可能性。
今年的百度、西交大大數據競賽正是以“面向用戶消費智能決策的核心實體識別”為題,要求參賽選手提出相應算法或模型,結合上下文語境挖掘評論中的核心實體。本次競賽百度出題組互聯網數據研發部知識圖譜團隊資深研發工程師李羽指出:“與去年基于‘知識圖譜’技術的題目相較而言,兩者有著應用目標的區別,今年賽題是實體標注更高級的應用,也是評論挖掘領域特定的需求。”另一方面,本次競賽要求識別普通文本里的關鍵主體,也就是這段文本討論的主要是哪個實體,這是本次競賽最大的技術難點,目前在業內沒有成型的技術解決方案,因而選手應重點關注實體標注既有方法之上的優化。
實體識別是自然語言處理領域中的基本任務之一,也是自動問答、信息抽取等自然語言處理綜合應用中的基礎環節。雖然在工業界和學術界已有不少研究成果,但隨著互聯網的飛速發展,大量無規則、多領域的文本數據不斷增長,對實體識別技術提出了新的要求。此次競賽切合了當前智能搜索領域一大重要課題,足以體現百度在智能搜索領域尋求突破的決心。
“本次競賽的技術可以應用于下一代智能搜索——百度度秘,輔助度秘與用戶進行更自然的交互。” 百度、西交大大數據競賽出題組資深研發工程師張俊彬補充道。百度在人工智能領域的進步都將直接體現到為用戶提供更好的互聯網服務:搜索引擎將得到更相關的結果,推薦更加準確。
目前,百度公司構建了世界上最大規模的神經網絡。數據顯示,在自然語言處理、語音識別、圖像識別、機器學習、深度學習、無人駕駛等人工智能相關領域,百度已取得1548件專利。百度硅谷人工智能實驗室還公開了關鍵代碼Warp-CTC,旨在幫助更多的開發者利用更好的深度學習算法,加快推進研發的進度,從而形成合力,在人工智能研發上獲得更多成果。
未來,百度將繼續利用自身人才、資金、用戶等優勢,布局人工智能領域,通過舉辦競賽等形式與高校展開合作,共同討論實際問題,改善產品性能,促進人工智能領域的發展,為廣大用戶提供更加自然的交互體驗。