百度聯盟大數據機器學習技術負責人夏粉
光明網IT訊 “我在機器學習領域已經超過10年了,今天主要跟大家分享一下,百度是通過什么技術來容納百億數據特征,并且讓學習效率提升千倍、讓模型分鐘更新、將模型訓練算法速度提升十倍的。” 3月15日,百度聯盟大數據機器學習技術負責人夏粉在第48期百度技術沙龍現場上說。
機器學習是人工智能研究領域中一個重要的方向,在現今大數據背景下,面向大數據量的機器學習,通常需要做分布式的算法,來容納上億特征和數據。本期的百度技術沙龍,夏粉為大家分享了大規模機器學習和數據挖掘方面的話題和研發成果。
百度聯盟大數據機器學習技術負責人夏粉說:“百度的大規模機器學習技術搭建了一個容納萬億特征數據的、分鐘級別模型更新的、自動高效深度學習的、高效訓練的點擊率預估系統。”
首創領先算法,百度在大規模機器學習領域趕超谷歌
百度作為全球最大的中文搜索引擎,總是能給出最合適的技術來推動整個互聯網產業的發展,在大數據量的機器學習方面也不例外。
在百度技術沙龍現場,夏粉先是總結出了在廣告數據領域,大規模機器學習一般會遇到的四個問題:數據特征規模大、特征復雜度高、數據時效性高、模型訓練頻繁。
面對這些問題,夏粉著重介紹了百度首創的五個技術:SA算法、Fea-G算法、DANOVA算法、SOA算法以及Shooting算法。它們主要是數據和特征的過濾算法、深度特征學習算法等,極大的改善或簡化了廣告數據的處理。
“這些技術讓百度走在世界前列,甚至比谷歌做的還要好,谷歌目前做的是二分類、并行化,處理百億特征,分鐘級別。這些,百度通過自己的創新也已達到,百度的技術可以容納百億數據特征,讓特征學習效率提升千倍,模型分鐘更新,訓練速度提升十倍。”夏粉表示。
“這是第四次聽夏粉老師關于這個主題的演講了,每一次都有不同的收獲。”一位參會的聽眾說。
五大技術保障,用最少資源達到最好CTR準確率
在百度技術沙龍上,夏粉首先提到的是SA算法。“SA算法可以把非人為的隨機點擊樣本過濾掉,這樣就可以進行噪音刪除。我們通過對每個時間片斷波峰和波谷的觀察,知道隨機噪音的值在什么范圍,通過分值可以對噪音進行過濾。”夏粉表示。
隨后,針對廣告數據使用one-hot編碼類別型的特征,夏粉介紹了他和百度的同事一起研究出的Fea-G算法。這個算法的核心是在模型訓練之前,就知道幾個有效特征在哪兒,或者可以找到盡可能小的包含有效特征的集合。夏粉還特別強調,谷歌和百度兩家公司都在這方面進行了技術研究,不同的是,谷歌的技術是啟發性的,有可能會帶來損失。而百度的技術是用理論保障,經過嚴格的推導,它可以在效果無損的情況下,刪減的非常多的無效特征。
緊接著,夏粉介紹了全球首個直接應用于大規模稀疏特征的深度特征學習算法——DANOVA算法。“DANOVA可以把特征學習的復雜度降低到一定程度,就整個上線效果來講,特征挖掘效率可以提升上千倍,使CTR,CPM顯著增長。”夏粉此話一出,現場所有觀眾都對這一技術表現出了十足的興趣。
除此之外,夏粉還向大家介紹了SOA算法,這是一種穩定的在線算法,它能使模型穩定性更好。使訓練架構由批處理改為在線,從而節省資源80%以上,在大數據上實現分鐘級別的在線學習。“有這么一個好的算法,就能把模型時效性往前提高。”夏粉強調道。
最后,夏粉介紹了shooting算法,它針對廣告數據特征分布不均衡的特點,改進了算法迭代求解的方向和步長,在廣告數據上取得了比業界常用的大規模優化算法LBFGS快十倍的性能。
技術絕對領先,百度首創算法受追捧
“我讀書一直讀的是機器學習,希望能把機器學習的知識運用到百度大數據上面。”夏粉表示。
這次的百度技術沙龍主題分享,夏粉主要是以CTR預估為例,講了大數據學習技術應用計算廣告學,盡可能用少的資源達到比較好的CTR準確率。其實夏粉的這次分享信息量非常大,但是因為時間原因,他只有四十五分鐘的演講時間,所以在技術沙龍結束后,現場很多人都感到意猶未盡。在演講結束后,有近百名聽眾把夏粉團團圍住,向他請教大規模機器學習方面的問題。在他們看來,百度在大規模機器學習方面的技術已是國內最領先的。
百度技術沙龍是百度每月組織的一項技術開放交流活動,至今已經舉辦48期。致力于以“技術開放”的心態,分享行業領先的技術理念和技術實踐。秉承“暢想、交流、爭鳴、聚會”的理念,為互聯網工程師、軟件開發者提供一個快速學習和不斷成長的平臺。這種倡導變革與分享、踐行技術開放的行動得到了業內專家們的認可,他們認為,百度技術沙龍能夠有效推動中國互聯網的技術發展與行業創新。