2017年，機器學習在Quora的五大應用場景

責任編輯：editor004 作者： Nikhil Dandekar |來源：企業網D1Net 2017-06-01 11:16:24 本文摘自：INFOQ

2015年，Quora的工程主席Xavier Amatriain非常精彩地回答了Quora上的一個問題：“Quora在2015年將如何應用機器學習”。從那個時候開始，機器學習在Quora的應用得到了長足的發展。他們不僅更加深入地為已有的機器學習應用構建更大更好的模型，而且將機器學習技術應用到更多領域。而在今年，Quora的工程經理Nikhil Dandekar在Quora上回答了類似的問題：“Quora在2017年將如何應用機器學習”。以下譯文翻譯自Nikhil的回答內容，并已獲得作者的授權，查看原文 “How does Quora use machine learning in 2017”。

機器學習在Quora的五大應用場景

下面將介紹Quora平臺各個部分的功能，以及我們是如何在每一個功能上應用機器學習的。

1. 查找信息

Quora通過問答的形式實現知識的分享。分享從用戶提出問題（或者叫“信息需求”）開始。在用戶提問之后，我們的機器學習系統開始進行問題理解，例如，從問題中抽取信息，便于后續的處理。

我們十分關注內容的質量，不過好的內容是從好的問題開始的。我們的機器學習系統對問題進行質量分類，幫助我們識別出高質量和低質量的問題。除了問題的質量，我們還把問題分成不同的類型，這樣我們在后續流程中就知道該如何處理這些問題。

最后，我們給每個問題打上主題標簽，用于標記某個問題是屬于哪個主題的。大多數主題建模系統會處理大量的文本和少量的主題，而我們需要處理簡短的文本和超過百萬的潛在主題，所以這個對于我們來說更加具有挑戰性。

　　我們提取問題和上下文的特性，例如，問題的提問者、提問的地點，等等。

另外一種可以滿足提問用戶需求的方式是讓他們搜索已有的問題，從而找到可以解答他們疑問的內容。我們有兩個這樣的系統，一個是提問框，一個是全文檢索。前者在Quora主頁頂部提供了一個提問框，可以列出排名靠前的匹配問題；后者則提供了更加深入的內容匹配，可以通過點擊提問框里的“搜索”按鈕來查看匹配的內容。這兩個系統使用了不同的排名算法，這些算法具有不同的搜索速度、匹配度以及搜索的深度和廣度。

2. 為問題尋找答案

“問題理解”系統的產出成為下一步處理的重要輸入：從專家那里獲得答案。在這一步，我們仍然使用機器學習系統來幫我們解決問題。

Request Answers（之前叫Ask To Answer）是Quora的一個產品特性，用戶可以向其他人發送請求，請求他們來回答指定的問題。我們把這個特性歸結為一個機器學習問題，我們的另一篇博文“Ask To Answer as a Machine Learning Problem”對這個問題進行了詳細的描述。

除了A2A，我們主要通過主頁的問題種子（feed）來對未解答的問題和專家進行匹配。種子的問題排名對我們來說是一個非常重要的機器學習問題。我們要考慮問題本身的屬性、用戶的屬性，以及其他一系列原始屬性，并將它們作為排名模型的輸入，為用戶生成具有主題化、相關性和定制化的種子。下面的截圖展示了幾天前我的種子當中包含了哪些問題。

　　3. 閱讀內容

從上圖可以看到，種子里不僅包含了問題，還包含了答案。種子的答案排名是我們的另一個非常重要的機器學習問題。問題排名和答案排名使用的是相似的底層系統，不過因為要達成的目的不一樣，所以在底層模型里使用的特征是不一樣的。我們會向用戶發送Email Digests，這也是另外一個機器學習的使用場景。以上這些排名問題都是通過高級的機器學習系統來解決的，這些系統通過多種模型和大量特征來完成最終的排名。

對于找到感興趣問題的用戶，我們要確保Quora能夠為他們提供最佳的閱讀體驗。問題答案排名也是一個非常重要的機器學習問題，它可以確保與問題具有最高相關度的答案排在最前面。我們在“A Machine Approach to Ranking Answers on Quora”這篇文章里解釋了答案排名的細節。我們還對評論進行排名，確保讀者可以看到相關度最高的評論排在最前面。這些排名系統遠遠超出了普通的upvote和downvote，它們通過相關的用戶特征、內容質量、參與度等信息來完成最終的排名。

我們還希望用戶在閱讀完問題的答案之后，能夠找到更多相關的內容。于是，找出相關問題就成為了機器學習要為我們提供的另一個特性。我們在問題頁面上展示了相關的問題列表，方便用戶瀏覽問題。相關主題（Related Topics）和趨勢主題（Trending Topics）也可以幫助讀者更好地瀏覽Quora。我們還在主頁上放置了一些板塊，比如可關注的主題和可關注的用戶，它們也都是基于我們對用戶的了解程度而定制的推薦系統。

以上的機器學習系統最為重要的元素就是個性化。個性化意味著產品和底層的系統需要與Quora的每一個用戶相關。我們的用戶理解組件是個性化系統的一個重要組件，我們抽取了用戶的各種特征，比如他們喜歡和不喜歡的主題、他們在各個領域的專長，以及他們的社交網絡屬性。我們還有各種“用戶實體”關系系統，比如用戶與主題之間的關系、用戶和用戶之間的關系，等等。這些個性化的信息不僅可以作為“閱讀”應用的輸入，還可以用于為問題尋找匹配的專家。

4. 保持高質量的內容

在用戶體驗方面，Quora的內容質量是一個非常關鍵的因素。我們要確保我們的問題、答案、主題和其他內容都是以高質量為起點，并且一直保持很高的質量。為了做到這一點，我們使用了一些機器學習系統來保證網站內容的質量。

重復問題檢測：我們檢測具有相同目的的問題，并把它們合并成單個問題。我們已經就該問題展開過討論，并發布了一個重復問題的數據集，我們還開展了Kaggle競賽。惡意內容檢測： Quora有一個口號——“Be Nice, Be Respectful”，不過對于一個網絡社區來說，這是一個很大的挑戰。我們同時使用機器學習和人工審查來識別具有侵犯性的內容，這樣就可以保護我們的用戶，確保他們擁有良好的體驗。垃圾檢測：對于大多數由用戶生成內容的應用來說，垃圾檢測是一個無法回避的問題，我們也不例外。我們有一些機器學習系統專門解決這個問題。

我們還有其他很多機器學習系統用于維持高質量的網站內容，不過這里不一一例舉了。

5. 廣告優化

我們在2016年啟動了貨幣化（monetization）。我們在問題頁面上展示與問題相關的廣告。我們通過機器學習進行廣告CTR預測，確保所展示的問題與用戶具有最高的相關度，同時能夠為廣告投放者帶來最高的收益。不過，我們在貨幣化方面才剛剛起步，在未來，我們會繼續擴展機器學習在這方面的應用。

除了上述的五個應用場景，我們還使用了其他機器學習系統，不過就不在這里一一累述了。

模型和庫

我們的團隊使用了最好的模型和工具，同時也進行了標準化，并能夠重用這些工具。以下列出了一些我們使用的模型（排名不分先后）。

Logistic RegressionElastic NetsGradient Boosted Decision TreesRandom Forests(深度)神經網絡LambdaMART矩陣因子分解 (SVD、BPR、Weighted ALS，等)向量模型和其他NLP技術k-means及其他聚類技術其他

我們也支持很多開源和內部的庫，比如TensorFlow、sklearn、xgboost、RankLib、nltk、QMF（Quora自己的矩陣因子分解庫）以及其他一些內部的庫。

機器學習平臺

自2015年以來，我們組建了自己的機器學習平臺團隊。組建該團隊的目標是為了簡化機器學習工程師的工作，包括離線的工作（訓練模型）和在線的工作（提供服務）。在在線工作方面，平臺團隊為機器學習工程師們提供了可靠和高可用的構建和部署系統，工程師們在這個平臺上可以構建和部署高性能、低成本的實時機器學習應用。在離線工作方面，機器學習工程師們可以基于這個平臺構建數據管道，以可重用和標準化的方式快速地抽取特征和訓練模型。

感謝郭蕾對本文的審校。

關鍵字：機器學習 Quora 訓練模型