通過建立與Google及Google云平臺(GCP)的合作伙伴關系,Ocado Techonology公司發布了一種新的方法,用在對Ocado的50多萬用戶及來自這些用戶的海量電子郵件請求的處理中。該方法使用了TensorFlow及宿主于GCP上的TensorFlow Python API,重點在于解決電子郵件的自動分類問題。
Ocado認為對于電子郵件分類問題,非常適合于使用工業規模的機器學習和自動化,更具體的說就是自然語言處理(NLP)。很多的企業支持中心為讓工作一致和可靠,采用了依靠工作人員手工處理電子郵件隊列的工作流程。在企業的業務迅速成長時,或是整體客戶支持量所需的支持人員日益增長時。這種方法并不能很好地擴展,這會導致郵件響應的延遲,客戶不滿意度也隨之增加。
Ocado的做法是將所有的電子郵件匯集到同一處,然后通過分析郵件內容為郵件打標簽,例如標記為客戶投訴的則需要立刻反饋,標記為一般性反饋的則具有稍低的優先級可稍遲反饋。此外,郵件標簽還包括:重發貨請求、退款請求、支付問題或網站問題、新商品查詢等。
Ocado想要在分配標簽類別時,盡可能地減少需用戶及支持人員手工輸入的域和標簽的數量。因為這種手工輸入不僅容易產生偏差并生成噪聲數據,而且也占用了支持人員的寶貴時間,這些時間是本可用于根據客戶請求的優先度服務于客戶的。
Ocado科技的高級軟件工程師Marcin Druzkowski今年八月在Datasciencefest大會上的演講上,給出了Ocado訓練神經網絡所用的各種模型的一些細節。其中的方法包括:使用詞袋的邏輯回歸、使用嵌入(embedding)的卷積神經網絡(CNN)、使用嵌入的長短期記憶模型(LSTM)。
Druzkowski指出深度學習并非一定要使用GPU,考慮到CPU芯片的相對低成本、云計算的可擴展性和并行計算模型訓練,沒有必要再采用特定的GPU寫入和訓練模型。他也指出通過以軟件工程為中心的數據科學方法,他們的TensorFlow圖以數據矩陣和圖定義的方式部署,這不同于數據科學軟件所使用的一般方法,那些方法已被證明在部署和易于集成到生產環節的實現上存在著挑戰。Druzkowski在演講中提到的特性還包括:可移植性和依賴性管理、代碼質量、測試覆蓋度、版本管理和持續集成。
圍繞著測試模型,還出現了其它的一些新挑戰。這些測試模式需給出隨機性、可接受結果值范圍和良好模型性能的組成目標。此外,挑戰也存在于如何在后臺數據集發生改變時,重新訓練和測試模型。在確定一個模型是否有價值時,需額外考慮的變量是數據集改變的比例和速度。當前測試的運行使用了pyTest和TensorFlow,但是Ocado拒絕了提供示例代碼的請求。
查看英文原文:Ocado Uses TensorFlow and Google Cloud Platform for Novel Customer Service Approach