恐怕這些都是開發者們迫切想要「一探究竟」的問題。
對此,UCloud 特別來到深圳舉辦了主題為「抱緊云+AI 的未來,你準備好了嗎?」的沙龍活動,重點聚焦云計算助力 AI 發展的諸多方面,結合具體實踐為開發者們答疑解惑!
沙龍現場座無虛席
會上,UCloud LabU 深度學習開發工程師范融為與會開發者帶來了有關「AI 公有云平臺實踐」的主題分享。
當談及建設 AI 平臺的必要性時,范融表示,如今 AI 技術在適應不同場景時所呈現的算法形式多種多樣,為了實現更多場景的兼容性,高效的平臺建設對廣大開發者來說必不可少。
更重要的一點,在整個研發周期中,面對源于 AI 的諸多問題,無論是企業還是開發者自然都要選擇可以兼容更多深度學習算法以及框架,并保證存儲、網絡性能優勢解決方案。一個優質的平臺恰好可以達到靈活的橫向擴展能力以及對業務規模的支持,另外在彈性、容災簡單方便的代碼遷移等方面更是表現出色,如此看來 AI 平臺建設可謂「功在千秋」了。
另外,范融在分享中還詳細介紹了 UCloud 關于 AI 基礎平臺架構的「那些事兒」。在基礎架構中,為了可以提供兼容性更好的運行環境,采用了封裝、預裝、自由、可重用、兼容性等多種技術方式。
「所謂的封裝性,就是在運行具體任務時,并不用擔心會對自身的安裝環境產生干擾;預裝呢?顧名思義,就是我們針對用戶經常使用的深度學習框架以及科學計算包做了預裝,這樣在本地使用的話直接下載就可以,非常方便;另外一點就是自由,雖然已經安裝了大部分科技計算包的用戶可以做到開箱自用,但不排除有的用戶涉及到的領域比較冷門,這樣一來完全可以依照需要自行下載,正常運行相關安裝包完全沒有問題;還有一點是可重用,這在開源鏡像數據庫領域表現明顯,可以做到為開發者們大量節省時間等。」她詳細補充道。
當然,整體架構在靈活接入數據源、彈性資源調節等方面也有顯著的優勢。
UCloud LabU 深度學習開發工程師 范融
據悉,范融所在的團隊目前已經推出 AI 在線服務、AI 訓練服務兩個產品。其中 AI 在線服務 PaaS 平臺在 2016-2017 年可信云大會上獲得了 AI 行業云服務獎;AI 訓練服務全程支持了 2017 年 AI Challenger 大賽的順利開展,在該領域表現十分出色。
作為 UCloud 互聯網事業部解決方案架構師,徐強長期從事大數據和 APM 領域工作,尤其對大數據行為分析和應用性能監控領域有深刻理解和豐富經驗,這次沙龍也受邀作為第二位分享嘉賓并進行了主題為「云計算助力人工智能快速搭建底層資源」的演講。
「如今 AI 簡直太火爆了,但對于 AI 系統建設,大家并不是太清晰。從我們自身出發,通常著重考慮三個方面:首先是兼容性,這一點在圖像類以及語音類表現突出,AI 算法與其兼容主要包括切合性;另外會十分注重平臺擴展性,因為這涉及到訓練數據成倍增長的情況;此外就是分布式化的特點,實踐證明如果采用線下單機模式會十分影響效率。」徐強表示。
如果說 AI 系統建設是第一步的話,那確保 AI「踏實」落地究竟有哪些解決思路呢?
他認為,以 UCloud 自身出發,首先會涉及到一個數據共享的平臺。眾所周知,再高深的算法都需要大量數據的支持,怎樣獲取數據實在是個問題。如今是否有一種模式可以最大能力整合數據用于訓練呢?安全屋的相關產品或許會起到一定作用。
此外,在環境分離、底層資源共享后期擴展性以及等方面,徐強強調,安全屋產品就是在保證數據所有權不變的情況下完成最大可能性的數據流通。
UCloud 解決方案架構師 徐強
說到代表性的案例,徐強提及了 2017 年 AI Challenger 大賽。賽事規模自不用多說,就連科研數據也是最大數量級的,據了解有 1000 萬的中英文翻譯數據,30 萬的圖像數據。
由于數據量龐大,主辦方選擇 UCloud 作為 GPU 提供方,對此提供了有關 AI 的整體解決方案。
「在底層提供了強大的算力資源、中間布置了 AI 在線服務以及 AI 訓練服務、然后就是安全屋。將龐大的數據放入安全屋中,然后根據需要分發給不同的選手;選手同時將自己的算法上傳到安全屋中,基于分發的數據做訓練,只要計算出模型就可以將數據導入,十分安全。」徐強描述道。
總結來說,UCloud 一方面提供了底層的計算方法以及環境的自動部署,方便直接上傳到 AI 系統;另一方面在收費方面也表現的更加人性化,按需收費只在執行過程中,其他時間不涉及費用問題。
此外,談及數據安全性,「安全屋底層都是基于公有云平臺,更重要的一點,我們采用的加密技術是基于區塊鏈的不可篡改性,并同時增加了審計機制來保障安全。」他補充道。
現如今文檔資料的內容自動化處理是人工智能技術落地的關鍵應用之一。
作為復旦大學計算機軟件與理論的碩士,達觀數據聯合創始人張健曾在盛大創新院負責相關推薦模塊,在文學數據中心肩負任務調度平臺系統和集群維護管理、開發智能審核系統等相關工作。
達觀數據聯合創始人 張健
在有關 NLP 的知識以及實踐的分享中,他提到,其實電腦理解的文本與人理解的文本會有一些共同之處,通常也是從三個等級來體會。例如,對文本進行字詞分析;再在這個基礎上做一些段落分析,涉及語法關系、上下文的糾錯等;再上層就是篇章級分析,可以達到文本相似度、組織模型、分類模型等結果。
但 NLP 實踐中最重要的還是解決如何將機器學習或者深度學習高效應用在文本處理中。
對此張健表示,深度學習的基礎結構其實就是一個基本的神經網絡,神經網絡并沒有想象的那么復雜。可以理解為是最基本神經源結構,會接受 S1、S2 輸出,實現很簡單分類的功能,只是需要滿足一個很復雜的場景需求罷了。
此外深度學習無法規避基本結構的問題,也就是 RNN 和 LSTM。「我們在理解語言的時候,其實是一個信息流,也是一個序列信息,會像 S0、S1、S2。如果講一個字,當前時刻就可以把之前時刻的這種字詞信息收納進來并作為前項的輸入,再與當前的字詞結合后輸出;但是 LSTM 除了具備這樣一個結構,還增加了一個優點,就是人們在講話的過程中,不可避免的是上下文環境中有些字詞重要,而有些則不那么重要,LSTM 會對之前的信息進行有選擇通過或者丟棄。」他強調。
精彩的現場互動
總結來看,深度學習用于文本挖掘的確顯示了很多優點,例如可以使用大量無監督的數據提高能力;端到端的過程讓文本輸入、任務訓練再到輸出的環節并不需要做很多處理,更重要的是能夠克服傳統模型的缺點。
但張健提出,這種方式并不是完全沒有缺點的,例如在小數據量的前提下效果不一定好,需要根據場景嚴格挑選適合的模型;另外調參工作量有時不亞于特征工程,甚至會限制部分應用。
此外,在現場分享時,張健還為與會開發者們提供了實踐經驗的小貼士來參考。
首先在業務場景層面,用戶需要盡可能理解數據,分析問題本質并選擇合適的模型;在使用的初始階段,可以選擇傳統機器學習模型作為嘗試,通過不斷深化針對數據的理解來解決相關問題;最后就是還需要在不斷的實踐中迭代經驗解決問題。
分享接近尾聲,與會開發者還提出了「在 NLP 處理的過程中如果遇到長文本如何處理」的問題。
關于這個問題,張健回答道,長文本在直接只用 NLP 處理得到的效果確實不盡如人意。但是可以考慮使用 CNN 的方式來實現分類目標,STM、CNN 做底層的表示,在上層構建一些 CNN,這樣效果會更好很多。
精彩分享仍在繼續,現場氣氛始終火熱不減。
開發者們熱情不減
當前,AutoML 是人工智能發展的一個重要方向,受到 Google,Facebook 等諸多公司的重視,近期在 AutoML 領域,特別是深度神經網絡模型搜索也呈現了很多突破性的進展。
探智立方 CTO 錢廣銳
在「AutoML 人工智能自動化模型設計與進化算法實現」的分享中,錢廣銳表示,在當前的實際場景中的確存在很多情況是單一模型并不能完全適應的,復合型模型在一些場景中特別需要。人工智能模型的設計是一個復雜的工作,要設計的小、準、快更是復雜,對此探智立方在該領域做了很多探索。
「所有的框架以及算法是我們從大概年初剛剛開始實踐的,這樣一個人工智能模型自動設計平臺被稱為達爾文 ML。真正的希望就是能夠實踐產品化的工作,用戶只要數據輸入,不需要做任何之前的預設假定就可以完成模型建設。」他說。
此外探智立方從數據準備、模型設計、生產對接為達爾文系統提供了整套「配置」,所以在設計生產平臺的同時也設計了一個推理平臺,確保流程順暢。
與會開發者們認真傾聽
例如在工業制造方面,整個實踐過程中有 5 萬張照片,采取 200×200 的分類,錢廣銳將其放到新平臺中去,準確率可以達到 75% 左右,其中并沒有做復雜建模處理的工作,這個案例可以發現,達爾文設計出來的模型特別小,準確率特別高。
無論是人工智能發展還是現有的一些場景中,很多場景模型的設計不只是在云端,由于達爾文設計出的模型比較小,錢廣銳也希望未來可以在手機端快速識別票據等。除了幫助企業應用落地,如何能在各個場景,例如智能制造、攝象頭等統統實現也是很重要的目標。
盡管UCan下午茶深圳站活動有關云計算與AI的精彩分享暫時先告一段落了,但關于“云+AI”的技術探討依舊在火熱進行中,點擊“立即報名”關注UCan下午茶后續的系列活動。