60年前的某個夏天,麥卡錫、明斯基等年輕的科學家們舉辦了一次聚會,共同研究用機器模擬智能的問題,也是在那時,“人工智能(AI)”的理念正式被提出。如今,人工智能已經應用于語音識別、圖像處理器、計算機視覺、機器人等多個領域,甚至擊敗了圍棋九段李世石,這種進步是難以置信的。而這一系列成績的背后,是海量數據的積累與學習,在沒有云的時代,是無法想象的。
人工智能時代 云和大數據到底有多重要?(圖片來自The Huffington Post)
人工智能涉及的領域非常廣泛,工業、航天、商業都有應用,并且已經深入人們的生活,打開手機中的Cortana或者Siri,這就是AI的產物。要知道,在幾十年前,這種超前的技術是不受認可的,教授相關課程的學校也是寥寥無幾。究其原因,主要就是數據的積累和應用。高容量存儲設備豐富了數據量的留存,隨著數據的不斷增加,人們開始在其中發現某種規律,引發了分析的需求。
分析讓大量的數據有了價值,機器開始懂得用戶想要什么,可以預測未來的天氣和球賽的比分,這種人工智能與場景的結合,要實現的就是改變生活方式和解放生產力。具體來說,很多過去只有人能做的事情,現在更多的情況下能夠通過機器實現,典型的例子包括語音助手、無人駕駛汽車。更重要的是,當硬件性能逐漸提升、計算資源越來越強大時,成本卻越來越低廉。
微軟全球執行副總裁陸奇曾指出,如果大數據被充分利用,全球企業將額外獲得1.6萬億美元的數字紅利。當然,前提是要對海量信息進行分析,無論是深度學習還是神經網絡,最終都要轉換為產品或服務惠及用戶。數字經濟、分享經濟、工業4.0...背后都少不了大數據和云計算的支持。
不過,要想在人工智能時代分一杯羹,絕非易事。AI的基礎是大數據,這些資源通常掌握在巨頭手中,這也是為什么你會看到,這個領域的頭條總是被微軟、谷歌、IBM、蘋果、亞馬遜、Facebook這些公司搶去。在國內,BAT、京東這樣的企業同樣擁有足夠的用戶基礎,并且已經開展了應用。
在今年的中國大數據產業峰會上,騰訊公司董事會主席兼CEO馬化騰主要就講了一件事:大數據。通過18年的運營,騰訊數據中心的存儲總量超過1000個PB。日常使用方面,用戶每天在微信朋友圈和QQ空間上傳的圖片達到10億張,騰訊視頻(含微信公眾號H5視頻)每天播放量達20億次,除夕當天紅包支付超過25億筆,每天移動支付超過5億筆。圍繞這么多的數據資源,騰訊也開發了一系列技術和功能。
在人工智能領域 騰訊做了哪些事?
海量數據時代,搜索的重要性可想而知。基于在搜索領域多年的技術積累,騰訊云搜TCS通過對騰訊微信、QQ等各大垂直業務搜索需求進行高度抽象,把搜索引擎組件化、平臺化、服務化,為移動應用開發者和網站站長提供了一站式搜索服務。云搜TCS支持分詞和建立索引功能,搜索封裝和技術門檻較低,具有可視化的數據預處理和離線排序定制能力,允許用戶自主配置,檢索耗時毫秒計算。
騰訊云搜TCS
此外,騰訊云搜還建立了自然語言處理技術團隊,整合“文智”NLP開放平臺,提供中文分詞、智能糾錯、同義詞識別、意圖識別等能力。針對準確性,該服務還支持高級糾錯、按域檢索、分詞定制、智能聯想詞等功能。開發方面,開發者可以對搜索結果的排序自主靈活控制,云搜還具有文檔求交、相關性排序、排序表達式等策略。
搜索到的數據怎么使用,能否安全可靠,所提供的數據服務是否有針對性,是用戶關心的問題。為此,騰訊大數據處理套件TBDS提供一鍵式部署能力,降低了大數據系統部署運維門檻,統一的控制臺可以對集群進行配置、啟停,通過DashBoard集中監控各組件實時運行指標,還支持多種數據接入以及輸出方式,提供統一的數據源以及元數據的管理。
值得一提的是,騰訊還借助QQ、微信等產品建立了10億級別覆蓋度的基礎庫,對范圍內的人群進行統計和分析,能夠實現動態跟蹤區域內人群流動、評估人流擁擠等級、捕捉開放社交網絡的情況、分析目標客戶群軌跡,讓客戶更精準的定位目標人群。這么多的隱私信息,泄露了怎么辦?我們了解到,所有通信及數據存放都建立在騰訊云合規獨立的機房,以保障用戶數據資產安全。
區域人流檢測
機器學習是人工智能的核心要素,主要就是研究計算機如何模擬或實現人類的學習行為,以獲取新的知識或技能。應用過程中,并行計算可以利用多個處理器解決一個大問題,提升了計算效率,這也是騰訊機智機器學習TML正在做的,其是簡化用戶對算法的接口調用、可視化、參數調優等自動化任務管理的開放平臺。
卷積神經網絡實例,卷積層→子抽樣層→卷積層→子抽樣層之后→全連接后輸出
該平臺搭載了萬兆網卡的大量CPU實體機,集成分類、聚類、搜索/排序、推薦等機器學習和深度學習領域的算法,針對在性能、效果等方面的特殊需求,可以一對一深度定制。功能方面,機智機器學習TML支持LDA(非監督機器學習)技術,可以用來識別大規模文檔集或語料庫中潛藏的主題信息。通過訓練,能夠把對文本內容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。此外,CNN(卷積神經網絡)能用來解決圖像高層特征提取、分類、識別等計算機視覺難題,LR(邏輯回歸)則具有易訓練、易并行、泛化能力強等特性,適用于高維度海量數據的二分類任務。
子抽樣層(左圖為全連接,右圖為局部連接)
每一項技術的最終目標都是惠及大眾,人工智能也是如此。要說AI領域最接地氣的應用,應該就是圖像和語音識別了。先說語音,國內廠商已經可以保證穩定性和準確率,以騰訊為例,通用領域的識別率能達到93.8%,可以做到情緒識別、區分說話人、云存儲彈性擴容等功能。不過,要想進入更深層次的語音識別,還要有對情境的理解,這方面有很大的努力空間。至于圖像,人臉識別算是最常用的技術之一,騰訊提供了“人臉檢測與分析”、“人臉比對”、“人臉驗證”、“人臉識別”等一整套技術方案。其中,人臉檢測技術準確率和召回率分別超過99%和95%,人臉驗證技術準確率為99.65%。
用戶洞察分析產品結構
云和大數據指引人工智能改變未來
無論是搜索、智能識別,還是機器學習,BAT在人工智能領域的覆蓋面已經很廣,背后的技術實力也與谷歌、微軟等逐漸縮小。在數據規模上,國內企業的資源并不輸海外,需要加強的就是如何更有效地利用這些數據,從而改善人們的生活。
得益于大數據和云計算的支持,互聯網正在向物聯網擴展,人工智能則是升級體驗、解放生產力的重要手段。邁克爾·戴爾稱,今天的處理能力、帶寬、存儲正以每年10倍的速度成倍增長,未來15年的技術將比現在強大1000倍。
如今,大數據影響著各個行業,創造了巨大的商業價值。通過結合大數據和云計算,人工智能將更好地服務于人們的生活,推動時代進步。這一發展過程中,巨頭企業已經開始利用數據規模和技術優勢深耕布局,騰訊就是其中之一。