自從托夫勒在1980年熱情地將“大數(shù)據(jù)”稱頌為“第三次浪潮的華彩樂章”之后,大數(shù)據(jù)歷經(jīng)了40年的發(fā)展早已滲透到了各個行業(yè)的方方面面。如果說誰在工業(yè)時代控制了石油,誰就控制了經(jīng)濟(jì),那么在數(shù)字時代誰掌握了大數(shù)據(jù),誰也許就掌握了行業(yè)發(fā)展的命脈。
雖然人人都知道大數(shù)據(jù)的重要性,但卻很少有人能把大數(shù)據(jù)的全貌講清楚。基于此,我們與星河研究院的5人團(tuán)隊在經(jīng)歷了兩個多月的精心策劃和資料整理后。在過往的8期節(jié)目中,我們已經(jīng)為大家梳理了大數(shù)據(jù)產(chǎn)業(yè)的底層技術(shù)架構(gòu)、數(shù)據(jù)分析、可視化、BI、機(jī)器學(xué)習(xí)等8類通用分析技術(shù),以及企業(yè)服務(wù)、金融科技、工業(yè)、農(nóng)業(yè)、生命科技等15個垂直領(lǐng)域的77家典型企業(yè),客觀公正地為你呈現(xiàn)了一幅大數(shù)據(jù)行業(yè)從技術(shù)到應(yīng)用的全景圖。
我們發(fā)現(xiàn)這些公司絕大多數(shù)都是由技術(shù)領(lǐng)域的專家和學(xué)者所創(chuàng)立,甚至很多人已經(jīng)連續(xù)多次創(chuàng)立了明星企業(yè),但是他們今天依然奮戰(zhàn)在大數(shù)據(jù)領(lǐng)域的最前線,足以見得他們對大數(shù)據(jù)行業(yè)未來發(fā)展的樂觀前景是多么堅定。本期作為海外大數(shù)據(jù)系列節(jié)目的最后一期,我們將會為大家介紹一下部分以大數(shù)據(jù)為“燃料”的海外人工智能通用技術(shù)類企業(yè),它們使用的這些“黑科技”也許在不久的將來就會再次掀起AI應(yīng)用的高潮,也希望這能對你有所啟發(fā)。感謝你在這兩個月的陪伴與支持,我們會在后期與你分享更多的深度行業(yè)報告。
以下,供你參考。
首先我們將AI技術(shù)、圖像識別、語音識別這三個領(lǐng)域的典型大數(shù)據(jù)公司列舉如下,接下來我們將分版塊為你進(jìn)行詳細(xì)介紹。
第一 自然語言處理
自然語言處理(NLP)一直是AI技術(shù)中應(yīng)用較為廣泛的通用型技術(shù),計算機(jī)通過大量數(shù)據(jù)及算法的“學(xué)習(xí)”,能夠識別出聽到的語言并進(jìn)行需要的處理,這種技術(shù)在如今的語音助手、智能音箱,甚至冰箱臺燈等各種設(shè)備中得到廣泛應(yīng)用。
Gridspace將這一技術(shù)的應(yīng)用場景放進(jìn)了會議室中,其產(chǎn)品Memo M1是一個可以放置在會議桌上的語音采集設(shè)備,只有當(dāng)會議室有人說話時才會自動進(jìn)行記錄。如果用戶在會議前事先在相應(yīng)的應(yīng)用中輸入與會者信息的話,該設(shè)備還能夠分辨出是誰在講話。當(dāng)會議結(jié)束后,它便可以自動將整理好的會議紀(jì)要通過電子郵件發(fā)送給與會者,與會者還可以通過人物或者話題搜索的方式重聽某一段會議內(nèi)容。
隨著NLP技術(shù)的成熟,如何讓機(jī)器在“聽懂”語言的基礎(chǔ)之上能夠“表達(dá)”,又成為了科學(xué)家的追求。自然語言生成(NLG)技術(shù)便是在這一追求下的產(chǎn)物,這一技術(shù)潛力巨大,已經(jīng)在自動寫稿、自動化報告中得到了應(yīng)用,節(jié)省了大量人力的同時能夠做到真正的實時高效。
Narrative Science推出的Quill平臺可以分析結(jié)構(gòu)化數(shù)據(jù),將人工智能與大數(shù)據(jù)進(jìn)行技術(shù)融合,從而產(chǎn)生簡短的文字表述或結(jié)構(gòu)化的報告內(nèi)容。此前Narrative Science的產(chǎn)品已經(jīng)被媒體引用在了新聞稿件的撰寫中,目前在財經(jīng)報道等領(lǐng)域,包括 Forbes 等網(wǎng)站都已經(jīng)開始與它建立了合作伙伴關(guān)系。
Narrative Science的最終目的還是希望將NLG用在BI方面,而不僅僅是寫作新聞稿。未來自動讀取數(shù)據(jù)并自動化分析后直接輸出與人類語言習(xí)慣相符的數(shù)據(jù)報告將是其發(fā)展的一大目標(biāo)。
Arria公司研制的“NLG 引擎”能夠抓取并分析大型數(shù)據(jù)庫,并用日常語言寫成有用的報告。這種報告讀起來就跟真人寫的一樣,并能夠根據(jù)不同的受眾調(diào)整其文體格式和內(nèi)容。
2013年一家能源企業(yè)與Arria簽署協(xié)議為其深水開采平臺安裝NLG引擎,此后各種設(shè)備產(chǎn)生的數(shù)據(jù)會被自動記錄下來并進(jìn)行篩選和分析,然后快速地通過NLG引擎以非常簡單的語言形成報告,人們可以根據(jù)報告中所分析的問題來盡快做出應(yīng)對。
同樣在天氣預(yù)報中,NLG引擎可以花費1分鐘為5000個城市寫出一份3天內(nèi)的詳細(xì)天氣預(yù)測報告,而一個專業(yè)氣象工作人員則需要整整六個星期的時間來完成同樣的工作,并且這一報告還可以根據(jù)原始數(shù)據(jù)的變化而隨時改變報告內(nèi)容。
第二 圖像識別
圖像識別技術(shù)是AI的另一重要的通用型技術(shù),目前圖像識別的技術(shù)已經(jīng)拓展到了視頻等動態(tài)領(lǐng)域,安防企業(yè)據(jù)此能夠做到對特定人的連續(xù)查找追蹤,廣告商可以通過視頻分析從而有針對性的投放相關(guān)商品,自動駕駛汽車則需要去判斷周圍物體的類別從而采取應(yīng)對措施。圖像識別及視覺技術(shù)將會不斷滲透到生活工作中,成為我們的“第三只眼”。
Affectiva公司的核心技術(shù)是情緒識別系統(tǒng),通過人們的表情來分析判斷出人的情緒是喜悅、厭惡還是困惑等, Affectiva搜集的數(shù)據(jù)越多則它能識別的表情也就越多,例如可以發(fā)現(xiàn)對方是否在假笑等。
Affectiva聲稱,基于對超過500萬個面部表情的分析和訓(xùn)練,已經(jīng)積累了120億個情感點和超過10億個面部表情。Affectiva情緒識別技術(shù)可助廣告主和品牌以直接的方式分析視頻廣告或電影電視預(yù)告片的效果,找到消費者真正感興趣的部分。零售技術(shù)公司Cloverleaf將其用于實體店的動態(tài)貨架解決方案,通過捕獲用戶對貨架上產(chǎn)品的情緒來決定進(jìn)貨種類及擺放方式。
Chronocam致力于研發(fā)新型視覺傳感器和系統(tǒng),其傳感器技術(shù)的靈感來自于眼睛,能夠高效獲取并處理視覺信息。其技術(shù)特點是通過限制數(shù)據(jù)采集來發(fā)揮作用,系統(tǒng)會設(shè)法知道何時圖片應(yīng)該采集,何時不應(yīng)該采集,然后就可以對傳輸?shù)臄?shù)據(jù)進(jìn)行更低能消耗、更高效的視覺處理,這對于開發(fā)無人駕駛車輛的企業(yè)來說很重要,并且該技術(shù)可廣泛應(yīng)用于物聯(lián)網(wǎng)設(shè)備、無人機(jī)以及機(jī)器人等。在車用市場,Chronocam的合作伙伴包括雷諾、日產(chǎn)以及眾多的一級供應(yīng)商,預(yù)計產(chǎn)品將于2018 年推出原型并在2021年上市。
第三 人工智能創(chuàng)新公司
除了上述的語音及圖像類AI技術(shù)公司外,還有部分公司開發(fā)出了通用性較強(qiáng)的AI技術(shù),服務(wù)于多個產(chǎn)品或領(lǐng)域,例如Salesforce就開發(fā)了AI產(chǎn)品Einstein,并將其嵌入到銷售、服務(wù)、營銷、分析、商業(yè)、物聯(lián)網(wǎng)以及社區(qū)等云服務(wù)中,進(jìn)一步提升企業(yè)服務(wù)軟件的效用。
Einstein集成了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、預(yù)測分析和自然語言處理等功能,可以為銷售人員自動匹配最有可能成為用戶的電話號碼。與此同時,Salesforce也將向開發(fā)平臺App Cloud開放Einstein服務(wù),以方便消費者開發(fā)自己的智能應(yīng)用。
除了依靠海量數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)等技術(shù)所開發(fā)的人工智能技術(shù)外,目前市場中也存在著一些非常前沿的技術(shù)路線,例如結(jié)合了神經(jīng)學(xué)和腦科學(xué)的強(qiáng)人工智能研發(fā)企業(yè)Vicarious、基于拓?fù)浣Y(jié)構(gòu)和腦科學(xué)的Nara以及基于大腦皮層活動開發(fā)皮質(zhì)學(xué)習(xí)算法的Numenta等,目前也都取得了一定的成績。
相比于采用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的算法,Vicarious的系統(tǒng)擁有更快的學(xué)習(xí)能力,它采用了一種新的神經(jīng)網(wǎng)絡(luò)算法,在學(xué)習(xí)了一項信息之后能夠預(yù)想這個信息在其它情景中是什么樣的,這是一種人造的想象方式。Vicarious 已經(jīng)證實,他們的方法能夠開發(fā)一個十分準(zhǔn)確的視覺系統(tǒng),且效果驚人。
在2013 年,這一系統(tǒng)已能夠破解 CAPTCHA(用于防止垃圾程序惡意注冊賬號的驗證圖片),嵌入 Vicarious 系統(tǒng)的這一反饋機(jī)制能讓其在圖片失真或者部分模糊的情況下,想象字符可能會是什么樣的,這一模型的系統(tǒng)能夠只用1406張圖片作為訓(xùn)練集,就超越了利用深度學(xué)習(xí)800萬圖片達(dá)到的效果。
Nara圍繞真實的神經(jīng)突觸規(guī)則進(jìn)行抽象,利用腦電路計算的數(shù)學(xué)邏輯來設(shè)計新型的神經(jīng)網(wǎng)絡(luò)。其突觸智能算法正在不斷學(xué)習(xí),并且隨著新信息的添加而變得越來越聰明。Nara在學(xué)習(xí)如何幫助你的過程,事實上是在嘗試模擬你的大腦的思維方式,所以你使用它越頻繁,Nara就越了解你的個人喜好,推薦也就更加的精準(zhǔn)。
Nara推出的最新服務(wù)為Naralogics.com,提供按需的個性化服務(wù)。通過該服務(wù),企業(yè)可以使用現(xiàn)有的數(shù)據(jù),或網(wǎng)絡(luò)上的任何數(shù)據(jù)來源來進(jìn)行推薦,此外企業(yè)也可以更好地了解用戶行為和互動情況。例如,憑借該服務(wù),網(wǎng)絡(luò)出版商和電商網(wǎng)站可以向用戶展示更具相關(guān)性的內(nèi)容、產(chǎn)品和建議,而電子郵件營銷人員也可以使用該服務(wù)去自動實現(xiàn)消息的個性化。
Numenta的創(chuàng)始人在霍金斯的分層時間記憶理論中構(gòu)建了最初的架構(gòu)(關(guān)于大腦如何在時間序列中存儲數(shù)據(jù)的內(nèi)存層),這種被稱為皮質(zhì)學(xué)習(xí)(CLA)的算法成為了Numenta代碼庫的基礎(chǔ)。Numenta正在建模一層皮層,但只是模仿一個很小的一塊,里面包含1,000到5,000個神經(jīng)細(xì)胞。
IBM最近開始為一些實際任務(wù)測試Numenta算法,比如分析衛(wèi)星圖或偵測機(jī)械故障問題。Numenta之所以吸引IBM的目光是因為相比較其他人工智能軟件,它更像人的大腦,現(xiàn)在IBM有一個100人的團(tuán)隊來測試該算法。
到此為止,我們與星河研究院已經(jīng)對海外大數(shù)據(jù)產(chǎn)業(yè)進(jìn)行了一個全面的介紹,并介紹了眾多具有很高價值且具備借鑒意義的企業(yè)。下面的海外大數(shù)據(jù)地圖,是星河研究院精選出的具有代表性的企業(yè)集合,部分企業(yè)在第二期到本期中有過介紹,受限于篇幅原因,還有大量企業(yè)資料及介紹會在本期附錄中體現(xiàn)。
結(jié)語:隨著移動互聯(lián)網(wǎng)帶來的紅利增速不斷放緩,產(chǎn)業(yè)互聯(lián)網(wǎng)在國內(nèi)外都成為了備受矚目的領(lǐng)域,在互聯(lián)網(wǎng)技術(shù)尚未完成對產(chǎn)業(yè)界的全面滲透時,互聯(lián)網(wǎng)+大數(shù)據(jù)+人工智能三位一體的解決方案將成為大多數(shù)行業(yè)改造不可或缺的一環(huán),我們也將對這一巨大的機(jī)遇保持長期持續(xù)的關(guān)注,在預(yù)見未來的同時更好的讓大家把握住這一紅利。