以下是現(xiàn)場速記。
中國移動大數(shù)據(jù)總架構(gòu)師 段云峰
段云峰:首先做一個自我介紹,本人從1983年開始做計算機,算起來大概是15年的IT背景,15年的DT背景,再加上3年左右的AI背景,所以跟大家做個分享。今天的內(nèi)容可能會相對的活潑一些,無虛一些,之前給大家講的更多是務(wù)實的,今天跟大家更多的分享大數(shù)據(jù)的趨勢和未來發(fā)展的方向。
今天分享的主要是三塊內(nèi)容,第一,數(shù)聯(lián)網(wǎng)相關(guān)的內(nèi)容。從2001年開始做數(shù)據(jù)倉庫,這是2001年寫的兩本書。后來發(fā)現(xiàn)這些內(nèi)容當時有點早,但是現(xiàn)在看好多企業(yè)才出現(xiàn)怎么和互聯(lián)網(wǎng)大數(shù)據(jù)怎么結(jié)合。今天講的大部分都是這本書里的,,現(xiàn)在提的大數(shù)據(jù)系統(tǒng),這個都是單點的概念。中國移動將來和騰訊怎么去連大數(shù)據(jù)系統(tǒng),這個過程中我們現(xiàn)在的套路都是點對點,小接口,我們干了很多年。但是將來能不能模仿互聯(lián)網(wǎng)的模式來去實現(xiàn)數(shù)據(jù)之間通過一個標準的接口協(xié)議來進行直接的互聯(lián)互通等等,可能會帶來一些挑戰(zhàn)。這本書叫《國之重器》,這個在谷歌做的大數(shù)據(jù)方面的演講。這是我寫的規(guī)范,摞起來比我高,今天讓大家感受一下目前的趨勢。
第一、數(shù)聯(lián)網(wǎng)——大數(shù)據(jù)如何互聯(lián)。第二,大數(shù)據(jù)資產(chǎn)管理。第三,人工智能,大概從這三個方向跟大家做介紹。
為什么現(xiàn)在會冒出大數(shù)據(jù)?當年是手寫書,印刷術(shù)一四九幾年在德國產(chǎn)生了印刷術(shù),所以使形式產(chǎn)生了很大的變化,有一個說法,因為印刷術(shù)的出現(xiàn)導(dǎo)致西方科技革命的發(fā)生。現(xiàn)在這種模式大家丟知道了,我們說的大數(shù)據(jù)是個美女都要拍,90后吃飯之前先拍照再動筷,背后產(chǎn)生了大量的數(shù)據(jù),這是數(shù)據(jù)記載的一些模式變化。最大的變化:第一,數(shù)據(jù)越來越大,手機已經(jīng)成為了收集數(shù)據(jù)最大的“器官”,像人的肢體一樣,像我再講,大家在拿手機拍,以前低頭記筆記,模式發(fā)生了很大的變化,而且是隨時隨地記錄一切,咱們年齡相對偏大一些,我在校園里曾經(jīng)看小女生一路拿著自拍桿走,我也不知道她是不是在做直播。還有幾種豐富的維度,衣食住行等等?,F(xiàn)在最大的一個變成可能就是5G,5G之后可能會帶來萬物互聯(lián),我現(xiàn)在只對人了解,未來可能了解你們家的冰箱、空調(diào)、彩電還有車,所有的數(shù)據(jù)都收集起來,所以未來的世界想象力會更大。還有更加深刻的驅(qū)動力,這句話是軍方的說法“計算力決定勝利”。美軍現(xiàn)在打仗,大概在打阿富汗的時候,24小時各種數(shù)據(jù)收集大概53TB,所以不是我們原來的那種概念?,F(xiàn)在計算力,包括企業(yè)而言也是一樣。人工智能開始進入新的歷程,可能有很多顛覆性的變化,這就開啟了第四次技術(shù)革命。英國成為日不落帝國一個重要的,當時只有6000萬人,靠的就是科技第一次工業(yè)革命帶來的變化,希望中國能夠抓住這次機會。
切入正題,第一個是數(shù)聯(lián)網(wǎng)。我做的案例,在運營商去年的數(shù)據(jù)是200PB,騰訊的量很大。但是有一點,大家強調(diào)的都是單點,很像當年做互聯(lián)網(wǎng)。后來通過互聯(lián)網(wǎng),所有的PC機連起來了,所有的信息完成了交互,但是數(shù)據(jù)也同樣面臨這個問題,比如中國移動和工商銀行,這兩者數(shù)據(jù)現(xiàn)在都是銜接口,將來我希望通過一個數(shù)聯(lián)網(wǎng),通過一個標準的接口,標準的協(xié)議公開,誰需要就把數(shù)據(jù)拿過來,而且有一點,數(shù)據(jù)自帶語義,這是數(shù)聯(lián)網(wǎng)能夠帶來的一個變化,實際上很大的一個挑戰(zhàn)是共享經(jīng)濟,現(xiàn)在可能很多人都會問隱私的問題。通俗的說法,在現(xiàn)在這個時代有隱私嗎?隱私是奢侈品,(N)是做寬帶、做視頻的,(N)開展什么業(yè)務(wù)?可以在這兒看電影,付我30美金,從8點到10點間不記錄看了什么電影,這是現(xiàn)在的方法。現(xiàn)在是什么特點?隱私奢侈品。數(shù)據(jù)帶來各種各樣的交換需求。這個小伙子把自己的隱私數(shù)據(jù)在網(wǎng)上賣了1000多美金,這都是幾年前案例。別人在賣你數(shù)據(jù)的時候可能不花錢,將來的模式是你跟一個運營商合作,賣完數(shù)據(jù)以后簽個協(xié)議三七開等等,有很多種可能。
這是一個場景的案例,買一輛車之前要把所有的參數(shù)搞明白了,不同的是每一輛車的參數(shù)都要自己收集。舉個例子,北汽的一輛車真實的參數(shù),不是工信部公布的油耗數(shù)據(jù),那個可信度基本沒有。要告訴我實際情況的數(shù)據(jù),這樣對我選擇這款車可能會提供一個真正理性的依據(jù)。拿到所有網(wǎng)友實際的油耗,在公路上的油耗、爬坡上的油耗、山路上的油耗等等,這些數(shù)據(jù)有了以后干嗎?只信數(shù)據(jù)不信廣告,這個可能都是數(shù)聯(lián)網(wǎng)的基礎(chǔ),能不能把這些數(shù)據(jù)拿過來而且完全彼此的溝通。數(shù)聯(lián)網(wǎng)第一個最重要的一點是打開彼此的數(shù)據(jù)庫,現(xiàn)在所有的企業(yè)都把數(shù)據(jù)作為私有財產(chǎn),如果公開先考慮的是多少錢,這可能是在互聯(lián)網(wǎng)當年沒有的套路?;ヂ?lián)網(wǎng)當年都是愿意把數(shù)據(jù)分享出來,這是完全兩套體系,但是將來可能會有顛覆性的變化。數(shù)聯(lián)網(wǎng)的關(guān)鍵應(yīng)用怎么數(shù)聯(lián),怎么保證關(guān)鍵隱私,這個可以和區(qū)塊鏈結(jié)合起來,可以做授權(quán),而且可以確定這個數(shù)據(jù)是你給我的授權(quán),這樣在技術(shù)上就有手段了,而且大家也不用擔心太多。我個人的判斷是,只要你有足夠的商業(yè)模式,沒問題,中國人從來隱私都是舶來品,你給我錢可以把隱私賣給你,小老百姓沒有那么大的隱私,這是我看到的。還有故聯(lián)網(wǎng)所需要的價格,核心的一點,對于老百姓而言數(shù)聯(lián)網(wǎng)上有可能是一個新的模式——盈利模式。我把數(shù)據(jù)給你,賣完以后三七開,剛才那個小伙子三個月的數(shù)據(jù)賣給了1000美金。5G里面還有邊緣計算,這個東西對于數(shù)聯(lián)網(wǎng)都是意義重大的,這是我們看到的一個基本的概念。
數(shù)聯(lián)網(wǎng)與互聯(lián)網(wǎng)的關(guān)系。數(shù)聯(lián)網(wǎng)是解決數(shù)據(jù)的互聯(lián)互通,互聯(lián)網(wǎng)都是TCIP,很頂層的,有這樣的差別。
這是帶來的一些變化,從工業(yè)文明到數(shù)據(jù)文明。我們能不能通過數(shù)聯(lián)網(wǎng)讓數(shù)據(jù)更加開放、透明,能夠看到更多的數(shù)據(jù),這可能是我們現(xiàn)在即將面臨的挑戰(zhàn),會帶來很多新的產(chǎn)業(yè)機會。這里面說點通俗的,包括新的瀏覽器,包括新的商業(yè)模式,還有人工智能的一些變化,可能會構(gòu)建相對很完整的產(chǎn)業(yè)鏈,商業(yè)會更加透明。什么意思?原來汽車是看廣告,一個明星出來做宣傳,將來不用看廣告了,有數(shù)據(jù)對比,你想要什么樣的給你什么樣的,把產(chǎn)品給你做到極致,要活下來只能靠產(chǎn)品不能靠忽悠,這是數(shù)聯(lián)網(wǎng)即將帶來的商業(yè)模式。互聯(lián)網(wǎng)只解決了信息的互通,原來通過電視臺做廣告,現(xiàn)在通過互聯(lián)網(wǎng)做廣告,但是數(shù)聯(lián)網(wǎng)之后這一切將顛覆。
之后我們說層次的變化,書里面都有詳細的介紹,我就不給大家展開了,有點偏技術(shù)。舉個例子,將來的瀏覽器應(yīng)該是什么樣的?我看很多人做IT的歷史很長,1995年的時候登互聯(lián)網(wǎng)靠英特網(wǎng),廢半天進才能看,未來的場景是當時有一個網(wǎng)警公司,通過APP協(xié)議一下出來一個網(wǎng)頁,搞得我們煥然一新,互聯(lián)網(wǎng)才有今天。未來數(shù)據(jù)互通以后怎么通過一個數(shù)據(jù)瀏覽器能夠看到工商銀行的數(shù)據(jù),這就是數(shù)聯(lián)網(wǎng)的瀏覽器,這里面將會產(chǎn)生可能比網(wǎng)警更大的市場,這可能是一個機會。很多顛覆性的東西都將產(chǎn)生,這是我們看到的。這里面確實有很多的機會。數(shù)聯(lián)網(wǎng)的生態(tài)圈。包括設(shè)備制造商、標準數(shù)據(jù)標準企業(yè)等等都會帶來巨大的機會。數(shù)聯(lián)網(wǎng)是什么世界?美國最擔心的就是中國的數(shù)據(jù),現(xiàn)在中國的數(shù)據(jù)量是很夸張的,美國為什么擔憂人工智能,主要是因為這波人工智能就是基于大數(shù)據(jù)的,已經(jīng)積累了海量的數(shù)據(jù),但這波海量的數(shù)據(jù)是彼此割裂的,我們?nèi)绾伟阉鼈兓ヂ?lián)互通,這是我們要考慮的。
下面是一個大數(shù)據(jù)資產(chǎn),這也是站在實際的運營角度。比如說最大的運營商,IT系統(tǒng)有2000多個,怎么去把這些IT系統(tǒng)整合起來,而且不同的指標怎么去整合起來,我們花了大量的精力。這是我們說的數(shù)據(jù)質(zhì)量管理的情況。我當時讀書的時候做數(shù)據(jù)倉庫項目的時候,(英倫)在書上說60%的工作量將來在數(shù)據(jù)質(zhì)量上,當時將信將疑,現(xiàn)在做了這十五年下來負責任的告訴各位,未來真的是要60%的精力在數(shù)據(jù)質(zhì)量上,而且沒法兒取巧。我在硅谷講課的一個兄弟問我,數(shù)據(jù)質(zhì)量有沒有捷徑可走,我直接回答說沒有,因為文檔加起來有上千億,還是蠻辛苦的,這是現(xiàn)在希望能夠用人工智能的方法參與到數(shù)據(jù)質(zhì)量的監(jiān)控、集合這樣的過程,這里面涉及到指標庫,怎么進行深度學習設(shè)計指標庫,現(xiàn)在希望通過深度學習預(yù)測找它的值,判斷它是正常波動還是異常波動,這是相關(guān)的流程。左邊是數(shù)據(jù),右邊是深度學習的平臺,這個過程怎么去監(jiān)控它的指標異常,這個指標是要AI學習,而不是人。原來很土的辦法,到10%就告警,那么多的指標,一個省的指標上千個,怎么可能靠人來去監(jiān)控,沒法兒做,所以最后土辦法是10%就報警,但是有很多合規(guī)的方法去搞定,大家不要覺得這是一個技術(shù)問題,這是一個管理,因為涉及到很多人的獎金,這個事情是很復(fù)雜的。這個預(yù)測的過程要算它的值,最后用各種各樣的算法,這里不給大家開了。三個算法的訓(xùn)練,找到一個合適的波動值,找出質(zhì)量波動的區(qū)間。
這里有一個小案例給大家看一下。這是一個數(shù)據(jù)資產(chǎn)的案例??梢钥吹綌?shù)據(jù)有哪些,數(shù)據(jù)從哪兒來到哪兒去,這個視頻的情況大家感受一下,我能看出數(shù)據(jù)的來龍去脈,看出表格有多少,每個數(shù)據(jù)層大概是多少,收集的血緣關(guān)系、影響分析等等。這樣的話,一個省數(shù)據(jù)表大概上萬,通過這樣一種形式、手段才能看出數(shù)據(jù)的來龍去脈。哪塊出了問題通過前面能看到,這個是對內(nèi)做了什么樣的應(yīng)用,對外做了什么樣的應(yīng)用,每個應(yīng)用什么樣的情況,這樣大數(shù)據(jù)的價值就容易跟領(lǐng)導(dǎo)匯報,這個是把數(shù)據(jù)處理過程全部顯現(xiàn)化,有故障馬上就知道在哪里,讓領(lǐng)導(dǎo)知道錢花在哪兒了,這個模式還是很重要的。
下面是人工智能。人工智能比大家想的速度要快。這里稍微給大家拓寬一下,我們做企業(yè)做了很多年,可能思路更加聚焦在企業(yè)的需求上,我們看目前AI發(fā)展到什么程度,首先看音樂能力。這個是微軟小冰AI自己創(chuàng)作自己演唱的歌,現(xiàn)在AI的進展比我們想象的快。比如AI指揮音樂,怎么去指揮交響樂,讓大家感受一下,用這種方式指揮音樂。我們看到的變化比我們想象的要夸張。再給大家看一個好玩的,現(xiàn)在打劫的方式都發(fā)生變化了,都要用上AI,感受一下現(xiàn)在AI技術(shù)的變化。如果這種打劫的變化發(fā)生了以后,你到哪兒去判去,你都不知道誰在后面操作。
阿爾法狗下棋就不說了。關(guān)鍵的是AlphaGo Zero,,自我對弈490萬盤旗,結(jié)果是什么?干掉了10個版本,或者是(科杰)的版本,他已經(jīng)是目前最高的水平了。對我們這個圈子最害怕的是,意味著不再站在人類的技術(shù)之上了,AlphaGo學習了人類所有的技術(shù),在那個基礎(chǔ)上再做,才能下過人。Zero的恐怖之處根本就沒有看過人類的一盤旗幟,第二天、第三天就可以把李世石干掉,這件事意味著很多內(nèi)容都不需要,AI自己可以產(chǎn)生數(shù)據(jù),這個給大家稍微帶一下。人生苦段,Python當歌,我這個圈子里的朋友孩子2歲在上海學Python編程,不再學說話了。誰認識左邊的字?這是失傳已久的西夏的文字,當年西夏被滅國留下的西夏文字,現(xiàn)在用AI來翻譯西夏文,西夏現(xiàn)在沒人能認識這字是什么意思,這就是變化。這是AI的繪畫,這是我們看到的藝術(shù)創(chuàng)作。這是兩張圖我給混成了一張圖,藝術(shù)創(chuàng)作的模式。有意思的是,這張圖能看出來有什么特點嗎?先拍一張照片,要什么樣的分分鐘產(chǎn)生幾萬張圖片或者美術(shù)作品,所以畫家同學將來會受到很大的沖擊。這是IBM Watson的機器人,根據(jù)電影做了一個廣告片,這是我現(xiàn)在看到的變化。這個是更有意思的,看一下語音合成到什么程度了,這個是奧巴馬的講話合成的。同學們感受到AI的威懾力了吧,不能得罪搞AI的人,否則第二天網(wǎng)上出現(xiàn)反黨反社會的言論,你怎么證明自己沒說,你的聲音、你的嘴形,很多顛覆性的東西都在出現(xiàn),這些變化比我們原來想象的要快。
未來的電影都將重構(gòu),未來拍李小龍的《猛龍過江》,范總?cè)パ?,想做誰做誰,怎么樣自嗨怎么來,電影都將顛覆。日本的一個公司正在做。
AI還能干4什么?可以給一幅畫一,干嘛,想著城市的燈守著我,咬破了冷靜的思想,你的眼睛里山東,無人知道的地方,會寫現(xiàn)代詩了。這是清華的“九歌”。2016年之后北京高考已經(jīng)不用人判卷了。日本的一本小說,電腦寫小說的哪一天,首先追求尋找自我的快樂放棄了對人類的服務(wù)——《計算機寫小說的那一天》。未來AI能不能產(chǎn)生金庸,各位現(xiàn)在覺得不可能,我的感覺沒問題,因為1983年我學電腦的時候打死都沒想到計算機能有今天??拼笥嶏w是做翻譯的,我去年7月份做日本,日本我是一去不回,當然得不能安靜,翻譯現(xiàn)在做到了八級。這是用AI參加高考,能夠被80%的日本大學錄取,前年AI已經(jīng)通過了全國的執(zhí)業(yè)醫(yī)生考試。這是高曉松說的,作為自幼學棋,崇拜國手的業(yè)余旗手,看了Master50:0橫掃中日韓頂尖高手的對局,難過極了。為所有的大國傷心,路已經(jīng)走完了。多少代大師上下求索,求道求術(shù),全被破解。因為高曉松沒有看到音樂和詩歌,我給你們看了,剛才給大家開拓一下思路,能不能拿AI給我們寫PPT,各位沒有共鳴嗎?詩和遠方都能搞定,何況PPT呢?我們之前做過,因為有些PPT是可以的,只是變了一些數(shù),稍微做了一些圖像調(diào)整,很有意思,降低了人力。
這是中國移動做的嘗試,AI平臺是一個什么樣子的。平臺相關(guān)的算法、組件、應(yīng)用稍微給大家看一下,所有做AI的大概都是這個套路。目前咱們的能力只能在底下和上面,為啥?中間GPU全是美國人的,中國現(xiàn)在很牛的分析化數(shù)據(jù)。數(shù)據(jù)量比美國人少,起碼不少。做AI里面主要是和數(shù)學相關(guān)。
給大家介紹一個自己做的小產(chǎn)品,叫AI荷爾蒙,實際上就是人臉識別,但是用了一個谷歌眼鏡。買了一個類谷歌眼鏡,大概3000塊錢,是一個山寨版的安卓手機,進了一類廳以后的人臉識別,這是我們感受到的。人臉識別有幾個可能,一種是店廳用人臉,進來就能識別你是誰,還包括社區(qū),未來賣一個社區(qū)怎么賣,比如賣奔馳、寶馬,現(xiàn)在哪兒哪兒都是傳單,未來應(yīng)該戴一個眼鏡,一看朱總比較有錢,馬上要換車了,這個時候馬上發(fā)傳單營銷,人臉識別未來的想象空間很大,當然背后的能力是數(shù)據(jù)標簽?zāi)芰Γ袥]有足夠多的數(shù)據(jù)。大家不要小看這個眼鏡,現(xiàn)在的眼鏡比較土,但是5G之后這個眼鏡不是夢。未來沒有結(jié)婚的帥哥想找老婆的時候馬路上看到一個美女先人臉識別,再算一下匹配度,關(guān)鍵人家得單身,一看95%的匹配度,美女馬上發(fā)一個信號“約嗎?”,帥哥再過去搭訕,有5G以后這些都不是夢,讓大家感受一下變化。我戴了谷歌眼鏡以后可以識別你是誰,這些都可以做到。
AI實際的應(yīng)用還是這個,第四次技術(shù)革命的前夜,大家不要小看,周圍圈子里有接觸到習主席的,第一,對AI還是頗有了解的;第二,中央確實想賭AI,就像當年英國賭工業(yè)革命一樣。國家往里面砸錢。中國現(xiàn)在在AI的進展很快。這張圖是法國大革時候,叫“技術(shù)引領(lǐng)人民”,現(xiàn)在叫技術(shù)引領(lǐng)人民。我相信這一點。當年英國打遍天下靠的是科技,這些顛覆性的變化會讓我們所有人都要面對。然剛開始的時候很慢,剛有火熱的時候在歐洲、英國有一個特點,很多人騎著馬虐火車,因為火車只有40公里的時速,給技術(shù)以時間,給新技術(shù)以時間,互聯(lián)網(wǎng)剛出來的時候,我可是全程見證了?,F(xiàn)在誰還質(zhì)疑互聯(lián)網(wǎng),這是我看到的很多變化。
這是大潤發(fā)黃總說的,“勝了所有對手,卻輸給了時代”。什么意思?方向技術(shù)更重要,大家想過嗎,當年馬云做銷售的時候,很多人覺得他是忽悠的居多,但是看一下你們身邊的90后還有人去實體店買東西嗎?人工智能帶給我們的一些挑戰(zhàn),基于大數(shù)據(jù)的人工智能帶給我們的挑戰(zhàn),可能誰都沒法避免。過去三十年我見證了信息領(lǐng)域的巨變,未來三十年只能比三十年更加劇烈,在座的各位沒有一個能躲開。你有可能是被干掉的,也有可能是干別人的,我希望大家都去學習AI干別人。算法改變?nèi)松?。謝謝大家!