2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大數據科研、應用與產業發展為主旨的2014中國大數據技術大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數據學術會議在北京新云南皇冠假日酒店盛大開幕。
Co-Founder and CEO of Conviva 張輝表示用戶的體驗是互聯網最重要的指標。網絡的延遲一直是互聯網面臨的難題,沒有一個很好的辦法來解決。但是隨著以下三項互聯網技術的發展,使得改善用戶的互聯網體驗成為了現實:企業可以從用戶端提取細顆粒信息;軟件定義的迅速發展;大數據的實時技術發展。
Co-Founder and CEO of Conviva 張輝
以下為演講實錄:
張輝表示用戶的體驗是互聯網最重要的指標。網絡的延遲一直是互聯網面臨的難題,沒有一個很好的辦法來解決。但是隨著以下三項互聯網技術的發展,使得改善用戶的互聯網體驗成為了現實:企業可以從用戶端提取細顆粒信息;軟件定義的迅速發展;大數據的實時技術發展。
今天是一個大數據的會議,我自己是做系統做研究的,講的就是大數據的應用。我今天講我們怎么用大數據解決互聯網行業里非常難的一個問題。問題是什么?卡斷率!我們看視頻都遇見過卡斷的時候,這時會非常不爽。尤其是現在,我們的注意力變得越來越差,注意力已經開始變成最稀缺的資源,我們在使用各種服務包括網上服務,遇見卡斷的時候一般都會有一個注意力的轉移,本來你想專心做一件事情這件事情做不了,用戶的體驗度受到非常大的影響。
所以從這個角度來講用戶的體驗是互聯網服務最重要的一個指標,我為什么提高用戶體驗,用戶體驗和我們說的性能有什么不一樣,我們說CPU有多快,網絡有多少曝光率,延遲有多少,這些東西都是測試單個性能。你想一下包括你上Expenence,經過無數服務器、交換機,中間不管哪個出了問題對用戶來講都是不知道的,用戶唯一知道的事情是一個非常好的用戶體驗,或者是不好的用戶體驗。我們做系統的人怎么把端對端的用戶質量做好。
在網絡里面當時有一個非常重要的問題,網絡不是一個人的控制,比如百度擁有自己的服務器,但是網絡是中國電信的網絡,也許是主干網絡是中國電信網絡,接入網又是另外一個服務商的接入網,在多種端對端服務商的情況下,每個服務商做這個服務,同時他們互相不協調,怎么提高最好的用戶體驗。這是網絡界老大難的問題,這個經過多年的研究,隨著以下三項技術的發展終于有個解決辦法。
第一個我們現在能夠從用戶端做非常細顆粒的用戶體驗的采集,而且是全方位的采集這是第一件事情,這是原來從來沒有的能力。第二個用軟件定義的控制結構,這個是網絡界一個非常大的創新,這個我一會兒再稍微講一下。第三個就是大數據的技術。當然包括一個是平臺的技術,一個是算法的技術。
我先來講第一點,我們知道現在從網上看視頻,或者下載一個APP看視頻,這個過程中我們瀏覽的視頻,下載的視頻都會被收集起來。服務商可以通過在軟件植入代碼來實現。這樣就可以獲得用戶的一些基礎信息。
第二個關鍵技術就是說軟件定義,網絡中間任何一個控件,包括每一個交互機,傳輸的設備都會出問題,怎么做這個,我們引進冗余,每個機群可以死掉但是整個服務不能死掉。同樣的概念用在網絡上,網絡上有多個路徑來交換,這是一個冗余,還有不同的碼流率這是又一個變化,變化越多你可以選擇這個最好的變化。如果你把其他的參數加進去,不光是說卡斷率,中間可能有失敗率,也許碼流率不夠高,你把這些加進去,不同參數質量好壞對于一個服務器來講在不同時間是不一樣的,所以沒有一個固定路徑是最好,而且沒有一個固定的指標是一個路徑比另外一個路徑絕對好。
第三個關鍵技術,就是說實時的大數據技術和算法,這個算法就是概念上是一個很簡單的概念,做起來稍微復雜一點。概念是什么概念?如果我們把每一個網上的視頻都在采樣,就像我們在北京每輛車上都裝一個攝象頭,知道他車速是什么情況?我車越多,但是我路上沒有攝象頭,車越多我的路況了解就越多,我要知道北京所有車的速度怎么樣,我就基本上知道北京路況是怎么樣。但是卡車和出租車走的速度是不一樣,也許你騎摩托車和坐卡車的速度不一樣。細分起來找一個概念是這樣的,比如說這個會場里面大家看一個直播的視頻,現在有一個新的人來看,用哪一條新的路徑去選?算法我就不深入去講了,但是我想說一兩個,你觀察數量越多,觀察顆粒越細,采集數量點越大,你最后達到預測的效果越好。
怎么知道這個東西做得好還是不好,首先就是說什么叫做好的用戶體驗?好的用戶體驗有各種各樣的參數比較。其中一個可以做的更復雜一些,我們做一些比較簡單的比較,從兩維比較,橫軸是平均碼流率,縱軸就是流暢率,100%流暢率最好,60%流暢率不好,你往右上角去最好,每一點這里表示一個網站我們通過實時的數據,從我們實際顧客數據中采集的數據,你看現在視頻網站有的質量非常糟糕,有的質量稍微好一點。原來假設一個視頻網站它平均碼流率在1.8兆,有80%碼流是流暢的,20%是不流暢的,用了這個算法他平均碼流率漲到2.5兆,差不多90%以上的流變成流暢的,當然還沒有解決100%的問題,這是一個提高。
這是我們跟央視國際做的一個項目,央視國際中央電視臺的網站,海外所有國家都可以看央視臺的內容,五大州180多個國家都可以看到,你打開視頻就可以看到我們黨的聲音,而且要流暢要高清,這是以前的卡斷率還有平均碼流率、平均時長,用戶看的時長,這是引入我們系統之前,引入系統之后,卡斷率降低,平均碼流率提高,平均時長的提高。
什么叫做用戶體驗?這件事情從研究角度從科學角度這是非常難的問題。這個本身可以做很好玩的研究,我們做深度研究,怎么在大規模取樣當中研究人的用戶體驗。我們總得來講一些性能指標的提高是對用戶體驗是成正比的。回到頭我來提這樣一個問題,我們一般做一個軟件,比如說我做一個TCP的協議,1988年軟件工程做的,做一些模式有一些參數放在里面,不管是10兆網上走傳輸文件,還是在移動網上看新聞同樣TCP同樣的參數,而且五年前做的和今天是做的一樣的,怎么改變這個現實?我們拿了一臺非常先進的下一代的互聯網電視里面做視頻的播放器。橫軸說這是超高清,內容最高清情況下可以達到9兆,這是它平均的阻塞率。你看到在非常高碼流的情況下它性能非常不好,因為它阻塞率非常高,而且同樣的情況下看的時長和碼流率,高清情況下反而看的時間短,為什么?因為你阻塞率太高了。為什么會出現這個現象?因為你要做軟件這個人他在設計電腦的時候從來沒有9兆的內容,他從來沒有測過這個東西,他設計點也許就在兩兆三兆情況下。但是你電視放出去情況就變了,怎么解決這個問題?我們知道云計算是一個好東西,云計算好東西在哪里?它是天天在變的,它隨著實際情況變化做變化,而且可以個性化。剛才我提到用一個控制的網絡通過實時的反饋來調整參數,就可以解決這類似的問題。因為在我播放器上調的參數,在這里調的參數就和另外一個播放器明天調的參數不一樣,這是能夠達到一個效果。
我知道各位都是來參加大數據的會議,我稍微提一下網絡上非常重要的概念,軟件定義的網絡。這件事情被認為是革命化的東西,我回頭講所謂革命化在哪里。但是先說一下像所有市場預測說2018年350個億的市場份額,主要是為了數據中心質量優化來做的。所謂數據中心一個網什么叫好什么叫壞?高帶寬、低延遲,但是回過頭用戶質量是最重要的,我上阿里巴巴網上買一個東西,上淘寶網去買東西,我不知道網絡出問題了,還是數據中心出問題了,我們怎么保障用戶體驗,你要想控制用戶體驗,我們第一個事情是可觀測,你控制用戶體驗就必須關注用戶體驗,用戶體驗只能在終端和用戶層軟件才能觀測,怎么把這個數據用于到控制每一個端對端上面,這需要體系結構的改變。我想畫一張圖說一下這個革命,我在課堂里講網絡,第一個詞就是說協議,協議是一些分布式的算法。每一個交換機互相之間傳信息,然后實現一個分布式的算法。這個分布式的算法算一端走到另一端用哪一端,我們整個互聯網把所有計算機加在一起幾萬臺,這樣一個問題困擾了我們整個業界30年,到今天為止我們說互聯網的質量很差,我們要跟同行一談,說你們網絡多大,我們說幾萬到幾十萬,他說這么小的網怎么有這么大的問題,因為是一個分布式的網絡,算法是分布式的算法。分布式的算法是非常難引入智能,智能是一個大詞。我們說技術一點叫做優化。
SDN概念是什么通過一個中央控制器來對全網進行優化,全網實時采集你現有網絡情況和拓撲情況,然后中央計算所有的路徑,馬上非常復雜的優化算法就可以實現了這是SDN TO E-SDI,實現這個有很多難題,因為中央控制器離交換機有一定距離,中間路徑可以斷,怎么做到非常穩定,這些都是需要解決的問題。現在局限在第二層,局限在數據中心,我們認為下一個發展里程碑就是端對端的控制,而不是在網絡內部二層和三層的控制。首先優化用戶體驗,優化用戶體驗最重要一部分就是采集用戶體驗的數據,把用戶體驗的數據用于做一個反饋的控制,控制每一個你如果從端對端角度來做,也可以控制內部的網絡,這是一個大數據可能對網絡結構一個最重要的貢獻。
第二我們都強調BIG DATA,從控制角度來講這個大數據必須走到實時,沒有實時就沒有控制,沒有實時只能做分析。
第三是Application,不光要知道哪個應用,這是視頻還是語音還是傳輸,最重要你怎么優化用戶體驗。
第四從技術趨勢來講大家做很多工作做分析,找到一些對人做決策有用的信息,我們要做到自動的控制, 除了分析還有控制,我管這個結構叫做Expenence-Centric Software Defined infrastructure。
我總結一下,第一件事情我們隨著互聯網時代最稀缺的資源是人的注意力,所以用戶體驗從服務來講是最重要的事情。我們做了質量控制在互聯網上做了20多年,我們有很多心得,他山之石可以攻玉,他山之石從哪來?第一要有數據,這個數據必須是應用層用戶體驗層,第二要有一個網絡的架構用這個數據控制。實現角度來講,在控制層的實現是通過實時大數據的系統加算法實現。下一步做的事情不光是以網絡為中心而是以用戶體驗為中心。