Intetix Foundation(英明泰思基金會)由從事數(shù)據(jù)科學(xué)、非營利組織和公共政策研究的中國學(xué)者發(fā)起成立,致力于通過數(shù)據(jù)科學(xué)改善人類社會和自然環(huán)境。通過聯(lián)絡(luò)、動員中美最頂尖的數(shù)據(jù)科學(xué)家和社會科學(xué)家,以及分布在全球的志愿者,我們創(chuàng)造性地踐行著我們的使命:為美好生活洞見數(shù)據(jù)價值。
原文:http://techblog.netflix.com/2014/06/optimizing-netflix-streaming-experience.html
原作者:Nirmal Govind
2007年的1月16日,Netflix推出了一個新功能:會員可以在瀏覽器上直接在線觀看電影,而無需再等待Netflix的紅色郵包。該項目對Netflix和娛樂行業(yè)來說是一個標志性的轉(zhuǎn)變。如今,Netflix每個月有超過10億小時的電影流推送給來自40多個國家的4800萬名會員。同時,Netflix占據(jù)了美國超過三分之一的高峰期下行網(wǎng)絡(luò)流量。這使其獲得了大量的數(shù)據(jù)。
Netflix利用大數(shù)據(jù)進行深度分析和算法預(yù)測,以此為會員提供最好的觀影體驗。根據(jù)用戶的觀影偏好來做個性化推薦就是一個很好的例子。Netflix甚至為此舉辦了比賽——Netflix大獎賽(始于2007年)。Netflix正在關(guān)注的另一個領(lǐng)域是流媒體體驗質(zhì)量(QoE),即會員在Netflix觀影時的用戶體驗。以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)科學(xué)和算法模型對提升質(zhì)量體驗大有裨益。
Netflix致力于提供杰出的流媒體服務(wù)并大力發(fā)展流算法和網(wǎng)絡(luò)技術(shù)(如Netflix建立的開放連接內(nèi)容交付平臺)以提供良好的流媒體體驗質(zhì)量。Netflix憑借流媒體服務(wù)在2012年贏得了“黃金檔艾美工程獎”(Primetime Emmy Engineering Award)。為了更專注于“流科學(xué)”, Netflix建立了一個新的團隊,通過研究數(shù)據(jù)算法,來改善流媒體體驗質(zhì)量(QoE)。本文會簡明地概括Netflix需要解決的問題,包括,
·了解流體驗質(zhì)量對用戶行為的影響;
·為每個會員創(chuàng)造個性化的流體驗;
·基于會員的觀看記錄決定在邊緣服務(wù)器緩存什么電影和節(jié)目;
·根據(jù)觀看記錄和用戶反饋在目錄中提高Netflix內(nèi)容的技術(shù)質(zhì)量。
了解流體驗質(zhì)量對用戶行為的影響
用戶行為是指用戶與Netflix交互的方式。Netflix使用數(shù)據(jù)去理解和預(yù)測這些行為。例如,一個產(chǎn)品中細微的改變會對Netflix用戶的觀看時長產(chǎn)生多大影響?為了提升流體驗,Netflix研究了對用戶行為產(chǎn)生影響的體驗質(zhì)量指標。其中一個指標是再緩沖率,表征的是暫停視頻播放以等待數(shù)據(jù)下載至本地緩存的頻率。另一個指標,比特率,是指畫面質(zhì)量——比特率越低,畫面越模糊。再緩沖率和比特率之間的關(guān)系很有趣。由于網(wǎng)絡(luò)容量有限,過高的比特率將會增加容量達到極限的風(fēng)險;而當(dāng)本地緩存中的內(nèi)容播放完,又不得不暫停視頻播放以重新緩沖。怎么樣在這中間達到一個平衡呢?
還有很多指標可以用于描述用戶的體驗質(zhì)量,但是各項指標對用戶行為的影響,以及指標之間的權(quán)衡都需要Netflix深入的研究。更專業(yè)地講,Netflix需要確定一個映射函數(shù)用以量化和預(yù)測用戶體驗質(zhì)量的變化是對用戶行為的影響。這一點非常重要,它可以讓Netflix更好的調(diào)整算法,高效提升用戶觀影感受。
提升流體驗
Netflix的流媒體供應(yīng)鏈:在各個環(huán)節(jié)優(yōu)化流體驗
當(dāng)會員瀏覽Netflix時我們應(yīng)如何利用數(shù)據(jù)提供最佳用戶體驗?
創(chuàng)造個性化流媒體體驗
方法之一是當(dāng)用戶播放影片時觀測算法在實時和近實時下運行情況,以此選擇相應(yīng)的視頻比特率、服務(wù)器地址等等。利用上文所述的映射函數(shù),對大量數(shù)據(jù)進行分析,可以在總體上優(yōu)化用戶體驗,甚至可以通過函數(shù)分析每位會員的“體驗質(zhì)量偏好”,以提供個性化流體驗。此外,為用戶提供個性化體驗也要考慮用戶網(wǎng)絡(luò)情況,設(shè)備,地理位置等等。比如,用戶在家庭高速網(wǎng)絡(luò)中的需求和用戶體驗與在低速手機網(wǎng)絡(luò)中有很大不同。
優(yōu)化內(nèi)容緩存
大數(shù)據(jù)在內(nèi)容交付端也有一系列作用。Netflix擁有一個名為“開放連接”的內(nèi)容交付平臺,這一平臺用于管理與Netflix合作的ISP(網(wǎng)絡(luò)服務(wù)供應(yīng)商)。ISP可以通過公共網(wǎng)絡(luò)交換機直接連接到Netflix的服務(wù)器,或者由ISP代理提供Netflix的服務(wù)。這里的核心理念在于縮短用戶與內(nèi)容間的網(wǎng)絡(luò)距離從而為會員提供良好的用戶體驗。
值得思考的是如何利用會員在Netflix上的瀏覽行為優(yōu)化內(nèi)容緩存。Netflix擁有數(shù)百萬會員和數(shù)量龐大的產(chǎn)品,然而用戶設(shè)備存儲能力有限,如何優(yōu)化內(nèi)容緩存才能在會員觀影時不超出本地緩存能力。
提升內(nèi)容質(zhì)量
提升用戶體驗的另一種方法是進行內(nèi)容質(zhì)量控制。比如電影和節(jié)目中的視頻、音頻、一般字幕、可隱藏字幕等都可引入這一過程。在一部視頻放置到內(nèi)容服務(wù)器之前,Netflix會對數(shù)字化視頻進行編碼和質(zhì)量檢驗。品目繁多的產(chǎn)品被譯成多種語言傳播到各個國家。確保公司提供的影片和節(jié)目沒有字幕錯誤、編碼錯誤等質(zhì)量問題著實是一個挑戰(zhàn)。
除了內(nèi)容質(zhì)量檢測之外,Netflix也會傾聽會員對于質(zhì)量問題的反饋。然而用戶的反饋是五花八門的,可能包含了一些跟質(zhì)量不相關(guān)的問題(比如由于網(wǎng)絡(luò)連接不暢導(dǎo)致的網(wǎng)絡(luò)錯誤)或者是關(guān)于會員口味和偏好的反饋。說實話,識別真正有效的反饋無異于大海撈針。
Netflix通過結(jié)合會員反饋意見和與瀏覽行為相關(guān)的內(nèi)在因素,建立模型來預(yù)測某一特定的內(nèi)容是否存在質(zhì)量問題。例如Netflix可以檢測觀看模式確認產(chǎn)品質(zhì)量是否有問題。如果在一個節(jié)目的某個時間節(jié)點觀看量大幅下降并且會員提供了相關(guān)反饋信息,那么這段節(jié)目很有可能存在質(zhì)量問題。運用自然語言處理和文本挖掘技術(shù)可以構(gòu)建強大的機器學(xué)習(xí)模型。這一模型可用于提升線上內(nèi)容的質(zhì)量,還可以利用會員提供的信息建立起質(zhì)量控制的良性循環(huán)機制,更換不符合會員期望的內(nèi)容。Netflix正在向國際擴張業(yè)務(wù),隨著新的影片和節(jié)目的增加以及翻譯語言的增加,質(zhì)量控制變得更有挑戰(zhàn)性。
以上是Netflix在創(chuàng)新使用數(shù)據(jù)建立模型和算法為每位會員提供卓越觀影體驗的幾個例子。在流媒體領(lǐng)域還有許多其他問題可受益于數(shù)據(jù)科學(xué)。