1月14日,2016未來互聯網峰會上,阿里巴巴集團副總裁 、阿里云業務總經理劉松圍繞阿里云的大數據進行了主題演講。
劉松談到,過去兩年來,大數據這3個字,因為過度被吹捧,進入了一個被妖魔化的階段,真正的問題是大數據場景的問題。
為此,他列舉了與城市生活有關的大數據場景。比如通過跑步獲取收益,通過大數據幫助女性選擇更適合自己的衣服,以及交通問題。這些都是阿里以及阿里的事業群在做的事情。
同時,劉松還介紹了阿里的大數據是如何練成的,阿里成立一個很大的數據組織叫CDO的部門。用了兩年時間,解決了存的問題,又花2年時間解決了通的問題。
阿里大數據未來要做的事情,就是向非商業的領域開放阿里的數據,讓他們做學術性的研究。
以下是劉松演講實錄:
劉松:我代表阿里云計算的集團分享一下大數據的N種場景。過去兩年來,大數據這3個字,因為過度被吹捧,進入了一個被妖魔化的階段。我同意剛才高總(高曉松)說的,真正的問題不是沒有數據的問題,我們今天用智能手機,淘寶購物,支付寶的城市生活。數據是無限的,每個人都有,不僅僅是阿里有,運營商、銀行也有。關鍵的問題就是場景的問題,所以我下面大概花15分鐘,很快跟大家過幾個與民生生活,與大家城市生活有關的大數據場景。講一講,大數據跟什么聯動,有用,與我們每個人是有相關性的。
我解釋一下“+”號。這一橫可以認為是互聯網本身,還有它衍生的兩個最關鍵的技術或者平臺,就是云計算和大數據。這一豎是各種垂直行業,可能是音樂,可能是影業,可能是醫療,可能是政務。這一豎的上半部分,我們可以認為在這一橫上,完全線上化、數據化,完全新創的移動互聯網的新的生產模式。我們說的這些創新、創業的企業。我們知道我們在座的各地很多政府的領導,在各地有很重要的任務就是孵化雙創的經濟,大眾創業,萬眾創新。你如何利用互聯網溢出的資源,從入口到互聯網平臺本身,到云計算和大數據。所以這一橫對所有傳統行業來說,意味著如何把線下的業務翻到線上來。
用一個最簡化的方法來理解,過去十年,云計算、大數據通過互聯網自己的進化,便成了一個溢出的資源,未來10年,互聯網本身,結合它溢出的云計算和大數據會幫助所有的垂直行業去做任何的轉型。當然這里面有一個關鍵點,不是所有的行業都能用好大數據的。我也同意前面這位高總的觀點,很多東西要看場景。今天我講的是場景,不是大數據。
一橫一豎的交差點是真正專業人士的學問,他知道哪個地方可以用大數據,在傳播營銷的時候需要用,可能在創作的時候不一定要用。上一個時代的數據用在了報表、記錄物體以及錢的交易上。下一個時代的數據記錄各種人的精神衍生的數據。
2015年是天貓雙十一云計算和大數據的演練。背后有大數據平臺,在那一天你隨時準備處理上百T的數據。阿里整個的大數據的團隊在去年拿了一個相當于是數據領域處理的世界杯的冠軍,100T數據排序方面,100T相當于一個超級大表,把這些數據重新做了一個排序用337秒,只有這樣的實力,才有可能在雙十一峰值場景里面做大規模的交易,以及背后數據的分析。前面看出的大屏,在離這兒不遠的水立方,那張大屏里面所有的數據,雙十一當天每3秒更新一次,大家想想背后有那么多的交易,要馬上同步過來,匯聚展現出來。大家可能已經有一定概念了。
下面說幾個生活中的場景,每一個場景,有的是我們在云上的一些創新公司做的,有的是阿里集團相關的事業群做的。第一個走路是不是可以賺錢?我個人每周在奧森公園跑3次步,我怎么把這個時間做新的經濟效益。有一家公司叫眾安保險,是全世界第一個完全在云上搭建的公司,沒有任何數據中心,所有的東西都在云計算上,這家公司作為純粹的互聯網保險公司,去年10月份做了步步保的產品。
對于一個人買的10萬塊錢的健康疾病險,每天走五千步,當天保費就免掉了。精巧設計了3個主體都有所得,作為最終的消費者可以每天看步數決定自己是不是要多走幾步,免掉一天的保費,健康水平大幅度提升了。就像高總一下瘦10斤。對于賣手環的廠商是非常致命的,智能手環每個人戴三個月就不用了,對于手環廠商銷量和交易頻度是一個問題。
一個保險公司賣健康險的時候,沒有辦法用電話的方式交流,你還要理解被保險人即時的健康情況。這個創新來自于一個胖子和一個瘦子之間的交談,眾安保險的產品公里,有一天跟一個大胖子吃飯,他們兩個人說,你買的保險是多少錢,我買的是多少錢,價錢是一樣的,很不公平。對一個賣健康人的保險,讓身體好的人享受更低的保費。駕駛習慣更好的人享受一半左右的車保險。這個場景把互聯網公司,保險公司和個人最關系的問題,硬件與交易頻度,數據與消費者行為,還有我自己的健康,全部聯系在一起,這是非常有意思的東西,差不多每一段時間都會做一個秒殺,如果你是愛運動的人,基本上可以免費享受這個場景。
第二個問題,所有的女士都會遇到一個問題,為什么總是沒有衣服穿。阿里自己去年有一個超級的數據研究的機構,做深度學習的,第一個產品叫拍立淘,大多數女士看到模特后才決定買產品的,但基本上回家以后是慘不忍睹的。澳大利亞采用一些胖模特做泳裝的模特,我們作為個人消費者更容易接受這樣的情況,胖是一種寬容。對于每一個女士來說,看到與她相仿的人看到新衣服很漂亮,用手機拍完3秒自動匹配淘寶哪家店賣一模一樣的衣服,這是后面的圖像識別、深度學習,數據應用。使我們的購物進入一個全新的時代,你能依照你個人的身材,甚至氣質去決定買那件衣服,可以決定拍照的瞬間,可以預知效果。深度學習,人工學習,大數據解決女士總是買不大合適衣服的問題。
第三個,在北京這樣一個霧霾深重的城市,哪些人購買空氣凈化器,或者誰需要購買空氣凈化器。今天住在勁松一帶的人,自己家住在哪里,經常往返哪里。最近看羋月傳的這些觀眾,會喜歡哪一類的洗發精,數據已經沉淀告訴我們了。同時我們知道,在北京不同的區域,精細到小區級別,那個地方的PM2.5大概多高,哪個地方應該建議他更多花時間去注意自己室內的健康。我知道我很多的同事熱衷于買PM2.5的脈表,到處去量,這些數據會逐步用于整個社會治理和未來對于氣象的監管方面。
還有一個交通問題。我現在天天用導航系統上班。我用導航,不是因為我不認路,因為我想躲避擁堵。大家有沒有注意一個問題,每天早晨8點從家里制定導航,我去西單,半小時以后,后半段的車程和你實際制定的是不一樣的。北京擁堵,其實每一年都是非常相似的,靠近元旦的時候,靠近春節的時候,都是完全一樣的。有沒有一個模型,能讓你對出行的未來產生影響,我們在廣州做了這樣的項目。把過去一年所有的出行的公共交通的數據沉淀下來,大學生參賽者可以做出出行的建議,告訴你,你今天應該等哪個車,轉哪個車。
這個背后就是一種算法的能力,我們在浙江高速做了一個最大的算法級別的項目,這個項目非常簡單,就是把所有的在高速上手機的信令搜集回來,然后通過信令的切換,能夠預知到,未來兩三個小時,高速擁堵的情況,那么這個準確率達到了92%,這個是非常難的,此之前的世界紀錄是80%。數據能力靠模型和歷史數據預測能力達到92%,對于非常復雜的交通環境,這是一個世界級的算法專家才可以做到的。
最后我說一下阿里大數據是如何練成的?數據有后臺、中臺和前臺。阿里成立一個很大的數據組織叫CDO的部門。用了兩年時間,解決了存的問題,又花2年時間解決了通的問題,這是非常難的。因為超過一千個PB的數據,幾百家不同的數據怎么通,這個花了2年的時間。然后我們產生了各種類似于像芝麻信用,大家熟知的,包括淘寶推薦算法等等各種各樣的應用,包括智慧交通的應用。整個數據平臺,現在也用在更多的領域,就是社會治理的方方面面。
阿里大數據未來要做的事情,一個是在大學和公共的領域,非商業的領域開放我們的數據,讓他們做學術性的研究。包括社會洞察,包括對于公共安全人的識別,包括對嫌犯的識別,藥品的追蹤,包括智能交通的動了,包括做了開放大數據大賽,讓阿里脫敏開放數據,讓我們的大學生,最小的15歲都可以運用這些數據,給城市生活帶來一個未來。
我看星球大戰看了好多年,一直不理解,“原力”是什么意思?據說可以平衡光明面和陰暗面,這個也很難理解。為不能你只幫光明面,不幫陰暗面。從根本來講,我不用大數據這個詞,因為數據本身我們用的很少,所以數據是過去這么多年,人類生活,經濟生活沉淀的非常重要的資產。而數據是一種精神化的產品,會描述我們的精神畫像和行為。所以在今天這個時間里,我們看到更多的數據,千分之九百九十九的數據在沉睡,我們利用場景鑰匙讓沉睡的數據喚醒,給整個生活方式和社會治理更大的價值。