2016 CCS企業云計算高峰論壇(ccs.d1net.com)于6月15日在北京國際會議中心盛大舉行,這是國內面向政企客戶的最重要的一個云計算會展。CCS企業云計算高峰論壇上,云與大型企業的兼容性將成為主要議題。
以下是現場速遞。(聲明:本稿件來源為現場速記,可能有筆誤和別字,僅供參考)
主持人:感謝陽總的分享,2020年全球將有超過250億臺設備聯網,在線用戶會達到44億,面對如此巨大的市場中國移動提出做大連接規模,做優連接服務,做強連接應用的大連接戰略,下面有請中國移動大數據總架構師段云峰給我們講講電信行業大數據規劃和建設。
中國移動大數據總架構師 段云峰
段云峰:很高興有這個機會跟大家做一個交流。今天講的內容主要跟大家做一下大數據方面的介紹。大家可能知道大數據的發展速度很快,大數據里面現在面臨的一個問題就是海量數據用什么樣的方式方法來去處理。那么,云計算提供了一個很好的底層的基礎架構。所以,也在這里面跟大家做一個分享。
本人在運營商里面,中國移動從2001年開始就做大數據規劃,當時叫數據倉庫。所以,可能今天用半個小時時間跟大家做一個初步的分享,中國移動在大數據領域上,在建設,包括運營上積累的一些經驗。
首先,看一個變化,這個最大的變化是非結構化數據處理,海量的非結構化數據引出的一個變化。2001年的時候中國移動去建數據倉庫系統,更多都是結構化數據。那么,現在可能面臨的一個問題,就是這些非結構化的數據涌現以后怎么樣去處理。從2001年開始,中國移動開始做這種Hadoop、云計算這方面的嘗試,已經在很多省取得很多的成績,從去年開始中國移動全網開始部署大數據的系統。中國移動知道的情況,手機的數據量很大,中國移動的數據應該說我總結下來四個特點:第一,全量。為什么說全量。中國移動大概8億的客戶,所以這個量應該說可以覆蓋中國大部分的用戶。第二,全維度。為什么全維度?像淘寶、京東可能只有自己的數據,但是像運營商,理論上可以擁有這些所有互聯網公司的相關的一些數據。第三,全時空的特點。全時空是像運營商的數據也有位置,也有時間等等這些方面的一些信息,最重要的一點是鮮活。大家在實時的使用手機過程中都留下實時的數據,這是運營商的第三個特點。第四,運營商的能力可以做到全服務。中國移動全網有60萬人,包括營業廳、渠道,運營商做一些服務很容易,這就是它的一個優勢。
那么,當年中國移動2001年為什么要建數據倉庫系統?一個主要的原因就是想去做一些精細化的管理,精細化的營銷,這個口號大概真正的提出是2005年,在中國移動內容就提出精細化營銷,精細化管理。所以,當時把手頭積累的這些計費類的數據做了一個整理,整理之后變成數據倉庫,然后支持營銷。
原來數據計費只有結構化的數據,現在看明顯不夠,現在需要一些信令類,包括上網的數據,大量的非結構化的數據,這個量是原來的數據倉庫技術里面沒法完全解決的。所以在中國移動現在面臨的一個辦法,我們一個解決辦法就叫做混搭。所以,運營商角度來說,大概主要用三個技術,實時流技術,Hadoop技術,還有MPP,MPP好像行業外用的不多,MPP好處就是X86的數據庫,所以主要的好處,原來的ROE主要可以建設成本。主要是這么一個關系。這是大概面臨的一個情況。
這是整個運營商的演進,應該說過去的15年整個大數據系統架構的一個變化。2001年的時候,當時我們做數據倉庫規劃的時候,全國大概加起來真正能干的,或者明白的超不過20個人,2001年當時面臨這樣的情況。所以,當時運營商畫出的架構基本是基于Inmon(蔭蒙),一個教授。上面的應用情況,當時的形勢最早想提供的主要是包括報表、KPI、OLAP,OLAP 2001年開始就想做一個主要的技術特征,數據倉庫和數據庫相比有什么技術特征?那么,我們經驗的感覺來說,一個是OLAP,這是它主要的分析點,還有一個是元數據,這兩個是數據倉庫區別于數據庫的主要的差別。運營商做的過程中,OLAP方面積累了大量的工作,從2010年開始做Hadoop相關的嘗試,應該說現在市面上見到的這些在中國移動大概在2010年前都開始做了相關的嘗試。那么,從去年開始,整個中國移動把大數據系統的架構做了一個混搭的部署,這個混搭的部署實際上就是形象的說法上,專業的技術做專業的事。這邊也想跟大家談一下感受,數據倉庫,或者大數據到底和數據倉庫是什么?可能后面會有一些思考,我們干了十幾年,可能一直在思考這個問題。
我們總結下來,數據倉庫第一成本確實貴,壟斷在這些ROE,這些廠商,價格是一方面。但是,最重要的一點,實際是它的技術特征,他希望通吃,但是通用平臺處理費結構化的海量數據上有點力不從心。數據倉庫像全地形車,現在數據量太大了,非結構化用Hadoop處理,結構化數據有很多選擇,可以放在MPP上,可以放在倉庫上,所以,現在的玩法把它打散了,再次分散化,這是我們對這個的一個理解。
那么,在現在混搭的大數據中心里面,傳統的數據倉庫還依然存在,傳統的數據倉庫還是有它的優勢,優勢在它的組織、整理,目前Hadoop還沒有進入到這個階段。做數據倉庫第一要建模,數據倉庫的數據要做建模,基于第三范式做建模,但是Hadoop還沒有到這個階段。MPP定義成數據集市,能做數據挖掘,Hadoop做一些非結構化數據的處理,比如像日志等等這些方面的處理,同時又引入實時的計算,實時計算里面,主要解決實時的應用場景,這是主要的原因。上面通過數據封裝來去做一些對外服務,剛才我們說的現在的主題,云計算,我們內部叫4S,除了IaaS以外,有DaaS、PaaS、SaaS,這個數據對外可以給各種各樣的應用提供展現,這些應用包括公司內部,也包括公司外部。最左邊是數據的運維,這些我們是有很慘痛教訓的。過去的15年,我們確實花百分之六七十的經歷在折騰數據治理,目前我看到很多互聯網公司還沒有到這個階段。
中國移動過去十年累計投資120多億,光在數據倉庫大數據投了120多億,服務用戶數10萬多人,在國企里整個過程是數一數二的。中國移動對外提供的SaaS、PaaS、DaaS服務,DaaS就是把數據作為一種服務對外提供接口,這個效果還是很明顯,能夠把海量數據給國家的一些機關,國家的政府做服務,這是我們現在體現這種社會價值,體現對社會服務的一個主要的點。
第二個層面就是PaaS,中國移動的PaaS在做的過程中可能會服務幾方面。首先就是內部客戶,因為像中國移動這樣的公司全國60多萬人,它的部門大約幾十個部門,內部的這些部門有一些IT需求必須滿足,這是必須要做的。第二,對外部的服務需求,像運營商,這些節點數都是幾千上萬,也是有能力科技對外提供服務的,這些對外服務,將來的模式也是在探索。
SaaS層實際在探索,以前在數據倉庫領域,在SaaS層做了很多工作,做了很多嘗試,這塊的工作也希望在未來做更多的展開和深入。上面就是對內對外的一些應用。
實際上中國移動目前做的對外服務里面,包括政府部門,包括交通部門,包括旅游部門,包括醫療部門,包括金融部門,都有這樣的一些案例,包括互聯網公司,廣告公司都做了很多的案例,都做了很多的嘗試。但是,可能之前對外宣傳的不是特別多,所以可能大家不太了解。
下面跟大家分享一下大數據的主要的技術,我們在云上需要做的一些相關的和大數據相關的主流技術,包括Hadoop、Spark、MPP、流處理、內存數據庫、NoSQL。這些案例是我們的真實情況,是在一個省做的Hadoop,大概2010年前后。做了Hadoop以后,它的特征就是適合于解決海量的,處理不需要很復雜的。確實現在Hadoop上的生態圈的一些技術都有自己的特點,但是也有自己的瓶頸點。那么,這個能看到,整個拿Hadoop做一些查詢,基于Hbase的查詢,現在這個話單的查詢,每打一個電話形成一個話單,這個話單的查詢,原來的查詢方法放到Oracle數據庫,但是數據很慢,現在放到Hbase,現在基本從秒級到毫秒級,可以把結果展現出來。這是我們看到的效率。清單處理的效率能提高21%,這種處理主要體現在ETL,我們在并行性的ETL操作里面做了很多Hadoop的嘗試。在存儲方面的壓縮,可以壓縮比達到6倍,實際也能達到10倍,我們自己測算的時候也能達到10倍。這是Hadoop的優勢。
Spark的應用,用Spark來部分替代原有的技術前采用DB2的倉庫?,F有數據量增長120%,入庫的時間較原來的時間提升45分鐘,現在入庫時間一分鐘就能入庫,原來得四五十分鐘。這是它的顯著特征,從數據倉庫要進行不同的匯總,處理過程要做不同的分級,這個匯總時間也縮小3.5小時,這個速度還是很明顯的,Spark的速度能感受到,還是很明顯的。
MPP的過程,把原來的數據從Oracle遷到Vertica,轉換過來數據性能提升8倍,壓縮率也是6倍左右,這個效果也是比較明心?,F在本科畢業的計算機系的能寫Hadoop程序嗎?這是我們遇到的問題,Hadoop人力成本太高,院校都沒有這樣的人才積累。特意問了很多剛畢業的學生,基本上學校沒有人學過Hadoop,所以Hadoop的成本太高,這個圈子里面年薪百萬都不算高,但是也是有問題,以后怎么進行維護等等這樣的一些問題。
流處理的場景,用了一些Storm,指標能做到秒級的實時展現,最要命它的計算很復雜,經常涉及大多個表的關聯,大表關聯,這是Hadoop最大的弱項,根本做不到。所以,現在做這些操作的過程中,我們只能選擇一些指標來去做一些快速的處理,做一些秒級的顯示,這樣處理的效果更好,讓管理者及時的了解實際情況。
還有NoSQL,主要用Hbase,導入速度更快,然后這是存儲的情況。Hbase主要的還是查詳單,如果稍微復雜一點,可能就做不到了。
實時操作的時候,還有Flume+Kafka+Storm,從節點里實時獲取數據,16進程一秒鐘處理9萬條話單的數據,這是原來處理不了的。運營商基本架構就是Flume+Kafka+Storm這個架構。
談幾個感受,關鍵點。首先,現有階段我們只能選擇混搭的架構。但是,問題也很麻煩,之所以選擇混搭的原因是因為數據量大,而且數據結構復雜,最重要數據的計算特征多樣化,這是原來數據倉庫不碰到的,在現有的環境如果把所有數據都進行處理和計算,只能是拼接模式,用什么技術處理什么樣的業務特征,這是現在能感受到的。但是,這個問題就是什么?你的維護成本提高了?,F在先說一個Hadoop的維護,大概我們自己內部做的測算,我們起碼3、4倍以上維護人員的成本。因為這是開源的,開源社區的毛病是,你做一個大公司的用戶,出了問題找誰都找不到?,F在開源的問題是什么,花錢都找不到誰來幫你解決問題。所以,我們這個可能是很頭疼的。而且最重要的是維護的工具齊全,像Hadoop這種開源式的,沒有一些設備管理的工具,在Hadoop上這些工具都是很欠缺的。所以我們的兄弟開玩笑說,現在很懷念傳統的DBMS,因為那些東西都是很成熟了,玩了幾十年,管理等等方面都是很成熟?,F在Hadoop的案發都是發燒友的玩法,都是開源的,沒有得自己開發,這個東西很耗精力,這個真的是我們的感受。所以,我個人覺得,將來應該有一種,這種多重結構并存的應該是暫時的,進來我們在等待這一天,再次出現一個新的全地形車,能夠把所有的計算特征聚集在一起,降低用戶的使用難度,這是第一個問題。
第二個問題大數據安全。一提到大數據,大家肯定面臨國企做大數據第一反映就是安全,怎么樣保證客戶的隱私,不能把敏感數據外泄,這是我們很重要的關鍵的問題點。中國移動從2007年就開始探索大數據安全,不算網絡側,網絡側和系統側都不算,只是數據層、應用層怎么考慮安全,包括我們做一些脫敏,就是即使闖到我的數據庫,你拿到的這個庫表也看不懂,關鍵數據都是做的條碼,都是加密,你也看不懂。我們也做了一些水銀,如果這張表被透露到外界,我們大概能查出誰干的,事前可控,事中可管理,事后可追查。安全叫七分管理、三分技術。所以,在中國移動嘗試過程中做了大量的管理方面的嘗試,從各個維度,包括組織和人的管理過程,包括系統的管理過程,還包括數據的安全管理過程等等,方方面面都做了大量的一些嘗試。那么,這個工作包括現在正在做的一些研究,包括Hadoop。大家覺得Hadoop安全嗎?Hadoop就是站在專業人的角度那是漏洞很多的。
舉個例子,一個開源的系統怎么做安全?所有的Hadoop都是公開的,怎么做安全?這是很大的問題,一般來說做安全是私有的系統,私有的協議,但是如果整個機制你都完全知道,而且現在Hadoop,包括元數據,包括它的Datanote上的數據節點都是零碼存的。所以,怎么做Hadoop的安全加固,我問了業界,基本上都沒有做這方面的研究。所以,現在Hadoop的安全急需突破,急需做這方面的工作,這是我們感受到的安全。
安全里面再多說一句,所謂的客戶隱私,包括互聯網,包括運營商,包括大數據擺在面前的最重要的就是客戶隱私。我有時候開玩笑,互聯網時代客戶的隱私怎么去保護?所以,在應用的情況下,我們像運營商,現在采取的辦法一般都是不涉及個人客戶,只是出群體客戶的報告,就是我不說張三李四,只說比如我們這個屋會場的聽眾都有什么特征,可以這樣做,這樣就不涉及個人的李四。所以,現在只能采取一些措施去規避客戶隱私的問題,而且客戶隱私在中國移動內部也是上綱上線,也是很嚴格的,要敢碰這個紅線,真是要有牢獄之災的。這也是一些問題。
對外服務,現在運營商剛剛起步,還沒有太大量的做,但是一做就有很多收益。舉個例子,我們在一個省半個人做了一些數據對外服務的工作,一年就能掙1500萬,當然這1500萬他自己拿不到。但是,能證明什么?就是業界很需要這種數據的運營和數據分析。那么,中國移動現在在大數據的應用里面做了很多對外服務,也做了統一的API接口,通過API接口對外提供相關的服務。
第四個分享就是數據質量,數據質量這塊的內容壓力很大,過去15年我們真的是有60%左右的精力在數據質量?,F在業界我看到的很多的企業還沒有進入到這個階段。像中國移動這種大的企業首要的服務目標是內部,互聯網不一樣,像阿里可能首要的服務目標是對外,內部客戶對數據質量感知很高,外部客戶對數據質量感知不高,你數據差一分錢他都不干,所以這涉及到人的獎金,所以這些工作你要長時間的PK,包括制度,包括技術的手段怎么去做。元數據,我們實際上最早借鑒CWM2.0技術,都是元數據模型的一些標準,我們就是做相關的這些內容。
我們前后十幾年的時間都在做數據質量系統的完善建設,也在做一些元數據的工作,包括血緣圖等方面,都做了大量的積累。這些現在積累的成效也還是比較明顯。所以,我們在跟別的行業,包括銀行各方面做交流的時候,他們也很感慨,我們在數據質量方面做的積累應該說是在業界,應該算是領先的。
這個給大家分享的可能就是我們過去15年干的這些事。這些事加起來,我們現在寫各種文檔加起來,基本等于我身高了。不能說著作等式,也差不多。為什么說這個?因為過去做大數據過程中所有數據都要標準化,包括建模,現在Hadoop很多都不涉及建模,但是實際上做數據管理建模是基礎,我說的模型是物理模型和邏輯模型,這個概念是數據庫里面的模型?,F在很多大數據企業還沒有進到這個階段,并不是你可以繞過去,這是我們的感受。我們干了15年,數據的整理,這些模型接口都需要量化,都需要標準化,前面不做工作,后面只能花10倍的精力再去補這個工作,這是我們的慘痛教訓,希望引起大家的注意。
這些工作就是每一個,這才只寫到2009年的文檔,如果寫到現在的文檔就更多了。所以,大家知道這個大數據現在風光之下,是大量血汗的工作的積累,是大量我們團隊員工血汗的積累。所以,這個能感受到。所以,進來做這些工作的時候,怎么把這些數據做一個標準化的工作。
這是本人寫的四本書,前面兩本書《數據倉庫基礎》、《數據倉庫》是2004年、2005年。跟大家提的是去年寫的,《大數據和大分析》,這本書也算在業界第一次提出大分析的概念,因為大數據更多涉及到靜態,涉及到數據整理,但是它的價值靠應用來體現,如果沒有分析,沒有應用,這些數據就是死的數據,它是沒有價值的。所以,現在我們看到的業界可能大家都在提大數據,都在做一些簡單的應用,但是如何讓這些數據系統化的構建應用框架和應用體系,這是從業者一定要考慮的問題。像運營商做這些應用架構的時候花了十幾年,包括客戶的分析,產品的分析、管理的分析、財務的分析、網絡的分析等等。所以怎么通過大分析讓大數據真正的見到效益,這是所有業界必須要考慮的問題。第四本書《大數據的互聯網思維》。大家有沒有發現大數據的問題是什么?大數據現在最大的問題我覺得就是缺少理論,數據倉庫最起碼有一個Inmon(蔭蒙),大數據有這樣的人嗎?沒有,什么是大數據?完全是從企業界突然冒持續的東西,學術界還沒有跟上,學術界可能有他單獨的想法,可能不認為是一個單獨的學科。但是,大數據到底怎么去做,怎么去建設,現在業界可能更多關心怎么把數據湊到一塊,還沒有開始考慮怎么建設,更沒有更多的精力考慮應用怎么建設。這本書里面實際上把互聯網思維和大數據應用進行了首次結合,應該在業界,包括國外是第一次。我做IT做了30年,從中二年級開始做IT,IT的諸多問題我太清楚了,我們不缺新概念,但是我們面臨的問題是你要解決核心問題和用戶的應用價值問題。這些問題怎么解決,你的用戶體驗怎么樣,產品應該怎么設計,等等一系列的問題,業界我看還沒有人考慮這個問題。所以,把個人的分享跟大家分享。
這四本書是中國移動過去15年大量實用的真實的案例,讓大家感受一下一個大型的國企真正做大數據系統,做應用系統怎么做,它的數據管理怎么做。
通過這樣的機會很高興跟大家做一個交流,所以后面有問題也可以跟我聯系,謝謝大家!
主持人:感謝段總的精彩分享!