12月21日,在企業網D1Net和信眾智CIO智力共享平臺共同主辦的2019上海CIO沙龍上,東方航空數據治理部總經理劉靜莉分享了東航數據治理實踐。
以下是現場速記。
劉靜莉:非常榮幸能有這個機會,其實我們做數據治理也還是屬于剛剛起步的階段。所以,也是東航數據的工作專題的第一次向大家介紹、分享的一個機會。所以留下來聽的,應該是有彩蛋。
我們做數據治理才2年,雖然我們整個公司的數據分析有十來年,包括數倉這些工作。但是在近2年的時候才開始做。
我自我介紹一下,在近幾年之前是做企業架構相關的工作,之前也是開發、項目經理、產品經理。也喜歡搗騰一些小的東西,像東航的東東機器人也是我發起在做的。最近在做數據的時候,也順便做了區塊鏈方面的探索。大體這2年的專業就是做數據治理。
講數據治理的話,在一開始我們先看一下東航大體這2年信息化的情況。因為,我認為開始做數據治理和這10年的IT建設是離不開的。大家知道,阿里是有18羅漢的。東航在2009年也有18羅漢,那時東航IT只有18個人。在2010年東上整合之后,陸陸續續的把IT做了歸并,把東航原來通訊口做了歸并。過了2年,把華東臺這些IT人員做了整合,包括年薪制的對外招聘。慢慢到目前來講,東航已經有1000人的IT規模。
這10年當中,有幾個比較大的戰略里程碑,像我們做自動化。我們這幾年在做信息化建設的過程中,其實我們也是比較注重頂層設計的EA的過程。在做這個過程當中,一直在梳理公司的業務流程。告訴公司,我們公司有1000多個業務流程,有多少個業務流程在IT系統里面承載了?沒有承載的IT業務流程,我們是不是需要去通過IT來獲得一個支撐?已經有了業務流程,是不是需要增強流程的一個銜接?提高流程的運轉的效率?所以我們一直很注重業務自動化的覆蓋率。
還有一個是比較有里程碑式的移動化的戰略。我們當時在2010年的時候,其實已經在東航做了我們最早的移動辦公。后來在2012、2013年的時候,我們提出了指尖上的東航。如果大家熟悉東航的,知道東航有一款掌上東航,幾乎囊括了我們公司內部運營PC端所有的業務。只要你有移動的需求,都往里裝了。而且,因為移動端的一個改變,把我們的內部運營管理的流程其實是在再造,而且做了新的業務變革。比方說像大家比較知道的,我們航班的保障節點。現在不光是航司,包括機場、總局都在講我們航班的運營品質。也是從那個時候,我們講因為有了當時叫神經末梢,有了這個手機,可以把每個航班,每個機組人員到崗了。以前他到不到崗,作為一個管理人員是不知道。我們現在就要求,他到崗了,要求指紋簽到,我們就知道了。他要準備完畢,會有乘務班組長去做確認。所有的環節,我們都會通過移動端去做一個采集。通過有這么一個移動化,也把我們整個航班的管理,變成了這樣一個生產線的管理。
還有一個比較重要的節點,在2017年的時候,東航提出了一個互聯網化的戰略。其實,也就是一個數字化轉型當初的一個戰略。這個時候,就把我們的數據提高到一個非常高的層面。我們講要做一個算法領先的航空公司,所有數據要驅動運營,算法要提升智慧。基于這樣的大的戰略之下,我們發現數據在支撐上有非常大的痛點。主要就是這幾個:
一個是數據質量。數據質量,其實是非常客觀的一個會存在的。因為我們10年的IT建設,包括我們信息系統就3、400套。那么,3、400套數據孤島,必然會導致我們數據的準確性、一致性、完整性、及時性等等這些數據質量的問題。
第二個,就是數據閉環。其實也是數據的聯動。我們在做企業級數據共享的時候,我們就發現不同的業務領域之間,要做數據共享是非常困難的。當然,最大一個困難就是我們Wap ID。打個比方講,可能對大家來講,大家買航班到坐航班,你們認為航班號就是一個,但是事實上,在東航拿航班號,是完全串不起來。這應該說,在國內航司都會發生這樣的問題。這也是我們有很多客觀的原因,比方說我們在做航班計劃、航班運行的時候,就是2個部門在做的。東航的航班計劃做完了以后是去了航信。航班運行的時候在我們自己家做的。這個中間的傳輸過程和匹配關系就發生了各種不同的變化。有的時候,你們會看到航班號后面會加了一些S、Z這些,就是發生了航班不正常的時候,會有這樣一些特殊處理。有了這些問題,就會導致我們數據在各個業務的流轉過程中發生很大的問題。
再比方說,講智能挖掘,其實,早2年我們應該算法做得還是比較早。但是,我們算法大體是基于運籌學的算法。這種機器學習、偏智能的挖掘的時候,我們當時認為還是弱。弱的基礎,就是我們的數據準備還不太夠。另外一個就是數據的交易。換個角度講,更多的是數據的生態,在那個時候,我們也梳理過,公司跟100多家單位是有數據共享的。但是這些數據共享都是屬于生產上好像從歷史以來就是這么干的,就是跟那么多公司去共享。但是,應該怎么樣去共享?怎么樣做一個好的數據共享?這是我們需要探討的一個問題。
基于這樣的一些痛點,當時也做了比較多的研討,最后是認為我們需要從機制層面、體系層面要去建設,因為整個數據的工作,不光只是IT部,以前叫數據產品部,能給大家做間隔數倉做幾張報表就可以了,需要全員動員的,要建立全公司數據文化。
另外一個,我們認為,數據的工作,主要分為兩個方面,一個是管,一個是用。在早十來年,我們的數據倉庫、數據分析主要在用的層面。用戶有報表的需求就會找我們。我們一直很忽略管數據這個層面。也導致剛才說的數據的質量、數據的閉環管理這一些都很欠缺。所以,就在那個時候,2017年底的時候,我們就成立了數據管理中心。這里就有2個部門,一個是數據治理部,一個是數據洞察部。數據洞察就是我們數據產品部改名字的部門。新成立數據治理部。這兩個部門在職責上的分工,治理部是管,洞察部是用。對于我來講,其實當時是屬于半路出家,從來也沒有做過數據治理的工作,當時領導說,你做吧。我自己面臨最大的問題,就是數據治理到底是什么?琢磨了半天,看到有這么一張圖,忽然之間恍然大悟了一下。數據治理是什么?就像你開一家水果超市,第一要滿足我們客戶對水果的需求,是要滿足用戶的需求。管理好的水果超市需要什么?第一、水果口感要好、品質要好,這是最關鍵的。第二,超市里的水果肯定不能說堆在那個地方,要分門別類的放好,大小水果,同樣是蘋果,大的、小的,是紅富士,還是什么要分門別類的標志清楚。要制訂相應的標準。第三,像在數據安全方面,我們的水果攤子上面養一只貓,有的水果還搞監控攝像頭等等,也是為了防止水果受到被做一些不必要的損害。作為一個超市肯定要進行一個水果的盤點。作為我們數據也是一樣的。數據需要我們盤點東航到底有多少數據?像我們東航的家產一樣,桌椅板凳有多少個?都布在哪些地方?這些都是需要我們去理解的。
像數據的權威。權威是什么?在我們做的過程當中,有非常重要的一個環節,就是數據的認責。我們要找到數據的管理單位。在水果超市里吸引好的用戶、客戶,我們一般都會看到這是智利的車厘子,是山東的紅富士,新疆的糖心蘋果等等。就是說,我們要建立品牌,要找到好的貨源。上次也看到盒馬鮮生,在一個大賣場搞了一個新聞發布會,跟澳洲的哪一個公司形成一個供貨關系。澳洲公司在澳大利亞有多么大的地,經營多少年,牛油果有多少好,這些都是在權威性上的一個保證。
另外,我們水果攤這樣一個擺放,有的水果攤豎好多面鏡子,這也是鏡像。有的水果攤,像高級的超市和路邊攤的架構都是不一樣的。我們應該怎樣形成一個好的擺放?
像水果我們是需要給它標記、產名、產地、價格,這也是我們在輔助數據自沉管理的必須要去把它管理清楚的。
還有生命周期的管理。像水果一樣,水果到了一定時間要清倉,要不然放在家里就要爛掉。數據到了一定的時間,也是需要把它歸檔、刪除。像現在GDP2的要求,到你2年之后,這個數據是必須要刪的,怎么刪?這是一個問題。
所以,通過這樣一個水果超市圖,大致我知道了,數據治理是干什么的?
后來,我們也是跟供應商一起去探討,就是說我們數據治理應該怎么去干?因為,東航的數據實在是太多了。就像東航的背后有太多的水果,知道東航有很多的水果,但是真的不知道東航的水果都在哪里?都在誰家里有著?都在哪個系統里放著?這個系統里放著,那里系統里看著差不多的那個水果,到底有什么差別?所以,我們也是一直在探討一個方法論。
從方法論上,我們建立了這樣一個體系框架,首先是一個戰略層面。我當時理解在我們剛剛成立的時候,認為我們的第一目標,就是提升我們的數據質量。因為,這個數據質量問題,我們所有業務單位用戶垢病最大,最大痛苦的一個痛點。我們要做什么事情?要建機制。后來也是跟大家一起探討,我們怎么樣去建立一個全公司能夠動員起來的一個組織?建立一個什么樣的流程一起去開展工作?
第三層是專題,專題就是剛剛講的水果超市里需要的那么多類工作,我們有8個專題,像質量、標準等等這些。我們必須要一個一個攻破,一個一個做起來。
最下面,是我們需要有一些平臺去承載數據這些工作,也需要有一些抓手呈現數據治理怎么樣往前去推進?
我給大家講一下怎么開展這個工作?從機制、體制方面,在全公司建了一個管理機構。我們在IT指導委員會下建了數據管理委員會。所有的參與人員是我們業務單位的一把手。在這個管理委員會下建設了數據管理工作小組。這些人員是通過我們對一線人員的培訓考核之后篩選出來的。發布了我們整個集團層面的《管理辦法》,這些《管理辦法》里面,也明確了數據管理的工作目標。除了剛剛我講的質量提升之外,這里還有安全保障。在安全的情況下,我們說,要提高我們的數據共享。因為,我認為,在東航也挺長時間了,在做EA的時候,一直有一個感覺,我們真的是部門之間的壁壘、系統之間的壁壘非常強。也正因為這么強的壁壘,導致我們系統之間的數據不通。即使通了以后,往往大家的對話,你有數據嗎?他說我有,你拿去,你自己存著,自己管起來,不要再來找我了。到處的拷貝,一道、兩道、三道、四道的拷貝,拷貝到最后,大家都不知道這個數據原來的面貌是什么了。而且,當時就提出數據一定要共享,而且是從源頭開始共享。通過數據的應用,讓數據資產的價值最大化。
我們數據管理的范圍是包括東航自己內部產生的數據,也包括我們合法合規從外部介入的數據。剛才也講到和外部單位有100多家單位有數據共享,最近我也梳理出來了。把它的所有的數據的目錄梳理出來。又干了一件事情,花了多少錢也梳理出來了,結果我嚇了一跳,我領導也嚇了一條,我梳理出來這些數據,一年要花1.8億,這些還靠我問回來的,肯定還有很多的遺漏。就是這些數據,我們每年要花1.8個億。我就跟我們領導說,就用買來的這些數據,一年要花1.8億,東航自有的數據,加個0一點都不過分。我認為,東航的數據資產就值20多個億。從簡單的理論上評估,東航的數據資產值多少錢?
像我們的數據的職責的分工方面,這里就強調,數據工作不光是IT的工作,也是業務必須要參與進來的一些工作。
還有安全保護方面。這里就非常強調業務跟IT之間的共同協作。其實我們把很多的工作賦予了業務。包括數據的標準、數據的質量、數據價值的挖掘、數據的安全。都是在業務在用數據采集過程數據,包括管理數據方面,必須要去做的一些工作。
今年,我很冤的一件事情,我陪數據洞察部寫檢討。為什么寫檢討?就是說,最近各種的形式,各種紀委檢查、審計,老要問我們來查數據。洞察部的同志就非常苦。一會一個電話,說,你給我查一下,×××哪一天做了航班沒有?一會打個電話說,你查他出境記錄怎么樣?一會打電話說查公司總額什么的?不容許問,你問他,公司總額的口徑是什么?他說,我也講不清楚。你先拿個數據出來。等我們報了一個數據出來,他就說,顯然不對,這跟我上次拿的數據不一樣。然后,好幾次這個事情出了以后,紀委給我們發了一個函,說你們信息部為什么老是給我們錯誤的數據?然后,我們開始寫檢討,想了半天,到底是我們錯了呢?起來我們有錯?后來,我們就想,堅持了一點,認為數據出錯,當然我們可能有的同事是對系統里裝了什么數據,哪些數據去哪查,確實存在著不是了解得很全面。因為,現在數據分散在很多地方,往往你在查數據的時候,要去好幾個關聯的地方去查詢的。確實,會有一些個人經驗、操作流程方面的問題。但是,很大的問題,也是需要業務去配合的。你需要給我們講清楚,你說的數據的口徑是什么?要把大家必須要有一個共同的語言,而且當數據質量出來問題的時候,我們去找源頭。源頭是不是存在這樣的問題?是我們當時處理過程的bug,還是一開始數據在進來的時候,就發生了質量問題?所以,我們在《管理辦法》里明確了,業務單位需要做什么。
我們再看專題這部分,這一部分,我們在做的過程中,討論了很多,一直在探討,比方說,數據標準該怎么做?盤了那么多的數據回來,為什么這一條做標準?那一條不做標準?等等。反正,討論了很多細節的東西。最后,呈現出來,其實基本上就是說,我們盤了多少個系統?盤了多少個源數據?數據多少個業務單位?建立了多少標準?然后,做了多少質量檢核?提供多少數據服務?等等。基本上就是這樣一個呈現。當時,我覺得存在一個問題,我老是解釋不清我在干嘛?因為,從我們部門成立之后,在信息部出現的時候,幾乎所有的領導都看著我,說,數據治理是干嘛的?你在干什么?我覺得,他們還差一句話沒說,你到底能干什么?你能給我們帶來什么?他就覺得,你成立了一個數據治理部,好像你在里面待著挺舒服的,你也不需要做什么事情。也沒人需要你做什么事情。所以,我覺得,這是一個狀態,好像沒人需要我們。所以我們當時就干了一件事情,現在叫通過數據專項去開展數據治理的工作。是什么?我這邊可以給大家舉個例子。這是我們通過一個數據表象,在盤前面數據標準質量做的過程中,其實發現很多數據質量的問題。基于這些數據質量,如果按照前面的專題科班的做法,我去做標準定義了。但是,有的時候,是能定義清楚的。有的時候,其實我們找用戶也是定義不清楚。到底是放棄?還是去做?像我們下面的案例,也有用戶跟我們反饋說,我們的飛行時間在東航各個業務口子上,其實業務的差異性很大。后面,我們就花了一些功夫,梳理下來,確實有7個業務單位,在7個系統里做了7種計算方式,而且,美中計算的數據源都是不一樣的。他們能夠來自于好多系統。估計也有7個以上的系統,有我們的線保、有我們的阿卡斯報文的數據,發現這些都不一樣,那怎么辦?然后我們就拉著各種人去討論這些問題,最后我們也去做了文件的一個查找。找到了這個依據,其實我們民航總局是對飛行時間發過文件,而且要求各個單位去對飛行時間這些時間數據時刻的采集、管理、規范化、統一化,依據民航總局的文件,東航也發過發行時間該怎么管。依據這些文件,我們最后從那么多的數據定義上面,提煉了4個,像標準的飛行時間是什么?就是平均的飛行時間,計劃的、實際的、累加的這些時間是什么?也通過這些文化定義里面,跟大家一起約定了怎么樣去采集這個數據?從分析的本身的性能來講,飛機在一離地,或者一下地,踩個剎車,其實飛機上任何一個對于,都會通過各種的報文傳回給公司。當時,我們就測算了各種報文回來之后的數據的完整性、及時性。通過大量的分析以后,跟大家約定了一些算法。以誰為優先級?第二怎么樣?第三怎么樣?機器的報文數據和人工數據之間的配合怎么做?因為我們是在有一些數據缺失的時候,會讓飛行員去填。之前是不管什么樣,都要飛行員去填,飛行員下了飛機,你得告訴我說,你什么時候啟動了?什么時候落地了?都是讓飛行員去填。再有沒有拿到的數據,是我們后面的牽絆運行的同事會去補充數據。我們當時就約定了,第一、因為我們測算結果98%的數據都可以靠報文數據回來。所以我們當時大家就達成一個共識,全都取報文數據,這是第一的。自動數據第一。然后,再靠飛行人員的補充。最后,才是人工的做一個修補。我們做完這個專項之后,就實現了4個統一。實現了2個自動,就是自動采集、自動回收。我們的自動回收率現在確實達到了98%。我們的回收人員不是每個數據都去看,每個數據都去交驗。他只看小部分的數據,飛行員有歧義的那些數據。這樣的話,工作效率就大大的提升了。大家計算結果也就一致了。所以,這就是我們做的專項是通過前期的盤,業務的梳理,業務流程的分析,去發現業務的一個斷點在哪里?
然后,規,就是制訂數據的一個標準。當然這個標準,不光是指一個數據層面的定義,還暗含了很多業務操作上的一些規范。另外還有,這里邊的質,就是評估數據的質量。包括完整性、及時性等等去評估。最后,我們是會有一個解決方案,是由哪個系統提供我們的公共的數據服務?這就是用的層面了。所以,我們就是通過這種盤、規、適用的方式,梳理了很多專項,也有旅客服務層面的。比方說像我們的航班狀態,大家也有所垢病的,好像航次的航班狀態,還不如特別非常準。確實是這樣的問題。所以,當時我們也是拿了數據來說事,從系統里一扒拉出來看,各種的起飛、已起飛、預計起飛、到達、各種取消,你說不明白,為什么這個系統里是這幾個狀態?那個系統里是那幾個準備?當時我們就把這個捏成一個專項,討論了很久,后來說,對標我們的航旅政務行業,對標南航這一些比較好的企業,從旅客的角度定義一套航班的狀態。通過旅客的角度航班狀態,來去推導從我們的生產角度采集這些數據。第一時間是希望能夠給我們旅客提供相應的服務。通過這個過程當中,還去跟APP電商同事一起設計,我們航班狀態是設計清楚了,怎么去用?甚至跟他一起定義那幾套界面,因為我們定義還是比較清晰,很多的聯程的航班,還有你們可能會碰到的航班的飛躍或者經行地取消一些很特殊的航班狀態,怎么樣去展示?我們希望旅客這個航班在發生變動的時候,大家能夠非常清晰的知道它的變化。我們做數據的時候,也做到很多業務、UI這個層面。我們的出發點就是為了用戶能夠用好我們的數據。
如圖:這一層就是我們的抓手或者承載的一個方面。這里面主要就是我們有重點在弄的就是數據終臺和數據資產。像數據模型這塊我們還沒怎么做。企業級的數據平臺其實我們也是數據洞察部早幾年就已經在陸陸續續在建的。我主要講終臺和資產這一塊。
終臺,我覺得剛剛王歆總剛剛也都講到了,其實現在大家也都一直在講數據追太。從我們東航來講,數據終臺說實話是個概念層面的。今年研討了很多包括跟阿里、騰訊、一些其他公司研討什么是終臺?還有像華為這個公司,我們發現有一些共性的,終臺,第一是全數據域的。終臺是承載著公司全部的數據。終臺不是說,為了某一個業務去做的。數據終臺是全數據域的。第二個數據終臺,要做的就是分析、挖掘。因為,畢竟是有算法那一塊。更多的還是偏向于分析的。但是,現在的數據終臺分析能力,是越來越快。實施性是越來越強。然后,數據終臺能夠承載很多是共享層面。像阿里的數據終臺,是對業務終臺能夠有一個實時的響應,實時的支撐。這是數據終臺非常重要的一些方面。我們的數據終臺剛開始的時候,我們這邊提出來的,當時我們是想做主數據。起來從主數據啟動的,啟動以后,我們就承擔東航的跨領域之間的數據共享。給大家提供wap ID的服務。然后像數據資產,其實很多企業也都在有,現在有國外和國內的很多的解決方案,其實都挺多的。但是,整體來講,數據資產主要是承載我們數據之旅的一些線下轉線上的服務,其實我們也有盤規之用,也有那么多的數據標準、數據質量這些需要我們的數據自沉系統去承載。數據資產還有一個非常重要的作用,未來數據資產會越來越多的讓用戶去使用。就像一個企業的數據黃頁一樣,你要用數據,需要通過數據資產系統去用。
這也是我現在的一些理解,在企業的數據的管理工作當中,發現企業的數據孤島是客觀存在的。要怎么解決這些數據孤島?因為,有了這些孤島以后,這幾年在沒有特別的數據層面管控的情況下,大家斯拉斯(263:01音譯)這件事特別多。所以我就提出一個觀念說,我們需要通路架橋,是什么來承擔?我就覺得就靠數據終臺來承擔通路架橋。大家覺得,有了高速公路,你一定不會去跑羊腸小道,你去找越來越便利的方式去做。我們的數據終臺就是要讓大家用的時候非常方便。比方說我們有自服務,通過數據資產、數據目錄的方式,給大家知道,我們有哪些服務?可以一目了然查找這些。
還有一個就是供需平臺。就像一開始說的,我們有很多的數據,隱藏在各個角落里面,我們應該怎么辦?就需要一個像淘寶這樣的東西,把我們的數據呈現出來,讓我們的用戶從這個地方找到他所需要的數據。當然,我們這個不完全是一個平臺化的運營。必須要發揮我們作為管理方,要把好的數據呈現出來。就相當于我們對這些好的數據定標準的時候,會有權威數據源,會給打官方的數據的標志。讓大家放心的去使用這些數據。慢慢的大家都知道,哪些數據都可以通過這個平臺上去拿。也有我們數據終臺給大家提供非常方便的一個用輸服務之后。我們這種數據應用的文化,就會很快的建立起來。
在通路架橋方面,這是我們對數據終臺的整體的設計。這個終臺,不是一個從無到有的東西,是整合我們當前東航的幾套數據平臺,最底下就是我們大數據平臺,作為我們數據的底座,把東航各個業務系統里的數據源都進入到大數據平臺。然后在這個過程當中,我們要做的事情就是對數據的標準化,對數據的認責,對數據質量的探查。這些數據準備好了之后,就會在我們的整合層下面,比如說像我們的數倉,一些數據平臺里做整合、建模。通過我們的數據wap ID去拉通各個領域的數據關聯。再往上,就是我們的分析應用,有包括我們的API層面的實時的應用,也有數據實驗室,像數據砂箱這些層面的。
如圖:左右兩邊是什么?一邊就是數據資產,我們要對整個大終臺的數據資產盤摸清楚,然后把數據的血緣管理清楚。這樣子的話,才能夠讓我們自己給用戶提供數據的過程中,能夠非常快速的提供這樣的服務。右邊是我們整個數據的研發過程。因為必須要有一套比較好的數據研發工具。讓我們的數據的工程師能夠為我們的用戶提供快速的服務響應。
所以,這些都是我們當前的系統的一個能力的整合。但是,我覺得,這里邊離我們最后要形成的大數據終臺還是有比較大的差距的,需要我們這幾年通過對這些平臺的整合力度去進行相應的能力的整合。
我們東臺從2018年開始建設了7個域的數據的共享服務。在明年后會做一個新的7個域的工作。再后面,我們已經逐漸把終臺提升到集團的層面去實現集團和國資委之間上下數據的共享,和氣團輔業公司之間的數據共享的角色。
如圖:是我們對過去平臺的一個想法,剛剛也講了,需要把東航的數據放在這個平臺上,讓用戶能夠很快的去用好。我們就有這樣三個指標。第一個就是權。我們必須要讓用戶感受到我們的數據在這上面都能找得到。如果他總覺得說,找不到數據,就是我們一個問題。第二,就是快。他要能非常容易從這個資產平臺上取到數。這個是有很多使用方式的轉化。因為以前可能用戶就鎖定在某個報表系統或者某個分析平臺上。要慢慢讓他們通過這種數據平臺自服務,去探索。第三個就是質量好。我們送出去的數據一定要質量好。所以在我們建終臺的時候,要求還是比較嚴格的。但凡出數據服務的數據,都出數據質量報告。1、讓用數方明明白白的用數。2、讓我們了解上游給我們供的數到底是個什么情況?如果,某些地方數據質量不好,我們一定會去追溯,提升數據質量。所以,這是我們對整個公司平臺的一個定位。
這些就是我的一個分享。
謝謝大家!