以下為現場速記。
梁有為:謝謝。今天我講的片子不多,大概半個小時,因為剛剛跟你們聊天發現,有人走過來跟我們打招呼,Informatica,你是干什么?Informatica,不是ETL的嗎?我想,今天的分享比較活潑一點,Informatica現在是做什么事情的?當然在片子里,我本來準備了一些案例,但有可能這些案例我會口頭講出來,因為我是負責華南區,比如說廣州、深圳,香港、臺灣的一些案子,因為我是售前,所以我比較多的經驗是這三個地區不同客戶的需求,我也跟這三個地區的CIO、CDO也會聊起來,現在你們的需求是什么呢,看看大家有沒有分享的地方。
大家都知道,從幾年前開始,大家都說數據很重要,不管是CIO還是其他人,我最近發現在香港有越來越多的新職位公司CDO,有的是CEO委派的,他想現在創建的一個新職位是CDO。大家都說數據很重要,但我要干什么,他不知道。我發現如果你是領先的行業,比如說做電商的,或者是汽車行業的,其實你已經轉型的很好,因為你就是轉型的火車頭,我發現現在很多企業覺得自己是落后的,或者是認為自己是傳統的行業,需要有一些新的想法幫助自己創新,但又在想我究竟要不要做數字化轉型,這是每一個企業里想到的問題。
我和碧桂園的講解有點結合的地方。大家都知道,比如說碧桂園做地產的,現在很多數據從不同的裝備里、機器里產生出來,比如說你看的燈柱機器人,他除了幫助你做一些服務之外,背后產生很多數據,從不同的來源產生很多數據,然后就想需要數據。現在還有很火的機器學習、人工智能,Informatica要解決的東西,在這些概念里面,你說這些數據很重要、很大、很復雜,你現在的公司需不需要做這個事情呢?這是每一個企業要去想的,我們現在做一個國企,在湖南,他也很有趣的。他問我們,你們做那么多的案子,我們只是一個傳統的行業,究竟我需不需要做這個事情呢?我就問,其實你們現在碰到的問題是不是其中的一個點里面,或者是一個開發點里面。什么意思呢?有時候我發現客戶說想做數字化轉型,不是為做而做,第一個,我把東西變得比較靈活,節省成本,倒不如我把我的應用或者是很多設備放到不同的云上,有時候他會參考,我們在香港也做很多銀行和保險公司,他們有多達5個云的考慮。比如說我放在谷歌、放在亞馬遜,他們有這樣的考慮。因為這些考慮,如果我要做數字化轉型,跟我的業務有什么關系?很多時候是因為現在手機APP那么流行,希望給自己的客戶有更好的體驗,才想做數字化轉型。另外,我去湖南的一個國企,他為什么要做數字化轉型?我想你們也有做數倉,會出報表,以前的報表是很普通的,我從SAP過來的,我現在可以自己做報表了,做的很漂亮,可以給老板交功課,領導看到很開心。可是,他看到這個報表很漂亮之外,還會產生一些需求,這個數據從哪里來的?這個數據準確不準確?這個數據可不可以信任?我們現在有一些體驗,可能還沒有想到要怎樣在收入方面轉型增加收入。比如說我希望現在內部的用戶可以做自助服務,可是剛剛這些問題就跑出來了,不光是給他一個視覺化的報表工具就能解決問題。我們說湖南的國企,他想把這些東西再放大一點。每一個人都可以很容易地消費數據,而且他要知道數據從哪里來,比如說質量好不好,他是怎么去管理的等等。
我剛才也提到,現在有很多公司有一個創新的職位是CDO,你要幫我找出數據在企業里的價值在哪里,怎樣幫助我創新。但是他們都不清楚公司里的客戶數據、產品數據究竟放在哪里,這通常是每一個CDO考慮的,比如說我上任了,我第一個問的問題,問IT,我的客戶數據在哪里?IT會告訴說,可能在這個應用里邊、在那個應用里邊。他都沒有明確的答案。
我今天的分享是講數據治理,數據治理是很廣泛的名詞,以前我們說做數倉項目也是做數據治理,你做報表也是數據治理,你做數據整合也是數據治理,你做脫敏也是數據治理。但現在返過來了,我們看到的趨勢是如果你從項目去做數據治理,有什么問題呢?可能每一個部門他們自己做這個事情,最后沒有把整個東西拉通。現在我們返過來發現,現在做數據治理的,以前是從下到上,現在是從上到下做這個事情。首先你做數據治理,你的目標是什么?最終你希望這個數據,不管是內部的業務也好,還是外部的客戶也好,去消費你的數據。否則你做那么多的處理,最后沒有人去消費你的數據,那你花大的工作量干什么呢。但是如果要做這些處理的時候,現在你會發現,當然要消費這個數據,不管是業務部門還是IT,中間做很多處理和數據治理的中間過程,我們希望有平臺落地。我看到很多在數據治理的項目狀況,可能有一個企業說要做數據治理,但我不知道要做什么事情。然后找咨詢公司過來,做一堆的梳理,然后給你一堆文檔。然后說這就是我們梳理完的結果,然后你們應該怎樣,放上去做吧,但是你會發現,如果這樣的話,我就開始做某些項目,項目運作的時候,整個方向會有改變、會有改動的。在整個企業里,沒有一個人或者是沒有一個團隊很明確地看到,我現在應該朝哪個方向走。所以,數據治理從理論上來講,不管是業務部門還是IT部門,都一起參與整個數據治理的過程,而且必須要有明確的方法,讓我知道方向在哪里、指標好不好。
因為現在IT的環境太復雜了,舉個例子,五年前還沒有大數據項目,都是數倉、數據庫還處理得了。幾年前開始,大家都去做大數據項目了。我在香港感覺比較深的是現在都不做數據庫了,都跑到云上了。因為我們發現,建一個數據庫成本太大了,他說沒有關系,都跑到云上。這幾年復雜的環境變化太快了,如果我們還是用傳統的方法做數據治理是很累的。我們現在做數據治理,必須要有一些AI的東西去輔助你做這個事情,要不然的話,我告訴你數據治理的應用,最近有很多法規,可能要經過GDPR,GDPR是什么意思?如果你有一些客戶是歐洲的客戶,歐洲客戶的信息泄露出去,歐盟可以罰你很嚴重。
現在第一個問題,首先我的客戶數據在哪里?我的哪些數據是歐盟客戶的數據。IT就很頭疼,我幾百個系統、那么多數據庫,我怎么去看?我去銀行,銀行用的方法是很搞笑的,他給幾張紙,我去問應用部門的頭兒,在你的應用里面,你的data base里面,有哪幾張表是有數據的,然后就填進去。填完給我,我就信任你了。這個時候,很大的銀行是這樣做的。ok,這也正常。要做這個事情的話,你需要一些機器幫你做這樣的梳理,而不是讓人幫你做這個梳理。最后,大數據的架構是很重要的,要做所謂的數據資產的管理。
我們發現你要做所謂的數據治理,你企業的數據要給不同的人去消費,每個人的需求都不一樣的時候,你怎么做這個事情。比如說這個是比較高層CDO想的問題,慢慢到業務線的主管、你的BU,有的是數據科學家,數據的消費者,他們對數據的需求都不一樣,如果從以前的方法,很簡單,我就給你。可能你們也做過元數據項目,舉個例子,我有10個應用,你的10個數據庫,我把10個數據庫的說明都放在同一個地方,這張表、這個字段是什么意思,這張表和另外一張表中間的關系,我把它可視化出來,讓每個人都能理解,最后誰能理解呢?只有IT能夠理解,業務部根本不能理解。因為我們發現是每一個人想消費這個數據,他們其實需要的程度都不一樣。CDO、老板需要的東西是比較偏業務的,而且他不需要那么細。但你剛剛走下去的時候,你發現IT的、數據消費者需要看很細很細,比如說我要知道這個字段的血緣分析從哪里來的,他再拿一張報表用這個字段,然后中間的處理過程,這些是IT很關心的,但對業務人員來講,我都不關心,我只是想知道這個數據究竟大概是什么樣的,而且質量好不好。所以我們現在做數據治理,我們希望是從上到下的方法做這個事情。首先,以前我們做數據治理,我們把東西打開、攤開給每個人去看,這是沒意思的。我們必須要有一個平臺,把剛剛我說的找機器人公司做一些梳理,你整個企業里有哪些系統、有哪些數據或者是哪些字段、哪些法規、哪些人、哪些流程。現在梳理完的結果,我會放到平臺里,這只是其中的一部分,這是系統和系統之間的血緣關系,當然這是偏業務的,不是IT偏技術的血緣關系。因為有時候我們發現,數據庫里有幾千張表,你每一張表去看,他比較關心的是某些比較重要的,可能和業務有關的,可能是和場景有關的,哪一些數據或者是字段,跟哪些系統、哪些人有關,我把這些東西可視化。另外,我們還提供了一個很重要的事情,我們有一些所謂的可視化的報告,這是什么報告呢?這是數據質量的報告。
我舉個例子,比如說通過我們的梳理,我們發現我們在某一個CIN里面是有客戶的數據,而我必須要客戶的名稱、微信號碼、身份證號碼等不同的字段,我也希望這些字段里的質量是好的,可能是做一個指標的,它不可以是空的,所填的東西必須是符合某一個規格的,可能從業務的角度定義了這些東西。我們做數據治理要做什么事情呢?業務需要的東西,我們要告訴他事實。我們通過我們的平臺,去真的掃描每一個數據庫。你覺得你需要是這些指標的數據質量,我會去搜整個數據庫,你說的這個時段,究竟質量怎么樣,我把它呈現給你看。以前所謂數據治理的手段是斷開的,你把這些東西拿來進行梳理,出來一堆報告、一堆結果,就放在一邊。隨著項目的開展、流動,這些事實和你原本概念上的東西會斷開,脫離開。我現在希望把這兩個東西永遠拉緊,你的指標、你的概念上有這些東西。事實上,我們發現在系統里,或者是整個企業所有系統里,你的現狀是這樣,隨時把這些東西放在一起,不管是數據治理的主管也好,或者是需要知道數據在哪里的人也好,會看到這個狀況,有了這個東西以后,才可以合作把數據治理的東西做好。
另外,在整個平臺里面,背后有一個很重要的能力,你有沒有一個企業的數據資產目錄,這是很重要的。舉個例子,有一個老板常常問,其實你哪些需求里有客戶數據?剛剛我提到的,你去每個應用部門的頭兒幾張表,然后填填填。現在不是這樣做了,現在是通過機器學習、大數據的能力做這個事情,我真的會去掃描每一個應用里面,每一張表、每一個字段的內容,去判斷這個內容究竟看起來是一個名稱、是一個ID、是一個電話號碼、是一個地址,我們把這些都標簽出來。標簽出來以后,整個東西就是你企業的數據目錄。這個數據目錄有什么應用呢?我們發現有三點,第一,我剛才提到了湖南的一個企業,IT把數據放在一個數倉里,業務人員自己做報告,做的報告很漂亮,但問題是整個過程里,還是有一個問題,他還是要IT先幫他處理好數據,放在一個地方,他去做報告。現在能不能放過來,我把整個企業里所有的系統都盤點好了,都已經打上標簽了,你自己去找,找出來以后。他可以給業務員收那個數據、改那個數據,改完以后出報告。很多時候我們發現,整個過程里做企業目錄的,第一個重點是能不能提供一個基礎分析,每個人都有消費數據。第二個是資產管理,所謂的資產管理,剛才提到所謂的數據目錄,很多是機器做的事情,機器幫你掃描、機器幫你打標簽,我們發現很多標簽是機器不能打的,舉個例子,業務的術語、業務的定義,這些是我們給業務參與,一起在企業的數據目錄里面,然后他們自己把這些業務的標簽打上去。所以,做完以后,整個東西就變成了數據的資產管理。機器能做的事情是什么?我去掃描、做血緣分析,但也需要有人參與。
數據的治理,落地在什么地方?你把從上到下,業務知道現在要做什么事情,后面我們通過企業數據目錄去掃描、打標簽,把數據資產化,我們落地到什么地方呢?我舉一個例子,可能今天因為法規的原因,我們針對GDP要做一些事情,比如現在法規說如果你有歐盟的客戶,我要特別地對他們的數據進行保護。你要做幾個事情呢?有幾個步驟,首先你要發現究竟哪些客戶數據是歐盟的客戶,而且哪些數據是敏感的。這個發現的過程,通過機器學習,可以盤點,能夠做出來。第二,你找到那些東西,現在的狀況是你有沒有保護,有可能你已經保護的好好的,ok,什么都不用做。但我會告訴你,我們找出這些東西之后,其實你沒有好好保護他,因為我發現,這些數據晚上通過某些腳本或者是某些ETL的過程會流到另一個數據庫里,但中間你沒有做脫敏、沒有做加密,這也是平臺可以告訴你的事情。第三,你知道數據在那里,你沒有很好地保護。我們可以針對敏感數據,幫你做脫敏、幫你做保護,而且我們會監控整個過程。這是把數據治理變成應用的場景,我為什么要做那么多事情,我要盤點我的數據、知道我的人、我的流程、我的系統在哪里,真的是你們去掃描這個事情,我們希望把整個過程邏輯上結合起來,把他放到不同的應用上。
我本來有一個案例分享,我可以給你看一下Informatica,不管是在國內還是國外,我們在幫企業做數據治理的項目。Informatica,以前你印象中的Informatica是不是做數倉的,是不是做ETL的。剛才我們發現,我們有集成的解決方案,我們有組數據的解決方案,我們有數據質量解決方案,我們有一些脫敏的解決方案,我們有安全方面的解決方案,這些比較面熟的是華為,華為大概在三年前,他們的總部,他們想做一個數字資產的項目,那時候他們也看不同廠家企業目錄數據治理,最后他們也選了Informatica來做這個事情,因為他發現Informatica比較偏向于所有的方案有落地的軟件平臺。比如我雖然能做這個事情,但是我要開發的,我們不是這個角度的。Informatica是做什么事情呢?整個數據的過程是從外部的數據到消費的數據,中間要做很多處理,要做什么處理呢?我舉個例子,企業目錄,我要做數據的盤點,可能我要做很多中臺的需求,先把數據集成集中在一個地方,這些集中的地方,我需要做數據的梳理、共享,如果從分析的角度,我們會把數據集中完之后,再把它集中到數倉或者是大平臺上面,中間我們通過一些模塊做數據質量的提升管理。如果現在你把數據集中在同一個地方,這一堆數據里肯定有敏感數據,你要好好保護,所以數據的安全這一部分,也是很重要的,數據管理的部分、數據治理的部分。這幾年看到很多企業開始想,數據管理怎么做。其實你看到的每一部分,Informatica是做數據管理的加工、提升的部分、質量的部分、數倉數據庫的部分、組數據管理部分、企業目錄的部分、二級的部分,甚至于流程的部分,每一個部分我們都有落地的應用解決方案。這是Informatica和其他廠家不一樣的地方。
Informatica做了很多年了,我們都是做數據管理的,做了25年了。我們比較有意思的地方,你發現這五個圈,Informatica是干什么的?一些成績表吧,Informatica是做集成的,NO.1。我們是做元數據的,企業目錄的部分,NO.1。我們做數據質量的NO.1,我們做組數據管理NO.1,如果有些客戶說今天我有很多數據已經搬到云上面,已經有一些云的應用,然后云和地、天和地、天和天怎樣去審核呢?Informatica也有成熟的解決方案。所以,如果幾年前或者是十年前,我在Informatica干了十年了,十年前你問Informatica是干什么的?Informatica是做ETR,現在Informatica干什么?如果你最近看過阿里的數據中臺那本書,里面也提到Informatica。其實中臺概念的能力,Informatica已經很早就有了,只是那時候沒有中臺的概念,所以大家都不知道。Informatica,我們希望做一個中間人的數據治理平臺,這樣有很多的能力,很多企業在做數字化轉型的過程中,他需要有一個數據治理的總綱,我剛才提到的,偏業務的,把這些數據梳理完的結果,放到一個平臺上,不管是業務人員還是IT人員,讓大家看到現在的準確,這是數據梳理的部分。企業目錄部分,做數據的盤點、數據的標簽化、資產化,我們有不同的能力接入現有的數據庫、現有的應用、云的應用、大數據的應用,這套存儲模型里面,Informatica沒有做存儲部分,但我們有一系列的管理的能力,比方說我們有ETL的部分,比如說績效轉換,我們有很強的能力,做數據的標準,數據標準的定義,數據質量的提升、數據的準備,這個數據準備就是我們怎樣給業務人員自己做ETL,以前通常是IT做ETL,業務人員只是拿來做報表,現在是你去做吧,ok,怎么做組數據的管理,數據的安全風險管理,還有數據的歸檔。這些不同的能量,我們有一個AI的引擎,你可以看到AI是藍色的。最后整個平臺上也有數據服務分發的能力。現在這就是Informatica,所謂的數據智能平臺所做的事情,跟你們傳統想的Informatica只做這個,都25年了,所以這幾年有很多變化,Informatica全球大概有1萬個客戶,如果在大中華區,現在已經超過1000個客戶了,也分散在不同的行業里面。所以Informatica比較有意思,因為我們不是做某一個行業,我們做所謂的數據管理領域里,這個是很廣泛的,政府部門、制造業、零售行業、電信行業,都覺得這個東西是管用的。而且我自己看華南、香港、臺灣,發現每個地區、每一個行業的需求速度都不一樣,比方說八年、十年前,臺灣做金融服務很好的,那時候香港華人地區做的很好,這幾年可能在華人地區很多電商或者是電信行業東西都做完了,現在慢慢是把這些概念,所謂數據化轉型的概念轉到零售行業或者是制造業,最近我在和很多政府部門合作做這個事情。
因為時間不多,我不可能把所有的東西都講透、講清楚,大家可以掃微關注我們的網站,也可以在我結束以后,再和我聊聊每一個部分。謝謝!