9月23日,由企業網D1Net、信眾智(CIO智力輸出及社交平臺)和中國企業數字化聯盟共同主辦的2023北京部委央企及大型企業CIO年會(秋季)在京順利閉幕。本次大會匯聚了央國企部委及大中型企業CIO、信息主管以及數字化一線廠商,以“數字化轉型”為主題,圍繞大模型、多元算力、國產化智慧辦公、RPA、低代碼、數據資產管理、數字資產保值增值、數字安全和數據安全治理,央國企數字化轉型場景、轉型探索與實踐等熱門議題展開深入探討。
普元信創解決方案部總經理 曹宗偉 在本次大會上分享的主題為“大型企業數據資產管理體系建設與應用實踐”。以下是現場速記。
普元信創解決方案部總經理 曹宗偉
曹宗偉:各位專家,各位領導,大家上午好。非常榮幸有機會給大家做大型企業數據資產管理體系建設和管理的分享。
在分享之前首先介紹普元公司,普元是國內始終致力于變革企業軟件生產方式的企業。因為普元在2000年左右,我們大老板寫了一本書《軟件的中國機會》,它的核心理念是什么?因為中國軟件大約從2000年開始的,但是國外的軟件大概走了將近100年的時間,中國從改革開放這幾十年以來唯一不變的是變化。我們能夠去適應各種各樣的變化,所以會比國外的公司能夠有適應變化的能力。這是中國的軟件機會。
普元從03年正式成立,是最早做低代碼的廠商。普元的低代碼在銀行里做的最多,像工行、建行全行使用普元的低代碼。06年左右普元開始做SOA,2012年開始普元開始做數據治理、數據資產管理相關內容,2019年普元在科創板上市。普元產品線分為三大塊:第一塊是低代碼,前面將近20年時間是非常重要的產品。第二塊是信創中間件,信創中間件中會覆蓋全棧的信創中間件。第三塊是數據相關的產品,包括數據中臺、數據資產管理、數據治理等內容。
簡單介紹低代碼在數字化轉型里的場景,低代碼在數字化轉型里解決的問題是打通數字化轉型最后一公里的問題。我們做了很多央行央企,他們在用低代碼時解決的是什么問題?數字化轉型是企業整體數字化轉型,并不是說只有比較有錢的部門做數字化轉型。像很多銀行不能老盯著北上廣的網點,應該盯著西部很多省,那些三四線轉型成功才是整體的數字化轉型成功。這時候他們的業務怎么辦,他們沒多少預算,需求又比較多,以前沒有廠商去理會,這些場景現在都是通過低代碼的方式去解決的。
普元在低代碼領域也取得了很多的榮譽,因為我今天不是介紹低代碼,我只是稍微帶一下就可以了。
第二塊是普元的信創中間件的產品,普元從成立之初就一直做國產化的信創中間件。在這里普元的產品可以覆蓋到IBM、甲骨文全棧的信創中間件產品,包括工作流、大文件傳輸、消息等中間件產品,我們有十幾款中間件產品,可以IBM和甲骨文公司做全量的替換,我們并且在很多的企業有了非常好的實踐,這是信創中間件。
第三部分的產品主要是數據類的產品,也是我今天重點解決的。因為數據類的產品解決的問題是,主要是為了解決數據價值的問題。普元在這里提供像數據中臺、數據資產管理等各種各樣的產品,另外一方面緊隨時代步伐,包括AI大模型出來之后,在AI大模型和數據之間的結合能夠讓AI大模型幫助我們做數據治理,幫助我們做數據清洗,在這方面也做了很多嘗試和案例。
在數據方面,同時我們也參與了國家標準,比如國家的數據治理標準,參與了很多的行業標準,地方標準,比如參與了像上海市的公共數據中臺等等地標的制定。我們參與標準,另外我們有發明專利,有幾十項關于數據的發明專利。
在數據方面,普元的數據治理會有白皮書,普元的數據治理在央國企里市場占有率第一。第二個普元數據資產管理在Gather2023年發布的向里普元和阿里云、華為是數據資產管理標桿廠商,普元得到了業界的認可。
接下來跟大家分享我們在數據資產管理方面的實踐。
首先來看國家最近幾年的政策,從國家大數據發展來說,分為三個時期,從16年之前是導入時期,16到19年落地時期,19年之后是深化時期。因為國家發的這些政策里面,特別是今年的8月份財政部發的政策,財政部發文要求數據資源要入表,這意味著我們數據資源可以作為無形資產入到我們企業的資產里面。在這個事情上,銀行業是最先開始做準備的。比如像光大銀行做這個事情的時候,它是準備把自己的數據資產撥了1千億,等著數據資源入表政策,從2014年開始實施了,馬上就可以入到表里,相當于企業數據資產增值1000億,這個1000億是它自己估的,銀行基本都做好這個準備了。
第二個是最近的一些趨勢里,如果在網上搜一下就能看到,很多企業把數據資源作為抵押已經貸出來錢了,很多企業貸出來的都是千萬級別的,拿幾張表做抵押就能貸出千萬的錢,這是數據作為生產要素最新的變化。所以在央國企里,我們最近遇到很多央國企都是做這樣的事情,我們要對數據資產做估值,數據資產要落到報表里,要讓我們資產增值,做這個事情。
對數據資產實施的關鍵步驟或者方法,它主要有五個字:識、規、優、用、盤。識是對數據資產的識別,這里到底有哪些數據資產,怎么識別,怎么梳理它?規主要是規劃和規范這些內容。優是對數據怎么去做治理,怎么做優化的過程。用是我們數據資產到底怎么去使用?最后還有盤,盤點。盤點之后,我們怎么能夠記到我們會計報表中?是這樣的過程。
在這個過程中,最難的就是識。為什么是識?因為我們見過太多的企業,他們將近20年的業務系統建設,將近20年數據的積累,基本上都是有上百個業務系統,可能幾十萬張表,幾百萬個字段,這很正常,這幾百萬個字段要想完全梳理清楚非常具有挑戰,我們做很多銀行數據梳理時,我們說能不能分期梳理?不要一次性梳理清楚,回復說不行,因為每個字段都是錢,需要理解每個表每個字段的含義,這是一不,這是識。
識的難點是什么?我們去做數據資產梳理的時候,最難的就是我們的表名和字段名都是漢語標音首字母簡寫,沒有注釋,我們要理解。雖然建了數據湖,把所有數據集中到一起,但是還是不能理解它。包括這里的數據確權、數據認責,我們拿表告訴業務部門,這張表是你負責的,業務部門絕對不認,否則認了就是我的責任了。這種時候我們能不能有一種方法去梳理數據資產?真正理解表和字的含義。
在很多金融包括一些銀行或者保險公司做的事情,他們做數據資產數據的時候,都是能不能把我的應用,一個黑盒的應用照一下就能照清楚里面的脈絡,然后把它數據庫的表字段聯系起來,通過這種方式做數據認責和確權。
把一個應用拆成200、300個功能,每個功能有它的界面,每個界面有它的表單,下拉框里有選項,采集過來進行關聯。再把界面發的請求,將表也關聯起來。通過這些知識圖譜,通過表可以找到它的界面,它的表單,它的字典項。通過這種方式,我們大部分人都能理解這個表的含義,我們就能把數據梳理工作變得非常容易的事情。
所以這是基于工具,把一個應用像照X光機一樣,我們理解每張表每個字段的含義。同時能夠幫助我們做數據確權,我們給業務部門做數據確權時,拿著表單,業務部門無法否認是它錄入審核的,這個界面關聯的表就該你負責,這是做數據認責和數據確權。
這是在銀行里有750萬個字段,把每個字段全部梳理清楚,因為這里要做估值的,每個字段都是錢,如果是按照光大銀行那種方式的話,每個字段的價值還很高,這700多萬字段有可能價值幾百億,是這樣的估值方式。所以要把每個字段梳理清楚,這是我們做數據識別。
同時在識別時還要用到AI能力,比如我們去建識別的專用模型,通過AI模型通過NLP做理解幫我們去梳理概念模型建立數據標準,這也是我們做識別非常重要的一些方法和手段。
識別完之后我們第二步做規,首先是做規劃第二步是規范。包括體系怎么建設,舉例南方電網,正好我們做過南網包括廣東省包括下面的廣州市,所以它的整個規劃我們做過打通,我們做過很多銀行里面包括很多央企里面,比如東方航空我們幫它做了三期數據治理,也都做過整體規劃,包括規章制度。規章制度也非常重要,它特別是對我們企業信息化人員非常有效的保護。萬一我們數據出了問題,這個時候如果沒有規章制度就是我們的責任,如果有規章制度,按照規章制度做事情,責任就是另外一回事兒,對我們是保護。另外還有一些標準規范等等,包括組織崗位這方面的規劃。
接下來我們還要做優,優化的地方核心就是做數據治理。數據治理在這里面分了三個階段第一個階段是在企業里面它的數據沒有治理,沒有治理的階段是領導想要什么報表,想要什么指標從數據里抓過來看就可以了。到第二個階段做集中治理,我們經歷很多集中治理的階段,并且發現很多問題。比如在做一個銀行,他們做管理駕駛艙,界面很漂亮,但是數不對。比如大客戶存款余額,和其他統計口徑出來的數據相差幾千億,領導怎么做決策?要給大客戶做政策,結果數不對。為什么相差幾千億?比如大客戶數據是從各個省報上來的還有會計一個口徑,各個省報上來是不同的口徑。比如北京市存款1個億算大客戶,到別的地方存款5000萬算大客戶。有的做了管理駕駛艙,直接就報管理駕駛艙的數據,發現里面存的是萬元為單位,業務系統存的是元單位,技術員不一樣,一看數據直接相加,沒有數據標準,沒有數據質量管理、鏈路管理,這些差異就來了,雖然界面做得很漂亮,但是數不對,第二個階段是做統一的階段。
第三個階段是做協同治理,因為我們央國企大部分都是大型企業,下屬可能幾百家、上千家公司,我們經常問一個公司領導下屬有幾家公司?說不清楚,因為算法不一樣,這個時候我們去做數據治理,它是一個協同治理的,它是每一個公司都需要治理,每個部門都要治理的,是協同治理的階段。因為我們的數據是分散的,我們業務系統是分散的,最終數據目錄、數據服務我們希望是統一的,所以這個地方叫做協同治理。包括我們在城市里面做的也是一樣的,一個大型城市里也是數據分散,但是企業要統一,數據服務、數據目錄、數據共享、數據開放要統一,所以要做協同治理。現在我們基本做數據治理都到第三個階段的情況。
舉一個小的例子,我們AI大模型在數據治理方面的應用。比如做數據查重包括異常數據的處理,這個時候怎么查的?我們是把每一項數據的每個字段,比如物料查重,物料名稱、規格都要變成矢量數據,照片也要變成矢量數據,然后根據矢量數據,根據每個字段不同因子算綜合的治理,然后才知道這兩個物料是否相似。我們遇到很多企業想采購物料時,明明倉庫里有很多同型號材料,但采購時不知道,出現了重復采購,類似這樣的場景都是通過AI幫助。
AI幫助時,為什么我們以前提AI提得少,現在提得多?講具體案例就知道了。比如電阻是一個規格,二分之一歐和0.5歐,如果從以前算法,二分之一和0.5,0.5和0.6距離更近,二分之一和0.5不是一個東西,有了大模型之后,并且大模型的問題是如果你去問訊飛和百度的大模型它都會告訴你二分之一歐和0.5歐不是一個東西,如果問ChatGDP它會告訴你是一個東西,因為它會推理,百度和訊飛推理都會差一些。我們訓練專有模型來解決單位轉化、物料型號的問題,通過這種方式我們去幫助用戶去做這些數據治理的落地,這些是普元比較擅長的。
最后我們還有數據治理的用,用要解決的是什么問題?解決的是更好、更快、更準,在這里我們做的核心是打通幾個流:信息流、數據流、管理流。信息流解決什么問題?比如不同部門之間要用數據的時候,大家是怎么溝通的?估計開線下會議兩個月不一定解決問題,因為你不知道數據是誰負責的,找不到數據在哪。在信息流打通的是什么?上海市大數據中心打通的是把所有數據信息放在一個界面展現,節省了大量的信息互相溝通的過程。
還有數據流,打通數據流和管理流。比如讓業務部門參與,怎么參與?只有把流程推送待辦到OA系統里才能參與,否則不會登錄到數據平臺上參與,所以這個地方我們定了數據標準,做了權限審批都要推送一堆流程,這時才能打通管理流,最終達到的效果是1515模式,1天5天15天。我們現在很多企業要成立數科公司,我們要有更先進的IT建設方式取代其他的IT建設方式。
在上海大數據集團他們做的是什么?上海大數據集團將數據都收編了,1515做了兩年,各個委辦局領導都愿意收編,因為他提出來的需求一天就能響應(如果數據經過治理),如果沒有經過數據治理,5天就能給,如果數據在委辦局需要采集15天就可以了,你提小的數據應用最遲15天就做完了,對于委辦局怎么建設的?他們是今年提需求驗證立項明年才給你。最后只用上海大數據中心了,上海大數據中心的主任后來又出來做上海大數據集團的總裁,又開始推這種模式,也是去替代落后的IT建設模式。
同時在用的時候還有對AI的應用,我們在這里把企業的數據資源,首先企業的數據不能放到任何模型里,不管是大模型、專用模型,哪怕是做大模型私有化處理,這也不行,因為他們會有很多的漏洞。只要把數據放到大模型上馬上就有人問誰誰誰的工資是多少等,這些問題會想辦法繞到。只能把企業數據資產目錄放到大模型上,但是數據還存在我們的數據平臺上。這個資源目錄能幫我們干什么?比如我們創建數據模型能建模,去做業務系統生成,但最終還是要訪問數據庫。
我們在這里做了很多基于我們產品的支撐以及很多業務上的嘗試,比如我們在銀行里面,我舉個例子,我們用低代碼生成了再加上AI、數據模型生成很多應用,比如銀行他們放貸的時候,放貸其實是最辛苦的,今天一個養豬的過來為它放貸,明天養魚的過來之后怎么評估要不要放,放多少?不知道,都是憑個人經驗加上私下里的交易,他希望把這些東西全部做成數字化應用。怎么做成數字化應用?大模型的知識帶來的這些東西,很快就是用AI+大模型+數據資產去生成應用,這就很快了,這個對它的價值就很大,它相對來講對各個行業甚至各個中小包括農業、工業對各種行業的放貸的評估做了很多大量創新的應用。
最后還有盤,在國網某個市做的數據資產盤點。這個盤它可以把我們的數據資產形成鏈路,然后跟我們財務系統打通,把數據資產的價值同步到財務系統的報表里面,要能夠真正形成企業的無形資產,主要是無形資產和存貨。
最后再介紹我們在某銀行的案例,因為銀行里面它做的是幾個階段,第一個是做業務數據化,第二個是數據資產化、第三個是資產產品化、第四個階段是做產品業務化。在我們數字化轉型里,這個階段的要求,大部分是做數據資產,之后還有一個要求是數據資產之后要變成產品,最后增值,最后是產品還要做成業務化。
比如這里做了一個體系,包括兩類資產,包括靜態的和服務的資產,包括兩個機制,最終形成數據資產的報表。最后還幫助銀行里面他們做這塊的數據應用,這塊數據應用是他們數據資產增值最多的。就是真正對外服務賣錢的數據應用,比如做企信寶的應用,企業轉賬信息、流水信息都在銀行里,我給你做企業增信,這個很容易,這塊是數據資產增值最多的內容。
我今天分享的內容就到這里,非常感謝!