5月10日,由企業網D1Net舉辦的2023全國CIO大會盛大召開。本屆大會以“企業承壓,IT怎么干?”為主題,匯集300+企業CIO及IT高管,旨在搭建CIO與同行交流的高質量交流和社交平臺,通過觀點與思想的激烈碰撞,可落地的實戰干貨分享,幫助CIO用戶群化解困惑和焦慮,助力廣大CIO找準數字化機遇、少走彎路,應對數字化轉型過程中的諸多挑戰。主論壇外,另設新安全、數據賦能、新技術增效三個分論壇。包括CIO中年職業危機應對也是本次大會的議題之一。
以下是現場速記。
創鄰科技CTO&聯合創始人 周研
周研:大家好,我是創鄰科技的周研,很榮幸有機會和大家分享。最近兩天聽下來,前面很多嘉賓都有提到數據之間的關聯和連接,今天我的分享就和這個事情緊密相關,主題是“GalaxyBase圖技術賦能企業增益數據資產價值”,分為幾個部分:圖技術和數據資產價值的關系,GalaxyBase企業級圖平臺,最后是一些客戶成功案例的分享。
我們生活在日益緊密聯系的世界,Internet帶來信息連通,IoT帶來設備連通,微博微信抖音快手這些APP帶來人際關系連通。隨著社會數智化程度的不斷加深,數據量呈爆發式增長,數據之間的關系顯得日益復雜,企業數字化進程中,原始的數據分析和管理沒有辦法滿足海量數據轉化為高價值數據資產需求,沒有數據之間的關聯分析,數據或將毫無意義,關注并挖掘數據背后的關系成為實現數據價值的關鍵所在。這里是指數據連接的Connectivity而不是統計相關性的Corelation。
關聯關系是無處不在的,因為世界萬物是普遍聯系的,社交網絡的應用可以有精準營銷、好友推薦、輿情追蹤等等,金融行業有信用卡反欺詐、資金流向識別,零售行業可以有用戶360畫像、商品實時推薦、反薅羊毛,電力行業有電網調度仿真、故障分析,電信行業可以做電信防騷擾、防詐騙,政府可以做道路規劃、智能交通和疫情精準防控,制造業可以做供應鏈管理、物流優化、產品溯源,網絡安全可以做攻擊溯源、調用鏈分析。
我們在做關聯分析的時候會碰到一些難題,數據規模非常大,考慮社交網絡場景無論是微博、Twitter這些規模的社交網絡,里面自然人的實體都是10億級別,人和人之間的關注關系就是數百億的規模。如果考慮到網絡中的發帖、評論、回帖這些實體的情況,可能實體數額都會達到上百億,關系數額也會達到上千億。我們也會很多時序數據和日志數據的引入,包括交易數據,帶著時間戳的數據進來,使得關系的規模更加擴大,很多場景都可以達到萬億的關系,所以要處理的數據規模是非常大的。
我們需要在這里進行非常深度的關聯跳數分析,我自己是一個中心,我的朋友對我來說就是一跳的連接,朋友的朋友就是兩跳的連接。社交網絡的分析場景通常需要分析四到六跳的深度關系,而在反欺詐這樣的場景有了更多的設備、IP、Cookie的實體進來,大概需要分析六到十跳的深度,電網領域因為電力傳導,鏈路可以非常長,需要分析三十跳甚至五十跳這樣的深度,如何進行高效分析就是一個問題。關聯分析的實時要求又非常高,沒有實時性的要求,可以進行離線計算,但這些實時的場景下,更多的場景如果能夠更加實時地拿到結果就能夠有效地提升對用戶的價值。我們如果要做反洗錢或者反詐騙,等到案發以后過了一周或者一個月,再靠其它的離線分析手段拿到結果,只能作為一個事后的追溯,沒有辦法在事中進行干預。如果能夠知道實時轉帳是有一個洗錢風險或者資金違規交易風險,可以在轉帳的過程中實行干預。
為了能夠很好地解決這樣的一些關聯分析的問題,所以我們需要這樣的圖技術。什么是圖?這里的圖是指圖論中的Graph,不是圖片或者圖像,而是以圖論為基礎理論,以點和邊為核心邏輯描述現實世界中的實體和關系的數據結構,這樣的數據結構為核心作為存儲單元的數據庫就叫做圖數據庫。通過圖來表達現實場景的問題是非常明晰的,一圖勝千言萬語。
美國中情局抓捕本拉登的案例中的節點包括黑幫組織、個人和槍支的關系,中間還有金錢的流動,可以分析網絡中心流向的各種位置。
圖的價值會有更直觀的模型全面地展示,我們用關系型數據庫進行建模會先做一個ER圖,根據實體1:1或者1:N的關系有不同的方式拆成各種表。ER圖本身就是Entity Relationship,而在圖數據庫中可以直接進行表達,不需要二維表的現在進行轉化,所以是更自然地描繪世界本身實體關系狀況的方式。圖模型表達的數據模型可以更加簡潔,溝通效率更加提升。
我們如果寫SQL語句會有非常復雜的意義,如果需要表達三到五跳的關鍵,每一跳需要單獨表達,三到五跳可能需要三個交易,也會非常復雜,圖數據庫會有專門的基于關聯的表達查詢,就是用圓跨號表示一個點,方跨號表示一個邊,中間的箭頭表示關聯方式,可以把查詢語言寫得非常簡潔,也是提升開發效率。
當然,最關鍵的就是查詢效率有指數性的提升。我們做過這樣一個對比,數據集并沒有很大,7萬個點,50萬個邊,就是誰信任誰,在這上面進行兩跳的查詢,關系型數據庫加上索引的話還是比較快的,三跳就會明顯變慢,四跳就更慢了,五跳跑一個小時都跑不出來結果。我們的圖數據庫就可以在非常短的時間內跟跳數增加的幅度很慢,無論是多深的跳數都可以很快達到返回,也是很多開發約定禁止三張表以上的交易關聯。數據規模大、數據維度多、實時要求高、關聯跳數深的場景都是圖數據庫的適用系統。
圖數據庫也是我們數智升級的關鍵底層基礎設施,因為大數據的價值就在于關聯關系和數據規律的發掘和應用,而圖數據庫能夠高效地存儲和處理數據之間的關系。預計到2025年,全球數據總量要比2021年增長超過80倍,數據價值也是備受重視,由先前少量的孤立數據價值挖掘轉向海量全量數據的價值挖掘。可以看到零散的N個數據價值是N,根據梅特卡夫定律,一個網絡的價值正比于網絡節點數量的平方,所以當這些數據關聯起來,體現的價值就能夠是N平方。我們如果又有M個已經關聯的部分數據,價值就是M乘以N平方,要是能夠把這些割裂的局部關聯數據,無論是企業內部的跨部門還是行業內部跨組織的數據統一起來,數據價值就能夠乘以M乘以N層級以后的平方,每次的關聯都會帶來數據價值大幅度增長。
Gartner說過,對于數據化企業的能力來說,圖分析能力是唯一且最有效的相對競爭優勢,而到2025年全球80%的企業都將使用圖技術支撐智能商業決策。這是各種類型數據庫的流行度增長圖,上面的數據是相對變化關系,所以關系型數據庫雖然體量很大,其實流行度相對變化關系是比較平穩的,圖數據庫是遠超其它類型的數據庫類型,流行度相對變化關系也是在逐年穩步增長的。
我國《“十四五”軟件和信息技術服務業發展規劃》明確強調,加速分布式數據庫產品研發和應用,突破分布式數理和任務調度架構,大規模并行圖處理關鍵技術,推動高性能數據庫在金融、電信、能源等重點行業關鍵業務系統應用,這里特別提到分布式數據處理和大規模并行圖處理,這是創鄰科技擁有的核心知識產權。
GalaxyBase企業級圖平臺,介紹一下圖技術的發展階段,早期Graph1.0時代單機小規模原生圖其實相當于設計一種基于單機的,但比較好地處理圖數據的數據庫,主要存儲的是參考數據,也就是靜態數據,知識圖譜、產業圖譜、股權關系,通常都是單機就能夠承載的圖數據。
隨著數據量越來越大,單機系統沒有辦法滿足這樣的要求就會出現隨著數據量爆炸式增長,需要能夠在分布式系統上處理圖數據的系統,就像Genesis Graph,底層存儲是Hive或者現有的分布式可擴展的數據存儲,然后上面進行一層圖語義的架構,實現圖的點邊模型和查詢結構,大概主要支持的是交易類型的數據,數據規模在1-1000億之間,資金流向圖譜、申請圖譜、消費圖譜等等數據。主要的問題是依賴第三方大數據現有的存儲組件,并不是直接為圖數據存儲結構設計的。數據規模到達一定上限以后,性能問題還是比較明顯的。
GalaxyBase為代表的原生和分布式圖存儲結構,既具備原生圖的高效存儲和查詢性能,也具備分布式系統的橫向擴展性,能夠實現分布式大規模圖數據的高效讀寫查詢,處理事件和行為數據高達百億到萬億級別的數據,包括日志、IoT、連接、網絡攻擊,這些數據能夠很好地處理。
按照數據庫的存儲類型可以分為三類,作為圖數據庫,最核心的就是看查詢性能,解決的就是關系庫中多表效應的問題。如果關系庫多表效應需要對查詢進行提速,勢必是離不開使用索引。數據量非常巨大的情況下,使用索引也不能很好地解決這個問題。
可能我的朋友只有一個,只要查一個鄰居,但過的索引卻是全局的索引,如果要建立索引必須在這個朋友表上建立全局的索引,可能有百億甚至千億這么大,但鄰居卻只有一個,所以這就是效率的來源。圖數據庫核心需要實現的就是免索引連接,不使用索引的方式直接找到一個關聯的鄰居點,由此劃分不同的存儲類型。最簡單的就是完全沒有使用免索引連接,這也是一種時間方式,有些多模或者其它形態的存儲,使用特殊的索引結構,實現應用層圖語義的表達。好處肯定是跟現有關系庫的融合度更高,但其實查詢性能是比較低的,跟我們直接使用關系庫多表效應差不多的性能。
我們也可以依賴于第三方的存儲組件,會有一個排序特性,利用這樣的排序特性再加上很好地設計點邊ID,可以實現近似的免索引連接特性,依賴于第三方的組件,自己的Compaction操作,可能對圖數據庫就不太可控,生產過程中也會有由于不斷大批量插入,底層第三方組件會跟不上Compaction,不能實現很好地優化。完全原生的結構就是從數據存儲層采用原生的點邊數據存儲方式,然后梳理到業務層就是一致的體現,也就是說業務里面需要做哪些關聯查詢的優化,可以直接下推到最底層的分布式存儲,可以統一下推進行性能提升,GalaxyBase實現的就是完全不依賴于第三方存儲組件的全部純原生的存儲結構。
這些就是我們的整體架構圖,中間就是圖數據庫的核心,分為三層:存儲層、計算層、接口層。剛才講過存儲層是原生分布式圖存儲,分布式的圖查詢引擎,在這之上實現分布式圖計算引擎,單機優化算法和分布式優化算法。圖算法的特性根據數據量的不同,應該選擇不同的圖算法,數據量比較小的時候肯定是單機執行效率更高,但數據量比較大并且有更多分布式算力可以投入進來,我們又需要分布式算法,所以對單機和分布式算法分別進行優化。我們提供自定義優化函數服務,可以根據業務需求自己實現自定義的算法和函數。
圖中這些就是面向企業管理的用戶權限管理、集群監控管理、多圖管理等等,也是面向企業級的運維和管理做的很多產品化的工作。
我們是一個完全底層的存儲和計算100%自主知識產權的高性能國產的圖平臺,所以我們對國產CPU和國產操作系統也是做了非常好的適配,主流國產CPU操作系統都有這樣的適配認證證書。數據源也是接入現在所有主流的數據,無論是實時的流式導入進來還是現有的關系庫的數據批量導入,或者大數據庫系統Hive,我們都是可以能夠很好地支持。在此之上構建圖智能中臺,可以做數據ETL、數據圖模型的構建、可視化的查詢,包括圖算法的工作流編排、特征計算以及和機器學習的結合等等。在此之上就是各行各業的解決方案,包括企業圖譜、反欺詐、資金流向分析、輿論分析,這些都是各個具體業務場景的解決方案。
我們核心業務價值:圖存儲的特點是速度快、高擴展、支持完全分布式架構、動態在線擴容,并且支持實時計算。圖計算的維度支持實時計算,內置豐富的分布式算法,不需要ETL進行實時圖分析,很好的可視化交互技術中臺,安全自主可控,所有內核源碼都是自研,不依賴于第三方開源組件。
LDBCSMB測試也是一個Benchmark,關聯數據測試委員會屬于非營利的國際組織,提供圖數據庫上的性能測試,這里也是第三方Audit報告,去年打破世界紀錄,相比之前的記錄吞吐量提升了70%,平均查詢性能有6倍以上的提升,95分位查詢性能有72倍提升。數據處理規模也有打破世界紀錄,交易圖譜實現5萬億BN規模的超大圖分布式存儲,涵蓋超過1000萬的超級節點,六跳平均查詢,耗時6.7秒,使用50臺機器的集群就完成了這樣的大圖存儲。
我們也有豐富的圖算法知識,支持現在所有主流類型的算法,包括七大類57種圖算法,社區檢視、相似度、預測算法、模式匹配算法、節點嵌入算法,可以到深度學習框架進一步學習。這些算法大部分支持分布式優化,也是信通院圖計算平臺首家完成評測的廠商。
我們也有可視化界面,就是圖智能分析中臺,可以和地圖的圖層進行結合展示,包括時序關系,就是時間軸的場景下圖的演化過程,隨著時間軸的圖的點邊關系可以動態變化。
我們還是安全自主可控的,完全自主研發的圖數據庫,也是完全符合國內現在的信創要求,獲得去年中國信創產業拳頭獎的最佳數據庫品牌,也和主流的國產操作系統和CPU進行雙向的認證證書。
最后分享一下我們的案例:
IoT移動圖譜講的是設備和連接設備的熱點之間的關系,通俗來講設備可能是手機,熱點可能是WiFi,通過這樣的連接關系能夠解決什么問題?現在跟我的手機同時同地點的其它手機在兩小時之前有哪些跟我同時同地點,或者一個月以前都有哪些跟我共同出現過,可以分析設備之間的相關性。
現在有些場景比如公安的破案,或者疫情綠碼紅碼其實就是根據設備時間的貢獻共同出現,按照這種連接關系進行分析。因為這種連接關系有時序性質,今天連接這個東西一個小時走了,后來又來,帶來時間戳以后就會讓這個數據規模非常大,達到1500億點位,725億屬性/小時,也是節省很多硬件成本。
反信用卡欺詐也是通過網絡關系抓到明顯的特征,實現多維指標計算,保障風控效率提升,同時也會提升客戶的升級體驗。之前系統需要3-5分鐘,換成我們的技術1秒鐘以內就可以做到,大大提升信用卡審批的實時性。
國有頭部銀行的云平臺相當于行內所有圖的相關應用,要有一個統一的平臺管理,類似于在行內私有云上面進行DbaaS服務,所有內容都在我們平臺完成,實現多租戶資源隔離,申請分配,節點申請和控制的功能。
相比傳統的企業關系圖譜,這里可能增加更多的動態數據,可以實現交易流水、開戶數據,把這些數據加入進來以后能夠直觀地展示客戶的各種關聯關系,極大地提升送審效率,實時監控量化客戶關聯方風險和網絡風險,擴大業務風險觀察視角。
我們知道現在很多公司用微服務,微服務數量非常多,可能有幾十萬,調用關系和依賴關系非常復雜,針對一個服務進行升級的時候需要確定影響情況是很困難的事情。微服務之間的調用關系就是天然的網絡關系,能夠很好地用圖表示。大型互聯網公司也是通過圖數據庫實現對全部門所有微服務的統一管理和監控,實現自動監控、告警、進行分析優化,極大地降低運維人員的工作量,提高微服務的穩定性。
電網天生就是一張圖,每個電力設備都是一個節點,設備和設備之間的電線就是一條邊,天生就是網絡結構,所以我們在這里做到數字孿生的實現,就是每個物理世界中的設備或者電線在數字世界中都是點或者邊一一對應。采用這套系統可以做電網檢修,包括故障分析,尤其是一個地方斷電以后選用新的線路,如果原先靠人工研判花的時間比較長,通過網絡分析計算能夠提升原先的方案3-5倍的速度,節省下來的效果就是極大地縮短停電時間,其實也是產生極大的社會價值。
我們的標桿客戶分為各個行業都有很多應用,因為關聯關系是無處不在的,任何行業的數據要想深度挖掘關聯都能夠產生巨大的價值,所以我們有金融行業的用戶、能源行業的用戶、互聯網的標桿用戶、政府和高校以及各行各業的標桿用戶。
因為我們其實是底層的數據庫和圖平臺軟件,真正在行業中產生業務價值是需要有更多對行業業務有深度了解的合作伙伴,所以我們也有一個非常大的生態系統,戰略發展伙伴、云合作伙伴、解決方案合作伙伴,提供我們在各個場景下對行業、對業務有更深了解和定制的應用系統解決方案。
GalaxyBase的目標就是釋放數據互聯力量,增益數據資產價值,謝謝大家!