免费观看成人久久网免费观看,91人成亚洲高清在线观看,欧美曰韩一区二区三区

小數據大未來——非結構化數據管理探索

責任編輯：cres

2023-02-25 16:04:09

來源：企業網D1Net

原創

衛信康醫藥股份有限公司CIO孟長榮分享了非結構化數據管理的經驗。

2月25日，由企業網D1Net、信眾智(CIO智力輸出及社交平臺)和中國企業數字化聯盟醫藥大健康分會聯合主辦的2023全國醫藥大健康CIO大會在上海召開。本次大會圍繞“數字化轉型新場景”這一主題，分享交流CIO在新冠疫情逐步緩解、中國醫藥衛生體制改革邁向深水區的新形勢下，行業企業、機構在創新藥物研發、流程效率提升、生產智能制造、全渠道數字營銷等領域的前沿實踐與現階段的困惑，探討醫藥大健康行業的新技術應用與未來發展趨勢，以及如何更好地利用數字化技術推動醫藥大健康行業的發展。

以下是現場速記。

衛信康醫藥股份有限公司 CIO 孟長榮

孟長榮：各位同仁，各位大咖，大家下午好!首先很感謝范總提供這個交流的平臺，這幾年疫情確實大家線下交流的機會都越來越少了，所以說今年一開年我們就能夠相聚在一起，感謝D1net。

我的分享大概分成四個部分：

首先是基本的介紹;

第二是對非結構化數據管理的過往的經歷給大家進行交流;

前面的同事們都已經提到，我們現在進行這個數字化轉型過程中我們會用到非常多的系統，都已經很全面了。我們從研發信息化角度整個鏈路都打通了，但打通之后對關心數據很容易掌握，但是對于非結構化數據，特別是對于醫藥企業這個是管理，我自己分析下來都是其中一個難點，也是容易被忽略的點，當然可能有的企業做得很好，已經走在前面了。但是從數字化轉型角度來說，如果對我們自己基礎數據都還沒有達到一定的水平，我覺得這個是很難的。包括上午毛總也分享到，我們作為醫藥企業來說合規非常重要，從合規的角度來說，我們的數據不光是系統的數據，非系統的數據，包括我們管理的數據如何界定、管理?特別是統一的管理，給大家交流一下，分享一些過往的經歷。

首先做個簡單的自我介紹，我是IT老兵，但是做藥的時間比較短，15年開始進入醫藥行業，在海思科做了幾年，前兩年在海默尼，去年才來到衛信康，這幾個企業都是不同的醫藥行業，對醫藥研產銷整個環節都有所了解。

簡單介紹一下衛信康醫藥股份有限公司，衛信康醫藥股份有限公司成立于06年，17年在主板上市，但是估計在座的很多同事都沒有聽過，是一個非常小的公司。我們現在的企業規模也只有500、600人，營收就10幾個億的盤子，但是我們在品種上面，現在還是一家純仿制藥企業，在品種上面，在研發上面我們應該以前也是有自己的優勢或者是一些方法。

所以我們細分領域都主要定位在腸道營養和體內營養這一塊，整個品種有好幾個首防和單品，應該說在細分領域做得都還不錯。當然，因為整體屬于小品種，可能大家很難接觸到。

我們總部在北京，現在有三個研究院。總部在海淀，然后在昌平和上地都有自己的研究中心，我們的工廠在綠盟。這個工廠說出來大家應該就會覺得有意思，這個工廠叫內蒙古白醫制藥，前身是白求恩制藥廠，是14年收購的。

醫藥行業是一個非常特殊的行業，確實受政策的驅動影響非常大。這個片子給大家看一下，因為這個看起來我們醫藥行業特別是對于數據這一塊政策的關聯度要求非常多，就這個片子來說只收集到2020年，這兩年對于數據管理的要求在放緩，從藥監的角度來說在放緩，為什么放緩?因為大家這兩年都經歷疫情，對藥企要求越來越高，但醫藥行業整體的水平，橫向、縱向和其他行業進行比較，我們就可以感覺到，我們跟其他行業的差距還是非常大的。但是對于數據合規的要求又非常高，所以在這方面國家發布了非常多的制度，對數據有強制性的要求。

2018年《藥品數據管理規范》應該說是個很重要的分水嶺，但是這個已經發布了四年多，現在已經快五年，還是在試運行，還是在征求意見的階段，這個也是國家給大家的機會，還有一些時間來補課。因為在這個里面，藥品數據管理辦法里面對藥品全生命周期的數據管理都有很嚴苛的要求，特別這兩年疫情的影響，特別對于疫苗、生物制劑大的板塊，大家可能都有很強的感受。特別是前兩年長春生物的事件，對影響大家生命這一塊，國家現在確實是越來越嚴。包括異質性評價，我們現在國產藥安全性大家可以完全放心的去吃。

剛剛講到我們數字化轉型來說，我們已經邁入了大數據的時代，但是每個企業的狀況不一樣，特別是醫藥行業，我們整個醫藥行業技術水平確實有些弱。在座的都是同行，都是做IT或者跟IT相關的。我們自己的小數據，我們是O了嗎?都已經解決掉了嗎?

問大家一個很簡單的問題，各位的企業總共有多少數據，能夠一次性準確答出來的有多少?沒關系，大家可以試一下，能答出來的舉下手，我看一下，好像都沒有同事可以一次性把它答出來。因為現在我們更多關注的重點可能都在系統上去了，可能都在流程、轉型上面去了。但是我們自己有多少數據?實際這個是很基礎的，反倒很容易被忽略。

一個是我們數據有多少，還有我們的數據有多少是有價值，有真正在使用的?這也是值得大家思考的問題。

再一個醫藥行業是強監管的行業，我們這么多的數據到底哪些是已經受了保護了?哪些是按合規在保護?哪些還在補課的過程中?這個也是需要我們作為CIO或者是相關的領導需要關注的問題。

剛剛講到我們作為一個強監管的行業，對于數據的管理其實有非常多的要求。我們可能現在更多關注的都是在關系型數據，從流程角度這個數據肯定是通的。但是換一個角度，我們很多非結構化的數據，就以研發為例，整個研發過程中產生的一些非結構化的數據，我們如果要貫通，貫通之后再來進行分析也會有很大的價值，但是怎么來管?

首先這個數據非常雜，可能來自于設備、來自于文檔甚至于來自于外部數據都有可能。數據來自四面八方，非常雜，很難去管它。還有產生的速度非常快，無論是哪一方，特別是現在都在上智能化，如果上智能設備，智能設備產生的數據量非常大，這個增長超乎想象，一臺設備的數據量可能會跟以前整個系統的數據量一樣大。

除了大以外，很多數據還要求永久保留，怎么保留?而且現在使用成本越來越高，在保留過程中能不能把它進行一些成本的降低?我們現在這種規模的企業一年對于公有云的支出都達到百萬級，實際這個成本還是很高的，特別是進入集采之后，利潤非常低，而且這是長期的過程，又是不可逆的趨勢。

給大家分享一下以前在數據傳遞和數據擴展方面遇到的坑，如果大家已經使用了文件管理服務器的話，空間占滿是很正常的，因為它的擴展很難預測。滿了之后怎么辦?滿了之后我們肯定就要停，這個是以前服務器告警的典型案例。停了之后，我們為了服務的延續性，一定會發服務器停機的通知，當然我們一般來說都不會直接說服務器有故障，大家都流行用升級。但是對于老板來說，服務器為什么老升級?隔兩天就升級，特別是如果系統多了之后，這其實是很棘手的問題。維護好了之后，在維護的時候其實其他同事可能順便就摸魚去了。

再一個重中之重，數據合規這一塊。從銷售角度來說有一些外發的資料，特別是還沒有到公開的數據，我們可能對它的權限和效期都會有強制性的要求。但是對于一些比如宣傳的資料還有財務的資料，能夠快速的分享特別是宣傳的資料，文件可能很大，我們又想快速的分享，這實際是天然相悖的。再一個對于研發的資料，特別是對于研發設計包括化合物的設計，我們如果有版本的概念，可以快速定位。

還有一個研發完成之后整個資料的集中管理，比如像我們研究院是分開的，數據的集中如果一開始沒想好，后期難度也非常大。因為我們設備已經把它固定到了那個地方，通過驗證就開始上線了，上線之后你再挪個位置，改個IP可能都需要重新做個驗證，一涉及驗證說大一點可能就會影響停產，這是多數人都不能接受的，老板更不能接受。

最早這個是20年前的時候開始用域共享，感覺管起來不太方便，然后用SVN，再進入到SAMBR共享，它在文檔共享方面還是很強大的。然后到NAS，它可以解決地域性的問題。再到前幾年，前幾年非常火的網盤，再到近兩年的包括飛書也有綠色的工具就是V盤，在線的SaaS文檔，但這些工具都各有利弊，如果作為統一非結構化管理，特別對于藥企管理都存在相對的弊端，如果不是藥企無所謂，一旦是藥企，一旦和合規拉上關系，這個就都有風險。

我們站在從整個非結構化數據管理角度來看，我們把它分成六塊來規劃。首先是存儲，這個是大家最容易理解的。然后是聚合，聚合是指我本來數據量已經很大的情況下，我肯定會面向多元的存儲協議，包括多元的硬件。再一個是協作，協作也很好理解，現在很多工具包括剛才講的飛書也好，包括釘釘也好、企微都是相應的協作工具。

再一個是統一的數據體系，作為藥企上午毛總分享到的，我們勢必要進行分級管理，分級管理可能對于關系型數據很好做，但是對非關系型數據、對于結構化數據，我們也需要把它先做一個基礎的數據體系。然后是統一的管理，特別是作為集團化企業，研發、生產、銷售各個模塊甚至分支機構，如果不統一勢必會產生很多重復的甚至無效的。再一個是核心的安全體系。

剛剛講到整個規劃，規劃之后從落地角度來說，統一管理主要是管什么?

第一個是體系文件，這個應該說是基礎。然后是檢驗文件，包括研發的數據還有技術文件，還有生產數據。生產數據比較泛，包括設備數據，既然要建立平臺，應該就是剛剛講的一統六國，全部的數據只要是非結構化的數據都能夠入庫拿來管，這個地方管了之后有什么好處?

第一個是交叉引用，進入同一個池子，交叉引用非常高。還有快速的檢索，現在各個企業都缺一個知識庫，如果有統一的話，這個知識庫很完整。再一個是日志，從審計角度來說，日志是一個基礎。這個審計日志如果完整的話，合規自然就受控了，自然可以滿足合規的要求。

這個圖可能有點小，站在醫藥企業非結構化數據管理的四個階段來劃分。

第一步是基礎文檔的概念來管。把這塊管好之后，把研發文檔抽出來，研發文檔再獨立一個階段。研發O了之后，GRP研發要求跟生產還是有些差異，我們把大質量，整個質量體系的角度從藥品生產角度，全生命周期質量來管，如果這塊都O了之后，我們就可以真正形成知識管理平臺。知識管理平臺之后今年非常火的ChatGPT，大家都在玩，我們知識管理平臺形成之后，天然的馬上郭總會分享的ChatGPT的實踐，我們有了這個知識庫，有了知識管理的平臺后對于ChatGPT的建設應該會有很大的幫助。從我們具體系統部署來說，數據應用這些就不贅述了，這個都差不多，跟其他系統沒什么差異，都是一樣的。首先是要把整個統一掉，后面就都好辦了。

從具體落地實施角度來說，首先肯定是從集團文檔就是基礎文件的角度。這個基礎文件要分成兩塊：個人和設備的文件，可能管理的需求會低一些;另外一個是從團隊和項目文檔，特別是作為項目文檔，項目文檔的歸集，它這個地方復用度非常高，會有強制的要求。

集團文檔平臺。這個是以前項目的數據，可以看到兩年半時間數據差異的對比，從入駐半年的樣子大概是在24個T的樣子，然后到三年的時間接近200個T，當然這個數據量說起來不大，但是它的文件數也不少，最早大概在50多萬，然后到三年的時間大概是在6100多萬。這個是文件數，這個不是條目數，如果以這個來做衍生，它可以很輕松的就過億了。

第一步從集團文檔角度來說，就不能以單純的集團文檔管理角度，應該是整體思維，從藥品全生命周期的角度，統一文檔在建的時候就要考慮日志和審計的要求，我肯定不是所有的都需要做審計，但是我會滿足審計的要求。敏感的數據、合規的數據一定會納入監控的范圍，還有一個剛剛講的全文檢索，這個也是非常使用的，這一塊可能就會涉及到后臺hadoop，綠色大數據分析平臺。這一塊它只是其中一個點。因為知識的挖掘和積累本來就是一個過程，從大的角度來說，如果這個框架是以這個來定的，后面數據擴容，剛才講到服務器宕機或者升級這一塊可以完全避免掉。所有的系統今后對于非結構化數據的管理，實際絕對是O的。

第二步從研發平臺，第三步是統一的全面質量管理，大質量的角度。也是從整個藥物發現到臨床到生產到流通到藥物安全整個全過程。

最后是從醫藥企業的角度來說，大的GXP一體化的管理。這個地方我們可以真正形成至少從藥企的質量一體化，數字一體化還有智能制造一體化平臺的基礎。因為我把所有的數據，包括結構化、非結構化數據都采了，有了這些數據之后我們再來做相應的驗證也好，還是做我們的管理也好，就比較容易了。

這是比較老的圖，大家都非常熟悉。從計算機發展幾個大的階段來看，我們現在正在經歷的是第五個階段，就是人工智能認知的階段。包括我們數字化轉型，實際也是這個方向，但它這一塊有個很基礎的基礎的基礎就是文件的管理，就是非結構化數據的管理。

剛才講到結構化的數據，在我系統之間的關聯很容易，但是非結構化這一塊實際非常難，這個也是為什么ChatGPT那么火的原因。但是我們國內的企業包括走在前面的百度、阿里包括科大訊飛，他們跟國外特別是OpenAI還有兩個量級的差異，這也是很重要的點。

不是說這一塊實現就可以直接過度到，也不是，剛剛講了AI的過程也非常的遠。

我的交流就到這里，謝謝大家!

數字化轉型