與此同時,在政策、技術、需求等多重因素的推動下,以自動駕駛、智能客服、語音識別為代表的人工智能應用快速興起,AI已經成為全球科技巨頭的布局重點。如百度李彥宏公開表示:“百度公司將不再是互聯網公司,而是一家人工智能公司。”中國移動也高度重視人工智能,于2017年發布了“九天”人工智能平臺,努力將人工智能技術應用在網絡、市場、服務、安全、管理和衍生業務等多個領域。
那么,當數據治理遇上人工智能,將碰撞出怎樣的火花?
確保數據質量和安全是發展AI的前提
今天,企業對全面數據治理的需求從未如此強烈。監管機構希望企業能更加清晰地了解數據,對它進行有效的管控;企業管理層希望理清數據資產,降低數據應用的復雜性,對企業進行更高效的管理;企業員工也開始認識到數據的重要性,更多地采用數據驅動的方式來開展工作。數據治理正迅速發展成一種企業核心策略,只有做好數據治理,讓數據更加準確完整,并且安全合規,才能釋放出數據的無限潛能,挖掘出更多有價值的數據應用。
在人工智能技術的應用和實踐中,確保數據質量和數據安全是最基礎的底層保障。由于人工智能的落地應用效果會受到數據質量和安全的影響,更多的企業開始反思并轉而去推動數據質量和安全性提升,提供數據質量和安全評測工具,建立好的數據環境,再進行人工智能應用的同步研發。
大數據是人工智能技術研發、訓練的關鍵,是人工智能長期發展的重要保障。只有當人工智能系統能夠獲取更為準確、及時、一致的高質量數據,才能提供更有效、有用、精準性高的智能化服務。埃森哲在2018年4月發布的一份調研顯示,中國制造企業在運用人工智能技術時面臨一系列挑戰。其中,52%的受訪中國企業將數據質量列為突出挑戰,數據安全與網絡安全緊隨其后(47%)。在2017年4月的一次研討會上,圍繞人工智能話題, 華為任正非提出:“高質量的數據是人工智能的前提和基礎。”當前,不管是人工智能技術的研發,還是人工智能應用領域的發展,“數據質量”都是一個不可或缺、位于重中之重的要素。
人工智能發展的另一個重點保障就是數據安全,人工智能系統的基礎是大數據,要對外提供服務,就會涉及數據的安全保護,在這個過程中,一系列的數據安全防護手段是必不可少的,如數據脫敏管理,對敏感信息的風險評估、使用監控,對數據的泄露檢測,數據庫保密檢查等。人工智能需要海量的數據,人工智能技術的進步取決于各種來源數據的可用性,如何確保這些數據的安全性與保證用戶數據的隱私性是數據質量之外又一個重要問題。同時,通過對業務數據應用語義計算、數據挖掘、機器學習、知識圖譜、認知計算等人工智能技術,也可以促進企業數據安全保障體系完善。因此,數據安全和人工智能兩種技術起到了相互促進、相互完善的作用。
智能化數據治理悄然興起
經過多年的理論更新、技術演進和應用實踐,與前些年相比,如今的數據治理從概念到技術已經發生了很多變化。特別是隨著這一波人工智能浪潮的興起,數據治理技術和人工智能技術在一些方面也開始有了結合使用,應用了人工智能技術的新一代數據治理可以稱之為“智能化數據治理”。
在數據治理工作中,可以通過對大數據應用機器學習技術,進行數據挖掘和分析,從而識別哪些是用戶隱私性數據,哪些數據可能有異常,一旦數據特征被確認,打上標簽,未來再做數據管理時,就可以使用元數據管理的方法,對外提供服務。比如,當碰到涉及某特殊標記數據,就會有相應的流程啟動,或在相關的數據對外服務提供過程中,一旦數據涉及個人隱私,則一定要小心處理,以避免引起政策方面的風險。通過上述應用,可以增強大數據系統數據安全管理和元數據管理的能力。
另外,也可以在針對大數據開展數據質量核查過程中,配合傳統的根據預置質量核查規則進行核查的方式,僅針對少量核心核查規則,從大數據中選取訓練數據樣本,經過預處理,利用機器學習算法進行深度分析,提取公共特征和模型,可以用來確定數據質量原因,進行數據質量問題的預測,并進一步形成知識庫。這樣就可以進一步增強大數據系統數據質量管理的能力。
對于數據模型的管理,機器學習技術可用來分析數據庫中數據實體的引用熱度,通過聚類算法自動識別數據模型間的內在關系,還可以用于數據模型質量的檢測和評估。對于非結構化數據的管理,如文檔內容、圖像、音頻、視頻等,更是可以充分利用人工智能中的自然語言處理、圖像識別、語音識別、視頻處理等技術。
大數據治理+AI
大數據治理,顧名思義,即基于大數據的數據治理。大數據,一般指符合4V特征的數據,包括社交數據、機器數據等,大數據對傳統數據治理工作帶來很多的擴展。在政策和流程上,大數據治理應覆蓋大數據的獲取、處理、存儲、安全等環節;在數據生命周期管理各階段,如數據存儲、保留、歸檔、處置時,要考慮大數據保存時間與存儲空間的平衡;大數據量大,因此應識別對業務有關鍵影響的數據元素,檢查和保證數據質量;大數據還需要定義與其內容相關的元數據,需與傳統數據定義標準保持一致,術語字典應包含大數據的術語,需要為非結構化數據提供分類、語義支持,Hadoop、NoSQL數據庫的技術元數據也同樣需要納入元數據存儲庫管理;此外,在隱私方面,應考慮社交數據的隱私保護需求,制定相應政策,還要將大數據治理與企業內外部風險管控需求建立聯系。
在數字化時代,大數據治理應該如何與人工智能技術深度結合,人工智能技術在大數據治理領域又會有哪些應用?
數據安全管理
當前已經有許多行業信息安全解決方案都開始使用機器學習算法來識別潛在的系統攻擊,通過機器學習可以建立用于檢測異常情況的基線,一切不符合基線標準的異常情況都能及時得到預警和處理。
元數據管理
互聯網企業使用機器學習,分析用戶點擊過哪些鏈接,為用戶生成畫像,打上特定的標簽,來做商品、內容的推薦和優化用戶搜索結果。這些描述用戶消費行為、興趣偏好特征的元數據信息,已經成為互聯網企業得以生存發展的核心數據資產。
數據質量管理
在金融行業中,銀行信用卡發卡部門很早就開始利用機器學習技術,來識別不合規的申請人、虛假申請信息以及可能存在欺詐性的交易行為。此外,既然機器學習可以識別信息系統中的異常數據,那它也可以檢測工業制成品中的異常情況。企業可以通過將實體物品生產過程數字化,然后使用經過訓練的機器學習系統來識別不符合標準或規格的產品數據,挑出異常數據,從而部分替代人類檢測員的工作。
非結構化數據管理
近年來,利用機器學習的人臉識別系統能力一直在提高,已經大量應用在識別已知的犯罪分子,員工上班考勤以及識別公共場所中超出規范或違反法律的行為或活動。醫療行業則可以利用機器學習工具,通過對大量紙質和圖像病例資料的訓練學習,構建醫療知識庫,輔助專業醫護人員,診斷疾病并提出最有效的治療策略。
各類社交網站每天都在產生大量非結構化數據,企業可以利用機器學習技術來實時發現和識別潛在的問題,同時手寫識別、語音轉寫、自然語言處理技術也在不同場景中大量應用,可以提高人們識別、理解和處理非結構化數據的能力。
數據共享開放
企業可以充分利用人工智能技術,以信息化、自動化方式,共享和開放一部分數據或數據加工結果,對外提供服務,提升企業競爭力。最典型的就是現在各種客戶服務機器人,可以使用自然語言處理技術處理回答客戶提出的常見問題,并隨著時間的推移提高答案的質量。據悉,中國移動客戶服務系統中機器服務的比例已經超過10%。
另外一個常見的應用領域就是營銷推薦,在大多數商業環境中,將適合的產品投放給恰當的受眾對促進商業成功至關重要。機器學習系統可以使用企業收集的用戶數據,根據用戶過去的購物習慣預測可能喜歡的物品,再將預測結果數據向企業電商系統或銷售決策系統開放。Facebook前科學家Jeffrey Hammerbacher曾感嘆道: “我們這一代最聰明的大腦,沒有花多少精力思考如何利用人工智能改善人們的生活,而是思考怎么讓人們點擊更多廣告……”
數據資產分析
物聯網的大發展提供了許多潛在的機器學習使用場景,其中就包括預測性維護,企業可以使用歷史設備數據開展預測分析,推斷機器可能發生故障的時間,使其能夠在影響業務運行之前主動進行維修或安裝更換部件。對于物流企業來說,設置時間表和路線是一件復雜而費時的工作,機器學習系統可以通過對交通數據的分析和監控,幫助企業規劃貨物運輸路線及計劃,提出最有效和最具低成本高效益的方法。
另外,在金融市場交易中,每個交易者都希望在市場上找到低買高賣的模式,大的金融機構更是花費重金,使用人工智能技術針對金融交易數據做深度的分析挖掘,打造自己的量化交易系統,以期在變幻莫測的市場風云中更早一步識別潛在的風險和機會。
數據治理政策研究重要性凸顯
2018年5月,在中國國際大數據博覽會上,中國科學院院士梅宏在演講中表示,大數據治理體系建設是我們國家實施大數據戰略的重要保障,是發揮大數據作用、做大做強大數據產業的重要因素,也是關鍵基礎。當下,做人工智能的企業很多,人工智能的基礎就是大數據,數據首先要能標準化、共享、開放,如果數據標準不一致、質量不高,就很難做分析、建模,更談不上預測的準確性。開展數據治理能為企業提供一個高質量的數據工作環境,促進人工智能技術的研究和實踐。總之,數據治理是人工智能的基礎,想做人工智能,需要先把數據治理這個基礎打好。
對大型科技企業來說,面對日益激烈的競爭環境,企業亟須進行數字化轉型,一方面要做好數據治理;另一方面,數據治理政策也對人工智能發展發揮著重要的影響作用。
號稱歐盟“史上最嚴”的數據保護法規——《通用數據保護條例》(General Data Protection Regulation,GDPR)于2018年5月25日正式生效。GDPR適用地域范圍不僅限于歐盟境內,也適用于提供業務給歐盟境內個人的境外組織機構;同時,GDPR在全面加強個人信息保護,強調用戶知情權、訪問權和被遺忘權的同時,對相關組織機構提出更為嚴格的合規要求,違反者會被處以最高2000萬歐元或其全球營業額的4%的罰款。根據GDPR條例,個人消費者可以享有更多個人數據隱私權。同時, GDPR也會對國內互聯網及商業科技公司產生長遠的影響。可以斷定,GDPR必將對基于個人信息搜集和隱私驅動的國內互聯網產業的收入模式產生重大甚至可能是顛覆性的影響。
此外,我國的《信息安全技術個人信息安全規范》于2018年5月1日正式實施,目前已對我國科技公司產生了實質性的影響。過去這些年,我國大型科技企業在人工智能領域取得了突飛猛進的發展,這些企業通過使用消費者數據,提供了便捷的智能化服務,但在保護消費者數據隱私權方面卻做得不夠好。
未來,以歐盟為代表的個人數據隱私權監管機構,根據GDPR等數據保護法規,隨時可能對違規企業進行處罰。在這種環境下,開展數據治理,以及對數據治理的政策研究,將成為整個行業關注和推進的焦點。
隨著數字時代的到來,數據治理和人工智能研究的關系日漸緊密。近年來,一些互聯網企業在享受人工智能技術紅利的同時,存在數據認知不清、數據治理不當、用戶隱私數據使用不合規等問題,出現了不少負面事件。要防止大數據和人工智能的濫用和失控,應該在人工智能的源頭——大數據上建立科學的數據治理體系,包括數據的質量規范、制度政策、管理流程、職責定位和技術管控工具。數據治理體系是對商業價值和用戶隱私,以及企業長期利益和短期利益選擇的基礎,建立數據治理體系是一個長期的過程,對于大型科技企業而言,都應當在數據治理的規范和約束下應用大數據,挖掘數據資產價值,提供人工智能服務。
數據治理是人工智能的基礎,數據治理的目的是在業務價值驅動下提供高質量的大數據,而人工智能本身是大數據應用的一種商業模式,數據治理和人工智能就好比一枚硬幣的正反面一樣密不可分,兩者的有機結合才能驅動兩大行業的升級,助力我們邁入一個更加美好的數字化時代。