如今數據管理越來越受到企業重視,這直接導致了首席數據官職位的出現。
CAMBRIDGE, Mass---數據管理層面受到不同勢力的影響,進行數據革新的同時,還需要保證數據安全性和合規性,首席數據官的任務是在二者間找到平衡。
當我們在2016年MIT Chief Data Officer & Information Quality Symposium上遇到Joe Caserta,我們和他討論了一些與數據管理有關的話題。
Caserta是位于紐約的咨詢公司Caserta Concepts的創始人兼總裁,他認為實時數據處理,軟件開發和大數據分析是非常重要的。我們的討論也是圍繞這些技術,我們也不可避免的談到了首席數據官的工作。
新興的首席數據官職務,旨在平衡數據合規和分析創新,你認為面臨的主要挑戰是什么?
Joe Caserta:我看到了一些改變,企業越來越向數據分析靠攏。這不僅僅是單個部門的倡議,而是一個企業層面的戰略。如果你和首席數據官有過接觸,你就會發現,他們的工作通常是應對數據管理、數據安全性和合規性的問題。但這些問題由來已久。人們一直面對這些問題,也一直為其所困擾。
這個職位還要負責與分析相關的工作,這才是其存在的意義。這對與任何人來說都是個挑戰,因為它需要人們換個思維方式,與傳統數據管理任務有很大不同。我想說的是,當首席數據官獨立負責分析工作時,往往效果不佳。CDO需要有同事或下屬來分擔部分分析工作。
有時候,CDO的工作可以視為一個集進攻與防守為一體的任務,數據革新方面,CDO的任務是進攻,以實現更多的創新,而在數據合規性和安全性方面,他的工作卻是防守,防止數據違規和不安全的情況出現。
Caserta:這么說有一定的道理。我們試著引導人們,讓他們意識到,數據分析對于他們的業務發展有著十分重要的戰略性意義,通常我們發現,大多數IT部門所做的都只是防守。他們就像消防員和燈塔守衛,時刻防止意外發生。如果是這樣,那企業將很難取得進步。正如人們常說的那樣,如果你一直忙于滅火,那么你就沒有時間去思考如何預防火災。
不過,CDO這個職位越來越受到企業青睞,因為如果企業想要在數據上有所作為,那它就需要這么一個人舉起數據革新的大旗。
如果企業將投資用在一個單獨的角色或一個單獨的部門中,純粹的為數據服務,而不是將投資分撒在應用程序,開發、支持和基礎設施上,那我認為其成功的幾率會變得更大。
還有一個流行趨勢,DevOps,目前也具有很大影響力。這個趨勢是如何形成的呢?
Caserta:我們也許忘了,在大數據和分析成為了企業戰略的中流砥柱前,商店會把事務系統中所有的數據提取出來,建立數據倉庫,進行數據清理,完成一些報表,也許,如果你做的不錯,那你的數據將會被完美的復制,你可以將它們發送回你的應用程序。這就是我們所謂的閉環。數據倉庫的意義在此得到了完美體現。
但IT和應用程序的開發有著各自的迭代周期,數據倉庫同樣也有其迭代周期。但這兩個周期并沒有什么直接關系,他們之間不必考慮彼此的周期是否對自己產生影響。
現在,大數據平臺已經成為一些應用程序的后端,尤其是分析推薦引擎和購買傾向預估一類應用程序更是離不開大數據平臺。現在應用程序和大數據平臺開始交織在一起。DevOps已經成為強制性的。不再像過去那樣是可選的。
數據質量的多重標準是一個挑戰,對么?
Caserta:數據質量的困局是你必須面對的。在數據可用之前,必須讓數據盡可能的完美,這影響了數據分析的完成速度。這讓“Corporate America”感到十分壓抑。
這需要做出改變。我認為人們應該意識到:公司向華爾街提交審計報告的合規性與數據發現和數據探索時的合規性有著很大的區別。
我們必須開始考慮相關的用例,以及如何完成合適的數據管理。這是十分重要的。我們曾嘗試對醫生的筆記做自然語言處理,預測患者是否具有自殺傾向,以阻止患者輕生。但我們最終沒有做到這一點,因為企業的數據管理員表示,我們不被允許使用這些數據。
我們需要改變數據的管理思維,讓數據能夠在更多層面得到使用許可。
開個玩笑吧,我一直都想建立一個委員會來給實時一個明確定義。我曾聽到你說,這樣的定義不存在。
Caserta:當然。實時的定義取決于你的看法和你的經歷。我們來看下Facebook所謂的實時。當你發布一條評論到某人的Facebook主頁上,他們并不是在同一時間就收到的。可能在幾分鐘之后收到。這并不完美。
然而,實時和批量之間有著重要的區別。如果你正在做批處理,那它執行的是一個過程,然后結束。你可以連續運行,即使看似實時,但它仍然是批處理。
對于那些確定已經發生的事,我們不應該試圖掩蓋。我指的是,交易平臺和分析平臺之間的界線已經變得非常模糊。如今大多數情況下,預測分析仍然是由批處理完成的,確實是這樣。但這些分析結果,取決于你的客戶所瀏覽的頁面,他們正在查看什么產品或產品類別,或與其類似的人在做什么,這都需要實時處理。技術正在發生變化,分析和操作平臺之間的耦合度變得越來越高。