越來越多的保險公司開始對大數據技術和非結構化數據環境進行投資,但是這些項目依然還處于“創新”的范疇,這意味著這些項目的投資回報率還無法確定。即使保險公司的高管們心中并沒有一個明確的目標或者詳實的應用案例,他們依然對大數據技術的前景感到非常樂觀,認為時間將會證明該技術的價值。但是,所有大規模技術創新,都需要資本市場的支持才能進入健康的發展周期,因此,切實有效的落地實踐宜早不宜遲。
所有大數據技術的目標,都是消化處理結構化和非結構化的數據,生成新的數據環境類型。實際上,大多數保險公司都是在利用大數據技術消化他們核心系統中的結構化數據。“消化數據”的概念其實并不簡單,關系型數據庫中復雜的數據映射技術在大數據中依然必不可少。保險公司如果想讓以創新為焦點的大數據計劃成長為公司內部長久有價值的基礎設施,必須經歷以下三個階段。
第一階段:數據存儲
數據消化的第一級其實就是扁平化的數據存儲。這意味著所有的數據——不管是非結構化的文件還是關系數據庫中的冗余檔案——都要被遷移到一個輕微調整甚至沒有調整過的非結構化數據環境中去。如果大數據系統已經就位,以上步驟可以快速完成,特別是數據集較少的時候。但是,這一階段,除了分布式存儲數據,大數據技術并沒有提供太多的價值。
一些擁有海量數據(603138,診股)的組織和企業,他們的數據存檔成本很高。通過利用分布式系統的基礎架構Hadoop,這些組織可以大幅度降低數據存檔成本。不過分布式存儲并不是保險業目前最關心的,因為保險公司同時還在嘗試物聯網、車聯網、無人機以及其他會產生大量數據的技術。但是,分布式存儲的解決方案還是讓保險公司在懂得如何充分利用數據前,有了一個可以收集和存儲所有數據的方法。
第二階段:數據庫重塑
大數據系統的第二級,是數據庫的交叉覆蓋結構。它允許保險公司從不同的數據集中選取和使用特定數據。這實際上重塑了傳統的企業數據庫,至少對于終端用戶的體驗來說是這樣的。
使用非結構化數據環境的一個優點是存儲于該環境中的數據無需全部標準化。很多企業數據庫項目失敗或者超預算,就是因為構建一個標準化的數據模型實在是太復雜了,保險公司需要將所有系統和所有業務的數據都納入建模方案中去。
但是,這并不是說數據標準化就沒用了。在某些場景下,通過標準化數據,可以提高數據處理的效率。比如當保險公司需要處理兩個來源的數據集時,如果這兩個數據集中都有和“客戶”標簽相關的信息,某種形式的標準化數據模型可以在一個框架下對這兩個數據集進行分析。不過和關系數據庫不同,這種模型可以在數據獲取后再進行定義,而且定義可以只用幾個關鍵的因素。所以本質上說,在非結構化數據環境中,標準化步驟只是被推遲和精簡了。
第三階段:新的觀點和能力
大數據系統的第三級,是將新的數據類型和可視化數據覆蓋到非結構化數據環境,從而獲取新的信息和觀點,這些信息和觀點是無法用傳統數據庫技術發掘的。比如說,保險公司建立一個新的數據模型,用復雜的非結構化數據(如車聯網相關的數據報告或者無人機獲取的圖像信息等)覆蓋到保險公司的理賠數據上,有可能發現潛在的新風險。
此外,因為在傳統數據庫中,大量的因子都是被初始標準模型所預設的,由此生成的數據報告會不夠全面。大數據系統再加上可視化技術,可以對大量的數據集進行掃描檢查,從而能夠識別出所有的異常數據和因子。
價值證明,越早越好
非結構化數據環境的最大優點和價值之一在于,保險公司無需在部署該技術的早期階段就將自己所有的歷史數據都遷移到新系統,他們可以循序漸進,在項目成熟后再完成數據的完整遷移。
在傳統的企業數據庫中,初期建模時如果忽略了一些數據和因素,可能會導致后期系統運作的失效,甚至會產生嚴重后果。所以該類型數據庫的容錯率較低。
而在非結構化數據環境中,則不會這樣。這意味著保險公司在利用Hadoop或者其他分布式存儲數據庫時,可以先利用一些數據源進行試驗,積累經驗和專業知識,基礎打好后,再不斷地加入和覆蓋新的數據到該環境中。
事實上,不管是創業公司為了獲得持續的融資來開發大數據技術,還是傳統保險公司為了獲得足額的預算來進行大數據部署,開發團隊應該盡快達到上述的第三階段。這樣不僅能讓商業用戶盡早的驗證模式的可行性和數據的可靠性,還能在實踐中不斷發掘大數據技術新的價值。