如今的組織知道他們需要充分有效地利用所有的數據,這包括日益增長的通信數字化,以及從燈泡到智能手機的所有數據。他們也知道,必須捕獲各種各樣的數據,以便通過能夠訪問的方式存儲數據,并根據業務快速變化的需求查詢數據。他們也知道,他們無法忍受刻板的、預先安排好的模式。然而他們發現,這說起來容易做起來難。
那么是什么妨礙了他們實施?有很多事情,而組織必須克服的五大挑戰是為了充分利用其數據以及合作伙伴的數據和其他外部數據源。
(1)無法使用多種數據類型和格式。如今的數據有各種格式,規模和形式,必須實時處理和分析。這包括不適合傳統關系數據庫系統的行和列的數據。更重要的是,這些不同的形式和類型的數據需要無縫地一起使用。豐富的結構化數據,圖形數據,地理空間數據和非結構化數據可能都被視為單個查詢或事務。
(2)基于傳統系統的創新步伐緩慢。如今,技術和業務需求幾乎每天都在變化,組織需要進行創新,以保持競爭力和合規性。許多公司卻幾乎無法處理他們手頭上的數據,更不用說未來會發生什么,例如物聯網生成的數據。在創新方面進行投資時,他們常常感到沮喪,因為他們需要處理擁有組織的大量數據資產的傳統系統,這些系統將成為減緩其進展以及提高有效競爭能力的阻礙。
(3)企業數據倉庫的擴散。各種數據的快速增長和企業為客戶提供的服務數量的增長,在造成了企業中數據孤島的擴散。為了更好地服務于客戶、監管者和他們自己,企業需要對客戶、產品等業務對象創建360度的視圖。但是,創建這種整體景觀是一項艱巨而耗資巨大的任務。一直以來,企業正在建立更多的數據孤島。更糟糕的是,數據質量和這些觀點的治理常常是事后的結果,甚至會導致監管處罰。
(4)ETL和模式優先系統的使用。關系數據庫實際上是大多數組織中存儲數據的標準。一旦填充了關系模式,使用SQL進行查詢就很簡單。這聽起來不錯,但這是一個大問題,但是組織必須創建查詢將被發布的模式。整合所有現有的模式(可能是主機數據和文本內容)需要在業務部門,主題專家和實施者之間進行大量的時間和協調。然后,一旦模型被各利益相關者最終確定,必須將數據從源系統中提取,轉化為適合新的模式,然后加載到新的稱之為ETL過程(即數據抽取、轉換、裝載的過程)。這些過程不需要太長時間(平均6-18個月)。而且,它永遠不會結束。數據源發生變化。添加新的來源。提出了不同的問題。ETL一直在接受,而不是給予。
(5)背景缺失。也許當今組織最大的問題是認為他們知道他們不知道的東西。沒有背景的數據是無用的。這些數據意味著什么?它與其他數據有什么關系?數據的出處是什么?在什么情況下,可以和誰分享?在大多數情況下,這些問題的答案不會在數據庫中捕獲。它可能在開發人員的頭腦中,或者設計文檔中,或者ETL腳本里,或者更糟糕的是在所有的這些地方中,但不是一致的。傳統數據庫并不側重于存儲,管理和查詢元數據,而典型的ETL流程通常會將此信息丟棄在本地。放棄背景意味著放棄從數據中獲得的最大價值。
那么組織需要做什么呢?越來越多的組織轉向多模型數據庫。使用多模型數據庫,他們可以捕獲數據的背景并將其與數據進行存儲,從而提供最大的數據敏捷性和可審計性。并且在將來防范數據庫系統對任何新類型的數據,轉移數據范例或監管要求,不可避免地出現偏移。
考慮采用多模型數據庫平臺的公司應該尋求:
•多結構的本地存儲(結構感知)
•按原樣加載數據的能力(在加載數據之前不需要模式)
•能夠有效地對這些不同的模型進行索引
•能夠無縫地使用所有模型,并進行組合
•企業級安全性和可用性
當然,數據庫技術的轉變并不輕松,許多IT專業人員在整個職業生涯只專注一種或幾種技術。 但是,如果組織有時間確保他們能夠有效地收集,分析和利用他們掌握的數據的話,那么現在正是時候。