“大數據”的能夠帶給企業競爭優勢的誘人條件,包括可以使用其來解鎖客戶的機密,了解網站使用情況和業務的其他關鍵要素。但是,一切應以謹慎為準:如果沒有適當的數據管理過程,只是一味的熱情,大數據項目可能會帶來混亂的麻煩,包括虛假數據和意想不到的成本。
數據治理的作用便是為了保護大數據。雖然大數據通常涉及到大量非結構化信息,許多企業的IT部門發現大數據還僅僅只是最近的現象。因此,根據數據管理分析師表示,大數據的環境治理還處在其早期階段,關于如何有效地進行大數據的管理還存在諸多廣泛的方法。
“大數據是這樣一個新的領域,到目前為止還沒有人開發出相關的管理程序和政策。”Forrester研究公司的分析師BorisEvelson在馬薩諸塞州劍橋說。“而且存在的問題比答案要多得多。”
一個根本的問題是,大數據池更多的是面向數據的勘探和發現,而非傳統的商業智能報告和分析,Evelson補充說。他說,這帶來了一個惡性循環:“數據不能被管理直到其被模型化,但又必須在通過數據分析之后才能被模型化。”
數據管理程序提供了一個框架,用于設置數據使用政策和實施控制,以確保信息保持準確一致和可以被訪問。顯然,在這個重大挑戰的過程中,管理大數據需要分類、建模和數據映射,并進行數據捕獲和儲存,特別是針對大量非結構化特性的信息。
“為了從大數據中獲得有意義的商業信息,我們需要做各種各樣的準備工作,類似于數據的語義分析,然后將其渲染成概念模型或本體的語義分析。”位于新澤西州Holmdel的數據管理的顧問公司AskGet的總裁馬爾科姆·奇澤姆說。
在大數據中尋找線索
困難的是,大數據治理過程中的一切是那么的新。“在談到大數據時,存在著很大的不成熟,大部分數據管理者真的可以說是毫無頭緒。”奇澤姆說。
大數據,其中也包括大量的結構性交易數據,具有特殊的功能。通常用三個詞來定義:數量、種類和速度。而Forrester還在其定義中增加了變化性這一特性,而其對手咨詢公司Gartner則將這一特性定義為復雜性。
此外,數據往往來自外部來源,其準確性并不總是能很容易地驗證;同時,文本數據的含義和上下文不一定是連貫的。在許多情況下,它存儲在Hadoop的文件系統或NoSQL數據庫,而不是傳統的數據倉庫。對于許多企業來說,大數據涉及所有有關的人員:IT經理、程序員、數據架構師、數據建模師和數據管理專業人員。
美國馬薩諸塞州斯托雅典娜IT解決方案的創始人兼顧問里克·謝爾曼說,試圖管理海量大數據的最大隱患之一是失去的業務優先級的視線。
例如,被企業抓獲的大部分非結構化數據來自社會媒體,通常只有一小部分信息是有價值的,根據謝爾曼介紹。“試圖管理或控制一切非結構化數據,將是一個很大的錯誤。”他警告說,企業最終可能會浪費時間和資源在不重要的數據上面。
加利福尼亞州紐瓦克GraniteFalls咨詢公司總裁DanetteMcGilvray表示,如果沒有經過理性的處理,大數據對數據管理和治理團隊來說只可能是在消磨時間。“我們分辨大數據是否是值得管理的唯一途徑是:我們必須知道哪些業務需要這些數據。”McGilvray說。“當涉及到大數據,我們仍然必須記住這一點。”
位于美國佛羅里達州奧蘭多的數據治理研究有限責任公司,是一家咨詢和培訓公司,其創始人兼總裁格溫·托馬斯建議,傳入數據的質量判斷應該是數據管理經理的首要任務之一。她說,積極進行數據質量檢查,可以節省很多時間和減少很多麻煩。
托馬斯說,新數據映射到企業相關使用分類信息參考數據的重要性經常被低估。大數據與現有參考數據的對齊是“一個巨大的細節問題”她說。“事實上,如果這樣做的不對,大數據的處理結果信息可能會產生誤導,不準確或不完整的。”
為了幫助確保正確的數據映射,任務應該被分配到一個高級數據架構師,而不是留給一位不太有經驗的數據建模師或于IT無關的人員,托馬斯表示。
奇澤姆說,數據管理經理也應優先與那些經常啟動大數據裝置的程序員和數據模型企業用戶進行對話。不過,這樣的討論應該從Hadoop和NoSQL的技術升值、以及他們與關系數據庫有何不同、已經對需要一個統一的方法來管理的理解開始。
企業應該避免讓程序員和用戶從筒倉驅動的角度來建立大數據系統和所需的數據模型和映射工作。這可能會耗費很多的費用,造成設施不足,無法達到預期的商業利益,同時又浪費了不必要的系統投資。