當前位置：大數據 → 業界動態 → 正文

數據目錄和機器學習市場的成熟

責任編輯：cres 作者：Ariella Brown |來源：企業網D1Net 2019-01-25 10:04:55 原創文章企業網D1Net

這是一個大數據的時代。我們被海量的信息所淹沒，而企業發現想要實現管理并從中提取價值已經變成了一個巨大的挑戰。

今天的大數據流不僅包括了巨大的容量、多樣性和速度，還極其復雜。正如SAS在《大數據的歷史和當下的熱點》一文中所指出的那樣，大數據流的多樣性“使得跨系統的連接、匹配、清理和數據轉換變得十分困難”。

找到有價值的見解不在于簡單地收集盡可能多的數據，而在于能夠找到正確的數據問題。而使用手工流程完成所有工作是不可能的。這就是為什么越來越多的企業開始“轉向數據目錄，以便實現數據訪問的民主化，使組織的數據和知識能夠得到管理，然后應用數據策略，并快速激活所有具有業務價值的數據”。

這就是數據目錄(有時也稱為信息目錄)的用途所在。正如這里所定義的，它們可用于授權“用戶探索所需的數據源并幫助其理解所探索的數據，同時幫助組織從當前的投資中實現更多的價值”。它實現這一目標的一種方法是，在能夠使用或貢獻數據的不同類型的用戶之間，允許更大程度地訪問數據。

信息經濟學勢在必行

在2017年底，數據目錄的需求急劇增長，Gartner將其稱為“一種新的潮流”。它被認為是一種快速、經濟的解決方案，可以“對組織中日益分散和無序的數據資產進行盤點和分類，并映射其信息供應鏈”。之所以需要這樣做，是因為“信息經濟學”的興起，它要求像管理其他商業資產一樣，對信息進行細致地跟蹤。

Gartner2018年第二季度的機器學習數據目錄報告：take jibes with The Forrester Wave顯示超過一半的調查參與者表示，他們已計劃建立自己的數據目錄。可能他們的動機主要在于他們中的每個組織都包括了至少七個數據湖。正如Gartner對數據目錄所解釋的那樣，數據目錄對于提取通常以非分類形式留在數據湖中的“數據的上下文、意義和價值”特別有用。

Forrester的報告稱，在2017年，超過三分之一的數據和分析決策者正在處理1000 TB或更多的數據，而前年這一數字僅為如今的10%至14%。管理如此規模的數據的確是一個日益嚴峻的挑戰，具體來說，特別是下面的兩項挑戰：

1)將現有業務流程合并到源數據中，以便分析和實現洞察力;2)隨著數據的增長，對其進行尋源、收集、管理和治理。

數據目錄可以為企業做什么

Gartner指出了數據目錄改善組織信息流和生產力的具體方式：

•整理和傳達組織可用的信息資產清單。

•創建通用業務術語表，定義組織數據的語義解釋和含義，從而提供中介和解決定義不一致的方法。

•支持動態和敏捷的協作環境，使業務和IT同事能夠評論、記錄和共享數據。

•通過沿襲和影響分析來提供數據使用的透明度。

•監控、審計和跟蹤數據，以支持信息治理流程。

•捕獲元數據以增強數據使用和重用的內部分析、查詢優化和數據認證。

•通過捕獲、溝通和分析數據的存在、來源、使用環境、需要它的原因、流程和系統之間的流動方式、誰對它負責、它的含義以及它的價值，并在業務的使用中對信息進行上下文的關聯。

Gartner的報告說，正確識別數據并讓組織中的關鍵人物能夠訪問這些數據是很重要的，這不僅是為了找到“將數據資產轉化為數字業務成果的貨幣化”方法，也是為了遵守相關法規，無論這些法規是行業內的--如健康保險可移植性和責任法案(HIPAA)或更一般的如通用數據保護法規(GDPR)。

加入機器學習

但是沒有什么是完美無缺的。對于數據目錄，問題在于手動構建它們以及需要放置的所有元數據的過程是緩慢而乏味的。這就是機器學習組件的用武之地。

Forrester所評估的數據目錄被稱為MLDC，因為它們利用了人工智能的部分組成之一--機器學習的力量。正如一個平臺數據博客所解釋的那樣，這使得“構建一個持久的元數據存儲庫，然后應用ML/AI來找出并公開潛在有用的底層數據資產見解”成為了可能。

如何選擇

為了幫助組織評估應該選擇哪一個企業的產品，Forrester對排名前12位的MLDC設置了29個評估點。它確定了這個市場的領導者為：IBM、Relito、Unifi Software、Alation和Collibra。表現最好的是Informatica、Oracle、Waterline Data、Infogix、Cambridge semantic和Cloudera。而Hortonworks在“競爭者”排名中表現突出。

然而，也不應該只看整體排名。這份報告確實列出了每一種方法的優缺點。因此，如果一個特定的特性，如研究和開發，對于一個組織來說非常重要，它可以認為Hortonworks與IBM和Colilbra的實力不相上下，因為這三家公司在這方面的得分最高，都是5分，比Alation和Coloudera高2分，比Cambridge Semantics高4分。

因此，Forrester報告也建議那些以其報告為指導的人不要想當然地認為排名第一的公司就是每個人的最佳選擇。他們應密切注意評估的細節，找出最符合自己要求的產品。

關鍵字：大數據機器學習