精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

數據準備工具:分析策略的秘密武器

責任編輯:cres

作者:Thor Olavsrud

2019-11-27 10:03:01

來源:企業網D1Net

原創

數據準備經常被認為是在組織內利用數據的主要障礙,而為組織找到合適的工具可以取得突破。

數據準備經常被認為是在組織內利用數據的主要障礙,而為組織找到合適的工具可以取得突破。
 
要獲得數據分析的好處,首先必須做好數據準備。根據調研機構Gartner公司最近的研究,對于許多組織來說,這是一個很大的瓶頸,他們70%的時間都集中在數據準備工作上。
 
Gartner公司數據和分析團隊高級分析師、《Gartner公司數據準備工具市場指南》的主要作者Ehtisham Zaidi說:“尋找、訪問、清理、轉換數據,以及及時與合適的人共享數據,仍然是數據管理和分析中最耗時的障礙之一。”
 
Hitachi Vantara公司首席營銷官Jonathan Martin表示,對于希望通過分析來轉變業務的組織而言,主要問題不在于掌握人工智能,而在于掌握數據管道。
 
他說,“數據準備工作是最具挑戰性的工作。如何確定所有這些數據在哪里?可以建立一個投資組合嗎?是否可以設計管道以自動、托管和管理的方式將所有這些數據源連接在一起,從而使組織能夠在正確的時間將這些數據獲取到正確的位置、正確的人員、正確的機器?”
 
那么如何采用數據準備工具以解決這些問題?以及在為組織選擇數據準備工具時需要尋找哪些內容。以下是深入研究數據準備為何仍然是重大分析面臨的挑戰的原因,
 
數據準備面臨的挑戰
 
多種因素加劇了數據準備面臨的挑戰。
 
首先,支持分析計劃所需的數據源和數據類型的數量和復雜性呈指數級增長。通過組織內部和外部的分布式數據生態系統訪問這些數據源需要大量的時間、資源、技能和工具來完成。
 
IDC公司數據集成和完整性軟件服務研究總監Stewart Bond說,“這是當今時代數據環境具有的復雜性。因為存在多種不同的數據類型:交易數據、社交媒體數據、結構化數據、非結構化數據、日志文件數據、圖形數據。數據環境存在各種不同的數據,存儲這些數據的技術也各不相同。”
 
其次,對自助數據訪問和集成的請求數量使IT團隊不堪重負。Zaidi說,這表明從集中式IT模型到數據集成的功能不再有效。
 
他說:“IT部門需要通過易于用戶使用和理解的工具來配置數據訪問和集成,這是對數據準備的需求進一步上升的原因。”
 
第三,數據需求不斷變化,因為業務分析師、集成商、業務用戶、數據工程師和數據科學家對他們的項目都有不同的數據需求。
 
Zaidi說:“這使得一次準備數據并使不同的角色/消費者可以使用它們來滿足他們不斷變化的需求,”
 
下一代數據準備工具
 
他補充說,隨著數據準備工具的成熟,組織的痛點已經顯著改變。其痛點在于用來連接哪些數據源以及準備哪些數據。如今,組織將重點放在數據治理、沿襲、可追溯性和質量上。他們還面臨著確保具有必要技能的合適人員可以使用數據準備工具訪問正確數據的權限。
 
Bond將此歸結為“數據智能”問題,即有關數據的元數據。
 
他說,“人們需要了解數據的位置,數據的含義,誰在使用它,誰可以訪問它,為什么擁有數據,需要多長時間保存數據,以及如何使用它,這是一種智慧。”
 
值得慶幸的是,數據準備工具市場正在不斷發展,以包括解決這些問題的新功能。上一代工具僅限于支持業務用戶所需的最后一英里數據準備工作的簡單數據轉換要求。下一代工具現在具有與IT團隊共享發現和準備好的模型以進行操作的功能,以及諸如數據編錄之類的數據管理功能,使用戶能夠查看和搜索連接的數據資產。
 
Zaidi說:“某些工具現在還嵌入了高級數據質量功能,這些是上一代工具所沒有的。這些功能包括性能分析、標記、注釋、重復數據刪除、模糊邏輯匹配、鏈接和合并功能。這些功能使IT和數據管理團隊可以更輕松地提高質量并確保治理和協作。”
 
在這里,機器學習(ML)是關鍵?;跈C器學習的功能不僅可以在準備之前自動化數據的匹配、連接、配置文件、標記和注釋,而且某些工具可以突出顯示敏感屬性、異常和異常值,并與元數據管理和治理工具協作以防止敏感數據被暴露。
 
Zaidi解釋說:“這些機器學習增強的數據準備工具允許不同技能水平的用戶采用數據準備,同時確保治理和合規性。”
 
在數據準備工具中查找什么
 
當組織評估現代數據準備工具時,Zaidi說他們應該尋找關鍵功能:
 
•數據攝取和分析。尋找一個可視化環境,使用戶能夠交互式地接收、搜索、采樣和準備數據資產。
 
•數據編目和基本元數據管理。采用工具應該允許創建和搜索元數據。
 
•數據建模和轉換。工具應支持數據混搭和混合、數據清理、過濾以及用戶定義的計算,組和層次結構。
 
•數據安全。工具應包括安全性功能,例如數據屏蔽、平臺身份驗證以及用戶/組/角色級別的安全性篩選。
 
•基本數據質量和治理支持。數據準備工具應與支持數據治理/管理以及數據質量,用戶權限和數據沿襲功能的工具集成。
 
•數據豐富。工具應支持基本的數據豐富功能,包括實體提取和從集成數據中捕獲屬性。
 
•用戶協作和運營。這些工具應有助于共享查詢和數據集,包括發布、共享和推廣具有治理功能的模型,例如數據集用戶評分或官方水印。
 
此外,Zaidi還強調了以下與眾不同的功能:
 
•數據源訪問/連接。工具應具有基于API和基于標準的連接性,包括對云計算應用程序和數據源(例如流行的數據庫PaaS和云計算數據倉庫)的本地訪問、內部部署數據源,關系和非結構化數據以及非關系數據庫。
 
•機器學習。工具應支持使用機器學習人工智能來改善甚至自動化數據準備過程。
 
•混合和多云部署選項。數據準備工具需要支持在云平臺、內部部署或混合集成平臺設置中的部署。
 
•特定于域或垂直領域的產品或模板。工具應提供針對特定領域或垂直領域的數據和模型的打包模板或產品,以加快數據準備時間。
 
最后,Zaidi說,人們必須考慮的第一件事是,其組織是使用一個獨立的數據準備工具,還是與一個將數據準備嵌入到更廣泛的分析/商業智能、數據科學或數據集成工具中的供應商合作。如果有一個依賴于一系列分析/商業智能和數據科學工具的數據集成的通用用例,請考慮使用獨立工具。另一方面,如果只需要在特定平臺或生態系統的場景中準備數據,那么使用這些工具的嵌入式數據準備功能可能更有意義。
 
數據準備市場概況
 
Gartner公司將數據準備工具供應商分為四類,因為數據準備功能已嵌入所有數據管理和分析工具中,因此每一種都在不斷變化。
 
(1)獨立的數據準備工具。該領域的供應商專注于實現與下游流程的更緊密集成,例如API訪問以及對多個分析/商業智能、數據科學和數據集成工具的支持。該領域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供應商的產品。
 
(2)數據集成工具。這一類別的供應商歷來注重數據集成和管理。這包括來自供應商的產品,如Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData。
 
(3)現代分析和商業智能平臺。這些供應商專注于數據準備,將其作為端到端分析工作流的一部分。Zaidi說,由于數據準備對于現代分析和商業智能至關重要,因此該領域的所有供應商都在嵌入數據準備功能。此類別中的供應商包括Alteryx,Tableau、Cambridge Semantics、Infogix、Microsof、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software和TMMData。
 
(4)數據科學和機器學習平臺。Gartner公司分析師表示,這些供應商提供數據準備功能,作為端到端數據科學和機器學習流程的一部分。其代表廠商包括Altery、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP和SAS。
 
除了上述四大類別之外,Gartner公司分析師還發現了具有數據準備功能的新類別,其中包括以下平臺和具有代表性的供應商:
 
•數據管理/數據湖支持平臺:Informatica、Talend、Unifi和Zaloni
 
•數據工程平臺:Infoworks
 
•數據質量工具:Experian
 
•數據集成專家:Alooma、Nexla、StreamSet和Striim
 
6種關鍵數據準備工具
 
以下六個數據準備工具提供了有關當前可用功能的更詳細的描述。
 
(1)Alteryx Designer
 
這個獨立的數據準備工具也是Alteryx Analytics和數據科學平臺的一部分,這意味著它還作為更廣泛的現代分析和商業智能平臺中的功能以及更廣泛的數據科學和機器學習平臺中的功能而被嵌入。它提供了拖放工作流,無需SQL代碼即可分析、準備、混合數據。它是按年度訂閱的,并按指定用戶定價。
 
(2)Cambridge Semantics Anzo
 
Anzo是Cambridge Semantics的端到端數據發現和集成平臺,因此涵蓋了Gartner公司的所有四個類別。Anzo在現有數據基礎設施上應用了基于語義的基于圖形的數據結構層,以映射企業數據,公開數據集之間的連接,啟用可視化探索和發現,以及混合多個數據集。Anzo是通過訂閱提供的,其定價基于核心數量和用戶數量。
 
(3)Datameer Enterprise
 
Datameer Enterprise是一個數據準備和數據工程平臺,完全屬于Gartner公司的獨立類別。它著重于使用向導引導的集成過程將分散的原始數據源聚集在一起,以創建單個數據存儲。Datameer Enterprise提供了類似于電子表格的界面,可用于混合和視覺探索功能。根據計算能力或數據量向客戶收費。云計算客戶按小時或通過年度許可證收費。
 
(4)Infogix Data3Sixty Analyze
 
Infogix公司的Data3Sixty Analyze是基于Web的解決方案,源于Infogix收購Lavastorm。與Datameer一樣,它涵蓋Gartner公司的所有四個類別。Data3Sixty使用角色定義用戶。設計人員可以創建和編輯數據流,瀏覽器只能執行數據流,而計劃程序可以創建和修改計劃以進行自動處理。Infogix公司出售Data3Sixty既是基于訂閱的桌面產品,又是基于永久和訂閱提供的基于服務器的產品。
 
(5)Talend Data Preparation
 
Talend提供了三種數據準備工具:Talend Data Preparation(開源桌面版本)、Talend Data Preparation Cloud(作為Talend云平臺的一部分提供的商業版本)和Talend Data Preparation的另一版本(作為內部部署的Talend Data Fabric產品)。Talend Data Preparation是一個獨立的工具,而Talend Cloud和Talend Data Fabric是將數據準備集成為更廣泛的數據集成/數據管理工具中功能的示例。Talend使用機器學習算法進行標準化、清理、模式識別和對賬。開源版本是免費的。商業版本遵循基于命名用戶許可證的訂閱模型。
 
(6)Trifacta Wrangler
 
Trifacta Wrangle是一個獨立的數據準備平臺,提供各種版本以支持云計算和本地計算環境。它提供了嵌入式機器學習功能,用于推薦要與之連接的數據、推斷數據結構和模式、推薦連接、定義用戶訪問以及自動化可視化以實現探索/數據質量。Trifacta Wrangler提供免費版本、Wrangler Pro(根據計算容量和用戶數量收費)、Wrangler Enterprise(根據計算/處理規模和用戶數量收費,同時提供內部版本和云計算版本)和Trifacta公司的Google Cloud Dataprep(根據計算消耗收費)。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 武宁县| 望城县| 民县| 略阳县| 黑河市| 安庆市| 云阳县| 建平县| 思茅市| 兰溪市| 宜宾市| 城步| 昆山市| 贵港市| 渭南市| 乌恰县| 丰宁| 天水市| 淮安市| 运城市| 乌鲁木齐市| 马山县| 龙口市| 叶城县| 宣恩县| 武强县| 贡觉县| 安达市| 乡城县| 石楼县| 莱州市| 湖南省| 贵南县| 山阴县| 随州市| 山东省| 连云港市| 合阳县| 汤阴县| 安国市| 措美县|