精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:CIO技術探討 → 正文

如何選擇數據分析平臺

責任編輯:cres 作者:Isaac Sacolick |來源:企業網D1Net  2020-07-21 10:00:27 原創文章 企業網D1Net

本文是一份對數據分析的生命周期、不斷擴展的工具和技術組合,以及如何根據你的需要選擇一個正確的數據平臺的簡要指南。
 
無論你是在軟件開發、devops、系統、云計算、測試自動化、站點可靠性、領導scrum團隊、信息安全或是其他的信息技術領域負有責任,你都會有越來越多的機會和需求來與數據、分析和機器學習打交道。
 
你對數據分析的接觸可能來自于IT數據,例如從敏捷、devops或網站指標中所開發的度量和見解。要學習有關數據、分析和機器學習的基本技能和工具,最好的方法就是將它們應用到你所知道的數據中,并從中挖掘出見解來推動行動。
 
一旦你脫離了IT數據的世界,來向數據科學家團隊、公民數據科學家和其他執行數據可視化、分析和機器學習的業務分析師提供服務,事情就變得有點復雜了。
 
首先,你必須加載和清理數據。然后,根據數據的數量、種類和速度,你可能會遇到多個后端數據庫和云數據技術。最后,在過去的幾年中,商業智能和數據可視化工具之間的選擇也已經膨脹成了一個全生命周期分析和機器學習平臺的復雜矩陣。
 
分析和機器學習的重要性增加了IT在多個領域的責任。例如:
 
•IT經常會提供圍繞所有數據集成、后端數據庫和分析平臺的服務。
 
•Devops團隊經常會部署和擴展數據基礎設施,以便在機器學習模型上進行實驗,然后支持生產數據的處理。
 
•網絡運營團隊會在SaaS分析工具、多云和數據中心之間建立安全連接。
 
•IT服務管理團隊需要響應數據和分析服務的請求和事件。
 
•Infosec監督數據安全治理和實施。
 
•開發者將分析和機器學習模型集成到應用程序中。
 
考慮到分析、云數據平臺和機器學習能力的爆炸式增長,這里有一個入門課程,可以幫助你更好地了解分析的生命周期,從數據集成和清理到數據運營,再到數據庫、數據平臺和分析產品本身。
 
從數據集成和數據清理開始的數據分析
 
在分析師、公民數據科學家或數據科學團隊能夠執行分析之前,他們必須能夠在其數據可視化和分析平臺中訪問所需的數據源。
 
首先,你可能需要集成來自多個企業系統的數據,從SaaS應用程序提取數據,或者從物聯網傳感器和其他實時數據源中提取流數據。
 
這些都是為分析和機器學習收集、加載和集成數據的所有步驟。而根據數據和數據質量問題的復雜性,還將有機會參與數據操作、數據編目、主數據管理和其他的數據治理計劃。
 
我們都知道這樣的一句話:“輸入的是垃圾,輸出的也會是垃圾”。分析師必須關注他們的數據質量,數據科學家也必須關注他們機器學習模型中的偏差。此外,集成新數據的及時性對于希望變得更加實時的數據驅動的業務來說也是至關重要的。基于這些原因,加載和處理數據的管道在分析和機器學習中會變得非常重要。
 
可應對各種數據管理挑戰的數據庫和數據平臺
 
加載和處理數據是必要的第一步,但是在選擇最佳數據庫時,事情會變得更加復雜。今天的選擇已經包括了企業數據倉庫、數據湖、大數據處理平臺以及專門的NoSQL、圖、鍵值、文檔和柱狀數據庫。為了支持大規模的數據倉庫和分析,會有像Snowflake, Redshift, BigQuery, Vertica和Greenplum這樣的平臺。最后則是大數據平臺,包括Spark和Hadoop。
 
大型企業很可能擁有多個數據存儲庫,并使用了云數據平臺,如Cloudera數據平臺或MapR數據平臺,或是InfoWorks DataFoundy等數據編排平臺,以便使所有的這些存儲庫都可用于分析。
 
包括AWS、GCP和Azure在內的主要公共云都有需要篩選的數據管理平臺和服務。例如,Azure Synapse Analytics是微軟在云端的SQL數據倉庫,而Azure Cosmos DB則是提供了許多NoSQL數據存儲的接口,包括Cassandra(柱狀數據)、MongoDB(鍵值和文檔數據)和Gremlin(圖形數據)。
 
數據湖是用來集中非結構化數據以進行快速分析的流行加載平臺,人們可以從Azure數據湖、Amazon S3或Google云存儲中挑選數據來實現這一目的。在處理大數據方面,AWS、GCP和Azure clouds中也都有Spark和Hadoop產品。
 
分析平臺的目標是機器學習和協作
 
隨著數據的加載、清理和存儲,數據科學家和分析師便可以開始執行分析和機器學習了。根據分析的類型、執行工作的分析團隊的技能和底層數據的結構,組織會有許多不同的選擇。
 
分析可以在自助式數據可視化工具(如Tableau和Microsoft Power BI)中執行。這兩種工具都以公民數據科學家為目標,并公開了可視化、計算和基本分析。這些工具支持基本的數據集成和數據重組,但更復雜的數據爭論經常會發生在分析步驟之前。Tableau Data Prep和Azure Data Factory是幫助集成和轉換數據的輔助工具。
 
除了數據集成和準備之外,想要自動化的分析團隊則可以考慮像Alteryx Analytics Process Automation這樣的平臺。這個端到端的協作平臺能夠將開發人員、分析師、公民數據科學家和數據科學家與工作流自動化和自助數據處理、分析和機器學習處理能力連接起來。
 
Alteryx公司的首席分析和數據官Alan Jacobson解釋說:“分析流程自動化(APA)作為一個類別的出現,突顯了一個組織中的每一個員工都是數據工作者的新期望。IT開發人員也不例外,Alteryx APA平臺的可擴展性對這些知識工作者將尤為有用。”
 
也有一些針對數據科學家的工具和平臺,旨在使他們在使用Python和R等技術時能夠更有效率,同時還可以簡化許多操作和基礎設施步驟。例如,Databricks是一個數據科學操作平臺,它支持將算法部署到Apache Spark和TensorFlow當中,同時在AWS或Azure云上自動管理計算集群。
 
現在,一些像SAS Viya這樣的平臺能夠將數據準備、分析、預測、機器學習、文本分析和機器學習模型管理結合到一個單一的modelops平臺上。SAS也正在實施數據分析,并以實現一個端到端的協作平臺為目標,將面向數據科學家、業務分析師、開發人員和高管。
 
SAS的決策管理研究和開發總監David Duling說:“我們認為modelops是一種創建可重復的、可審核的操作管道的實踐,可用于將所有的分析部署到操作系統當中,包括AI和ML模型。作為modelops的一部分,我們已經可以使用現代的devops實踐來進行代碼管理、測試和監控了。這將有助于提高模型部署的頻率和可靠性,從而提高建立在這些模型上的業務流程的靈活性。”
 
Dataiku是另一個致力于為不斷壯大的數據科學團隊及其合作者提供數據準備、分析和機器學習的平臺。Dataiku有一個可視化的編程模型來支持協作和為高級SQL和Python開發人員編寫代碼記錄。
 
來自領先的企業軟件供應商的其他一些分析和機器學習平臺也希望為數據中心和云數據源帶來分析能力。例如,Oracle Analytics Cloud和SAP Analytics Cloud都旨在集中智能和自動化洞察,以實現端到端的決策。
 
選擇數據分析平臺
 
在大數據、機器學習和數據治理興起之前,選擇一個數據集成、倉儲和分析工具通常是更為直接的選擇。而今天,隨著術語、平臺功能、操作需求、治理需求以及目標用戶角色的混合,使得選擇平臺變復雜了,特別是在許多供應商都支持多種使用范式的情況下。
 
企業在分析需求和目標方面通常會有所不同,但都應該從已有的優勢出發來尋找一個新的平臺。例如:
 
•在公民數據科學項目上取得成功的公司,以及已經擁有數據可視化工具的公司,可能會希望通過分析流程自動化或數據準備技術來擴展該項目。
 
•想要一個工具鏈,來讓數據科學家能夠在不同的業務部門工作的企業可以考慮使用具有modelops功能的端到端分析平臺。
 
•擁有多個不同后端數據平臺的組織可以從云數據平臺中獲益,以便對其進行編目和集中管理。
 
•想要在單一公共云供應商上標準化所有或大部分數據能力的公司應該研究可以提供數據集成、數據管理和數據分析的平臺。
 
隨著分析和機器學習開始成為重要的核心能力,技術人員們都應考慮加深對可用平臺及其能力的理解。因為分析平臺的力量和價值會不斷增加,它們在整個企業的影響力也會不斷增加。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:CIO數據分析

原創文章 企業網D1Net

x 如何選擇數據分析平臺 掃一掃
分享本文到朋友圈
當前位置:CIO技術探討 → 正文

如何選擇數據分析平臺

責任編輯:cres 作者:Isaac Sacolick |來源:企業網D1Net  2020-07-21 10:00:27 原創文章 企業網D1Net

本文是一份對數據分析的生命周期、不斷擴展的工具和技術組合,以及如何根據你的需要選擇一個正確的數據平臺的簡要指南。
 
無論你是在軟件開發、devops、系統、云計算、測試自動化、站點可靠性、領導scrum團隊、信息安全或是其他的信息技術領域負有責任,你都會有越來越多的機會和需求來與數據、分析和機器學習打交道。
 
你對數據分析的接觸可能來自于IT數據,例如從敏捷、devops或網站指標中所開發的度量和見解。要學習有關數據、分析和機器學習的基本技能和工具,最好的方法就是將它們應用到你所知道的數據中,并從中挖掘出見解來推動行動。
 
一旦你脫離了IT數據的世界,來向數據科學家團隊、公民數據科學家和其他執行數據可視化、分析和機器學習的業務分析師提供服務,事情就變得有點復雜了。
 
首先,你必須加載和清理數據。然后,根據數據的數量、種類和速度,你可能會遇到多個后端數據庫和云數據技術。最后,在過去的幾年中,商業智能和數據可視化工具之間的選擇也已經膨脹成了一個全生命周期分析和機器學習平臺的復雜矩陣。
 
分析和機器學習的重要性增加了IT在多個領域的責任。例如:
 
•IT經常會提供圍繞所有數據集成、后端數據庫和分析平臺的服務。
 
•Devops團隊經常會部署和擴展數據基礎設施,以便在機器學習模型上進行實驗,然后支持生產數據的處理。
 
•網絡運營團隊會在SaaS分析工具、多云和數據中心之間建立安全連接。
 
•IT服務管理團隊需要響應數據和分析服務的請求和事件。
 
•Infosec監督數據安全治理和實施。
 
•開發者將分析和機器學習模型集成到應用程序中。
 
考慮到分析、云數據平臺和機器學習能力的爆炸式增長,這里有一個入門課程,可以幫助你更好地了解分析的生命周期,從數據集成和清理到數據運營,再到數據庫、數據平臺和分析產品本身。
 
從數據集成和數據清理開始的數據分析
 
在分析師、公民數據科學家或數據科學團隊能夠執行分析之前,他們必須能夠在其數據可視化和分析平臺中訪問所需的數據源。
 
首先,你可能需要集成來自多個企業系統的數據,從SaaS應用程序提取數據,或者從物聯網傳感器和其他實時數據源中提取流數據。
 
這些都是為分析和機器學習收集、加載和集成數據的所有步驟。而根據數據和數據質量問題的復雜性,還將有機會參與數據操作、數據編目、主數據管理和其他的數據治理計劃。
 
我們都知道這樣的一句話:“輸入的是垃圾,輸出的也會是垃圾”。分析師必須關注他們的數據質量,數據科學家也必須關注他們機器學習模型中的偏差。此外,集成新數據的及時性對于希望變得更加實時的數據驅動的業務來說也是至關重要的。基于這些原因,加載和處理數據的管道在分析和機器學習中會變得非常重要。
 
可應對各種數據管理挑戰的數據庫和數據平臺
 
加載和處理數據是必要的第一步,但是在選擇最佳數據庫時,事情會變得更加復雜。今天的選擇已經包括了企業數據倉庫、數據湖、大數據處理平臺以及專門的NoSQL、圖、鍵值、文檔和柱狀數據庫。為了支持大規模的數據倉庫和分析,會有像Snowflake, Redshift, BigQuery, Vertica和Greenplum這樣的平臺。最后則是大數據平臺,包括Spark和Hadoop。
 
大型企業很可能擁有多個數據存儲庫,并使用了云數據平臺,如Cloudera數據平臺或MapR數據平臺,或是InfoWorks DataFoundy等數據編排平臺,以便使所有的這些存儲庫都可用于分析。
 
包括AWS、GCP和Azure在內的主要公共云都有需要篩選的數據管理平臺和服務。例如,Azure Synapse Analytics是微軟在云端的SQL數據倉庫,而Azure Cosmos DB則是提供了許多NoSQL數據存儲的接口,包括Cassandra(柱狀數據)、MongoDB(鍵值和文檔數據)和Gremlin(圖形數據)。
 
數據湖是用來集中非結構化數據以進行快速分析的流行加載平臺,人們可以從Azure數據湖、Amazon S3或Google云存儲中挑選數據來實現這一目的。在處理大數據方面,AWS、GCP和Azure clouds中也都有Spark和Hadoop產品。
 
分析平臺的目標是機器學習和協作
 
隨著數據的加載、清理和存儲,數據科學家和分析師便可以開始執行分析和機器學習了。根據分析的類型、執行工作的分析團隊的技能和底層數據的結構,組織會有許多不同的選擇。
 
分析可以在自助式數據可視化工具(如Tableau和Microsoft Power BI)中執行。這兩種工具都以公民數據科學家為目標,并公開了可視化、計算和基本分析。這些工具支持基本的數據集成和數據重組,但更復雜的數據爭論經常會發生在分析步驟之前。Tableau Data Prep和Azure Data Factory是幫助集成和轉換數據的輔助工具。
 
除了數據集成和準備之外,想要自動化的分析團隊則可以考慮像Alteryx Analytics Process Automation這樣的平臺。這個端到端的協作平臺能夠將開發人員、分析師、公民數據科學家和數據科學家與工作流自動化和自助數據處理、分析和機器學習處理能力連接起來。
 
Alteryx公司的首席分析和數據官Alan Jacobson解釋說:“分析流程自動化(APA)作為一個類別的出現,突顯了一個組織中的每一個員工都是數據工作者的新期望。IT開發人員也不例外,Alteryx APA平臺的可擴展性對這些知識工作者將尤為有用。”
 
也有一些針對數據科學家的工具和平臺,旨在使他們在使用Python和R等技術時能夠更有效率,同時還可以簡化許多操作和基礎設施步驟。例如,Databricks是一個數據科學操作平臺,它支持將算法部署到Apache Spark和TensorFlow當中,同時在AWS或Azure云上自動管理計算集群。
 
現在,一些像SAS Viya這樣的平臺能夠將數據準備、分析、預測、機器學習、文本分析和機器學習模型管理結合到一個單一的modelops平臺上。SAS也正在實施數據分析,并以實現一個端到端的協作平臺為目標,將面向數據科學家、業務分析師、開發人員和高管。
 
SAS的決策管理研究和開發總監David Duling說:“我們認為modelops是一種創建可重復的、可審核的操作管道的實踐,可用于將所有的分析部署到操作系統當中,包括AI和ML模型。作為modelops的一部分,我們已經可以使用現代的devops實踐來進行代碼管理、測試和監控了。這將有助于提高模型部署的頻率和可靠性,從而提高建立在這些模型上的業務流程的靈活性。”
 
Dataiku是另一個致力于為不斷壯大的數據科學團隊及其合作者提供數據準備、分析和機器學習的平臺。Dataiku有一個可視化的編程模型來支持協作和為高級SQL和Python開發人員編寫代碼記錄。
 
來自領先的企業軟件供應商的其他一些分析和機器學習平臺也希望為數據中心和云數據源帶來分析能力。例如,Oracle Analytics Cloud和SAP Analytics Cloud都旨在集中智能和自動化洞察,以實現端到端的決策。
 
選擇數據分析平臺
 
在大數據、機器學習和數據治理興起之前,選擇一個數據集成、倉儲和分析工具通常是更為直接的選擇。而今天,隨著術語、平臺功能、操作需求、治理需求以及目標用戶角色的混合,使得選擇平臺變復雜了,特別是在許多供應商都支持多種使用范式的情況下。
 
企業在分析需求和目標方面通常會有所不同,但都應該從已有的優勢出發來尋找一個新的平臺。例如:
 
•在公民數據科學項目上取得成功的公司,以及已經擁有數據可視化工具的公司,可能會希望通過分析流程自動化或數據準備技術來擴展該項目。
 
•想要一個工具鏈,來讓數據科學家能夠在不同的業務部門工作的企業可以考慮使用具有modelops功能的端到端分析平臺。
 
•擁有多個不同后端數據平臺的組織可以從云數據平臺中獲益,以便對其進行編目和集中管理。
 
•想要在單一公共云供應商上標準化所有或大部分數據能力的公司應該研究可以提供數據集成、數據管理和數據分析的平臺。
 
隨著分析和機器學習開始成為重要的核心能力,技術人員們都應考慮加深對可用平臺及其能力的理解。因為分析平臺的力量和價值會不斷增加,它們在整個企業的影響力也會不斷增加。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:CIO數據分析

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 庆安县| 静海县| 赤峰市| 博白县| 东城区| 凤阳县| 黎平县| 石棉县| 林州市| 汝阳县| 来凤县| 长乐市| 苏州市| 称多县| 剑川县| 灵璧县| 安徽省| 会宁县| 易门县| 项城市| 安泽县| 聊城市| 丁青县| 兴安盟| 岳西县| 民权县| 修武县| 光山县| 太和县| 绩溪县| 乌兰浩特市| 普格县| 东乌| 沙湾县| 安多县| 威远县| 呼玛县| 开远市| 文安县| 安徽省| 保康县|