精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

如何避免大數據分析故障

責任編輯:jackye

作者:CC編譯

2017-08-24 10:00:08

摘自:機房360

摘要:遵循以下六種最佳做法來對抗競爭,創造新的收入來源,才能夠更好地為客戶服務 6 將數據管理和質量作為首要任務,確保良好的數據管理和質量應該成為所有大數據分析項目的標志——否則失敗的可能性就會大得多。

遵循以下六種最佳做法來對抗競爭,創造新的收入來源,才能夠更好地為客戶服務

  重大內幕:

大數據分析項目能夠是幫企業積極、主動的改變競爭規則,讓企業、組織更具洞察力,幫助企業、組織能夠對抗競爭對手,創造新的收入來源,更好地服務于客戶。

大數據分析項目也可能導致項目的失敗,企業、組織投入大量的資金、時間(被浪費掉),更不用說不得不讓那些導致這些管理上令人沮喪的管理失誤的專業技術人員。

如何避免大數據失敗? 從最基本的業務管理角度來看,通常一些比較直接的的做法是:確保得到公司高層的管理層支持,確保所有所需的技術研發都有充足的資金保障,技術人員需要具備專業知識和,或經過良好的培訓。如果你不先解決這些基本的問題,那么其他的事情看起來也就沒那么重要。

但是如果你已經完成了基本的工作,那么在大數據分析中成功與失敗的區別就在于你如何處理大數據分析的技術問題和挑戰。這是你能做的,以保持在等式的成功。

1.仔細地選擇你的大數據分析工具,許多技術失敗都源于這樣一個事實:公司購買并執行那些被證明是非常適合他們想要完成的產品。任何供應商都可以將“大數據”或“高級分析”這兩個詞放到他們的產品描述中,試圖利用這些術語的高水平宣傳。

但是產品在質量和效率上有很大的不同,而且也有很大的不同。因此,即使你選擇了一個技術上很強大的產品,它也可能對你真正需要的東西不太好。

幾乎所有的大數據分析都有一些基本的功能,比如圍繞數據轉換和存儲架構(例如:Hadoop和Apache Spark)。但在大數據分析中也有多個細分市場,你必須為你的技術戰略所涉及的利基市場提供產品。這些細分市場包括流程挖掘、預測分析、實時解決方案、人工智能和商業智能儀表板。

例如:Apache Spark是一個圍繞速度、易用性和復雜分析構建的大數據處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發,并于2010年成為Apache的開源項目之一。

Hadoop這項大數據處理技術大概已有十年歷史,而且被看做是首選的大數據集合處理的解決方案。MapReduce(分布式計算系統,一種編程模型)是一路計算的優秀解決方案,不過對于需要多路計算和算法的用例來說,并非十分高效。數據處理流程中的每一步都需要一個Map階段和一個Reduce階段,而且如果要利用這一解決方案,需要將所有用例都轉換成MapReduce模式。

在下一步開始之前,上一步的作業輸出數據必須要存儲到分布式文件系統中。因此,復制和磁盤存儲會導致這種方式速度變慢。另外Hadoop解決方案中通常會包含難以安裝和管理的集群。而且為了處理不同的大數據用例,還需要集成多種不同的工具(如用于機器學習的Mahout和流數據處理的Storm)。

如果想要完成比較復雜的工作,就必須將一系列的MapReduce作業串聯起來然后順序執行這些作業。每一個作業都是高時延的,而且只有在前一個作業完成之后下一個作業才能開始啟動。

而Spark則允許程序開發者使用有向無環圖(DAG)開發復雜的多步數據管道。而且還支持跨有向無環圖的內存數據共享,以便不同的作業可以共同處理同一個數據。

Spark運行在現有的Hadoop分布式文件系統基礎之上(HDFS)提供額外的增強功能。它支持將Spark應用部署到現存的Hadoop v1集群(with SIMR – Spark-Inside-MapReduce)或Hadoop v2 YARN集群甚至是Apache Mesos之中。

我們應該將Spark看作是Hadoop MapReduce的一個替代品而不是Hadoop的替代品。其意圖并非是替代Hadoop,而是為了提供一個管理不同的大數據用例和需求的全面且統一的解決方案。

Spark通過在數據處理過程中成本更低的洗牌(Shuffle)方式,將MapReduce提升到一個更高的層次。利用內存數據存儲和接近實時的處理能力,Spark比其他的大數據處理技術的性能要快很多倍。

Spark還支持大數據查詢的延遲計算,這可以幫助優化大數據處理流程中的處理步驟。Spark還提供高級的API以提升開發者的生產力,除此之外還為大數據解決方案提供一致的體系架構模型。

Spark將中間結果保存在內存中而不是將其寫入磁盤,當需要多次處理同一數據集時,這一點特別實用。Spark的設計初衷就是既可以在內存中又可以在磁盤上工作的執行引擎。當內存中的數據不適用時,Spark操作符就會執行外部操作。Spark可以用于處理大于集群內存容量總和的數據集。

Spark會嘗試在內存中存儲盡可能多的數據然后將其寫入磁盤。它可以將某個數據集的一部分存入內存而剩余部分存入磁盤。開發者需要根據數據和用例評估對內存的需求。Spark的性能優勢得益于這種內存中的數據存儲。

Spark的其他特性包括:

支持比Map和Reduce更多的函數。

優化任意操作算子圖(operator graphs)。

可以幫助優化整體數據處理流程的大數據查詢的延遲計算。

提供簡明、一致的Scala,Java和Python API。

提供交互式Scala和Python Shell。目前暫不支持Java。

在決定購買任何大型數據分析產品或存儲平臺之前,您需要弄清楚真正的業務需要和問題是什么,選擇旨在有效解決這些特定問題的產品。

例如,您可以選擇使用人工智能分析非結構化數據的認知大數據產品,因為編譯大數據集的復雜性。

但是你不會使用認知工具來進行結構化和標準化的數據,為此,您可以部署許多分析產品中的一種,這些產品可以實時生成質量洞察,并具有更合理的價格。以色列Exposito說,全球電信公司——沃達豐的大數據是處于全球領先地位。

Exposito說,當你選擇生產環境的時候,用至少兩種產品來證明你的概念是明智的。該產品還應該能夠與您的相關企業平臺進行交互。

每個大數據分析工具都需要在后端系統中開發數據模型。這是項目中最重要的部分。因此,您需要確保系統集成商和業務主題專家在此工作中攜手合作。第一次作對,慢慢來就好啦。

重要的是要記住,正確的數據應該總是可用的,并轉換為業務語言,這樣用戶就可以完全理解輸出,從而可以使用它來驅動機會或過程改進。

2.大數據和高級分析是極為復雜的,但是業務用戶依賴于訪問和理解數據的產品是不復雜的。為業務分析團隊提供簡單、有效的工具,用于數據發現以及分析和可視化。

Sharon Graves說,事實上,找到合適的工具組合是很難的,因為它是公司的商業情報工具,是企業數據的福音傳道者。它必須是簡單的快速直觀化,但也有足夠的深度分析能力。Go Daddy(全球知名互聯網域名注冊商)能夠找到讓企業用戶輕松找到合適的數據,然后自己生成可視化的產品。這就解放了分析團隊,讓他們執行更高級的分析。

最重要的是,不要向非技術業務用戶提供程序級的工具。他們會變得沮喪,可能會求助于使用他們以前的工具,而這些工具并不是真正的工作(否則,你就不會有一個大的數據分析項目)。

3.將項目和數據與實際的業務結合起來需要另一個原因,即錯誤數據分析工作可能失敗的另一個原因是,它們最終是一個解決問題的解決方案,而不是真正存在的問題。信息服務提供商Experian的全球數據實驗室的首席科學家Shanji Xiong說,這就是為什么你必須把你的商業挑戰和你想要解決的問題放在正確的分析問題上。

關鍵是,在項目的早期,讓具有強大分析背景的專家與數據科學家合作來定義這個問題。

這是Experian自己的大數據分析計劃的一個例子。在開發分析解決身份欺詐的分析解決方案時,面臨的挑戰可能是評估個人識別信息(PII)的組合,如姓名、地址和社會安全號碼是否合法。或者,挑戰可能是評估使用一組身份申請貸款的客戶是否是身份的合法所有者。或者這兩種挑戰都可能存在。

他說,第一個挑戰是一個“綜合身份識別”問題,它需要一個分析模型來評估消費者或PII水平所開發的綜合身份識別的風險。第二個挑戰是應用程序欺詐問題,需要在應用程序級別上開發評估欺詐風險的分數。Experian必須明白這些是不同的問題,盡管它們最初可能被認為是相同的問題陳述不同,然后創建正確的模型和分析來解決它們。

熊先生說,當一套PII被提交給兩家金融機構申請貸款時,通常的要求是將同樣的分數用于合成風險,但這通常不是申請欺詐分數的必要特征。

正確的算法必須適用于正確的數據,以提取商業智能并進行準確的預測。 在建模過程中收集和包含相關數據集幾乎總是比微調機器學習算法更重要,因此數據工作應該被視為首要任務。

4。構建一個數據湖,并且不像這個術語所暗示的那樣節省帶寬,大數據包含大量的數據。在過去,很少有組織能夠存儲如此多的數據,更不用說組織和分析它了。但是今天,高性能存儲技術和大規模并行處理在云計算和基于本地的系統中都得到了廣泛的應用。

備注:數據湖:最初是由大數據廠商提出的,表面上看,數據都是承載在基于可向外擴展的HDFS廉價存儲硬件之上的。但數據量越大,越需要各種不同種類的存儲。最終,所有的企業數據都可以被認為是大數據,但并不是所有的企業數據都是適合存放在廉價的HDFS集群之上的。

然而,存儲本身是不夠的。您需要一種方法來處理不同類型的數據,這些數據可以提供給您的大數據分析。這正是Apache Hadoop的天才之所在,它允許存儲和映射巨大的、完全不同的數據集。這樣的存儲庫通常被稱為數據湖。一個真正的湖泊通常由多個溪流滋養,它包含許多植物、魚類和其他動物物種;一個數據湖通常由多個數據源提供,并且包含許多類型的數據。

但數據湖不應該成為數據的垃圾場。亞利桑那州立大學的研究計算主任Jay Etchings說,你需要考慮如何收集數據,以一種有意義的方式擴展屬性。數據可以是完全不同的,但是如何使用MapReduce和Apache Spark這樣的工具來進行數據轉換,就應該使用可靠的數據架構。

創建一個數據湖,其中的攝取、索引和規范化都是大數據策略中精心計劃的組件。Etchings說,如果沒有一個清晰明了的藍圖,大多數數據密集型的計劃注定要失敗。

同樣,擁有足夠的帶寬也是至關重要的;否則,數據將不會從不同的數據源轉移到數據湖和業務用戶,這些數據很快就會變得有用。Etchings表示,要實現擁有大量數據資源的承諾,不僅需要快速的磁盤,每秒鐘可以有數百萬個i/os(IOPS),而且還需要連接節點和處理引擎,這些節點和處理引擎可以在生成數據時方便地訪問數據。

速度對于實時分析來說尤其重要,從社交媒體趨勢到流量路由。所以,建立你的數據湖,以最快的互連速度。

5.對大數據的每個方面的設計安全性——計算基礎設施組件的高度異構性——大大加快了組織從數據中收集有意義的見解的能力。但也有一個缺點:管理和安全的系統要復雜得多,Etchings說。由于大量的數據和大多數大數據分析系統的任務重要性,在保護系統和數據方面沒有采取足夠的預防措施,在很大程度上是在自找麻煩。

許多公司收集、存儲、分析和分享的數據都是客戶信息,其中一些是個人信息,也是可識別的。如果這些數據出現在錯誤的手中,結果是可以預測的:法律上的損失可能來自訴訟,可能是監管罰款,品牌和聲譽受損,以及不滿意的客戶。

您的安全措施應該包括部署基本的企業工具:數據加密,無論何時實用、身份和訪問管理,以及網絡安全。但是,您的安全措施也應該包括政策執行和培訓,以了解適當的訪問和使用數據。

6.將數據管理和質量作為首要任務,確保良好的數據管理和質量應該成為所有大數據分析項目的標志——否則失敗的可能性就會大得多。

您需要將控件放在適當的位置,以確保數據及時、準確、及時地交付。作為“大數據”計劃的一部分,Go Daddy(公司)實現了提醒,如果數據更新失敗或正在運行,將通知管理人員。此外,Go Daddy還在關鍵指標上實現了數據質量檢查,當這些指標與預期不符時,就會發出警報。

確保數據質量和治理的一個重要部分是雇傭熟練的數據管理專業人員,包括數據管理部門的主管或其他管理人員來監督這些領域。考慮到這些計劃的戰略重要性,企業對數據管理、管理、治理和策略擁有真正的需求。

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 明星| 双城市| 运城市| 洪湖市| 高邮市| 共和县| 运城市| 永修县| 全椒县| 集贤县| 西昌市| 北票市| 大足县| 珠海市| 都安| 厦门市| 白银市| 罗江县| 库伦旗| 日土县| 泰来县| 灌云县| 饶河县| 双城市| 缙云县| 巴林右旗| 宣汉县| 新野县| 仪征市| 苍山县| 房山区| 博爱县| 南皮县| 平果县| 焉耆| 班玛县| 镶黄旗| 江阴市| 石城县| 新安县| 宁国市|