精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:CIO技術(shù)探討 → 正文

如何避免大數(shù)據(jù)分析失敗

責(zé)任編輯:cres 作者:Bob Violino |來源:企業(yè)網(wǎng)D1Net  2017-08-23 10:38:11 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

遵照以下6種最佳方法,可以打破競爭,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
 
大數(shù)據(jù)和分析方案可以改變游戲規(guī)則,為您提供洞察力,幫助您打破競爭,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
 
大數(shù)據(jù)和分析方案也可能產(chǎn)生巨大的錯(cuò)誤,導(dǎo)致浪費(fèi)大量資金和時(shí)間,更不必說會(huì)流失一些有才華的技術(shù)專家,他們已經(jīng)厭倦了在這種管理不善的環(huán)境中工作,令他們沮喪。
 
如何避免大數(shù)據(jù)分析失敗呢?從基本的業(yè)務(wù)管理角度來看,有一些最佳做法是顯而易見的:一定要有公司最高層管理人員的支持,確保所需的全部技術(shù)投資獲得足夠的資金,并引入具有專業(yè)知識(shí)的人才和/或提供良好的培訓(xùn)。如果你沒有先解決這些基礎(chǔ)問題,那么沒有什么比這更重要了。
 
假設(shè)您已經(jīng)解決了這些基礎(chǔ)問題,大數(shù)據(jù)分析的成功與失敗之間的區(qū)別在于如何處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。您可以做以下幾點(diǎn)來確保大數(shù)據(jù)分析的成功。
 
1. 慎重選擇您的大數(shù)據(jù)分析工具
 
許多技術(shù)上的失敗源于公司購買和實(shí)施的產(chǎn)品,這些產(chǎn)品經(jīng)過實(shí)踐證明是非常糟糕的,完全不適合公司想要實(shí)現(xiàn)的目標(biāo)。任何供應(yīng)商都會(huì)用“大數(shù)據(jù)”或“高級(jí)分析方法”這些詞來描述他們的產(chǎn)品,試圖利用這些術(shù)語來大肆宣傳。
 
但產(chǎn)品的質(zhì)量和效率以及側(cè)重點(diǎn),都有很大的不同。因此,即使你選擇了一種技術(shù)上很強(qiáng)的產(chǎn)品,但它可能不是你真正需要的產(chǎn)品。
 
幾乎所有大數(shù)據(jù)分析工具都需要具有的一些基本功能,例如數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ)架構(gòu)(如Hadoop和Apache Spark)。但是,在大數(shù)據(jù)分析領(lǐng)域也有多個(gè)細(xì)分領(lǐng)域,所以您必須為您的技術(shù)戰(zhàn)略實(shí)際涉及的這些細(xì)分領(lǐng)域購買產(chǎn)品。這些細(xì)分領(lǐng)域包括流程挖掘、預(yù)測分析、實(shí)時(shí)解決方案、人工智能和商業(yè)智能控制面板。
 
在決定購買任何大數(shù)據(jù)分析產(chǎn)品或存儲(chǔ)平臺(tái)之前,您需要先了解真正的業(yè)務(wù)需求和問題,然后選擇那些能有效解決這些具體問題的產(chǎn)品。
 
例如,由于編譯龐大的數(shù)據(jù)集很復(fù)雜,您會(huì)選擇認(rèn)知大數(shù)據(jù)產(chǎn)品,例如采用人工智能分析方法來分析非結(jié)構(gòu)化數(shù)據(jù)。但是,您不會(huì)將認(rèn)知工具用于分析結(jié)構(gòu)化和標(biāo)準(zhǔn)化數(shù)據(jù),因此您可以選擇眾多分析產(chǎn)品中的一個(gè)來實(shí)施,以更合理的價(jià)格產(chǎn)生實(shí)時(shí)高質(zhì)量的洞察力,電信公司(沃達(dá)豐)大數(shù)據(jù)的全球流程負(fù)責(zé)人,來自以色列的埃斯波西托(Exposito)說道。
 
埃斯波西托說,在為您的生產(chǎn)環(huán)境選擇產(chǎn)品之前,至少要使用兩種產(chǎn)品來運(yùn)行驗(yàn)證其設(shè)計(jì)概念,這是明智的。該產(chǎn)品還應(yīng)該能夠與您的企業(yè)相關(guān)平臺(tái)進(jìn)行交互。
 
每個(gè)大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)數(shù)據(jù)模型。這是項(xiàng)目最重要的部分。因此,您需要確保系統(tǒng)集成商和業(yè)務(wù)主題專家能夠攜手合作。花些時(shí)間,第一次就把該項(xiàng)工作做好。
 
一定要記住,這很重要,正確的數(shù)據(jù)應(yīng)該始終可以使用并轉(zhuǎn)換為商業(yè)語言,因此用戶會(huì)完全理解輸出的結(jié)果,從而可以使用它來尋找商機(jī)或進(jìn)行流程改善。
 
2.確保工具易于使用
 
大數(shù)據(jù)和高級(jí)分析方法很復(fù)雜,但是商業(yè)用戶用于訪問和理解數(shù)據(jù)的產(chǎn)品則不需要很復(fù)雜。
 
為商業(yè)分析團(tuán)隊(duì)提供簡單有效的工具,用于數(shù)據(jù)發(fā)現(xiàn)以及分析和使數(shù)據(jù)可視化。
 
莎倫·格拉芙(Sharon Graves)說,對(duì)于域名注冊商GoDaddy來說,找到適合的組合工具并不容易,該公司使用商業(yè)智能工具—evangelist進(jìn)行企業(yè)數(shù)據(jù)分析。該工具必須可以方便快速地進(jìn)行可視化,而且可以進(jìn)行深入數(shù)據(jù)分析。GoDaddy公司能夠找到一些產(chǎn)品,可以讓商業(yè)用戶輕松獲取適當(dāng)?shù)臄?shù)據(jù),然后自行生成可視化數(shù)據(jù)。這樣就可以使分析團(tuán)隊(duì)解放出來,進(jìn)行更高級(jí)的分析工作。
 
最重要的是,不要向非技術(shù)性商業(yè)用戶提供程序員級(jí)別的工具。他們會(huì)由此變得沮喪,可能會(huì)使用以前的工具,而這些工具是無法勝任工作要求的(否則,你不會(huì)有大數(shù)據(jù)分析項(xiàng)目)。
 
3.使項(xiàng)目和數(shù)據(jù)與實(shí)際業(yè)務(wù)需求吻合
 
大數(shù)據(jù)分析工作可能失敗的另一個(gè)原因是分析工作最終用來搜索并不存在的問題。信息服務(wù)供應(yīng)商益博睿(Experian)的全球數(shù)據(jù)實(shí)驗(yàn)室(Global Data Labs)首席科學(xué)家Shanji Xiong說,這就是為什么你必須將想解決的商業(yè)難題或需求建立在正確的分析問題上。
 
關(guān)鍵是在項(xiàng)目的初期讓具有很強(qiáng)數(shù)據(jù)分析背景的主題專家與數(shù)據(jù)科學(xué)家合作來界定問題。
 
以下是益博睿公司的大數(shù)據(jù)分析方案的一個(gè)例子。當(dāng)制定分析解決方案來打擊身份欺詐時(shí),所面臨的挑戰(zhàn)可能是評(píng)估各項(xiàng)個(gè)人身份信息(PII)是否合法,例如姓名、地址和社會(huì)保險(xiǎn)號(hào)碼等。或者面臨的另一個(gè)挑戰(zhàn)可能是當(dāng)一個(gè)客戶使用一組身份信息申請(qǐng)貸款,評(píng)估該客戶是否是那些身份信息的合法所有者。或者這兩種挑戰(zhàn)可能同時(shí)存在。
 
第一個(gè)挑戰(zhàn)是“偽造身份”問題,這需要建立一個(gè)分析模型來評(píng)估在客戶或個(gè)人身份信息級(jí)別開發(fā)的偽造身份的風(fēng)險(xiǎn),Xiong說道。第二個(gè)挑戰(zhàn)是申請(qǐng)欺詐問題,欺詐風(fēng)險(xiǎn)評(píng)估分?jǐn)?shù)需要在應(yīng)用程序?qū)用骈_發(fā)出來。益博睿公司不得不將這些問題理解為不同的問題,盡管這些問題可能在最初被看作是同一個(gè)問題,只是以不同方式陳述,然后創(chuàng)建正確的模型,進(jìn)行分析來解決這些問題。
 
當(dāng)一組個(gè)人身份信息提交給兩家金融機(jī)構(gòu)來申請(qǐng)貸款時(shí),通常是返回兩個(gè)相同的綜合風(fēng)險(xiǎn)分?jǐn)?shù),但通常這不是申請(qǐng)欺詐評(píng)分的必要特征,Xiong說道。
 
正確的算法必須應(yīng)用于正確的數(shù)據(jù),以獲取商業(yè)智能并進(jìn)行準(zhǔn)確的預(yù)測。在建模過程中收集和包含相關(guān)數(shù)據(jù)集幾乎總是比微調(diào)機(jī)器學(xué)習(xí)算法更重要,因此數(shù)據(jù)工作應(yīng)該被視為首要任務(wù)。
 
4.建立一個(gè)數(shù)據(jù)湖,不要吝嗇帶寬
 
正如大數(shù)據(jù)的含義,其涉及海量的數(shù)據(jù)。在過去,很少有組織可以存儲(chǔ)這么多的數(shù)據(jù),更不用說來整理和分析數(shù)據(jù)了。但當(dāng)今,高性能存儲(chǔ)技術(shù)和大規(guī)模并行處理在云端和通過組織內(nèi)部系統(tǒng)來部署得到廣泛使用。
 
但是,存儲(chǔ)本身還是不夠的。您需要一種方法來處理不同類型的數(shù)據(jù),將這些數(shù)據(jù)輸入給大數(shù)據(jù)分析工具。這就是Apache Hadoop的卓越功能,它允許對(duì)海量的不同類型的數(shù)據(jù)集進(jìn)行存儲(chǔ)和映射。這些存儲(chǔ)庫通常被稱為數(shù)據(jù)湖。一個(gè)真正的湖泊通常是由多條溪流匯聚形成,它包含許多種植物、魚類和其他動(dòng)物。而一個(gè)數(shù)據(jù)湖通常由多個(gè)數(shù)據(jù)源提供數(shù)據(jù),并且包含許多類型的數(shù)據(jù)。
 
但數(shù)據(jù)湖不應(yīng)該是數(shù)據(jù)的垃圾場。亞利桑那州立大學(xué)研究計(jì)算主管Jay Etchings說,您需要考慮如何聚合數(shù)據(jù),以有意義的方式擴(kuò)展屬性。數(shù)據(jù)可能是不同的,但是如何使用可靠的數(shù)據(jù)架構(gòu)來利用MapReduce和Apache Spark等工具對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換用于分析。
 
創(chuàng)建一個(gè)數(shù)據(jù)湖,在數(shù)據(jù)湖中進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)索引和數(shù)據(jù)規(guī)范化,這些都是大數(shù)據(jù)策略的精心規(guī)劃的組件。Etchings表示,如果沒有清晰明確的藍(lán)圖,大多數(shù)數(shù)據(jù)密集型方案將注定失敗。
 
同樣,擁有足夠的帶寬至關(guān)重要,否則數(shù)據(jù)將不會(huì)從各種來源匯聚到數(shù)據(jù)湖中,并且商業(yè)用戶擁有足夠的帶寬是非常有益的。Etchings說,為了實(shí)現(xiàn)擁有海量數(shù)據(jù)資源的承諾,不僅需要配備可實(shí)現(xiàn)每秒讀取數(shù)百萬次(IOPS)的快速磁盤,而且還需要配備可以在數(shù)據(jù)生成時(shí)輕松訪問數(shù)據(jù)的互連節(jié)點(diǎn)和處理引擎。
 
從社交媒體趨勢到流量路由,速度對(duì)于實(shí)時(shí)分析尤其重要。所以在最快速的互聯(lián)網(wǎng)絡(luò)中創(chuàng)建你的數(shù)據(jù)湖。
 
5.在大數(shù)據(jù)的各個(gè)方面規(guī)劃安全措施
 
計(jì)算基礎(chǔ)設(shè)施組件的高度異質(zhì)性大大增加了組織機(jī)構(gòu)從數(shù)據(jù)中獲取洞察力的能力。但是有一個(gè)缺點(diǎn):Etchings說,系統(tǒng)的管理和安全性變得更加復(fù)雜。伴隨著海量的數(shù)據(jù)和多數(shù)大數(shù)據(jù)分析系統(tǒng)上運(yùn)行的任務(wù)日益重要,在保護(hù)系統(tǒng)和數(shù)據(jù)方面未能采取足夠的預(yù)防措施,這在很大程度上是在自找麻煩。
 
公司收集、存儲(chǔ)、分析和共享的大部分?jǐn)?shù)據(jù)都是客戶信息,其中一些是個(gè)人身份信息和可識(shí)別的信息。如果這些數(shù)據(jù)落入不法分子的手中,結(jié)果是可預(yù)測的:法律訴訟導(dǎo)致金錢損失和可能引發(fā)的監(jiān)管處罰,引起品牌和聲譽(yù)受損,以及客戶的不滿。
 
您的安全措施應(yīng)包括部署基本的企業(yè)工具:盡可能實(shí)行數(shù)據(jù)加密,身份和訪問管理以及網(wǎng)絡(luò)安全。但是,您的安全措施還應(yīng)包括策略執(zhí)行以及有關(guān)正確訪問和使用數(shù)據(jù)的培訓(xùn)。
 
6.把數(shù)據(jù)管理和質(zhì)量列為頭等大事
 
確保良好的數(shù)據(jù)管理和質(zhì)量應(yīng)該是所有大數(shù)據(jù)分析項(xiàng)目的特征,否則失敗的可能性就會(huì)更大。
 
您需要對(duì)其進(jìn)行控制,以確保數(shù)據(jù)及時(shí)更新、并能準(zhǔn)確且及時(shí)地傳送。作為GoDaddy公司大數(shù)據(jù)方案的一部分,當(dāng)數(shù)據(jù)更新失敗或運(yùn)行遲緩時(shí),該公司預(yù)警機(jī)制會(huì)通知管理員。此外,GoDaddy公司已經(jīng)開始對(duì)關(guān)鍵指標(biāo)進(jìn)行了數(shù)據(jù)質(zhì)量檢查,當(dāng)這些指標(biāo)不符合預(yù)期時(shí)會(huì)發(fā)出警報(bào)。
 
確保數(shù)據(jù)質(zhì)量和管理的重要組成部分是雇用熟練的數(shù)據(jù)管理專業(yè)人員,包括數(shù)據(jù)管理主管或其他高管來監(jiān)督這些領(lǐng)域。鑒于這些舉措的戰(zhàn)略重要性,企業(yè)對(duì)數(shù)據(jù)管理、使用、治理和策略的數(shù)據(jù)所有權(quán)迫切需要。

關(guān)鍵字:大數(shù)據(jù)

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

x 如何避免大數(shù)據(jù)分析失敗 掃一掃
分享本文到朋友圈
當(dāng)前位置:CIO技術(shù)探討 → 正文

如何避免大數(shù)據(jù)分析失敗

責(zé)任編輯:cres 作者:Bob Violino |來源:企業(yè)網(wǎng)D1Net  2017-08-23 10:38:11 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

遵照以下6種最佳方法,可以打破競爭,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
 
大數(shù)據(jù)和分析方案可以改變游戲規(guī)則,為您提供洞察力,幫助您打破競爭,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
 
大數(shù)據(jù)和分析方案也可能產(chǎn)生巨大的錯(cuò)誤,導(dǎo)致浪費(fèi)大量資金和時(shí)間,更不必說會(huì)流失一些有才華的技術(shù)專家,他們已經(jīng)厭倦了在這種管理不善的環(huán)境中工作,令他們沮喪。
 
如何避免大數(shù)據(jù)分析失敗呢?從基本的業(yè)務(wù)管理角度來看,有一些最佳做法是顯而易見的:一定要有公司最高層管理人員的支持,確保所需的全部技術(shù)投資獲得足夠的資金,并引入具有專業(yè)知識(shí)的人才和/或提供良好的培訓(xùn)。如果你沒有先解決這些基礎(chǔ)問題,那么沒有什么比這更重要了。
 
假設(shè)您已經(jīng)解決了這些基礎(chǔ)問題,大數(shù)據(jù)分析的成功與失敗之間的區(qū)別在于如何處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。您可以做以下幾點(diǎn)來確保大數(shù)據(jù)分析的成功。
 
1. 慎重選擇您的大數(shù)據(jù)分析工具
 
許多技術(shù)上的失敗源于公司購買和實(shí)施的產(chǎn)品,這些產(chǎn)品經(jīng)過實(shí)踐證明是非常糟糕的,完全不適合公司想要實(shí)現(xiàn)的目標(biāo)。任何供應(yīng)商都會(huì)用“大數(shù)據(jù)”或“高級(jí)分析方法”這些詞來描述他們的產(chǎn)品,試圖利用這些術(shù)語來大肆宣傳。
 
但產(chǎn)品的質(zhì)量和效率以及側(cè)重點(diǎn),都有很大的不同。因此,即使你選擇了一種技術(shù)上很強(qiáng)的產(chǎn)品,但它可能不是你真正需要的產(chǎn)品。
 
幾乎所有大數(shù)據(jù)分析工具都需要具有的一些基本功能,例如數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ)架構(gòu)(如Hadoop和Apache Spark)。但是,在大數(shù)據(jù)分析領(lǐng)域也有多個(gè)細(xì)分領(lǐng)域,所以您必須為您的技術(shù)戰(zhàn)略實(shí)際涉及的這些細(xì)分領(lǐng)域購買產(chǎn)品。這些細(xì)分領(lǐng)域包括流程挖掘、預(yù)測分析、實(shí)時(shí)解決方案、人工智能和商業(yè)智能控制面板。
 
在決定購買任何大數(shù)據(jù)分析產(chǎn)品或存儲(chǔ)平臺(tái)之前,您需要先了解真正的業(yè)務(wù)需求和問題,然后選擇那些能有效解決這些具體問題的產(chǎn)品。
 
例如,由于編譯龐大的數(shù)據(jù)集很復(fù)雜,您會(huì)選擇認(rèn)知大數(shù)據(jù)產(chǎn)品,例如采用人工智能分析方法來分析非結(jié)構(gòu)化數(shù)據(jù)。但是,您不會(huì)將認(rèn)知工具用于分析結(jié)構(gòu)化和標(biāo)準(zhǔn)化數(shù)據(jù),因此您可以選擇眾多分析產(chǎn)品中的一個(gè)來實(shí)施,以更合理的價(jià)格產(chǎn)生實(shí)時(shí)高質(zhì)量的洞察力,電信公司(沃達(dá)豐)大數(shù)據(jù)的全球流程負(fù)責(zé)人,來自以色列的埃斯波西托(Exposito)說道。
 
埃斯波西托說,在為您的生產(chǎn)環(huán)境選擇產(chǎn)品之前,至少要使用兩種產(chǎn)品來運(yùn)行驗(yàn)證其設(shè)計(jì)概念,這是明智的。該產(chǎn)品還應(yīng)該能夠與您的企業(yè)相關(guān)平臺(tái)進(jìn)行交互。
 
每個(gè)大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)數(shù)據(jù)模型。這是項(xiàng)目最重要的部分。因此,您需要確保系統(tǒng)集成商和業(yè)務(wù)主題專家能夠攜手合作。花些時(shí)間,第一次就把該項(xiàng)工作做好。
 
一定要記住,這很重要,正確的數(shù)據(jù)應(yīng)該始終可以使用并轉(zhuǎn)換為商業(yè)語言,因此用戶會(huì)完全理解輸出的結(jié)果,從而可以使用它來尋找商機(jī)或進(jìn)行流程改善。
 
2.確保工具易于使用
 
大數(shù)據(jù)和高級(jí)分析方法很復(fù)雜,但是商業(yè)用戶用于訪問和理解數(shù)據(jù)的產(chǎn)品則不需要很復(fù)雜。
 
為商業(yè)分析團(tuán)隊(duì)提供簡單有效的工具,用于數(shù)據(jù)發(fā)現(xiàn)以及分析和使數(shù)據(jù)可視化。
 
莎倫·格拉芙(Sharon Graves)說,對(duì)于域名注冊商GoDaddy來說,找到適合的組合工具并不容易,該公司使用商業(yè)智能工具—evangelist進(jìn)行企業(yè)數(shù)據(jù)分析。該工具必須可以方便快速地進(jìn)行可視化,而且可以進(jìn)行深入數(shù)據(jù)分析。GoDaddy公司能夠找到一些產(chǎn)品,可以讓商業(yè)用戶輕松獲取適當(dāng)?shù)臄?shù)據(jù),然后自行生成可視化數(shù)據(jù)。這樣就可以使分析團(tuán)隊(duì)解放出來,進(jìn)行更高級(jí)的分析工作。
 
最重要的是,不要向非技術(shù)性商業(yè)用戶提供程序員級(jí)別的工具。他們會(huì)由此變得沮喪,可能會(huì)使用以前的工具,而這些工具是無法勝任工作要求的(否則,你不會(huì)有大數(shù)據(jù)分析項(xiàng)目)。
 
3.使項(xiàng)目和數(shù)據(jù)與實(shí)際業(yè)務(wù)需求吻合
 
大數(shù)據(jù)分析工作可能失敗的另一個(gè)原因是分析工作最終用來搜索并不存在的問題。信息服務(wù)供應(yīng)商益博睿(Experian)的全球數(shù)據(jù)實(shí)驗(yàn)室(Global Data Labs)首席科學(xué)家Shanji Xiong說,這就是為什么你必須將想解決的商業(yè)難題或需求建立在正確的分析問題上。
 
關(guān)鍵是在項(xiàng)目的初期讓具有很強(qiáng)數(shù)據(jù)分析背景的主題專家與數(shù)據(jù)科學(xué)家合作來界定問題。
 
以下是益博睿公司的大數(shù)據(jù)分析方案的一個(gè)例子。當(dāng)制定分析解決方案來打擊身份欺詐時(shí),所面臨的挑戰(zhàn)可能是評(píng)估各項(xiàng)個(gè)人身份信息(PII)是否合法,例如姓名、地址和社會(huì)保險(xiǎn)號(hào)碼等。或者面臨的另一個(gè)挑戰(zhàn)可能是當(dāng)一個(gè)客戶使用一組身份信息申請(qǐng)貸款,評(píng)估該客戶是否是那些身份信息的合法所有者。或者這兩種挑戰(zhàn)可能同時(shí)存在。
 
第一個(gè)挑戰(zhàn)是“偽造身份”問題,這需要建立一個(gè)分析模型來評(píng)估在客戶或個(gè)人身份信息級(jí)別開發(fā)的偽造身份的風(fēng)險(xiǎn),Xiong說道。第二個(gè)挑戰(zhàn)是申請(qǐng)欺詐問題,欺詐風(fēng)險(xiǎn)評(píng)估分?jǐn)?shù)需要在應(yīng)用程序?qū)用骈_發(fā)出來。益博睿公司不得不將這些問題理解為不同的問題,盡管這些問題可能在最初被看作是同一個(gè)問題,只是以不同方式陳述,然后創(chuàng)建正確的模型,進(jìn)行分析來解決這些問題。
 
當(dāng)一組個(gè)人身份信息提交給兩家金融機(jī)構(gòu)來申請(qǐng)貸款時(shí),通常是返回兩個(gè)相同的綜合風(fēng)險(xiǎn)分?jǐn)?shù),但通常這不是申請(qǐng)欺詐評(píng)分的必要特征,Xiong說道。
 
正確的算法必須應(yīng)用于正確的數(shù)據(jù),以獲取商業(yè)智能并進(jìn)行準(zhǔn)確的預(yù)測。在建模過程中收集和包含相關(guān)數(shù)據(jù)集幾乎總是比微調(diào)機(jī)器學(xué)習(xí)算法更重要,因此數(shù)據(jù)工作應(yīng)該被視為首要任務(wù)。
 
4.建立一個(gè)數(shù)據(jù)湖,不要吝嗇帶寬
 
正如大數(shù)據(jù)的含義,其涉及海量的數(shù)據(jù)。在過去,很少有組織可以存儲(chǔ)這么多的數(shù)據(jù),更不用說來整理和分析數(shù)據(jù)了。但當(dāng)今,高性能存儲(chǔ)技術(shù)和大規(guī)模并行處理在云端和通過組織內(nèi)部系統(tǒng)來部署得到廣泛使用。
 
但是,存儲(chǔ)本身還是不夠的。您需要一種方法來處理不同類型的數(shù)據(jù),將這些數(shù)據(jù)輸入給大數(shù)據(jù)分析工具。這就是Apache Hadoop的卓越功能,它允許對(duì)海量的不同類型的數(shù)據(jù)集進(jìn)行存儲(chǔ)和映射。這些存儲(chǔ)庫通常被稱為數(shù)據(jù)湖。一個(gè)真正的湖泊通常是由多條溪流匯聚形成,它包含許多種植物、魚類和其他動(dòng)物。而一個(gè)數(shù)據(jù)湖通常由多個(gè)數(shù)據(jù)源提供數(shù)據(jù),并且包含許多類型的數(shù)據(jù)。
 
但數(shù)據(jù)湖不應(yīng)該是數(shù)據(jù)的垃圾場。亞利桑那州立大學(xué)研究計(jì)算主管Jay Etchings說,您需要考慮如何聚合數(shù)據(jù),以有意義的方式擴(kuò)展屬性。數(shù)據(jù)可能是不同的,但是如何使用可靠的數(shù)據(jù)架構(gòu)來利用MapReduce和Apache Spark等工具對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換用于分析。
 
創(chuàng)建一個(gè)數(shù)據(jù)湖,在數(shù)據(jù)湖中進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)索引和數(shù)據(jù)規(guī)范化,這些都是大數(shù)據(jù)策略的精心規(guī)劃的組件。Etchings表示,如果沒有清晰明確的藍(lán)圖,大多數(shù)數(shù)據(jù)密集型方案將注定失敗。
 
同樣,擁有足夠的帶寬至關(guān)重要,否則數(shù)據(jù)將不會(huì)從各種來源匯聚到數(shù)據(jù)湖中,并且商業(yè)用戶擁有足夠的帶寬是非常有益的。Etchings說,為了實(shí)現(xiàn)擁有海量數(shù)據(jù)資源的承諾,不僅需要配備可實(shí)現(xiàn)每秒讀取數(shù)百萬次(IOPS)的快速磁盤,而且還需要配備可以在數(shù)據(jù)生成時(shí)輕松訪問數(shù)據(jù)的互連節(jié)點(diǎn)和處理引擎。
 
從社交媒體趨勢到流量路由,速度對(duì)于實(shí)時(shí)分析尤其重要。所以在最快速的互聯(lián)網(wǎng)絡(luò)中創(chuàng)建你的數(shù)據(jù)湖。
 
5.在大數(shù)據(jù)的各個(gè)方面規(guī)劃安全措施
 
計(jì)算基礎(chǔ)設(shè)施組件的高度異質(zhì)性大大增加了組織機(jī)構(gòu)從數(shù)據(jù)中獲取洞察力的能力。但是有一個(gè)缺點(diǎn):Etchings說,系統(tǒng)的管理和安全性變得更加復(fù)雜。伴隨著海量的數(shù)據(jù)和多數(shù)大數(shù)據(jù)分析系統(tǒng)上運(yùn)行的任務(wù)日益重要,在保護(hù)系統(tǒng)和數(shù)據(jù)方面未能采取足夠的預(yù)防措施,這在很大程度上是在自找麻煩。
 
公司收集、存儲(chǔ)、分析和共享的大部分?jǐn)?shù)據(jù)都是客戶信息,其中一些是個(gè)人身份信息和可識(shí)別的信息。如果這些數(shù)據(jù)落入不法分子的手中,結(jié)果是可預(yù)測的:法律訴訟導(dǎo)致金錢損失和可能引發(fā)的監(jiān)管處罰,引起品牌和聲譽(yù)受損,以及客戶的不滿。
 
您的安全措施應(yīng)包括部署基本的企業(yè)工具:盡可能實(shí)行數(shù)據(jù)加密,身份和訪問管理以及網(wǎng)絡(luò)安全。但是,您的安全措施還應(yīng)包括策略執(zhí)行以及有關(guān)正確訪問和使用數(shù)據(jù)的培訓(xùn)。
 
6.把數(shù)據(jù)管理和質(zhì)量列為頭等大事
 
確保良好的數(shù)據(jù)管理和質(zhì)量應(yīng)該是所有大數(shù)據(jù)分析項(xiàng)目的特征,否則失敗的可能性就會(huì)更大。
 
您需要對(duì)其進(jìn)行控制,以確保數(shù)據(jù)及時(shí)更新、并能準(zhǔn)確且及時(shí)地傳送。作為GoDaddy公司大數(shù)據(jù)方案的一部分,當(dāng)數(shù)據(jù)更新失敗或運(yùn)行遲緩時(shí),該公司預(yù)警機(jī)制會(huì)通知管理員。此外,GoDaddy公司已經(jīng)開始對(duì)關(guān)鍵指標(biāo)進(jìn)行了數(shù)據(jù)質(zhì)量檢查,當(dāng)這些指標(biāo)不符合預(yù)期時(shí)會(huì)發(fā)出警報(bào)。
 
確保數(shù)據(jù)質(zhì)量和管理的重要組成部分是雇用熟練的數(shù)據(jù)管理專業(yè)人員,包括數(shù)據(jù)管理主管或其他高管來監(jiān)督這些領(lǐng)域。鑒于這些舉措的戰(zhàn)略重要性,企業(yè)對(duì)數(shù)據(jù)管理、使用、治理和策略的數(shù)據(jù)所有權(quán)迫切需要。

關(guān)鍵字:大數(shù)據(jù)

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 望城县| 盐津县| 静安区| 历史| 鱼台县| 酒泉市| 星座| 桑日县| 韩城市| 景洪市| 治多县| 锦屏县| 漳州市| 眉山市| 新乐市| 华安县| 田林县| 乐业县| 陕西省| 刚察县| 唐山市| 沧源| 新晃| 文山县| 汤阴县| 平潭县| 山阴县| 天柱县| 洞头县| 邯郸市| 上蔡县| 台南县| 兴国县| 禄丰县| 赤城县| 永嘉县| 枣庄市| 莱阳市| 怀远县| 红安县| 华容县|