精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)數(shù)據(jù)分析 → 正文

企業(yè)如何避免大數(shù)據(jù)分析項(xiàng)目失敗

責(zé)任編輯:editor004 作者:litao984lt編譯 |來源:企業(yè)網(wǎng)D1Net  2017-12-20 10:31:59 本文摘自:機(jī)房360

遵循本文中所介紹的關(guān)于大數(shù)據(jù)分析的這六大最佳實(shí)踐策略,將幫助您企業(yè)更好的擊敗競爭對手,創(chuàng)造新的收入來源,并更好地為客戶服務(wù)。

大數(shù)據(jù)及其分析項(xiàng)目計(jì)劃或?qū)⒛軌蚋淖冇螒蛞?guī)則,為您企業(yè)提供相應(yīng)的洞察分析能力,幫助您企業(yè)贏得市場競爭,創(chuàng)造新的收入來源,并得以更好地為客戶服務(wù)。

但與此同時(shí),大數(shù)據(jù)及其分析活動(dòng)也可能面臨巨大的失敗,甚而導(dǎo)致浪費(fèi)掉大量的資金和時(shí)間投入——更不用說,還有可能造成那些在令人沮喪的管理失誤中身心受損的有才能的專業(yè)技術(shù)人員的流失。

那么,企業(yè)組織究竟應(yīng)當(dāng)如何避免大數(shù)據(jù)分析項(xiàng)目的失敗呢?從基本的業(yè)務(wù)管理的角度來看,一些具有可操作性的最佳實(shí)踐方案是最為明顯的:例如,首先,要從企業(yè)最高級別的高管們那里獲得對于大數(shù)據(jù)分析項(xiàng)目的充分認(rèn)可,確保為該大數(shù)據(jù)分析項(xiàng)目爭取到所有所需要的技術(shù)投資以及足夠的資金財(cái)務(wù)支持,并根據(jù)實(shí)際需要實(shí)施相關(guān)專業(yè)知識或技能方面的培訓(xùn)。如果您企業(yè)沒有首先很好的解決這些基礎(chǔ)性的問題,那么,后續(xù)的其他方面的問題真的也就沒有進(jìn)一步探討的必要了。

而假設(shè)您企業(yè)已經(jīng)完成了上述基本面領(lǐng)域的工作,那么,區(qū)別大數(shù)據(jù)分析項(xiàng)目成敗的關(guān)鍵原因就在于,您企業(yè)將如何處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。由此,你企業(yè)可以遵循如下幾大策略,以盡量確保貴公司大數(shù)據(jù)分析項(xiàng)目的成功。

1、仔細(xì)為您企業(yè)的項(xiàng)目選擇大數(shù)據(jù)分析工具

許多技術(shù)方面的失敗均源于這樣一個(gè)事實(shí):企業(yè)所采購和部署實(shí)施的產(chǎn)品被證明非常不適合于他們所正在努力完成的工作項(xiàng)目。任何一家供應(yīng)商都會將“大數(shù)據(jù)”或“高級分析”等所謂高大上的術(shù)語印到他們的產(chǎn)品說明上,以便圍繞這些術(shù)語進(jìn)行高度炒作。

但是,不同產(chǎn)品之間的差異不僅僅只存在于其質(zhì)量和有效性方面,而同時(shí)還存在于各種不同產(chǎn)品所專攻的重點(diǎn)領(lǐng)域方面。因此,即使您企業(yè)選擇了在技術(shù)上可能相當(dāng)強(qiáng)大的一款產(chǎn)品,但該產(chǎn)品很有可能并不擅長于您企業(yè)當(dāng)下實(shí)際所需要做的工作任務(wù)。

幾乎所有的大數(shù)據(jù)分析工具都具備一些基本性的功能,比如數(shù)據(jù)轉(zhuǎn)換和存儲架構(gòu)(例如,Hadoop和Apache Spark)。但是,在大數(shù)據(jù)分析工具產(chǎn)品的市場上其實(shí)也會有很多細(xì)分的市場,故而您企業(yè)必須針對您的技術(shù)戰(zhàn)略實(shí)際所涉及的領(lǐng)域采購產(chǎn)品。這些具體的領(lǐng)域包括流程挖掘、預(yù)測分析、實(shí)時(shí)解決方案、人工智能和商業(yè)智能儀表板。

在決定購買任何大數(shù)據(jù)分析工具產(chǎn)品或存儲平臺之前,您務(wù)必需要弄清楚企業(yè)真正的業(yè)務(wù)需求和問題,選擇旨在能夠有效解決這些特定問題的產(chǎn)品。

例如,由于編譯龐大的數(shù)據(jù)集的復(fù)雜性,您企業(yè)可以選擇使用認(rèn)知大數(shù)據(jù)產(chǎn)品,如人工智能來分析非結(jié)構(gòu)化數(shù)據(jù)的分析工具產(chǎn)品。但是,您企業(yè)肯定不會將認(rèn)知工具用于結(jié)構(gòu)化和標(biāo)準(zhǔn)化的數(shù)據(jù),為此您可以部署眾多有助于以更合理的價(jià)格實(shí)時(shí)獲得高質(zhì)量的洞察力的分析產(chǎn)品之一,電信公司沃達(dá)豐的大數(shù)據(jù)全球流程主管Israel Exposito表示說。

Exposito表示,在為您企業(yè)的生產(chǎn)環(huán)境選擇一款分析工具之前,請務(wù)必至少使用兩種產(chǎn)品來運(yùn)行概念證明是較為明智的。該產(chǎn)品還應(yīng)該能夠與您企業(yè)的相關(guān)平臺進(jìn)行交互。

每款大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)數(shù)據(jù)模型。這是該分析項(xiàng)目中最為重要的部分。所以,您企業(yè)將需要確保系統(tǒng)集成商和業(yè)務(wù)主題專家能夠攜手合作。務(wù)必確保從一開始就選對了工具。

重要的是要記住,必須始終保持恰當(dāng)數(shù)據(jù)的可用性,并將其翻譯轉(zhuǎn)化成業(yè)務(wù)語言,使得用戶得以能夠充分理解輸出,從而可以使用這些分析洞察來推動(dòng)對于市場機(jī)會的把握或流程的改進(jìn)。

2、確保分析工具易于使用

大數(shù)據(jù)和高級分析是復(fù)雜的,但是商業(yè)用戶所依賴于訪問和理解數(shù)據(jù)的產(chǎn)品卻并不一定必須是復(fù)雜的。

請務(wù)必為企業(yè)的業(yè)務(wù)分析團(tuán)隊(duì)提供簡單有效的工具,以便能夠更好的用于數(shù)據(jù)發(fā)現(xiàn)以及數(shù)據(jù)分析和可視化。

對于全球知名的互聯(lián)網(wǎng)域名注冊商GoDaddy公司而言,找到合適的工具組合是相當(dāng)困難的。該公司的商業(yè)智能工具企業(yè)數(shù)據(jù)布道者Sharon Graves表示說,對于快速可視化來說,其操作必須非常的簡單,而且足以進(jìn)行深入的分析。 GoDaddy能夠找到讓商業(yè)用戶們得以輕松的找到適當(dāng)?shù)臄?shù)據(jù),然后自行生成可視化的產(chǎn)品。這就將其分析團(tuán)隊(duì)解放出來,以便能夠執(zhí)行更為高級的分析任務(wù)。

除此之外,最為重要的是,切記不要為非技術(shù)業(yè)務(wù)用戶提供程序員級別的工具。他們操作起來會感到力不從心,可能會訴諸使用他們以前的工具,而這些工具并不能真正的奏效(否則,你企業(yè)就不會大費(fèi)周章的實(shí)施大數(shù)據(jù)分析項(xiàng)目了)。

3、將項(xiàng)目和數(shù)據(jù)與企業(yè)實(shí)際的業(yè)務(wù)需求相匹配

錯(cuò)誤的數(shù)據(jù)分析工作可能失敗的另一大原因是:因?yàn)檫@些分析工作最終淪為了尋找并不存在的問題的解決方案。這就是為什么你企業(yè)無比需要把你正在尋求解決的業(yè)務(wù)挑戰(zhàn)/需求擺在正確的分析問題上的原因所在了,信息服務(wù)提供商Experian公司的全球數(shù)據(jù)實(shí)驗(yàn)室的首席科學(xué)家Shanji Xiong說。

關(guān)鍵是要在大數(shù)據(jù)分析項(xiàng)目實(shí)施的早期就邀請具有強(qiáng)大分析背景的主題專家與數(shù)據(jù)科學(xué)家合作,來幫助您企業(yè)確定真正問題的所在。

如下,是Experian公司自己的一個(gè)大數(shù)據(jù)分析項(xiàng)目的例子。該公司在開發(fā)分析解決方案以打擊身份欺詐行為時(shí),他們所面臨的挑戰(zhàn)是評估客戶所提交的一套個(gè)人身份信息(PII)(如姓名、地址和社會安全號碼)是否合法;或者說,挑戰(zhàn)可能存在于評估使用一套身份信息的組合來申請貸款的客戶是否是該身份的合法擁有者。又或者兩種挑戰(zhàn)都可能存在。

第一個(gè)挑戰(zhàn)是“綜合身份”的問題,故而該公司需要一款分析模型來評估在消費(fèi)者級別或PII級別評估一套整合的身份信息的風(fēng)險(xiǎn)。第二個(gè)挑戰(zhàn)是應(yīng)用程序欺詐問題,需要在應(yīng)用程序級別進(jìn)行模型的開發(fā),以評估是否存在欺詐風(fēng)險(xiǎn)的評分。Experian公司必須了解到這些是不同的問題,盡管其最初可能被看作是同樣的問題,但卻需要建立恰當(dāng)?shù)哪P秃头治鰜斫鉀Q這些問題。

當(dāng)一套個(gè)人身份信息被提交給兩家金融機(jī)構(gòu)以申請貸款時(shí),通常的要求是將返回相同的綜合身份信息風(fēng)險(xiǎn)評分,但這通常并不是應(yīng)用程序欺詐評分的必要特征。

必須將正確的算法應(yīng)用于恰當(dāng)?shù)臄?shù)據(jù)信息才能提取商業(yè)智能,并做出準(zhǔn)確的預(yù)測。在建模過程中收集和包含相關(guān)數(shù)據(jù)集幾乎總是比微調(diào)機(jī)器學(xué)習(xí)算法更為重要,所以數(shù)據(jù)工作應(yīng)該被視為重中之重。

4、建立一個(gè)數(shù)據(jù)湖,不要吝嗇帶寬

正如“大數(shù)據(jù)”這一術(shù)語所暗示的那樣,其涉及到大量的數(shù)據(jù)信息。過去,很少有企業(yè)組織有能力可以存儲這么多的數(shù)據(jù),更不用說對這些數(shù)據(jù)進(jìn)行組織和分析了。但是現(xiàn)在,高性能的存儲技術(shù)和大規(guī)模并行處理在云中和通過本地系統(tǒng)都早已經(jīng)是廣泛可用的了。

但是,存儲本身是不夠的。您企業(yè)將需要一種方法來處理供您進(jìn)行大數(shù)據(jù)分析的各種不同類型的數(shù)據(jù)。這便是Apache Hadoop充分發(fā)揮其用武之地的時(shí)候了,其允許企業(yè)得以能夠存儲和映射巨大的、不同的數(shù)據(jù)集。這樣的庫通常被稱為數(shù)據(jù)湖。在現(xiàn)實(shí)生活中,一個(gè)實(shí)際的湖泊通常是由多條流入的河流來形成的,其還將包含許多的植物、魚類和其他生物。而數(shù)據(jù)湖通常由多個(gè)數(shù)據(jù)源構(gòu)成,并包含許多不同類型的數(shù)據(jù)。

但數(shù)據(jù)湖絕不應(yīng)該簡單的成為企業(yè)各種繁雜數(shù)據(jù)的傾倒地。亞利桑那州立大學(xué)研究計(jì)算主任Jay Etchings表示說,你企業(yè)需要考慮如何匯總數(shù)據(jù),以便以有意義的方式擴(kuò)展其屬性。數(shù)據(jù)可以是完全不同的,但是如何使用MapReduce和Apache Spark等工具來將其轉(zhuǎn)換為分析數(shù)據(jù),企業(yè)組織應(yīng)該使用可靠的數(shù)據(jù)架構(gòu)。

企業(yè)應(yīng)建立一個(gè)數(shù)據(jù)湖,在這個(gè)數(shù)據(jù)湖中,采集、索引和規(guī)范化數(shù)據(jù)是精心策劃大數(shù)據(jù)策略的組成部分。Etchings表示說,企業(yè)組織如若沒有清晰的理解和明確的藍(lán)圖,那么大多數(shù)數(shù)據(jù)密集型的計(jì)劃都注定將會失敗。

同樣,有足夠的帶寬也是至關(guān)重要的; 否則數(shù)據(jù)不會足夠快的從各種不同的數(shù)據(jù)來源傳輸?shù)綌?shù)據(jù)湖,進(jìn)而為業(yè)務(wù)用戶所用。為了充分利用貴公司所收集的海量數(shù)據(jù)資源,Etchings說,企業(yè)不僅需要每秒能夠處理數(shù)百萬I/O的快速磁盤,而且還需要相互連接的節(jié)點(diǎn)和處理引擎,以便隨時(shí)訪問數(shù)據(jù)。

從社交媒體的發(fā)展趨勢到流量路由,速度對于實(shí)時(shí)分析尤為重要。 因此,企業(yè)無比要建立您的數(shù)據(jù)湖,以確保最快的互連可用。

5、將安全性設(shè)計(jì)到大數(shù)據(jù)的各個(gè)方面

計(jì)算基礎(chǔ)設(shè)施架構(gòu)組件的高度異質(zhì)性大大加速了企業(yè)組織從他們所收集到的數(shù)據(jù)信息中提取有意義的見解的能力。但有一大缺點(diǎn):對于系統(tǒng)的管理和保護(hù)要復(fù)雜得多,Etchings說。由于涉及大量的數(shù)據(jù)和大多數(shù)大數(shù)據(jù)分析系統(tǒng)的關(guān)鍵任務(wù),使得很多企業(yè)未能在保護(hù)系統(tǒng)和數(shù)據(jù)方面采取足夠的預(yù)防措施,進(jìn)而正在大規(guī)模的帶來問題和麻煩。

企業(yè)所收集、存儲、分析和共享的大部分?jǐn)?shù)據(jù)都是關(guān)于客戶數(shù)據(jù)信息,其中一些是私人的和可識別的。如果這些數(shù)據(jù)落入了壞人的手中,其結(jié)果是可預(yù)測的:企業(yè)必將面臨法律方面的訴訟、金錢的損失以及隨之而來的的監(jiān)管機(jī)構(gòu)的罰款、企業(yè)品牌和聲譽(yù)受損,以及客戶的憤怒和不滿。

故而您企業(yè)的安全措施應(yīng)該包括部署基本的企業(yè)工具:切實(shí)的數(shù)據(jù)加密,身份和訪問管理以及網(wǎng)絡(luò)安全。同時(shí),您企業(yè)的安全措施還應(yīng)包括對相關(guān)工作人員就如何正確訪問和使用數(shù)據(jù)的政策的教育和培訓(xùn)。

6、把數(shù)據(jù)管理和質(zhì)量放在首要位置

確保良好的數(shù)據(jù)管理和質(zhì)量應(yīng)該是所有大數(shù)據(jù)分析項(xiàng)目的重要指標(biāo),否則面臨的失敗的可能性要大得多。

您企業(yè)需要實(shí)施相應(yīng)的控制措施,以確保數(shù)據(jù)按時(shí)、準(zhǔn)確并及時(shí)的交付。作為大數(shù)據(jù)分析舉措的一部分,GoDaddy公司實(shí)施了警報(bào),以便通知相關(guān)的管理人員數(shù)據(jù)的更新是否失敗或運(yùn)行較晚。此外,GoDaddy公司還對關(guān)鍵指標(biāo)實(shí)施了數(shù)據(jù)質(zhì)量檢查,并在這些指標(biāo)與預(yù)期不符時(shí)發(fā)出警報(bào)。

確保數(shù)據(jù)質(zhì)量和良好管理的一個(gè)重要部分就是聘用熟練的數(shù)據(jù)管理專業(yè)人員,這其中包括數(shù)據(jù)管理總監(jiān)或其他方面的高管來監(jiān)督這些領(lǐng)域。鑒于這些舉措的戰(zhàn)略重要性,企業(yè)組織將會對于數(shù)據(jù)的管理、監(jiān)控和策略方面的擁有權(quán)方面具有真正的需求。

關(guān)鍵字:MapReduce企業(yè)組織數(shù)據(jù)分析

本文摘自:機(jī)房360

x 企業(yè)如何避免大數(shù)據(jù)分析項(xiàng)目失敗 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)數(shù)據(jù)分析 → 正文

企業(yè)如何避免大數(shù)據(jù)分析項(xiàng)目失敗

責(zé)任編輯:editor004 作者:litao984lt編譯 |來源:企業(yè)網(wǎng)D1Net  2017-12-20 10:31:59 本文摘自:機(jī)房360

遵循本文中所介紹的關(guān)于大數(shù)據(jù)分析的這六大最佳實(shí)踐策略,將幫助您企業(yè)更好的擊敗競爭對手,創(chuàng)造新的收入來源,并更好地為客戶服務(wù)。

大數(shù)據(jù)及其分析項(xiàng)目計(jì)劃或?qū)⒛軌蚋淖冇螒蛞?guī)則,為您企業(yè)提供相應(yīng)的洞察分析能力,幫助您企業(yè)贏得市場競爭,創(chuàng)造新的收入來源,并得以更好地為客戶服務(wù)。

但與此同時(shí),大數(shù)據(jù)及其分析活動(dòng)也可能面臨巨大的失敗,甚而導(dǎo)致浪費(fèi)掉大量的資金和時(shí)間投入——更不用說,還有可能造成那些在令人沮喪的管理失誤中身心受損的有才能的專業(yè)技術(shù)人員的流失。

那么,企業(yè)組織究竟應(yīng)當(dāng)如何避免大數(shù)據(jù)分析項(xiàng)目的失敗呢?從基本的業(yè)務(wù)管理的角度來看,一些具有可操作性的最佳實(shí)踐方案是最為明顯的:例如,首先,要從企業(yè)最高級別的高管們那里獲得對于大數(shù)據(jù)分析項(xiàng)目的充分認(rèn)可,確保為該大數(shù)據(jù)分析項(xiàng)目爭取到所有所需要的技術(shù)投資以及足夠的資金財(cái)務(wù)支持,并根據(jù)實(shí)際需要實(shí)施相關(guān)專業(yè)知識或技能方面的培訓(xùn)。如果您企業(yè)沒有首先很好的解決這些基礎(chǔ)性的問題,那么,后續(xù)的其他方面的問題真的也就沒有進(jìn)一步探討的必要了。

而假設(shè)您企業(yè)已經(jīng)完成了上述基本面領(lǐng)域的工作,那么,區(qū)別大數(shù)據(jù)分析項(xiàng)目成敗的關(guān)鍵原因就在于,您企業(yè)將如何處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。由此,你企業(yè)可以遵循如下幾大策略,以盡量確保貴公司大數(shù)據(jù)分析項(xiàng)目的成功。

1、仔細(xì)為您企業(yè)的項(xiàng)目選擇大數(shù)據(jù)分析工具

許多技術(shù)方面的失敗均源于這樣一個(gè)事實(shí):企業(yè)所采購和部署實(shí)施的產(chǎn)品被證明非常不適合于他們所正在努力完成的工作項(xiàng)目。任何一家供應(yīng)商都會將“大數(shù)據(jù)”或“高級分析”等所謂高大上的術(shù)語印到他們的產(chǎn)品說明上,以便圍繞這些術(shù)語進(jìn)行高度炒作。

但是,不同產(chǎn)品之間的差異不僅僅只存在于其質(zhì)量和有效性方面,而同時(shí)還存在于各種不同產(chǎn)品所專攻的重點(diǎn)領(lǐng)域方面。因此,即使您企業(yè)選擇了在技術(shù)上可能相當(dāng)強(qiáng)大的一款產(chǎn)品,但該產(chǎn)品很有可能并不擅長于您企業(yè)當(dāng)下實(shí)際所需要做的工作任務(wù)。

幾乎所有的大數(shù)據(jù)分析工具都具備一些基本性的功能,比如數(shù)據(jù)轉(zhuǎn)換和存儲架構(gòu)(例如,Hadoop和Apache Spark)。但是,在大數(shù)據(jù)分析工具產(chǎn)品的市場上其實(shí)也會有很多細(xì)分的市場,故而您企業(yè)必須針對您的技術(shù)戰(zhàn)略實(shí)際所涉及的領(lǐng)域采購產(chǎn)品。這些具體的領(lǐng)域包括流程挖掘、預(yù)測分析、實(shí)時(shí)解決方案、人工智能和商業(yè)智能儀表板。

在決定購買任何大數(shù)據(jù)分析工具產(chǎn)品或存儲平臺之前,您務(wù)必需要弄清楚企業(yè)真正的業(yè)務(wù)需求和問題,選擇旨在能夠有效解決這些特定問題的產(chǎn)品。

例如,由于編譯龐大的數(shù)據(jù)集的復(fù)雜性,您企業(yè)可以選擇使用認(rèn)知大數(shù)據(jù)產(chǎn)品,如人工智能來分析非結(jié)構(gòu)化數(shù)據(jù)的分析工具產(chǎn)品。但是,您企業(yè)肯定不會將認(rèn)知工具用于結(jié)構(gòu)化和標(biāo)準(zhǔn)化的數(shù)據(jù),為此您可以部署眾多有助于以更合理的價(jià)格實(shí)時(shí)獲得高質(zhì)量的洞察力的分析產(chǎn)品之一,電信公司沃達(dá)豐的大數(shù)據(jù)全球流程主管Israel Exposito表示說。

Exposito表示,在為您企業(yè)的生產(chǎn)環(huán)境選擇一款分析工具之前,請務(wù)必至少使用兩種產(chǎn)品來運(yùn)行概念證明是較為明智的。該產(chǎn)品還應(yīng)該能夠與您企業(yè)的相關(guān)平臺進(jìn)行交互。

每款大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)數(shù)據(jù)模型。這是該分析項(xiàng)目中最為重要的部分。所以,您企業(yè)將需要確保系統(tǒng)集成商和業(yè)務(wù)主題專家能夠攜手合作。務(wù)必確保從一開始就選對了工具。

重要的是要記住,必須始終保持恰當(dāng)數(shù)據(jù)的可用性,并將其翻譯轉(zhuǎn)化成業(yè)務(wù)語言,使得用戶得以能夠充分理解輸出,從而可以使用這些分析洞察來推動(dòng)對于市場機(jī)會的把握或流程的改進(jìn)。

2、確保分析工具易于使用

大數(shù)據(jù)和高級分析是復(fù)雜的,但是商業(yè)用戶所依賴于訪問和理解數(shù)據(jù)的產(chǎn)品卻并不一定必須是復(fù)雜的。

請務(wù)必為企業(yè)的業(yè)務(wù)分析團(tuán)隊(duì)提供簡單有效的工具,以便能夠更好的用于數(shù)據(jù)發(fā)現(xiàn)以及數(shù)據(jù)分析和可視化。

對于全球知名的互聯(lián)網(wǎng)域名注冊商GoDaddy公司而言,找到合適的工具組合是相當(dāng)困難的。該公司的商業(yè)智能工具企業(yè)數(shù)據(jù)布道者Sharon Graves表示說,對于快速可視化來說,其操作必須非常的簡單,而且足以進(jìn)行深入的分析。 GoDaddy能夠找到讓商業(yè)用戶們得以輕松的找到適當(dāng)?shù)臄?shù)據(jù),然后自行生成可視化的產(chǎn)品。這就將其分析團(tuán)隊(duì)解放出來,以便能夠執(zhí)行更為高級的分析任務(wù)。

除此之外,最為重要的是,切記不要為非技術(shù)業(yè)務(wù)用戶提供程序員級別的工具。他們操作起來會感到力不從心,可能會訴諸使用他們以前的工具,而這些工具并不能真正的奏效(否則,你企業(yè)就不會大費(fèi)周章的實(shí)施大數(shù)據(jù)分析項(xiàng)目了)。

3、將項(xiàng)目和數(shù)據(jù)與企業(yè)實(shí)際的業(yè)務(wù)需求相匹配

錯(cuò)誤的數(shù)據(jù)分析工作可能失敗的另一大原因是:因?yàn)檫@些分析工作最終淪為了尋找并不存在的問題的解決方案。這就是為什么你企業(yè)無比需要把你正在尋求解決的業(yè)務(wù)挑戰(zhàn)/需求擺在正確的分析問題上的原因所在了,信息服務(wù)提供商Experian公司的全球數(shù)據(jù)實(shí)驗(yàn)室的首席科學(xué)家Shanji Xiong說。

關(guān)鍵是要在大數(shù)據(jù)分析項(xiàng)目實(shí)施的早期就邀請具有強(qiáng)大分析背景的主題專家與數(shù)據(jù)科學(xué)家合作,來幫助您企業(yè)確定真正問題的所在。

如下,是Experian公司自己的一個(gè)大數(shù)據(jù)分析項(xiàng)目的例子。該公司在開發(fā)分析解決方案以打擊身份欺詐行為時(shí),他們所面臨的挑戰(zhàn)是評估客戶所提交的一套個(gè)人身份信息(PII)(如姓名、地址和社會安全號碼)是否合法;或者說,挑戰(zhàn)可能存在于評估使用一套身份信息的組合來申請貸款的客戶是否是該身份的合法擁有者。又或者兩種挑戰(zhàn)都可能存在。

第一個(gè)挑戰(zhàn)是“綜合身份”的問題,故而該公司需要一款分析模型來評估在消費(fèi)者級別或PII級別評估一套整合的身份信息的風(fēng)險(xiǎn)。第二個(gè)挑戰(zhàn)是應(yīng)用程序欺詐問題,需要在應(yīng)用程序級別進(jìn)行模型的開發(fā),以評估是否存在欺詐風(fēng)險(xiǎn)的評分。Experian公司必須了解到這些是不同的問題,盡管其最初可能被看作是同樣的問題,但卻需要建立恰當(dāng)?shù)哪P秃头治鰜斫鉀Q這些問題。

當(dāng)一套個(gè)人身份信息被提交給兩家金融機(jī)構(gòu)以申請貸款時(shí),通常的要求是將返回相同的綜合身份信息風(fēng)險(xiǎn)評分,但這通常并不是應(yīng)用程序欺詐評分的必要特征。

必須將正確的算法應(yīng)用于恰當(dāng)?shù)臄?shù)據(jù)信息才能提取商業(yè)智能,并做出準(zhǔn)確的預(yù)測。在建模過程中收集和包含相關(guān)數(shù)據(jù)集幾乎總是比微調(diào)機(jī)器學(xué)習(xí)算法更為重要,所以數(shù)據(jù)工作應(yīng)該被視為重中之重。

4、建立一個(gè)數(shù)據(jù)湖,不要吝嗇帶寬

正如“大數(shù)據(jù)”這一術(shù)語所暗示的那樣,其涉及到大量的數(shù)據(jù)信息。過去,很少有企業(yè)組織有能力可以存儲這么多的數(shù)據(jù),更不用說對這些數(shù)據(jù)進(jìn)行組織和分析了。但是現(xiàn)在,高性能的存儲技術(shù)和大規(guī)模并行處理在云中和通過本地系統(tǒng)都早已經(jīng)是廣泛可用的了。

但是,存儲本身是不夠的。您企業(yè)將需要一種方法來處理供您進(jìn)行大數(shù)據(jù)分析的各種不同類型的數(shù)據(jù)。這便是Apache Hadoop充分發(fā)揮其用武之地的時(shí)候了,其允許企業(yè)得以能夠存儲和映射巨大的、不同的數(shù)據(jù)集。這樣的庫通常被稱為數(shù)據(jù)湖。在現(xiàn)實(shí)生活中,一個(gè)實(shí)際的湖泊通常是由多條流入的河流來形成的,其還將包含許多的植物、魚類和其他生物。而數(shù)據(jù)湖通常由多個(gè)數(shù)據(jù)源構(gòu)成,并包含許多不同類型的數(shù)據(jù)。

但數(shù)據(jù)湖絕不應(yīng)該簡單的成為企業(yè)各種繁雜數(shù)據(jù)的傾倒地。亞利桑那州立大學(xué)研究計(jì)算主任Jay Etchings表示說,你企業(yè)需要考慮如何匯總數(shù)據(jù),以便以有意義的方式擴(kuò)展其屬性。數(shù)據(jù)可以是完全不同的,但是如何使用MapReduce和Apache Spark等工具來將其轉(zhuǎn)換為分析數(shù)據(jù),企業(yè)組織應(yīng)該使用可靠的數(shù)據(jù)架構(gòu)。

企業(yè)應(yīng)建立一個(gè)數(shù)據(jù)湖,在這個(gè)數(shù)據(jù)湖中,采集、索引和規(guī)范化數(shù)據(jù)是精心策劃大數(shù)據(jù)策略的組成部分。Etchings表示說,企業(yè)組織如若沒有清晰的理解和明確的藍(lán)圖,那么大多數(shù)數(shù)據(jù)密集型的計(jì)劃都注定將會失敗。

同樣,有足夠的帶寬也是至關(guān)重要的; 否則數(shù)據(jù)不會足夠快的從各種不同的數(shù)據(jù)來源傳輸?shù)綌?shù)據(jù)湖,進(jìn)而為業(yè)務(wù)用戶所用。為了充分利用貴公司所收集的海量數(shù)據(jù)資源,Etchings說,企業(yè)不僅需要每秒能夠處理數(shù)百萬I/O的快速磁盤,而且還需要相互連接的節(jié)點(diǎn)和處理引擎,以便隨時(shí)訪問數(shù)據(jù)。

從社交媒體的發(fā)展趨勢到流量路由,速度對于實(shí)時(shí)分析尤為重要。 因此,企業(yè)無比要建立您的數(shù)據(jù)湖,以確保最快的互連可用。

5、將安全性設(shè)計(jì)到大數(shù)據(jù)的各個(gè)方面

計(jì)算基礎(chǔ)設(shè)施架構(gòu)組件的高度異質(zhì)性大大加速了企業(yè)組織從他們所收集到的數(shù)據(jù)信息中提取有意義的見解的能力。但有一大缺點(diǎn):對于系統(tǒng)的管理和保護(hù)要復(fù)雜得多,Etchings說。由于涉及大量的數(shù)據(jù)和大多數(shù)大數(shù)據(jù)分析系統(tǒng)的關(guān)鍵任務(wù),使得很多企業(yè)未能在保護(hù)系統(tǒng)和數(shù)據(jù)方面采取足夠的預(yù)防措施,進(jìn)而正在大規(guī)模的帶來問題和麻煩。

企業(yè)所收集、存儲、分析和共享的大部分?jǐn)?shù)據(jù)都是關(guān)于客戶數(shù)據(jù)信息,其中一些是私人的和可識別的。如果這些數(shù)據(jù)落入了壞人的手中,其結(jié)果是可預(yù)測的:企業(yè)必將面臨法律方面的訴訟、金錢的損失以及隨之而來的的監(jiān)管機(jī)構(gòu)的罰款、企業(yè)品牌和聲譽(yù)受損,以及客戶的憤怒和不滿。

故而您企業(yè)的安全措施應(yīng)該包括部署基本的企業(yè)工具:切實(shí)的數(shù)據(jù)加密,身份和訪問管理以及網(wǎng)絡(luò)安全。同時(shí),您企業(yè)的安全措施還應(yīng)包括對相關(guān)工作人員就如何正確訪問和使用數(shù)據(jù)的政策的教育和培訓(xùn)。

6、把數(shù)據(jù)管理和質(zhì)量放在首要位置

確保良好的數(shù)據(jù)管理和質(zhì)量應(yīng)該是所有大數(shù)據(jù)分析項(xiàng)目的重要指標(biāo),否則面臨的失敗的可能性要大得多。

您企業(yè)需要實(shí)施相應(yīng)的控制措施,以確保數(shù)據(jù)按時(shí)、準(zhǔn)確并及時(shí)的交付。作為大數(shù)據(jù)分析舉措的一部分,GoDaddy公司實(shí)施了警報(bào),以便通知相關(guān)的管理人員數(shù)據(jù)的更新是否失敗或運(yùn)行較晚。此外,GoDaddy公司還對關(guān)鍵指標(biāo)實(shí)施了數(shù)據(jù)質(zhì)量檢查,并在這些指標(biāo)與預(yù)期不符時(shí)發(fā)出警報(bào)。

確保數(shù)據(jù)質(zhì)量和良好管理的一個(gè)重要部分就是聘用熟練的數(shù)據(jù)管理專業(yè)人員,這其中包括數(shù)據(jù)管理總監(jiān)或其他方面的高管來監(jiān)督這些領(lǐng)域。鑒于這些舉措的戰(zhàn)略重要性,企業(yè)組織將會對于數(shù)據(jù)的管理、監(jiān)控和策略方面的擁有權(quán)方面具有真正的需求。

關(guān)鍵字:MapReduce企業(yè)組織數(shù)據(jù)分析

本文摘自:機(jī)房360

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 东明县| 临沧市| 博湖县| 黄浦区| 新营市| 兴城市| 鸡东县| 朝阳区| 泗水县| 濮阳县| 阳东县| 万盛区| 即墨市| 迁西县| 海宁市| 申扎县| 内黄县| 广灵县| 岳池县| 大宁县| 德安县| 渝北区| 铜川市| 合江县| 榆林市| 江达县| 凤翔县| 白玉县| 井研县| 郁南县| 蒙城县| 东丽区| 屯门区| 凤凰县| 万年县| 德钦县| 勃利县| 江陵县| 彭州市| 阿合奇县| 宁阳县|