精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

三個理由告訴你為什么需要在云端運(yùn)行Spark

責(zé)任編輯:editor005

作者:布加迪編譯

2015-06-23 13:45:20

摘自:51CTO

我采訪了Databricks公司的客戶互動副總裁Arsalan Tavakoli,請他談?wù)凷park和數(shù)據(jù)分析技術(shù)如何成為強(qiáng)大的組合。為此,商業(yè)智能可視化應(yīng)用程序再理想不過,而Zoomdata證明了它很適合我們的云。

Spark的發(fā)展勢頭正猛,可是對主流用戶們來說還是太難了。云外加可視化也許有所幫助。

需要在云端運(yùn)行Spark的三個理由

開源項目Apache Spark如今可能是從加州大學(xué)伯克利分校的AMP實(shí)驗室孕育而來的最有名的項目。AMP實(shí)驗室置身于機(jī)器學(xué)習(xí)、云計算和眾包這三大潮流的交匯處,正在結(jié)合算法、機(jī)器和人員三者的力量,充分解讀大數(shù)據(jù)。

開發(fā)Spark的初衷是擴(kuò)展AMP實(shí)驗室另一個項目Apache Mesos的功能,沒想到迅速流行起來,幾位開發(fā)者在2013年開了一家初創(chuàng)企業(yè):Databricks,出資方是知名風(fēng)投機(jī)構(gòu)Andreessen Horowitz,通過主機(jī)托管的云平臺來提供Spark,因而讓數(shù)據(jù)專業(yè)人員很容易充分發(fā)揮Spark的功能。

作為一種替代Hadoop的MapReduce,并用來處理大數(shù)據(jù)的技術(shù),Spark具有極大的吸引力。它結(jié)合了速度、易于使用的編程模型和統(tǒng)一設(shè)計,讓用戶能夠?qū)⒔换ナ讲樵?、流式分析、機(jī)器學(xué)習(xí)和圖形計算合并到單一系統(tǒng)里面。

將這種功能放到云端,又提供一種單一而出色的用戶體驗,你就為從事數(shù)據(jù)探查和構(gòu)建端到端數(shù)據(jù)管道的任何人提供了一種殺手級平臺。使用從頭開始為大數(shù)據(jù)開發(fā)的可視化分析應(yīng)用程序,比如Zoomdata,你就有了一種殺手級價值主張,可以進(jìn)行超快速的商業(yè)智能(BI)可視化分析。

我采訪了Databricks公司的客戶互動副總裁Arsalan Tavakoli,請他談?wù)凷park和數(shù)據(jù)分析技術(shù)如何成為強(qiáng)大的組合。

為何Spark放在云端?既然我下載Spark后可以在內(nèi)部本地運(yùn)行Spark,為何還需要向Databricks租用Spark呢?

Tavakoli:很顯然,Spark是作為一種開源產(chǎn)品來提供的。誰都可以從眾多供應(yīng)商處下載,并使用它。但是我們考察了大數(shù)據(jù)項目失敗的客戶后,發(fā)現(xiàn)通常有三個原因可以解釋項目為何會失敗。

首先,基礎(chǔ)設(shè)施管理很難。如果是在內(nèi)部本地運(yùn)行,你要考慮6到9個月的過渡期,才能讓大數(shù)據(jù)基礎(chǔ)設(shè)施投入到生產(chǎn)環(huán)境,有時需要更長的時間。即便你在亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)上運(yùn)行Spark,也得編寫EC2腳本,讓開發(fā)運(yùn)營(DevOps)人員參與其中。這并不好。

切記,基礎(chǔ)設(shè)施很難。而許多公司求助于Spark,很大程度上是由于其快速的創(chuàng)新周期。它們想獲得由數(shù)百人貢獻(xiàn)代碼、一直日臻完善的這樣一項技術(shù)帶來的好處。這意味著,這也是一項迅速前進(jìn)的技術(shù)。你的團(tuán)隊需要花多長時間才能將最新版本部署并運(yùn)行起來?

其次,一旦你的Spark集群安搭建并運(yùn)行起來,該如何處理它?數(shù)據(jù)科學(xué)家往往使用偏愛的語言,比如R和Python?,F(xiàn)在,他們不得不弄清楚如何導(dǎo)入數(shù)據(jù),如何讓任務(wù)盡快運(yùn)行起來。處理獨(dú)立式Spark所必不可少的工具鏈可能對這些用戶來說難以使用。你又該如何運(yùn)行你的分析技術(shù)、與同事合作呢?

這并非易事。

第三,在你全面測試了查詢和模型后,你想進(jìn)入到生產(chǎn)環(huán)境――這個過程看起來像什么?在大多數(shù)公司,這意味著將你的模型交給工程團(tuán)隊,這支團(tuán)隊回過頭去,將你認(rèn)為需要的特性重新實(shí)施到所有新的基礎(chǔ)設(shè)施上。

像Databricks這樣的云平臺提供了一套集成的、主機(jī)托管的解決方案,消除了企業(yè)采用Spark和確保大數(shù)據(jù)項目成功所面臨的這三大障礙。我們?yōu)槟闾峁┝巳婀芾砗驼{(diào)優(yōu)的Spark集群,開發(fā)Spark的一群專家在大力支持。我們的平臺為你提供了一種互動式工作區(qū)域,以便探查、可視化、合作和發(fā)布。如果你已準(zhǔn)備好進(jìn)入生產(chǎn)環(huán)境,只要點(diǎn)擊一下鼠標(biāo)即可啟動任務(wù)。我們會自動搭建基礎(chǔ)設(shè)施。

另外,我們還提供了一組豐富的API,以便通過編程訪問該平臺,這還讓用戶能夠無縫整合第三方應(yīng)用程序。

請說一下為何客戶們想要在云端進(jìn)行商業(yè)智能可視化。有沒有特別的原因可以解釋交付的這種平臺最適合商業(yè)智能可視化?

Tavakoli:人們想要使用數(shù)據(jù)來獲得洞察力,以便深入了解公司業(yè)務(wù),而數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家致力于提供這種洞察力。但是除非你是像Pinterest、Netflix或Facebook這樣的技術(shù)型公司,否則他們(數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家)只是任何企業(yè)組織的一小部分。業(yè)務(wù)分析員和最終用戶這個用戶群要大得多。

比如說,營銷部門的人想對數(shù)據(jù)進(jìn)行大致的交叉分析,可是苦于沒有相應(yīng)的技術(shù)技能。他們就想在受到嚴(yán)重制約的決策空間獲得儀表板或諸如此類的工具。

明智的公司知道,自己應(yīng)該幫助員工能夠自我管理。這時候,商業(yè)智能可視化可以發(fā)揮其作用。你可能會需要一款針對特定領(lǐng)域的應(yīng)用程序。

這么說來,這是貴公司與Zoomdata達(dá)成合作伙伴的原因?Databricks Cloud的用戶可以從這種合作關(guān)系中得到原本得不到的哪些好處?

Tavakoli:我們的客戶使用場合與Zoomdata存在諸多重疊之處。許多這些企業(yè)是典型的早期采用者,它們高度依賴數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。所有這些企業(yè)組織還有一個主要的商業(yè)智能倉庫組件。

但是這些公司可能會問自己的下一個問題是:我如何才能讓這對更多的用戶來說更簡單?我擁有所有這些數(shù)據(jù),可以用Spark來處理,如何才能提供給不是開發(fā)人員的那些用戶呢?

為此,商業(yè)智能可視化應(yīng)用程序再理想不過,而Zoomdata證明了它很適合我們的云。

您在這種Databricks/Zoomdata聯(lián)合解決方案方面看到一些常見的使用場合有哪些?

Tavakoli:一種常見的使用場合是廣告技術(shù)(AdTech)垂直領(lǐng)域。

廣告技術(shù)公司通常有下列流程:它們從眾多來源匯集數(shù)據(jù),建立起內(nèi)部數(shù)據(jù)庫,然后這些數(shù)據(jù)通過又長又深的抽取、轉(zhuǎn)換和加載(ETL)管道,轉(zhuǎn)換成經(jīng)過處理的形式。

隨后,每個客戶提供來自CRM和營銷自動化系統(tǒng)的數(shù)據(jù),這些數(shù)據(jù)需要與該內(nèi)部數(shù)據(jù)庫結(jié)合起來,才能解答營銷活動效果方面的問題。這個過程由全面檢驗了深入理論的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家來處理。

另一方面,數(shù)據(jù)分析師和產(chǎn)品經(jīng)理們想要提出更大致的問題,比如產(chǎn)品中哪項功能最有效,或者他們想知道移動廣告的效果怎樣。這一群用戶在使用Zoomdata之類的商業(yè)智能用戶界面時得心應(yīng)手。

另一種使用場合是物聯(lián)網(wǎng)。Automatic Labs等公司獲取來自汽車?yán)锩嫠性O(shè)備的全部數(shù)據(jù)。數(shù)據(jù)科學(xué)家分析與汽車、成本和駕駛模式有關(guān)的基本趨勢方面的更深入問題。

像客戶經(jīng)理這些非專家人員可能就是想查看不同的數(shù)據(jù),以便與保險費(fèi)率關(guān)聯(lián)起來。這些人可不想處理搭建Spark集群以及編寫Python或SQL代碼之類的事情。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 顺义区| 凌海市| 凌源市| 利津县| 上犹县| 沧州市| 漯河市| 锦屏县| 博客| 凉城县| 辽中县| 新巴尔虎右旗| 河曲县| 呼玛县| 商南县| 镇远县| 湘阴县| 铜山县| 东乡族自治县| 张北县| 成都市| 汉阴县| 武清区| 富锦市| 高唐县| 祁阳县| 云梦县| 沅陵县| 东乡族自治县| 宁波市| 开鲁县| 长乐市| 宁乡县| 重庆市| 庄浪县| 彭泽县| 申扎县| 宁晋县| 大安市| 九龙县| 榆中县|