精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

Spark大數(shù)據(jù)框架驅動快速分析

責任編輯:editor005

作者:Ed Burns

2015-07-27 14:40:28

摘自:TechTarget中國

Spark大數(shù)據(jù)分布式計算框架得到數(shù)據(jù)工程師的極大關注,但是到目前為止它的吸引力僅限于此。Spark的內(nèi)存處理功能使客戶端能夠給研究人員提供快速的數(shù)據(jù)訪問,無論他們使用哪一種前端工具都一樣。

Spark大數(shù)據(jù)分布式計算框架得到數(shù)據(jù)工程師的極大關注,但是到目前為止它的吸引力僅限于此。但是,用戶認為它有一個主要特性可以幫助它擴大影響力:速度。

企業(yè)越來越多地使用自助分析應用程序,它們變得很容易操作。簡單易用通常是在組織范圍內(nèi)成功應用的一個最大因素,但是在上周舊金山舉行的Spark Summit 2015大會上,這個計算框架的早期使用者指出,速度可能才是讓一線人員使用數(shù)據(jù)的最大賣點。

谷歌最近收購的智能調度服務制造商Timeful的副總裁Gloria Lau說:“它們必須快速失敗,它們必須迭代。它們要可視化,然后再失敗。迭代是最有價值的。你必須相信非工程師也才做得很好。”

雖然Spark可能要求較同的技術能力才能管理其后臺的集群,但是開源技術的前端用戶友好性相對較好。ApacheSpark帶有一個Spark SQL庫,它給用戶提供了查詢各種數(shù)據(jù)存儲的工具,包括使用SQL、Java和R分析語言,而開發(fā)者甚至可以開發(fā)在Spark上更加簡單的前端應用程序來使用這些工具。

內(nèi)存技術提升應用速度

由于Spark在內(nèi)存中處理數(shù)據(jù),運行在環(huán)境中的任何應用都能受益于速度。它的發(fā)明者指出,它處理數(shù)據(jù)的速度要比MapReduce快100倍,后者是Hadoop原來的處理引擎,而且在內(nèi)存中運行作業(yè)時,Spark的速度相當于在磁盤中運行的10倍速度。

Lau指出,對于技術一般的用戶而言,這種速度是至關重要的。典型的數(shù)據(jù)用戶并不喜歡那些需要10分鐘才能處理完的作業(yè)。他們習慣了像谷歌這樣幾乎即時返回結果的查詢服務。

Lau說:“你想要的是普及數(shù)據(jù)。你希望所有人都能夠訪問數(shù)據(jù),然后形成他們自己的洞察力。速度是你現(xiàn)在唯一應該關心的問題。”

豐田汽車美國銷售公司的高級數(shù)據(jù)科學家BrianKursar指出,Spark的速度幫助他和他的團隊開發(fā)出廣泛使用的報表,它們可以量化豐田品牌在社交媒體中的公共認知度。他們基于Spark的機器學習庫(MLlib)內(nèi)置的算法開發(fā)了一個機器學習應用程序。但是,它也經(jīng)過了幾次迭代才達到較高的精確度。

Kursar指出,快速完成這個過程,然后交付一個精確的結果,這種能力在幫助項目獲得主管支持并將其結果應用于實踐的過程中發(fā)揮著重要作用。

他說,“當你在開發(fā)一個產(chǎn)品時,你嘗試改進模型的準確性,這時計算能力和速度不高的技術會影響你的發(fā)揮。”

NASA使用Spark實現(xiàn)數(shù)據(jù)訪問

NASA噴氣推進實驗室的首席架構師Chris Mattmann指出,他和他的團隊正在開發(fā)一個基于Spark的數(shù)據(jù)處理系統(tǒng),它旨在幫助研究人員訪問存儲在分散文件系統(tǒng)中的數(shù)據(jù)。

NASA及其合作伙伴生成的許多科學數(shù)據(jù)位于不同的數(shù)據(jù)系統(tǒng)中,并且使用科學社區(qū)中專用的文件類型,一般的工具很難訪問這些數(shù)據(jù)。此外,訪問當前數(shù)據(jù)存儲的研究人員在執(zhí)行處理作業(yè)時耗時很長,因為每一個查詢都需要從各個數(shù)據(jù)存儲中拉取數(shù)據(jù)。所有數(shù)據(jù)都不在內(nèi)存中。

但是,Spark的內(nèi)存處理功能使客戶端能夠給研究人員提供快速的數(shù)據(jù)訪問,無論他們使用哪一種前端工具都一樣。

Mattmann說:“我們應該要能夠以交互試執(zhí)行這些查詢。它應該能夠執(zhí)行ETL,然后自動地將數(shù)據(jù)加載到內(nèi)存中。”

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 江安县| 卢氏县| 鄂托克旗| 清涧县| 和平县| 包头市| 溆浦县| 武威市| 佛山市| 台北县| 宁强县| 樟树市| 石楼县| 潮安县| 商水县| 江孜县| 苍南县| 绵竹市| 麟游县| 南涧| 城市| 高唐县| 孝昌县| 广丰县| 白河县| 沧州市| 南和县| 喀喇| 拜城县| 仁怀市| 祁连县| 营山县| 福安市| 辽源市| 达州市| 台东县| 澳门| 巴青县| 崇左市| 读书| 东丰县|