在極短的時間內,Apache Spark 迅速成長為大數據分析的技術核心。這就使得保守派擔心在這個技術更新如此之快的年代它是否會同樣快的被淘汰呢。我反而卻堅信,spark僅僅是嶄露頭角。
在過去的幾年時間,隨著Hadoop技術爆炸和大數據逐漸占據主流地位,幾件事情逐漸明晰:
對所有數據而言,Hadoop分布式文件系統(HDFS)是一個直接存儲平臺。
YARN(負責資源分配和管理)是大數據環境下一個適用的架構。
或許是最為重要的一點,目前并不存在一個能解決所有問題的框架結構。盡管MapReduce是一項非常了不起的技術,但是它仍不能解決所有問題。
然而,Spark卻可以解決大數據時代中很多關鍵問題,推動大數據以驚人的速度發展。這就是盡管其還很年輕,我們的“Big Data Discovery”平臺依舊使用Apache spark 作為底層技術來處理和分析大數據的原因。
Spark時代即將到來
在尋找關鍵問題的答案時,基于Hadoop的架構需要調用的多種基礎設施和進程來進行分析。他們需要已有的數據,描述性的分析,搜索和更先進的技術,如機器學習,甚至是圖形處理。
公司需要這樣一個工具,該工具可以讓他們充分利用現有技術和資源。至今,尚未存在可以滿足上述所有標準的單一處理框架結構。然而,這卻是 Spark的最為基本優勢,為處理大數據業務的公司提供跨越六個關鍵領域的技術支持。
1.高級分析
許多大型的創新性公司正在尋求增強他們的高級分析能力。然而,在最近紐約的一次大數據分析會議中,只有20%的參與者表示目前正在公司里部署高級分析。
剩下的80%表示他們正忙于準備數據和提供基本分析。少數科學家花費了大量時間來實施和管理描述分析。Spark為高級分析提供了一個開箱即用的框架,包括加速查詢工具,機器學習庫,圖形處理引擎和流分析引擎。
與MapReduce試圖實現這些分析相比——MapReduce幾乎不可能實現,甚至說很難找到此類數據科學家——Spark提供了更容易且更快上手的預編譯庫。這就使得數據科學家可以把任務放在準備數據和保障數據質量之外了。通過Spark他們甚至可以確保分析結果的正確解釋。
2.簡化
最早對Hadoop的批評不僅僅是它很難使用,而是更難找到會使用它的人。盡管進過后續的迭代后,它變的更加簡化和強大,但抱怨聲至今未息。
相對于要求用戶理解各類復雜的情況,例如Java和MapReduce編程模式,凡具有一些數據庫基本知識和一些腳本技能(在Python或者Scala)均可以使用Spark。對于企業而言,能夠更容易的找到理解數據并使用工具處理數據的工程師。對供應商而言,我們可以在Spark的上層有所發展并給企業帶來更快的創新。
3.多種語言
SQL 語言無法應對大數據分析的面臨的所有挑戰,至少但依靠它是無法應對的。因此我們需要在解決這個問題上保持更多的靈活性,在組織和檢索數據中應有更多的選項,并能快速的將其移動到另一個分析框架中。
Spark保留了SQL語言的模式,采用最快最簡潔的方式進行數據分析,不管是什么類型的數據。
4.更快的結果
隨著商業業務的不斷加快,所以對實時結果的要求是十分必要的。在內存處理上,Spark提供了并行處理的方式使得返回的結果比其他任何其他訪問磁盤的方法快了幾倍。實時結果去掉延遲后可以顯著的減緩商業進程和增量分析。
供應商開始在sparkj上開發應用程序,在工作流程分析上將會出現巨大的進步。加速周轉時間意味著分析師可以迭代工作,使得答案更加完整精確。Spark讓分析師去做他們的本職工作--——更快且好的尋求答案。
5.不歧視或偏愛的Hadoop供應商
Spark兼容現行所有的Hadoop版本,并有很好的緣由:它是中立的供應商,這意味著它不需要用戶去綁定任何特定的供應商。
由于Spark的開源特性,企業可以自由創建基于Spark析基礎設施而不用擔心會其他事情發生什,即便他們改變Hadoop供應商。如果他們做了什么改變,分析架構也會隨之變化。
6.高增性
Apache Spark在極短的時間內取得極大的增長。到2014年為止,Spark在 Daytona Gray Sort 100TB Benchmark.中世界第一。不管是服務、產品抑或技術一旦被迅速關注后,人們通常急于將其搞清楚——如何抑制其炒作,揭示其缺陷或揭穿其的承諾。但根據最近的一項調查顯示,人們對Spark的關注仍在增長。
覆蓋超過2100產品開發人員的報告顯示,71%的受訪者有過Spark框架開發經驗。如今,它已經擁有多達500多個不同規模的組織,成千上萬的開發者和廣泛的資源項目參與其中。Spark作為大數據分析的基本技術之一尚未確定自身的地位,但它已著手去做。換句話說,這僅僅只是開始。