有人把大數據稱為信息資產、有人稱為金礦、甚至社會財富。而大數據,即,無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。Gartne認為“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據并不在“大”,而在于“有用”。價值含量、挖掘成本比數量更為重要。對于很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
隨著云時代的來臨,依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等技術對海量數據進行分布式數據挖掘,分析、洞察越來越被看重。
前幾日,一篇文章在媒體圈炸了鍋,騰訊財經采用機器人寫出一篇稿子《8月CPI漲2% 創12個月新高》,騰訊財經開發的自動化新聞寫作機器人,根據算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內將重要資訊和解讀送達用戶。獲悉這一消息后,一些記者紛紛表示”已哭暈在廁所“,今后的記者崗位會越來越少。也不乏安慰者,”機器人寫的是稿,記者寫的是觀點。“但無論如何,基于對數據進行分析直接展示數據,讓數據自己說話,讓觀眾聽到結果,是大數據時代實實在在帶來的好處。
對于大數據來說,最重要的還是對于數據的分析,從里面尋找有價值的數據幫助企業作出更好的商業決策。而如何利用大數據分析,少不了大數據分析的平臺,Hadoop被公認為是新一代的大數據處理平臺,EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的懷抱。
這樣的平臺是復雜的,具有相當技術的門檻,但是每個行業都少不了黑馬。Spark從2009年誕生到如今的成熟,不過短短幾年。Spark的核心RDD(resilient distributed datasets),以及流處理,SQL智能分析,機器學習等功能。Spark提供的基于RDD的一體化解決方案,將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等模型統一到一個平臺下,并以一致的API公開,并提供相同的部署方案,使得Spark的工程應用領域變得更加廣泛。
在大數據領域,只有深挖數據科學領域,走在學術前沿,才能在底層算法和模型方面走在前面,從而占據領先地位。
對于Hadoop與Spark兩者之間的合作與競爭,在業內不比大數據本身的熱度少多少。知乎上有位大數據工程師@網易如此來解釋,”Hadoop包括Yarn和HDFS以及MapReduce,說Spark代替Hadoop應該說是代替MapReduce。“MapReduce的缺陷很多,最大的缺陷之一是Map + Reduce的模型。
另一位知乎網友@碼農從自身的感受如此談到:
1. 相同的算法,Spark比Hadoop快數倍,如果是一些迭代或者要對數據反復讀取的算法,Spark比Hadoop快數十倍至上百倍
2. Spark對于數據的操作種類更多,對于一些比較特殊的計算需求,比如求兩個集合的交集并集,Spark都有函數直接計算,而Hadoop實現這樣的計算無比繁瑣。
Spark的特色在于它首先為大數據應用提供了一個統一的平臺。從數據處理層面看,模型可以分為批處理、交互式、流處理等多種方式;而從大數據平臺而言,已有成熟的Hadoop、Cassandra、Mesos以及其他云的供應商。
據預測,Spark將會在五年以后全面替代Hadoop的MapReduce。由此可見,大數據領域技術更迭十分迅速。那么,在日新月異的大數據領域,Spark又能主導分布式計算多久呢?之后,又是那種技術替代Spark呢?