《企業網D1Net》8月30日訊
企業IT專業人士,包括公共CIO,早就認識到數據的力量,而大數據方法令人興奮的新的意義建構能力更是引發大量興奮及討論。但是若以史為鑒,我們將會看到這個字眼失去它的意義。以下是我的看法:
你還記得服務導向型體系架構(SOA)嗎?這個概念引導了大量的新能力、以及高效且聚焦于任務的設計。企業建立的架構使得應用接口、邏輯、數據各自分開并可巧妙重復利用。在這個概念走向主流之后,IT生態系統里的每個公司便都抓住了它,而且開始使用縮略詞SOA來代表任何他們想要的東西。盡管它仍舊是一個對IT專業人士十分有用的構想,但涉及到與行業的互動時,這個詞現在已經失去了很多意義。
然后是云計算。當企業IT專業人士業內使用這個名詞時,這個概念有著巨大的價值。考慮到改變業務流程以最大化利用現代IT及其產品的需求,這個概念傳達了大量的含義。但是現在,大多IT 供應商都把他們做的事描述為云計算。正如SOA,當云計算這個名詞涉及到與行業的互動時,卻失去了許多意義。
現在來談大數據。今天大數據一直是個非常有益的概念。從業者,包括IT架構師、系統工程師、CIO、CTO、以及數據科學家們,都在對話中以各種方式使用這個名詞來提高數據的意義建構。這個名詞成為介紹其他名詞的一種有效方式,包括非技術人員在內的人士在內,還用它實現諸如Apache Hadoop框架這樣的新方案。我們有著持續的討論這些話題的需要,且“大數據”這個名詞和可能將會陪伴我們很久。
但是正如SOA和云計算一樣,大數據現在在供應商圈子中也是一個熱門話題。所有跡象表明,大多數供應商已經意識到關于這個概念正在進行著激動人心的對話。他們都已經或是轉移了他們的市場策略來涵蓋這個概念,或是馬上就將涵蓋。奇怪的是IT行業里的大多數公司都很快將要宣布自己是一個大數據公司。
我已經看過許多證據證明品牌重塑正在進行。我已經聽說過許多網絡交換機和路由器制造商聲稱他們是大數據公司,因為他們轉移著大量的數據。我見過一些因為他們策劃數據就想被稱為大數據公司的映射公司。我知道一種老派的存儲公司,由于存儲許多信息而希望作為大數據公司被人認識。一家了解且喜愛的很棒的信息集成公司告訴過我,它是大數據解決方案,因為它集成數據。領先的晶片制造商將要啟動一個大數據運動,因為它需要處理器來處理大量數據。
在各種情況中,廠商都在創建他們自己的大數據定義。歷史將會重復。很快,你接觸的每個供應商都將想要讓你使用它的大數據定義。
那么,公共部門的技術人員在這樣的環境中需要做些什么呢?我建議,去做企業技術人員們做的最好的:聚焦于你的使命需要;別讓任何人說服你去聽從他們的對于你的使命需要應怎么樣滿足的概念。
說到定義,你應該知道怎樣闡釋最能滿足你的組織需要的一種。作為一個起點,我推薦維基百科上的定義,因為這個社區編輯站點獲得了許多輸入信息。維基上的定義如下:“大數據意味著需要一個策略來處理大量的數據。這個詞也用來描述成功處理大量數據意義生成所需工具的新平臺,正如阿帕奇分布式計算(Apache Hadoop)大數據平臺那樣。”
我喜歡這個定義是因為它聚焦于數據意義生成,這正為什么我們最初有數據的目的。我也喜歡阿帕奇分布式計算的引用,因為我知道的每個大數據解決方案都使用該框架。大數據的關鍵通常是分布式計算(Hadoop)而非這個框架中包括的分布式文件系統(HDFS)、數據庫(HBase)、蜂房(Hive)、Cassandra和Mahout在內的其他能力。
如果你選擇一個對于意義生成并不關鍵的定義,你同意任何IT生產商說自己是大數據公司。而且如果你在自己的定義中不提到Apache 分布計算框架,你就相當于允許每個傳奇軟件制造商說自己是大數據公司,即使它有的只是舊模式。現在關于大數據設計有了新東西,那就是為Apache 框架所實現的在集群計算機中分布式處理大型數據集。
不論你決定使用什么定義,我都建議你深入學習Apache 軟件的能力。這個框架使海量數據的分布式平行處理能夠通過價格不高的商品服務器來進行——沒有廠商應該帶給你一個大數據的解決方案,除非它已經利用了這個框架的強大的功能。
大數據以及圈子里怎樣使用這個名詞,是一個需要更多討論的話題,而我的希望是來公共部門、地方、州、聯邦級別的技術人員們能夠進行更大的對話來探討這個名詞對公共部門的使命到底意味著什么。討論這個話題可被證明對組織使命是非常積極的,且會幫助IT供應商更好地理解公共部門的需要。