在大數據日益火爆的今天,人們討論的大多是大數據本身及其應用,包括大數據是什么,大數據為企業營銷活動做出的指導,但似乎對于大數據背后的技術和開發,卻很少有人關心。
在這場轟轟烈烈的大數據變革中,處在中心地位的是新一代數據庫技術,沒有它們,就不能實現當前以前所未有的速度匯總和分析數據。同樣要感謝這些技術,在多個分散的處理器之間同步分析數據,讓大型網絡公司和線上服務公司,如谷歌、亞馬遜、Facebook等能實時為全球數十億人群提供服務。
數據存儲
傳統存儲技術中,數據以類似表格的方法分行列排布,調用數據時遵循固定的請求格式,這種對收集數據進行調用的格式稱為SEQUEL(格式化英語查詢語言,structured English Query Language),后來被縮寫成SQL,運用這種格式化存儲思維的數據庫技術稱為“SQL”技術。甲骨文(Oracle)在20世紀70年代率先推出這項技術,讓該公司此后一直在數據庫技術領域占據領先地位。
如果你熟悉Excel,那么Execl處理的數據也是數據庫處理對象,如公司賬目、市場信息、銷售數據等。
但有些數據卻不適合用傳統方法儲存,如Facebook這樣的社交網絡中的互聯關系,如谷歌這樣的搜索引擎中存儲的文件索引,或Netflix這樣的媒體網絡中包含的大量多媒體音樂或影像數據。
好在數據庫技術在不斷發展,從一維的樹樁表格、索引列表開始有了顯著進展,產生了能夠處理用傳統數據技術無法勝任的大規模數據的新存儲方式,這種新的存儲方式的迅速流行繼而引發了數據庫技術的多樣化。
上圖:全球范圍對新一代“NoSQL”數據庫技術的興趣增長迅速
新型數據存儲技術被統稱為超越SQL(NoSQL)的技術,非關系型數據庫。這類數據庫技術中,很多關鍵技術都不屬于單個公司,如甲骨文或微軟,而是來自公司或獨立的程序開發者共同開發的開源項目,這種合作方式,和維基百科或Linux的公開編輯類似。
新一代數據庫技術
新一代非關系型數據庫有以下5個主要類型:
•面向文件存儲:適用于存儲海量文件,代表產品MongoDb
•列存儲(wide column store/column-family)數據庫:快速查找相關數據,相關數據被放在同一列中,代表產品Cassandra
•搜索引擎:適用于存儲文件索引,代表產品Solr
•鍵值(key-value)數據庫:快速訪問非相關數據??梢酝ㄟ^key來添加、查詢或刪除數據,代表產品Redis
•圖(graph)數據庫:適用于訪問以圖片方式存儲的數據,如社交網絡。代表產品Neo4j
此外Apache Hadoop也是一款值得注意的產品,具有業界領先技術,但并沒有包括在上述5大類中,因為它處理的對象是框架和文件系統,而不是單純的數據庫,但可以支持數據庫中的很多類型。
技術人員數量排行
具有相關領域前沿技術的人才是保證公司行業領先地位的先決條件。列表中的40家公司,分別是使用上述5大類技術中雇傭專業技術人員最多的公司。
從國家分布看,雇傭專業人員數量最多的公司分別有倫敦的Sky和紐約的高盛。
從文章看出,大數據為數據存儲帶來了變革。顯然,傳統的數據存儲技術已經不能適應大數據的存儲,非關系型數據庫技術在大數據時代必然得到發展。倫敦的Sky和紐約的高盛已經率先進入這一領域。