最近“大數(shù)據革命”被炒得沸沸揚揚,關于大數(shù)據本身及其應用被廣泛議論,從谷歌自動駕駛汽車,到CSIRO和塔斯馬尼亞大學利用信息系統(tǒng)幫助農民提高生產率,但似乎大數(shù)據背后的技術和開發(fā)它們的技術人員卻被忽略了。
在這場轟轟烈烈的大數(shù)據變革中,處在中心地位的是新一代數(shù)據庫技術,沒有它們,就不能實現(xiàn)當前以前所未有的速度匯總和分析數(shù)據。同樣要感謝這些技術,在多個分散的處理器之間同步分析數(shù)據,讓大型網絡公司和線上服務公司,如谷歌、亞馬遜、Facebook等能實時為全球數(shù)十億人群提供服務。
數(shù)據存儲 傳統(tǒng)存儲技術中,數(shù)據以類似表格的方法分行列排布,調用數(shù)據時遵循固定的請求格式,這種對收集數(shù)據進行調用的格式稱為SEQUEL(格式化英語查詢語言,structured English Query Language),后來被縮寫成SQL,運用這種格式化存儲思維的數(shù)據庫技術稱為“SQL”技術。甲骨文(Oracle)在20世紀70年代率先推出這項技術,讓該公司此后一直在數(shù)據庫技術領域占據領先地位。
如果你熟悉Excel,那么Execl處理的數(shù)據也是數(shù)據庫處理對象,如公司賬目、市場信息、銷售數(shù)據等。
但有些數(shù)據卻不適合用傳統(tǒng)方法儲存,如Facebook這樣的社交網絡中的互聯(lián)關系,如谷歌這樣的搜索引擎中存儲的文件索引,或Netflix這樣的媒體網絡中包含的大量多媒體音樂或影像數(shù)據。 好在數(shù)據庫技術在不斷發(fā)展,從一維的樹樁表格、索引列表開始有了顯著進展,產生了能夠處理用傳統(tǒng)數(shù)據技術無法勝任的大規(guī)模數(shù)據的新存儲方式,這種新的存儲方式的迅速流行繼而引發(fā)了數(shù)據庫技術的多樣化。
大數(shù)據背后的非關系型數(shù)據庫技術公司 上圖:全球范圍對新一代“NoSQL”數(shù)據庫技術的興趣增長迅速 新型數(shù)據存儲技術被統(tǒng)稱為超越SQL(NoSQL)的技術,非關系型數(shù)據庫。這類數(shù)據庫技術中,很多關鍵技術都不屬于單個公司,如甲骨文或微軟,而是來自公司或獨立的程序開發(fā)者共同開發(fā)的開源項目,這種合作方式,和維基百科或Linux的公開編輯類似。
新一代數(shù)據庫技術 新一代非關系型數(shù)據庫有以下5個主要類型: 面向文件存儲:適用于存儲海量文件,代表產品MongoDb 列存儲(wide column store/column-family)數(shù)據庫:快速查找相關數(shù)據,相關數(shù)據被放在同一列中,代表產品Cassandra 搜索引擎:適用于存儲文件索引,代表產品Solr 鍵值(key-value)數(shù)據庫:快速訪問非相關數(shù)據。可以通過key來添加、查詢或刪除數(shù)據,代表產品Redis 圖(graph)數(shù)據庫:適用于訪問以圖片方式存儲的數(shù)據,如社交網絡。代表產品Neo4j 大數(shù)據背后的非關系型數(shù)據庫技術公司 此外Apache Hadoop也是一款值得注意的產品,具有業(yè)界領先技術,但并沒有包括在上述5大類中,因為它處理的對象是框架和文件系統(tǒng),而不是單純的數(shù)據庫,但可以支持數(shù)據庫中的很多類型。
技術人員數(shù)量排行 具有相關領域前沿技術的人才是保證公司行業(yè)領先地位的先決條件。列表中的40家公司,分別是使用上述5大類技術中雇傭專業(yè)技術人員最多的公司。 大數(shù)據背后的非關系型數(shù)據庫技術公司 從國家分布看,雇傭專業(yè)人員數(shù)量最多的公司分別有倫敦的Sky和紐約的高盛。