隨著大數(shù)據(jù)分析市場的快速滲透到各行業(yè)務(wù),哪些大數(shù)據(jù)技術(shù)是剛需?哪些技術(shù)有極大的潛在價值?
根據(jù)弗雷斯特研究公司發(fā)布的指數(shù),這里給出最熱的十個大數(shù)據(jù)技術(shù):
預(yù)測分析:隨著現(xiàn)在硬件和軟件解決方案的成熟,許多公司利用大數(shù)據(jù)技術(shù)來收集海量數(shù)據(jù)、訓練模型、優(yōu)化模型,并發(fā)布預(yù)測模型來提高業(yè)務(wù)水平或者避免風險;
NoSQL數(shù)據(jù)庫:非關(guān)系型數(shù)據(jù)庫包括Key-value型(Redis)數(shù)據(jù)庫、文檔型(MonogoDB)數(shù)據(jù)庫、圖型(Neo4j)數(shù)據(jù)庫;
搜索和知識發(fā)現(xiàn):支持信息的自動抽取,可以從多數(shù)據(jù)源洞察結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
流式分析:軟件可以對多個高吞吐量的數(shù)據(jù)源進行實時的清洗、聚合和分析;
內(nèi)存數(shù)據(jù)結(jié)構(gòu):通過動態(tài)隨機內(nèi)存訪問(DRAM)、Flash和SSD等分布式存儲系統(tǒng)提供海量數(shù)據(jù)的低延時訪問和處理;
分布式存儲系統(tǒng):分布式存儲是指存儲節(jié)點大于一個、數(shù)據(jù)保存多副本以及高性能的計算網(wǎng)絡(luò);
數(shù)據(jù)可視化:數(shù)據(jù)可視化技術(shù)是指對各類型數(shù)據(jù)源(包括Hadoop上的海量數(shù)據(jù)以及實時和接近實時的分布式數(shù)據(jù))進行顯示;
數(shù)據(jù)整合:通過亞馬遜彈性MR(EMR)、Hive、Pig、Spark、MapReduce、Couchbase、Hadoop和MongoDB等軟件進行業(yè)務(wù)數(shù)據(jù)整合;
數(shù)據(jù)預(yù)處理:數(shù)據(jù)整合是指對數(shù)據(jù)源進行清洗、裁剪,并共享多樣化數(shù)據(jù)來加快數(shù)據(jù)分析;
數(shù)據(jù)校驗:對分布式存儲系統(tǒng)和數(shù)據(jù)庫上的海量、高頻率數(shù)據(jù)集進行數(shù)據(jù)校驗,去除非法數(shù)據(jù),補全缺失。