在2014年,大數據將獲得迅猛發展,并有可能朝向不同的發展趨勢。以下是“大數據問答”的2014年趨勢預測。
1. 大數據火爆程度下滑。大數據概念在上半年進入最熱,并不斷出現批評的聲音(諸如炒概念、無實質、暴隱私),在8月份左右火爆程度開始下滑。在Gartner的新興技術發展周期曲線中,大數據將跨越過熱期的最高點進入下降階段。
2. Hadoop取得全面突破。作為大數據的主要技術平臺之一,Hadoop將發布重要版本;大數據供應商都將發布自己的Hadoop發行版;PIG、Hive等前端工具得到易用性和性能的進一步優化;傳統數據工作者認識到Hadoop是必需掌握的技術。
3. NoSQL數據庫產品日益增多。為了滿足海量規模的非結構化數據處理,HBase、MongoDB、Redis、Cassandra等NoSQL數據庫產品受到更多重視,相關廠商將在中國設立機構或重視中國業務;更多NoSQL數據庫產品將推出,其中包括國產的據稱是NoSQL的產品;Auto-sharding、schema-less等功能愈發受到重視。
4. 分布式存儲技術面臨挑戰。share-nothing分布式存儲架構被證明并沒有那么神奇,master-slave架構被證明有更旺盛的生命力;存儲技術本身得到更多優化,包括flash存儲、存儲計算與數據壓縮技術等;新一代存儲產品開始上市。
5. 自然語言處理技術走出迷霧。隨著大數據的應用需求越來越旺盛,以自然語言處理為代表語義技術成為新的熱點。分詞技術重獲重視,語音翻譯、自然語言問答等技術日漸成熟;作為App的移動機器人、作為人工任務替代的虛擬助理成為熱門應用;基于自然語言的預測分析開始出現。
6. 機器學習出現有實用價值的產品。從理論上探索機器學習方法和應用領域,成為學術研究熱點;基于認知模型的機器學習、面向任務的學習系統出現值得關注的產品化趨勢;基于神經網絡算法和大數據關聯分析的實用應用,成為某些解決方案的組件。
7. 國產大數據一體機成批上市。作為概念或原型產品,國產大數據一體機產品在急于求成的心態下紛紛上市,方式基本是封裝開源產品而宣稱自主研發,形式是獲取政府國撥資金支持或上市公司題材炒作。
8. 所有行業C級長官公開談論大數據。許多大中企業的領導者(C-Level Leaders)在內部報告和對外溝通中,將大數據概念作為談話題材,并引發媒體的進一步追捧,但他們私下里會認為大數據是忽悠概念,很難找到大數據與自身業務的關系。
9. 部分行業的數據應用得以深化。傳統上擁有較多數據應用的金融、電信等行業,將進一步整合數據架構,關注基于非結構化數據的分析應用,但總體上成效不大;零售、醫療、制造、教育等行業,將通過數據應用引領業務創新,并進一步深化原本較差的IT技術與應用基礎、加強數據質量和數據管控。
10. 數據科學家成為最“性感”的職業。大數據推動數據相關的職位需求急劇增加,而實際上真正的數據人才日顯不足,使其價格不斷攀升;大量數據科學家被證實名不副實,多為技術出身的他們業務理解蒼白、理論基礎薄弱,往往在被熱捧之后被替代,后浪推前浪的跡象非常突出。
11. 互聯網公司大數據應用遭遇滑鐵盧。作為非結構化、半結構化數據占主導地位的互聯網企業,繼2012、2013年推出大量大數據產品之后,在2014年被發現其大數據產品大多單薄,主要原因是語義層計算和處理能力的缺失;相反地,一些創業先鋒公司和所謂傳統公司,將在大數據應用創新中占領鰲頭。
12. 大數據價值遭遇廣泛質疑。大數據一邊成為熱議話題,從技術領域走入公眾視野,一邊卻常常被要求“Show me the money”,其4V特征之一的“價值”(大數據價值密度低)被廣泛曲解。
13. 大數據成為更多上市公司融資題材。為了迎合大股東的要求,上市公司越來越多地到處尋覓可供收購的大數據小企業,將其包裝后作為增發題材,或無中生有把原有業務包裝為大數據題材,而事實往往證明該題材純屬炒作。
14. 大數據引發更多安全隱私擔憂。由于專家著述的影響和大眾媒體的推動,大數據被認為將造成嚴重的隱私問題,并引發多輪大數據安全問題的討論和抗議,而大數據廠商也將紛紛標榜其產品包含安全隱私解決方案。