如今,人們尋求獲得更多的數據有著充分的理由,因為數據分析推動了數字創新。然而,將這些龐大的數據集轉化為可操作的洞察力仍然是一個難題。而那些獲得應對強大數據挑戰的解決方案的組織將能夠更好地從數字創新的成果中獲得經濟利益。
考慮到這個基本前提,以下是組織在2019年應該關注的大數據的10個發展趨勢:
1.數據管理仍然很難
大數據分析有著相當明確的重要思想:找到隱藏在大量數據中的信息模式,訓練機器學習模型以發現這些模式,并將這些模型實施到生產中以自動對其進行操作。需要清理數據,并在必要時進行重復。
然而,將這些數據投入生產的現實要比看上去困難得多。對于初學者來說,收集來自不同孤島的數據很困難,需要提取、轉換和加載(ETL)和數據庫技能。清理和標記機器學習培訓的數據也需要花費大量的時間和費用,特別是在使用深度學習技術時。此外,以安全可靠的方式將這樣的系統大規模投入生產需要另外一套技能。
出于這些原因,數據管理仍然是一個巨大的挑戰,數據工程師將繼續成為大數據團隊中最受歡迎的角色之一。
2.數據孤島繼續激增
這個預測并不困難。在五年前的Hadoop開發熱潮中,人們認為可以將所有數據(包括分析和事務工作負載)整合到一個平臺上。
出于各種原因,這個想法從未真正實現過。其面臨的最大挑戰是不同的數據類型具有不同的存儲要求。關系數據庫、圖形數據庫、時間序列數據庫、HDF和對象存儲都有各自的優缺點。如果開發人員將所有數據塞進一個適合所有數據的數據湖中,他們就無法最大限度地發揮其優勢。
在某些情況下,將大量數據集中到一個地方確實有意義。例如,像S3這樣的云數據存儲庫為企業提供了靈活且經濟高效的存儲,而Hadoop仍然是非結構化數據存儲和分析的經濟高效的存儲。但對于大多數公司而言,這些只是必須管理的額外孤島。當然,它們是重要的孤島,但它們不是唯一的。
而在缺乏強大集權的情況下,數據倉庫將會繼續激增。
3. 流媒體分析的突破性的一年
組織處理新數據越快,業務發展就會越好。這是實時分析或流式分析背后的推動力。但組織一直面臨的挑戰是要真正做到這一點非常困難,而且成本也很高,但隨著組織的分析團隊的成熟和技術的進步,這種情況正在發生變化。
NewSQL數據庫、內存數據網格和專用流分析平臺圍繞通用功能進行融合,這需要對輸入數據進行超快處理,通常使用機器學習模型來自動化決策。
將它與Kafka、Spark和Flink等開源流式框架中的SQL功能相結合,組織就可以在2019年獲得真正的進步。
4.數據治理不善將帶來風險
有些人將數據稱之為“新石油”,也被稱為“新貨幣”。無論是什么樣的比喻,大家都認為數據具有價值,并且如果對此不重視將會帶來更大的風險。
歐盟通過去年頒布的GDPR法規闡明了數據治理不善的財務后果。雖然美國還沒有類似的法律,但美國公司仍然必須遵守由美國聯邦、各州等創建的80個不同的數據制授權法規。
數據泄露正在引發問題。根據Harris Poll公司進行的一項在線調查,2018年有近6000萬美國人受到身份盜竊的影響。這比2017年增長了300%,當時只有1500萬人表示受到了影響。
大多數組織已經意識到無序發展的大數據時代即將結束。而很多國家和地區的政府對數據濫用或隱私泄露行為不再容忍。
5.隨著技術的發展,技能也在轉變
人力資源通常是大數據項目中的最大成本,因為工作人員最終構建并運行大數據項目,并使其發揮作用。無論使用何種技術,找到具有合適技能的人員對于將數據轉化為洞察力至關重要。
而隨著技術的進步,技能組合也是如此。在2019年,人們可以看到企業對于神經網絡專業人才的巨大需求。在數據科學家(而不是人工智能專家)的技能中,Python仍然在語言中占主導地位,盡管對于R、SAS、Matlab、Scala、Java和C等語言還有很多工作要做。
隨著數據治理計劃的啟動,對數據管理人員的需求將會增加。能夠使用核心工具(數據庫、Spark、Airflow等)的數據工程師將繼續看到他們的機會增長。人們還可以看到企業對機器學習工程師的需求加速增長。
然而,由于自動化數據科學平臺的進步和發展,組織的一些工作可以通過數據分析師或“公民數據科學家”來完成,因為眾所周知,數據和業務的知識和技能可能會讓組織在大數據道路上走得更遠,而不是統計和編程。
6.深度學習變得更加深入
深度學習的發展為人工智能的應用提供了更多的動力,在2019年沒有任何減緩的跡象。組織將繼續嘗試深度學習框架,如TensorFlow、Caffe、Keras、PyTorch和MXnet,以期將大量數據集實現貨幣化。
組織將擴展深度學習,超越其最初的用例,如計算機視覺和自然語言處理(NLP),并找到實現強大技術的新的和創造性的方法。大型金融機構已經發現神經網絡算法比“傳統”機器學習方法更能發現欺詐行為,并且將在2019年繼續探索新的用例。
這也將支持對GPU的需求,GPU是培訓深度學習模型的首選處理器。目前還不清楚是否有新的處理器類型,包括ASIC、TPU和FPGA。但是,顯然還需要更快的培訓和推理。
然而,深度學習生態系統將保持相對年輕,缺乏通用平臺將使其成為真正專家的領域。
7.“Special K”擴大了足跡
軟件需要運行一些東西。用于提供通用基礎的操作系統,但現在開發人員的目標要低一點:Kubernetes。
Kubernetes由Google公司開發,用于管理和協調云中的虛擬化Linux容器,在IT行業中,它已成為大數據生態系統中最熱門的技術之一。隨著多云和混合部署變得越來越普遍,Kubernetes就是將它們整合在一起的粘合劑。
以前編寫Hadoop上運行的軟件的大數據軟件供應商現在正在編寫Kubernetes上運行的軟件,這至少讓他們進入了前臺。支持Kubernetes軟件已經成為軟件供應商(包括Hadoop供應商)的首要需求。
8. 難以忽視的云計算
云計算的規模越來越大。2018年,全球三大公共云供應商的業務增長率接近50%。云計算供應商提供了一系列大數據工具和技術,更不用說用于存儲所有數據的廉價存儲,因此用戶很難抵御云計算的誘惑。
2019年,小型企業和初創企業將被主要的公共云提供商提供的服務所吸引,這些云計算提供商正在投入巨資建設隨時可運行的大數據平臺,提供自動化機器學習、分析數據庫和實時流分析服務。
即使成本方面并不那么吸引人,大型企業也難以抗拒云計算所帶來的好處。然而,將業務鎖定在單一云計算供應商,這讓大型企業擔心面臨將所有雞蛋放在一個籃子中的風險。
9.新技術將會出現
當今推動創新的許多主要大數據框架和數據庫都是由全球網絡巨頭創建的,并作為開源應用發布。好消息是可能將加快技術創新。
在2019年,大數據從業者在他們的創作中會盡可能保持靈活性。雖然出于性能原因,將應用程序綁定到某項技術可能會很有誘惑力,但是當更好、更快地出現這種情況時,這可能會讓組織感到困擾。
盡可能多地保持應用程序“松散耦合但緊密集成”,因為最終必須將其拆分并重新構建。
10.智能設備無處不在
如今,智能設備無處不在,并且不斷收集數據。而在消費者需求的推動下,智能設備正以驚人的速度增長。智能設備生態系統正在亞馬遜Alexa和谷歌智能助理兩大領先平臺上嶄露頭角,為消費者提供了將遠程訪問和人工智能融入從照明、暖通空調系統、門鎖、家用電器等各個行業領域的機會。
由于超高速5G無線網絡即將推出,消費者將能夠與眾多設備進行交互,并且無論在哪里,都會提供新的個性化服務。
2019年,大數據將在多個方面取得進展。雖然大數據和人工智能的發展仍然存在大量的技術、法律和道德障礙,但潛在的好處巨大,不容忽視。