大數據正在向各行各業的各種類型和規模的公司證明其價值,充分利用它的公司正在實現實實在在的業務好處,從提高運營效率、提高對快速變化的業務環境的可見性,到優化客戶的產品和服務。
其結果是,隨著公司發現這些典型的大型數據存儲的用途,大數據技術、實踐和方法也在不斷發展。用于收集、處理、管理和分析整個公司中的各種數據的新型大數據架構和技術不斷涌現。
處理大數據不僅僅是處理大量存儲的信息。數量大只是公司需要解決的眾多大數據V中的一個。通常還有大量的數據——從分布在整個公司的數據庫中的結構化信息,到文件、圖像、視頻、傳感器、系統日志、文本和文檔中的大量非結構化和半結構化數據,包括等待數字化的紙質數據,此外,這些信息通常是以快速(速度)創建和更改的,并且具有不同的數據質量(準確性)水平,這給數據管理、處理和分析帶來了進一步的挑戰。
大數據的四大趨勢正在幫助公司應對這些挑戰,并獲得他們所尋求的好處。以下是行業專家確定的四大大數據趨勢,以及它們對投資于大數據部署的公司意味著什么。
1.GenAI、高級分析和機器學習繼續發展
隨著海量數據的產生,傳統的分析方法受到了挑戰,因為它們不容易實現大規模數據分析的自動化。分布式處理技術,特別是由Hadoop和Spark等開源平臺推動的技術,使公司能夠快速處理PB級的信息。然后,企業使用大數據分析技術來優化其商業智能和分析計劃,將依賴于數據倉庫技術的緩慢報告工具轉移到更智能、更具響應性的應用程序,從而更好地了解客戶行為、業務流程和整體運營。
大數據分析的發展繼續聚焦于機器學習和AI系統。AI越來越多地被各種規模的公司用來優化和改進他們的業務流程。在企業戰略集團的支出意向調查中,在193名熟悉其公司中的AI和機器學習計劃的受訪者中,63%的人表示,他們預計2023年該公司將在這些工具上投入更多資金。
機器學習使公司能夠更輕松地識別數據模式、檢測大型數據集中的異常,并支持預測性分析和其他高級數據分析功能。這方面的一些例子包括:
·圖像、視頻和文本數據的識別系統。
·數據的自動分類。
·針對聊天機器人以及語音和文本分析的自然語言處理(NLP)功能。
·自主業務流程自動化。
·網站和服務中的個性化和推薦功能。
·能夠在海量數據中為業務問題找到最佳解決方案的分析系統。
事實上,在AI和機器學習的幫助下,公司正在利用他們的大數據環境,通過智能聊天機器人和更個性化的交互提供更深入的客戶支持,而不需要大幅增加客戶支持人員,這些支持AI的系統能夠收集和分析有關客戶和用戶的海量信息,特別是當與數據湖戰略配合使用時,該戰略可以聚合許多來源的廣泛信息。
企業也看到了數據可視化領域的創新。當數據以圖表、圖形和曲線圖等可視化形式表示時,人們更好地理解數據的含義。新興的數據可視化形式正在將支持AI的分析的力量掌握在甚至是普通商業用戶手中,這有助于公司發現可以改進決策的關鍵見解。高級形式的可視化和分析工具甚至允許用戶用自然語言提問,系統會自動確定正確的查詢并以與上下文相關的方式顯示結果。
GenAI和大型語言模型(LLM)甚至更多地改進了公司的數據操作,并在整個數據管道中受益。GenAI可以幫助自動化數據可觀察性監控功能,通過針對已識別的問題進行主動警報和修復來提高質量和效率,甚至可以編寫代碼行,它可以掃描大量數據以查找錯誤或不一致之處,或識別模式,并為數據團隊生成最重要細節的報告或可視化。低成本管理系統為公司提供新的數據民主化能力。隨著GenAI將自己編織到數據管理過程中,數據編目、集成、隱私、治理和共享都在上升。
GenAI和LLMS的能力取決于用于訓練模型的數據的質量。隨著GenAI在所有行業的興趣和使用不斷上升,數據質量比以往任何時候都更加重要。數據團隊必須仔細監控所有AI生成的數據操作的結果。錯誤或誤導的數據可能會導致錯誤的決策和代價高昂的結果。
2.更多的數據,更多的數據多樣性推動了處理的進步和邊緣計算的興起
數據生成的步伐繼續加快,這些數據中的很大一部分并不是從數據庫中發生的商業交易中產生的,而是來自其他來源,包括云系統、網絡應用、視頻流以及智能手機和語音助理等智能設備,這些數據在很大程度上是非結構化的,在過去,公司大多未處理和使用這些數據,將其變成了所謂的暗數據。
這讓我們看到了大數據的最大趨勢:非數據庫來源仍將是主要的數據來源,進而迫使公司重新檢查其數據處理需求。特別是,語音助理和物聯網設備正在推動大數據管理需求的快速增長,涉及零售、醫療、金融、保險、制造業和能源等各種行業,以及廣泛的公共部門市場。數據多樣性的爆炸式增長迫使公司超越傳統的數據倉庫,將其作為處理所有這些信息的手段。
此外,處理正在生成的數據的需求正在轉移到設備本身,因為行業在處理能力方面的突破導致了越來越先進的設備的開發,這些設備能夠自行收集和存儲數據,而不會對網絡、存儲和計算基礎設施造成負擔。例如,手機銀行應用程序可以處理許多遠程支票存款和處理任務,而不必將圖像來回發送到中央銀行系統進行處理。
使用設備進行分布式處理體現在邊緣計算的概念中,該概念在將數據發送到服務器之前將處理負載轉移到設備本身。邊緣計算通過減少數據流經網絡的需求來優化性能和存儲,這降低了計算和處理成本,特別是云存儲、帶寬和處理費用。邊緣計算還有助于加快數據分析,為用戶提供更快的響應。
3.大數據存儲需求推動云和混合云平臺的創新,數據湖的增長
為了應對不可阻擋的數據生成增長,公司正在花費更多的資源將這些數據存儲在一系列針對大數據的所有V級進行優化的基于云的和混合云系統中。在過去的幾十年里,公司處理自己的存儲基礎設施,導致企業必須管理、保護和運營海量數據中心。轉向云計算改變了這一動態,通過將責任轉移到云基礎設施提供商,如AWS、谷歌、微軟、甲骨文和IBM,公司可以處理幾乎無限數量的新數據,并按需支付存儲和計算能力費用,而不必維護自己的大型且復雜的數據中心。
由于監管或技術限制,一些行業在使用云基礎設施方面面臨挑戰。例如,受到嚴格監管的行業——如醫療保健、金融服務和政府——有阻止使用公有云基礎設施的限制,因此,在過去十年中,云提供商開發了各種方法來提供更有利于監管的基礎設施,以及將第三方云系統的各個方面與本地計算和存儲相結合以滿足關鍵基礎設施需求的混合方法。隨著公司尋求云計算的經濟和技術優勢,公有云和混合云基礎設施的發展無疑將取得進展。
除了在云存儲和處理方面的創新,企業正在轉向新的數據架構方法,這些方法使他們能夠應對大數據的多樣性、準確性和數據量挑戰。企業正在發展數據湖的概念,而不是試圖將數據存儲集中在需要復雜且耗時的提取、轉換和加載流程的數據倉庫中。數據湖以其原生格式存儲結構化、半結構化和非結構化數據集,這種方法將數據轉換和準備的責任轉移到具有不同數據需求的最終用戶身上。數據湖還可以為數據分析和處理提供共享服務。
4.數據運營和數據管理脫穎而出
未來幾年,大數據處理、存儲和管理的許多方面將繼續發展,這些創新在很大程度上是由技術需求驅動的,但部分也是因為我們思考和處理數據的方式發生了變化。
創新的一個領域是DataOps的出現,這是一種專注于靈活、迭代的方法和實踐,用于在數據流經公司時處理數據的整個生命周期。DataOps流程和框架不是以零散的方式考慮數據,由不同的人來處理數據生成、存儲、傳輸、處理和管理,而是解決從生成到歸檔的整個數據生命周期的公司需求。
同樣,公司越來越多地處理數據治理、隱私和安全問題,這種情況因大數據環境而加劇。過去,企業往往對數據隱私和治理方面的擔憂有些松懈,但新的法規使它們對系統中個人信息發生的事情承擔更多責任。GenAI增加了公司需要考慮的另一層隱私和倫理問題。
由于普遍存在的安全漏洞、客戶對企業數據共享做法的信任度下降,以及在數據生命周期中管理數據方面的挑戰,公司正變得更加關注數據管理,并更加努力地保護和管理數據,尤其是在數據跨越國際邊界的時候。新的工具正在涌現,以確保數據停留在需要的位置,在靜止和移動時得到保護,并在其生命周期中得到適當的跟蹤。
總的來說,這些大數據趨勢將繼續塑造2024年的大數據形態。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。