Gartner歸結出在將來的三到五年間可能顛覆數據分析產業的十項科技趨勢,并建議數據分析工作者應評估這些趨勢,以因應對所經營策略可能帶來的影響并做相應的調整。
趨勢一:增強分析(Augmented Analytics)
增強分析指在數據分析和商業智能(business intelligence)的領域中應用機器學習、人工智能和自動化等科技輔助分析人員以進行數據準備、產生洞察和解釋洞察等數據分析工作。運用增強分析將能實現整合人工智能和數據分析兩個專業領域,為企業提供重要的企業洞察。此外,增強分析將有助于讓非專業的數據分析人員,或稱為「素人資料科學家」(citizen data scientist),也能生產出重要的企業洞察。Gartner將增強分析趨勢造成數據分析專業門坎降低的現象,稱為數據分析的「民主化」(democratization)。
Gartner預估,到了2020年,增強分析將會是帶動數據分析產業和商業智能成長的重要驅力。另一方面,對于數據科學、機器學習平臺和嵌入分析(embedded analytics)的需求也會跟著提升。隨著相關技術的成熟,Gartner建議數據分析工作者應建立計劃,將增強分析整合進數據分析服務中。
趨勢二:增強數據管理(Augmented Data Management)
增強數據管理指運用機器學習和人工智能引擎讓企業的數據管理系統能具有自我調適(self-configuring)的功能,減少在數據管理上面的人力成本,讓專業人員可專注于更高附加價值的業務上。
增強數據管理影響所及的范疇,包含:數據質量、后設數據管理、主數據管理、數據整合和數據庫等數據管理層面。尤其是在于對后設數據的處理,Gartner指出,增強數據管理的關鍵流程便是將過往被視為次要的后設數據(metadata)運用于機器學習的機制中,讓后設數據成為增強數據管理的主要數據。
Gartner預測,到了2022年底,結合機器學習和自動化管理的增強數據管理發展趨勢將會讓數據管理的人工操作減少45%。
趨勢三:自然語言處理/會話分析(Natural Language Processing/Conversational Analytics)
Gartner估計,在2020年將會有五成以上的數據分析查詢(query)是以文字搜尋(search)或語音的方式進行。也就是說,將來使用者會以更加人性化的方式或甚至以對話的方式來和數據互動。
自然語言處理或會話分析的發展趨勢,將可讓數據分析的結果有更廣泛的應用情境,例如客服部門或柜臺等辦公室前端的人員,以及能讓更多人以更簡便的方式取用到數據分析的結果。
趨勢四:圖形分析(Graph)
圖形分析指以神經網絡的形式仿真數據與數據之間的關系網絡,并藉以探索未知的問題、串連不同領域的數據庫或以更貼近人類思維的方式管理數據。
圖形分析的關鍵技術在于對圖形數據庫(graph database)的運用與管理。圖形數據庫是以數據節點以及數據節點之間的路徑關系所構成的數據庫結構。運用圖形數據庫將有助于分析人員處理更復雜的問題或是整合不同層面的數據,例如將飲食規劃、醫療數據和保健新聞整合運用于運動app。
Gartner指出,到了2022年,圖形分析的運用比例將會以100%的成長率倍速成長,并解決傳統關系數據庫所無法應付的難題。
趨勢五:商業化的人工智能和機器學習(Commercial AI and machine learning)
運用于開發人工智能和機器學習(AI/ML)的開發環境,目前以開源(open source)平臺為大宗。商業機構則是以提供企業化服務為主,例如與AI/ML相關的項目管理、模型管理、重復利用、透明化和整合服務等,這些服務則是目前開源平臺較缺乏的。
不過Gartner預測,到了2022年,75%的新使用者將會使用商業機構(如亞馬遜、Google和微軟)所提供的AI/ML解決方案,而不是使用來自開源平臺的解決方案。運用商業機構所提供的AI/ML解決方案將有助于分析人員快速將AI/MI投入工作流程中,并加速提高企業價值。
趨勢六:數據結構(Data Fabric)
由企業或各種部門所搜集產生的數據數據持續爆炸性的增長,但這些數據數據卻又分處在各種不同的儲存空間中,例如存放在亞馬遜的S3、微軟的Azure或谷歌的Google Cloud Platform等公有云上,又或是存放在企業建立的私有云中,同時這些數據數據也可能建立于不同的文件系統(file system)或傳輸協議,因此造成數據群集(cluster)之間取用的困難,而形成所謂的數據孤島(data silo)。
為了要解決數據孤島的困境,數據結構的概念是建立一套可以整合各種不同云端服務以及橋接各種文件系統和傳輸協議的操作系統。運用數據結構將可以更有效率的運用與分享數據數據,減少因數據孤島而造成的數據重復、轉移困難等資源的浪費。
Gartner認為,在2022年左右,為了企業服務而建造的數據結構將會成為企業的基礎設施,同時也會誘發企業投入成本于改良數據數據基礎設施。
趨勢七:可解釋人工智能(Explainable AI, XAI)
隨著AI的運用層面越來越廣泛,對于AI的可信度、了解程度和可修正程度的要求也相應的提升?,F行的AI雖然可以透過機器學習的方式建立起可應用的AI模型,但在實際的應用場景中,AI就如同一個黑盒子(black box),只能提供使用者一個結果或決策,而無法進一步說明是依據什么推論過程而得出該結果或決策,也可能導致使用者因看不見又摸不著的AI系統而產生出錯誤的決策。
可解釋人工智能是在AI研究領域中的一種新趨勢,其主要概念便是要讓AI在處理資料的過程中能同時對使用者提供回饋,讓使用者可以了解為什么AI會得出該結果或決策,藉以提升使用者對AI的可信任程度或是在必要時能修正AI。
依據Gartner預估,2023年以前將會有75%的大型企業開始雇用AI行為研究人員和消費者隱私保護專家來預防企業潛在的品牌與名譽風險。
趨勢八:區塊鏈(Blockchain)
對數據分析產業而言,區塊鏈技術最重要的兩項優勢在于,第一,區塊鏈可以細盡的記錄數據的來源去向或是交易紀錄。第二,區塊鏈可以建立透明化的關系網絡。
運用區塊鏈技術,雖然可以建立起具有可信度的、無法竄改的數據網絡,但Gartner強調,區塊鏈仍然無法取代對數據分析產業最重要的工作流程,即數據的儲存、管理及在商業上的應用。此外,Gartner還指出,目前區塊鏈技術的成熟度還不足以讓區塊鏈擁有在虛擬貨幣以外的大規模應用機會。
Gartner認為,在2021年以前,賬本式數據庫管理系統(ledger database management system)將會足以取代大部份的私有區塊鏈。
趨勢九:連續智慧(Continuous Intelligence)
連續智能意指在企業運作的流程中整合實時性(real-time)的數據分析工作,讓企業可以隨時從數據數據中得出洞察,并進而制定企業當下所應實行的決策。連續智慧與傳統商業智慧(business intelligence)不同之處在于,連續智慧強調運用AI/ML和自動化等技術,取代傳統分析數據所需的人力,并且大量且實時的產出企業所需的決策依據,而非是如傳統企業決策流程以階段性或費時的方式產出決策。
Gartner預測,在2022年以前將會有過半的大型企業采用連續智慧幫助他們依據實時的數據數據做出企業決策,同時也協助大型企業建立對產業環境變動的警覺能力。
趨勢十:持續性內存服務器(Persistent Memory Servers)
持續性內存是一種介于DRAM與閃存之間的一種新興內存技術。持續性內存保有DRAM的指令周期,同時也擁有閃存的非揮發性(non-volatile),即使斷電后數據也不會遺失。
過去在執行數據分析時,尤其是在網絡或云端作業當中,為了加快指令周期而將數據保存在DRAM中同時也在DRAM內完成運算,省去系統和硬盤之間的讀取時間。但隨著數據量越來越龐大,DRAM空間則顯得不足、昂貴。因此,持續性內存的出現將能提供一種符合經濟成本同時也具有穩定性的內存解決方案。
Gartner預估,持續性內存將持續成長,在2021年以前將會提供DRAM內運算的整體需求量的10%。