每到歲末年初,行業(yè)專家就會對未來一年的技術(shù)發(fā)展進(jìn)行預(yù)測,而如今,一切始于大數(shù)據(jù)問題最關(guān)鍵的方面:數(shù)據(jù)本身。
不可否認(rèn),Hadoop在2019年的發(fā)展經(jīng)歷了艱難的一年。但是它完全消亡了嗎? Alluxio公司創(chuàng)始人兼首席技術(shù)官Haoyuan Li為此表示,以Hadoop分布式文件系統(tǒng)(HDFS)形式存在的Hadoop存儲已失效,但以Apache Spark形式存在的Hadoop計算仍然存在。
Haoyuan Li說:“關(guān)于Hadoop消亡的說法很多。但是Hadoop生態(tài)系統(tǒng)還有后起之秀。諸如Spark和Presto之類的計算框架可從數(shù)據(jù)中獲取更多價值,并已被更廣泛的計算生態(tài)系統(tǒng)所采用。Hadoop存儲(HDFS)由于其復(fù)雜性和成本以及由于與HDFS保持聯(lián)系,而從根本上無法彈性擴(kuò)展因此導(dǎo)致消亡。為了獲得實時見解,用戶需要云中可用的即時和靈活的計算能力。HDFS中的數(shù)據(jù)將遷移到最優(yōu)化和最具成本效益的系統(tǒng),無論是云存儲還是本地對象存儲。HDFS將會消亡,但是Hadoop計算將持續(xù)存在并且越來越強(qiáng)大。”
Cloudian公司首席營銷官(CMO)Jon Toor表示,隨著HDFS數(shù)據(jù)湖部署的緩慢,Cloudian公司已經(jīng)準(zhǔn)備就緒,可以將數(shù)據(jù)捕獲并將其捕獲到其對象存儲中。
Toor說,“在2020年,我們將看到越來越多的組織利用對象存儲從非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建結(jié)構(gòu)化/標(biāo)記數(shù)據(jù),從而允許使用元數(shù)據(jù)來理解人工智能和機(jī)器工作負(fù)載生成的數(shù)據(jù)海嘯。”
ThoughtSpot公司首席執(zhí)行官Sudheesh Nair表示,像Hadoop這樣的事情的終結(jié)將引發(fā)另一件事的開始。
Nair說:“在過去的10年中,我們看到了Hadoop的興起、平穩(wěn)發(fā)展和終結(jié)的開始。這不是因為大數(shù)據(jù)已經(jīng)死亡。恰恰相反,幾乎每個組織都在致力于成為大數(shù)據(jù)公司。這是在當(dāng)今商業(yè)環(huán)境下運(yùn)作的要求。數(shù)據(jù)已經(jīng)變得如此龐大,而且對這種數(shù)據(jù)的靈活性需求如此之大,然而,很多企業(yè)或者正在構(gòu)建自己的數(shù)據(jù)池或數(shù)據(jù)倉庫,或者直接進(jìn)入云平臺。隨著2020年這一趨勢的加速,我們將看到Hadoop的應(yīng)用繼續(xù)下降。”
當(dāng)數(shù)據(jù)變得足夠大時,就會施加類似引力的力,使其難以移動,同時還可以吸引更多數(shù)據(jù)。Digital Realty公司首席技術(shù)官Chris Sharp說,了解數(shù)據(jù)的引力將幫助企業(yè)克服數(shù)字化轉(zhuǎn)型的障礙。
Sharp說:“數(shù)據(jù)的生成速度是許多企業(yè)無法跟上的。這不僅增加了這種復(fù)雜性,企業(yè)還從難以移動和有效利用的多個位置處理有用卻不實用的數(shù)據(jù)。這給企業(yè)帶來了一個‘數(shù)據(jù)引力’問題,這將阻止數(shù)字化轉(zhuǎn)型計劃向前推進(jìn)。在2020年,我們將看到企業(yè)通過將應(yīng)用程序更靠近數(shù)據(jù)源而不是將資源傳輸?shù)街醒胛恢脕斫鉀Q數(shù)據(jù)引力問題。通過本地化數(shù)據(jù)流量、分析和管理,企業(yè)將更有效地控制其數(shù)據(jù)并擴(kuò)展數(shù)字業(yè)務(wù)。”
在所有條件都相同的情況下,擁有更多數(shù)據(jù)總比擁有更少數(shù)據(jù)更好。TD Ameritrade公司的人工智能、數(shù)據(jù)科學(xué)和新興技術(shù)總監(jiān)Beaumont Vance認(rèn)為,但企業(yè)可以利用現(xiàn)有技術(shù)來更好地利用已有數(shù)據(jù),從而實現(xiàn)突破。
Vance說,“隨著企業(yè)創(chuàng)建新的數(shù)據(jù)池,開發(fā)更好的技術(shù)來理解研究結(jié)果,我們將看到人工智能前所未有的真正價值。目前,企業(yè)使用的內(nèi)部數(shù)據(jù)不到所有數(shù)據(jù)的20%,但通過新的人工智能功能,剩下的80%未開發(fā)的數(shù)據(jù)將是可用的,并且更容易理解。先前無法解決的問題將有顯著的改善,有助于推動行業(yè)和社會的巨大變革。”
大數(shù)據(jù)很難管理,那么能用小數(shù)據(jù)采用人工智能技術(shù)嗎?Zinier公司首席執(zhí)行官Arka Dhar對此表示肯定。
Dhar說:“展望未來,我們將不再需要大量的大數(shù)據(jù)集來訓(xùn)練人工智能算法。在以往,數(shù)據(jù)科學(xué)家一直需要大量數(shù)據(jù)才能對人工智能模型進(jìn)行準(zhǔn)確的推斷。人工智能的進(jìn)步使我們能夠以更少的數(shù)據(jù)獲得類似的結(jié)果。”
數(shù)據(jù)的存儲方式?jīng)Q定了應(yīng)該如何處理。GridGain公司首席執(zhí)行官Abe Kleinfeld說,人們可以使用存儲在內(nèi)存中的數(shù)據(jù)而不是硬盤上做更多的事情。到2020年,人們將看到組織在基于內(nèi)存的系統(tǒng)上存儲更多數(shù)據(jù)。
Kleinfeld說:“到2020年,隨著數(shù)字轉(zhuǎn)型推動企業(yè)大規(guī)模進(jìn)行實時數(shù)據(jù)分析和決策,內(nèi)存技術(shù)的采用將繼續(xù)飆升。假設(shè)從一架飛機(jī)上的傳感器收集實時數(shù)據(jù),以監(jiān)控性能,并且希望為單臺發(fā)動機(jī)開發(fā)預(yù)測性維護(hù)功能。現(xiàn)在必須將實時數(shù)據(jù)流中的異常讀數(shù)與數(shù)據(jù)池中存儲的特定引擎的歷史數(shù)據(jù)進(jìn)行比較。目前,唯一經(jīng)濟(jì)有效的方法是使用內(nèi)存中的數(shù)據(jù)集成中心,它基于一個內(nèi)存計算平臺,比如集成了Apache Spark、Apache Kafka,而像Hadoop這樣的DataLake存儲……隨著數(shù)據(jù)集成中心在企業(yè)中的不斷擴(kuò)展,2020年有望成為采用內(nèi)存計算的關(guān)鍵一年。”
Information Builders公司副總裁Eric Raab和Kabir Choudry表示,大數(shù)據(jù)可以讓企業(yè)的業(yè)務(wù)夢想成真,或者也可能會變成一場噩夢。選擇權(quán)在于人們自己。
Raab和Choudry說:“那些投資于管理、分析和正確操作數(shù)據(jù)的解決方案的企業(yè),將比以往任何時候都更清楚地了解自己的業(yè)務(wù)和成功之路。那些還沒有得到信息的組織和人員,將會留下大量他們無法真正理解或負(fù)責(zé)任地采取行動的信息,使他們做出錯誤的決定或使數(shù)據(jù)癱瘓。”
面對現(xiàn)實:管理大數(shù)據(jù)非常困難。SAS公司數(shù)據(jù)管理和數(shù)據(jù)隱私解決方案負(fù)責(zé)人Todd Wright表示,這一情況在2020年不會改變,這將使人們重新關(guān)注數(shù)據(jù)編排、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)準(zhǔn)備和模型管理。
Wright說,“根據(jù)世界經(jīng)濟(jì)論壇的預(yù)測,到2020年,人類產(chǎn)生的數(shù)據(jù)量將達(dá)到驚人的44ZB。大數(shù)據(jù)的前景絕不僅僅來自于擁有更多的數(shù)據(jù)以及更多的數(shù)據(jù)來源,而是通過開發(fā)分析模型來更好地洞察這些數(shù)據(jù)。所有的工作都是為了推進(jìn)分析、人工智能和建模語言的工作,如果企業(yè)沒有一個能夠訪問、集成、清理和管理所有這些數(shù)據(jù)的數(shù)據(jù)管理程序,這一切都是不可取的。”
企業(yè)正在盡可能快地填充NVMe驅(qū)動器,以幫助加速數(shù)據(jù)的存儲和分析,尤其是涉及物聯(lián)網(wǎng)的數(shù)據(jù)。NGD Systems公司首席執(zhí)行官兼創(chuàng)始人Nader Salessi表示,僅憑這一點還不足以確保成功。
Salessi說,“NVMe提供了一種緩解措施,并證明可以消除現(xiàn)有平臺的存儲協(xié)議瓶頸,該平臺會定期輸出TB和PB規(guī)模的數(shù)據(jù),盡管NVMe的速度要快得多,但是當(dāng)需要對PB級數(shù)據(jù)進(jìn)行實時分析和處理時,它本身還不夠快。這就是計算存儲的來源,它解決了數(shù)據(jù)管理和移動的問題。”
數(shù)據(jù)集成從未如此簡單。隨著持續(xù)不斷的數(shù)據(jù)爆炸以及人工智能和機(jī)器學(xué)習(xí)用例的擴(kuò)展,這變得更加困難。Denodo公司高級副總裁兼首席市場官Ravi Shankar表示,數(shù)據(jù)結(jié)構(gòu)是一個顯示前景的架構(gòu)概念。
Shankar說:“通過實時訪問來自結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集的新數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)將使組織在未來一年更加關(guān)注機(jī)器學(xué)習(xí)和人工智能。隨著智能技術(shù)和物聯(lián)網(wǎng)設(shè)備的發(fā)展,動態(tài)數(shù)據(jù)結(jié)構(gòu)通過邏輯數(shù)據(jù)倉庫體系結(jié)構(gòu)提供了對大量數(shù)據(jù)的快速、安全和可靠的訪問。因此,將會推動人工智能技術(shù)和商業(yè)革命。”
Principal Data公司的Saurav Chakravorty說,通過語義人工智能和企業(yè)知識圖(EKG)了解不同的數(shù)據(jù)集是如何連接的,這為解決數(shù)據(jù)倉庫問題提供了其他方法。
Chakravorty說:“組織的寶貴信息和知識通常散布在多個文檔和數(shù)據(jù)孤島中,給企業(yè)造成很大的麻煩。企業(yè)知識圖(EKG)將允許組織消除零散的知識格局中的語義不一致性。帶有企業(yè)知識圖(EKG)的語義人工智能相互補(bǔ)充,可以為企業(yè)在數(shù)據(jù)湖和大數(shù)據(jù)方面的投資帶來整體價值。”
MemVerge公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人Charles Fan認(rèn)為,2020年可能是存儲級內(nèi)存突破的一年。
Fan說:“隨著數(shù)據(jù)中心應(yīng)用程序需求的增加以及處理速度的提高,將大力推動以內(nèi)存為中心的數(shù)據(jù)中心。計算創(chuàng)新的發(fā)展日新月異,越來越多的計算技術(shù)從x86到GPU再到ARM。這將繼續(xù)在CPU和內(nèi)存單元之間開辟新的拓?fù)洹1M管當(dāng)前在計算層和存儲層之間架構(gòu)往往會更加分散,但我相信很快就會走向以內(nèi)存為中心的數(shù)據(jù)中心。”
機(jī)器數(shù)據(jù)智能平臺Circonus公司首席執(zhí)行官Bob Moul表示,人們正在迅速向邊緣部署的融合存儲和處理架構(gòu)邁進(jìn)。
Moul說,“Gartner公司預(yù)測,到2020年全球?qū)⒂写蠹s200億臺物聯(lián)網(wǎng)設(shè)備,隨著物聯(lián)網(wǎng)設(shè)備數(shù)量急劇增長并變得更加先進(jìn),管理它們的資源和工具也必須做到這一點。企業(yè)將需要采用可擴(kuò)展的存儲解決方案來適應(yīng)數(shù)據(jù)的爆炸式增長,這些數(shù)據(jù)有望超越當(dāng)前技術(shù)的包含、處理和提供有價值的見解的能力。”
ASG科技公司產(chǎn)品營銷副總裁Rob Perry表示,暗數(shù)據(jù)最終將在2020年成為現(xiàn)實。
Perry說:“每個組織都有數(shù)據(jù)孤島,這些數(shù)據(jù)被收集起來,但不再(或可能永遠(yuǎn)不會)用于商業(yè)目的。雖然存儲數(shù)據(jù)的成本大幅下降,但存儲數(shù)據(jù)的風(fēng)險溢價卻大幅上升。這些暗數(shù)據(jù)可能包含必須公開和保護(hù)的個人信息。它可能包括受數(shù)據(jù)主體訪問請求限制的信息和可能需要刪除的信息,但如果人們不知道它在哪里,則無法滿足法規(guī)的要求。盡管如此,這些數(shù)據(jù)也可以提供一些洞察力,為推動業(yè)務(wù)增長開辟新的機(jī)遇。將其置于暗數(shù)據(jù)中會增加風(fēng)險,可能會掩蓋機(jī)會。各組織將把新的重點放在照亮其暗數(shù)據(jù)上。”
Yugabyte公司創(chuàng)始人兼首席技術(shù)官Karthik Ranganathan預(yù)測,開源數(shù)據(jù)庫在2020年將會面臨美好發(fā)展的一年。
Ranganathan說:“十年前,開源數(shù)據(jù)庫在市場上的份額為零,而現(xiàn)在已超過7%。很明顯,其市場正在發(fā)生變化,到2020年,對真正開源的承諾將會增加。這與數(shù)據(jù)庫和數(shù)據(jù)基礎(chǔ)設(shè)施公司放棄其部分或全部核心項目的開源許可證的最新趨勢背道而馳。但是,隨著技術(shù)的飛速發(fā)展,切換到100%開放源代碼模型將是數(shù)據(jù)庫提供商的最大利益,因為免費(fèi)增值模型需要花費(fèi)更長的時間才能使軟件成熟到與真正的開放源代碼相同的水平。”
但是在2019年,Confluent、Redis和MongoDB等公司從開源業(yè)務(wù)模型中退出。Rockset公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Dhruba Borthakur說,市場將對開放服務(wù)做出回應(yīng),而不是開源軟件。
Borthakur說,“由于公共云已經(jīng)完全改變了軟件交付和貨幣化的方式,我預(yù)測,到2020年,開放式采購新的破壞性數(shù)據(jù)技術(shù)的時間將結(jié)束。現(xiàn)有的開源軟件將繼續(xù)運(yùn)轉(zhuǎn),但是建設(shè)者或用戶沒有動力選擇開源而不是開放服務(wù)來提供新的數(shù)據(jù)產(chǎn)品。具有諷刺意味的是,易用性推動了開源浪潮,并且易于采用開放服務(wù),這將導(dǎo)致開放源代碼的消亡,尤其是在數(shù)據(jù)管理等領(lǐng)域。就像過去十年是開放源代碼基礎(chǔ)設(shè)施的時代一樣,未來十年屬于云中的開放服務(wù)。”
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。