最近的一項(xiàng)調(diào)查顯示,隨著云端對象庫成為事實(shí)上的數(shù)據(jù)湖,企業(yè)在查找和統(tǒng)計(jì)堆積的所有數(shù)據(jù)時(shí),處于艱難的境地。
對于擁有大量空曠空間的人們來說,其存放的物品總是凌亂散布,而這可能是人類的本性。而目前也有這樣一個(gè)趨勢,即對于越來越多的企業(yè)來說,云對象存儲正在成為事實(shí)上的數(shù)據(jù)湖。好消息是,云對象存儲成本相對更低,并且具有高度可擴(kuò)展性,而且越來越易于訪問。例如,大多數(shù)云Hadoop服務(wù)交換Hadoop分布式文件系統(tǒng)(HDFS)的對象存儲,并且越來越多的云計(jì)算提供商正在提供服務(wù),提供臨時(shí)查詢或?qū)⒃茖ο蟠鎯σ暈閿?shù)據(jù)倉庫的擴(kuò)展表。
依賴云存儲作為默認(rèn)目標(biāo)或數(shù)據(jù)湖的另一個(gè)方面是需要協(xié)調(diào)通用目標(biāo)中數(shù)據(jù)的積累,需要對數(shù)據(jù)隱私或數(shù)據(jù)保護(hù)更負(fù)責(zé),尤其對于GDPR等規(guī)則生效的情況。
Chaos Sumo公司計(jì)劃在今年夏天推出SaaS提供商的搜索層以添加云存儲(現(xiàn)在稱為Amazon S3),該公司剛剛發(fā)布了一項(xiàng)調(diào)查,顯示云計(jì)算采用者感受到的一些痛點(diǎn)。
無可否認(rèn),這個(gè)調(diào)查規(guī)模并不大,只有120名受訪者,主要針對的是數(shù)據(jù)操作專業(yè)人員,該示例很可能偏向已經(jīng)接受云計(jì)算的組織。例如,72%的人表示他們目前使用某種形式的云對象存儲。對于那些使用亞馬遜S3的人來說,40%的受訪者表示他們預(yù)計(jì)明年他們使用S3存儲的比例至少會增長50%。
對于企業(yè)來說,主要用于備份、存儲和歸檔。但是28%的人已經(jīng)在使用數(shù)據(jù)湖的對象存儲,而另外18%的人計(jì)劃在未來的12-18個(gè)月內(nèi)實(shí)施。毫不奇怪,對于這個(gè)以AWS為主的樣本,如今在使用Amazon Athena報(bào)告的類似比例(23%)。大約一半的受訪者表示,已使用Amazon Redshift數(shù)據(jù)倉庫,Spectrum現(xiàn)在可以將S3視為擴(kuò)展表。
Athena等工具的創(chuàng)新開放了對系統(tǒng)中數(shù)據(jù)的交互式訪問,而不是對存儲進(jìn)行優(yōu)化,而不需要ETL(盡管數(shù)據(jù)必須采用某種形式的半結(jié)構(gòu)化存儲,如CSV、JSON、Parquet或其他格式)。
但正如圖表所顯示的那樣,隨著數(shù)據(jù)在對象存儲中的涌現(xiàn),越來越多的少數(shù)人擔(dān)心問責(zé)制問題。這正是Hadoop等平臺的商業(yè)銷售優(yōu)勢,以及用于分析和數(shù)據(jù)準(zhǔn)備的打包工具,這些平臺具有某種形式的數(shù)據(jù)沿襲,安全性和訪問控制作為其存在的理由。云對象存儲在涉及治理或周邊安全時(shí)是赤裸裸的——傳統(tǒng)上是數(shù)據(jù)平臺、云主機(jī)或消耗數(shù)據(jù)的分析工具的工作。
因此,四分之一的受訪者擔(dān)心他們將不得不移動數(shù)據(jù)來分析數(shù)據(jù),而數(shù)量較少但具有統(tǒng)計(jì)學(xué)意義的少數(shù)群體則對查找數(shù)據(jù)、合規(guī)性和安全性表示擔(dān)憂。他們花費(fèi)大量時(shí)間清理和準(zhǔn)備數(shù)據(jù),超過一半的受訪者表示花費(fèi)每周至少6小時(shí),其中近40%的受訪者表示每周花費(fèi)超過11小時(shí)來完成任務(wù)。
值得注意的是,只有7%的受訪者表示目前很容易分析當(dāng)今在對象存儲中的數(shù)據(jù)。這就是調(diào)查贊助商Chaos Sumo公司的商業(yè)用途。該公司計(jì)劃引入它所謂的“數(shù)據(jù)結(jié)構(gòu)”,將于今年夏天將S3數(shù)據(jù)打開到Elastic search,供現(xiàn)有SaaS提供商使用OEM。預(yù)計(jì)S3將成為更多分析平臺和工具的良好去處。對于Chaos Sumo來說,將搜索作為SaaS提供商的實(shí)用工具來增加這些數(shù)據(jù)的可見性可以更好地應(yīng)用云存儲。