你知道嗎?
你每低頭多玩幾分鐘手機
世界上就會多一個頸椎不適者
以及一堆非結構化數據
我們正大踏步邁入非結構化數據時代
聊微信、打電話、發郵件、手機拍照
……
你的每一次指尖輕舞
都有源源不斷的非結構化數據為伴
IDC 預測,2018年到2025年間,全球產生的數據量將會從33 ZB增長到175 ZB,其中超過80%為非結構化數據,并且每年將以指數級趨勢遞增。
數字化汪洋之上,海霧彌漫,遮天蔽日,組織如何沖破重重阻礙,實現對非結構化數據的存儲、挖掘和洞察呢?
你問我答
歡迎來到⌈你問我答⌋第二期。今天我們將對非結構化數據的價值挖掘問題進行探討,希望為在非結構化數據存儲方面有困惑的讀者提供思路。
歡迎大家多多關注,多多提問~
非結構化數據怎么存?
結構化數據如日期、電話號、賬戶余額、產品名稱等,嚴格遵循數據格式與長度規范、易于由二維表結構進行邏輯表達和實現,與之相反,非結構化數據結構不規則或不完整、缺乏預定義數據模型、格式多種多樣,比如文檔、圖片、音頻、視頻、社交媒體記錄等,往往呈現出雜亂無章的特點。
針對結構化數據,市面上有大量成熟的分析工具可用來實現數據洞察,但非結構化數據難以標準化和理解,處理難度較大,對其價值挖掘尚處于發展階段。
關于非結構化數據存儲,目前業內主要有擅長存儲海量文件的NAS文件存儲和對象存儲兩種選項。
文件存儲
以文件和文件夾為操作對象,基于文件夾/文件的路徑訪問數據。這是一種比較接地氣的形式,我們日常在電腦里先打開父文件夾,再層層點開父文件夾嵌套的子文件夾,最后找到子文件夾里的某個文件,這一套流程就是文件存儲的體驗。
作為數據存儲老手,文件存儲已經被廣泛應用十幾年,它能兼顧多個應用和多個用戶訪問,突出優勢是方便文件共享。
對象存儲
是近些年的存儲網紅,它以對象(object,不是搞對象的對象)為操作對象。不同于文件存儲的樹狀嵌套分層結構,對象存儲架構更為扁平化,它將數據及其元數據打包放到一個超大的資源池,用戶可根據唯一的元數據快速定位文件。
有這么一個比喻,同樣到商場存包,文件存儲這個商場里,你要記住自己的物品放在哪間儲存室的哪排柜子的第幾號,而在對象存儲商場,存包員會給你一張憑條,你只需將憑條交給存包員即可取包,無需記住數據以什么形式存在了哪里。
對象存儲的靈活性和扁平架構決定了它可以通過擴展來存儲海量數據,其容量通常可達到EB級以上,從理論上講對象存儲的容量和對象數量可以無限擴充。
文件存儲還是對象存儲?
既然文件存儲和對象存儲的都適用于海量非結構化數據存儲,那么用戶什么時候選擇文件存儲,什么時候選擇對象存儲呢?
有兩個主要指標,一看數據規模,二看應用場景。
01
數據規模
文件存儲通過將數據劃分為類別、目錄和文件夾來獲取非結構化數據并將其結構化,由此用戶可以快速輕松地查詢搜索。
但是文件存儲中,一旦文件數達到數千萬級別,目錄樹越建越深,就會造成性能瓶頸,不僅查詢效率嚴重下降,而且超多超大文件管理困難,嚴重影響業務效率。
對于幾乎無形中可以添加更多空間、彈性擴容的對象存儲來說,爆炸性膨脹的非結構化數據存儲簡直是小菜一碟。
因此,如果組織要處理的非結構化數據量有限,文件存儲是最佳選擇。若組織需要處理大量數據,那么選擇對象存儲是更明智的決定。
02
應用場景
對象存儲之所以成為近些年的存儲頂流,除了其容量無限制、強擴展的特性,還在于其天然擁抱云和互聯網的特質。
在對象存儲中,用戶若想修改文件,只能先下載、修改,再將修改后的文件上傳,這一特性決定了它非常適合讀取多寫入少的場景——比如網站視頻播放、網盤應用、機器學習的數據訓練、物聯網數據傳輸、云原生等,對于這些現代化應用,對象存儲大有可為。
此外,對象存儲也被稱為云存儲,如今已成為云服務公司的一項基礎業務,全球各知名廠商紛紛推出基于對象存儲的云存儲服務,憑借其事實上的語言——AWS S3 API,對象存儲可以在內部部署/私有云環境與公有云存儲之間進行無縫訪問和移動。
因此,對于人工智能、物聯網、云原生等新興應用,對象存儲將是不錯的選擇。
你要的,我們都有!
針對洶涌而來的非結構化數據,戴爾科技洞悉組織從中挖掘價值的需求,專門為非結構化數據設計了兩款存儲系統——NAS文件存儲PowerScale和對象存儲ECS。
用戶可通過PowerScale進行基于文件的非結構化數據管理,ECS則負責基于對象和云原生的非結構化數據。
PowerScale搭載新一代橫向擴展文件系統OneFS和PowerEdge服務器,具備高并發帶寬、快速線性擴展、靈活的多協議訪問、完善的數據保護、穩定可靠易管理等特點。
PowerScale由英特爾®至強®處理器提供支持,該處理器采用軟件定義的基礎設施和敏捷云架構,為PowerScale提供了卓越的性能和效率,可加速要求嚴苛的文件工作負載,使企業發揮數據資本的價值,加速業務的數字轉型。
PowerScale提供從最小11TB到多PB規模的存儲能力,支持對數百萬個文件進行操作。它允許無縫進行新舊節點服務器過渡升級,不需要數據遷移,60秒內即可簡單擴容一個節點?;赑owerScale,用戶可以高效地存儲、管理、保護和分析非結構化數據。
作為一款企業級對象存儲平臺,ECS可支持組織以類似于公有云的規模靈活地捕獲、存儲、保護和管理非結構化數據,所有這一切都在數據中心范圍內實現。
ECS具有非凡的可擴展性、性能、彈性和經濟性,可滿足現代企業的需求。用戶可利用高性能、兼容S3的ECS支持現代工作負載,并在較低的總擁有成本基礎上,使用ECS開發云原生應用程序、構建EB規模歸檔、推動戰略分析計劃和滿足SLA。
另外需要指出的是,戴爾PowerScale和ECS已通過著名大數據技術服務商Cloudera的CDP認證,由此PowerScale和ECS用戶可以獲得更輕松、更快速、更安全的自助式數據分析體驗,而這將進一步打破企業從數據存儲到數據洞察之間的重重阻礙。
大數據時代,體量占有壓倒性優勢的非結構化數據將引領未來。目前組織對非結構化數據的利用和控制尚且不足,非結構化數據就像一座隱藏在海面下的龐大冰山,等待合適的工具開采。戴爾科技將為您提供洞察非結構化數據的雙槳,助您在數字化海洋劈波斬浪,一往無前。
歡迎提問
如果您有數據中心相關的疑問,歡迎在下方留言區告訴我們。問題一經采用,我們將獎勵100元電話卡,同時還可進群與戴爾專家、業界同行一起交流學習!
Ps. 具有普遍性、能使廣大讀者受益的問題,更可能被我們采納!