內(nèi)置在日立內(nèi)容產(chǎn)品組合對(duì)象存儲(chǔ)中的Hitachi Content Intelligence(日立內(nèi)容智能解決方案)可從存儲(chǔ)庫(kù)中提取數(shù)據(jù)和元數(shù)據(jù),以便對(duì)非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行數(shù)據(jù)分析操作。
日立數(shù)據(jù)系統(tǒng)公司已為其基于對(duì)象的日立內(nèi)容產(chǎn)品組合,設(shè)計(jì)開發(fā)了一個(gè)高級(jí)的內(nèi)容搜索與分析功能。
Hitachi Content Intelligence可從存儲(chǔ)庫(kù)中提取數(shù)據(jù)和元數(shù)據(jù)以便對(duì)非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行數(shù)據(jù)分析操作。該軟件內(nèi)置于日立內(nèi)容產(chǎn)品組合中,它是基于Docker容器技術(shù)作為集群架構(gòu)而開發(fā)的。IT管理員們可以將其部署在裸機(jī)系統(tǒng)、虛擬環(huán)境或公有云中。該內(nèi)容智能解決方案需要64位版Linux、Docker 1.10版的支持,是基于開源集群管理器Apache Mesos設(shè)計(jì)的。
“長(zhǎng)期以來(lái),日立公司都在市場(chǎng)上為用戶們提供著強(qiáng)大的對(duì)象存儲(chǔ)解決方案,”總部位于加利福尼亞州Santa Clara市HDS公司的內(nèi)容智能解決方案產(chǎn)品營(yíng)銷高級(jí)總監(jiān)Scott Baker說(shuō)。“我們真正需要的是一個(gè)能夠?qū)?shù)據(jù)理解(分析)到位的解決方案。其基本理念就是打破數(shù)據(jù)孤島,并將其連接至所選的數(shù)據(jù)源,例如亞馬遜S3(簡(jiǎn)單存儲(chǔ)服務(wù))或微軟Azure或文件系統(tǒng)。”
Baker表示,Hitachi Content Intelligence引擎可通過(guò)特定連接器成功提取對(duì)象存儲(chǔ)元數(shù)據(jù)或文件系統(tǒng)元數(shù)據(jù),然后通過(guò)一個(gè)提取、轉(zhuǎn)化和加載管道加載信息以便于理解數(shù)據(jù)的各種特性,因此可將其置于索引中或移動(dòng)到HCP存儲(chǔ)庫(kù)中以實(shí)現(xiàn)數(shù)據(jù)遷移。
“可對(duì)數(shù)據(jù)應(yīng)用一些操作步驟,以便后續(xù)分析,”Baker說(shuō)。“Hitachi Content Intelligence能夠理解文檔,然后對(duì)其進(jìn)行分類,例如zip文件或PDF或視頻文件。我們可以對(duì)其應(yīng)用不同類型的自定義數(shù)據(jù),例如社會(huì)安全號(hào)碼的模式匹配或?qū)ふ也煌臄?shù)據(jù)格式。”
其解決思路就是集中有組織的數(shù)據(jù),然后將其轉(zhuǎn)化為有價(jià)值且相關(guān)的業(yè)務(wù)信息。該工具可自動(dòng)實(shí)現(xiàn)同一組織內(nèi)部不同部門或級(jí)別數(shù)據(jù)的提取、分類與歸類。
451研究公司存儲(chǔ)技術(shù)高級(jí)分析師Steven Hill表示,這種類型的內(nèi)容智能處理技術(shù)是對(duì)象存儲(chǔ)及其元數(shù)據(jù)的一個(gè)提升發(fā)展,它可用于更為復(fù)雜和精細(xì)的數(shù)據(jù)分析應(yīng)用。
“我認(rèn)為,元數(shù)據(jù)的使用是長(zhǎng)期數(shù)據(jù)管理的關(guān)鍵所在,”Hill說(shuō)。“元數(shù)據(jù)是或多或少包含數(shù)據(jù)本身詳細(xì)信息的數(shù)據(jù)庫(kù)條目,它可作為存儲(chǔ)環(huán)境的一部分與數(shù)據(jù)保存在一起。這些數(shù)據(jù)庫(kù)條目可用于以一種傳統(tǒng)文件和塊系統(tǒng)所不能實(shí)現(xiàn)的方法來(lái)建立用于處理數(shù)據(jù)的策略。
“元數(shù)據(jù)可用作一個(gè)挖掘、管理和移動(dòng)數(shù)據(jù)的工具,而不用考慮其所處位置。而日立內(nèi)容智能解決方案平臺(tái)所做的一切就是開發(fā)出良好的元數(shù)據(jù)并幫助客戶了解元數(shù)據(jù)是如何有助于實(shí)現(xiàn)其業(yè)務(wù)和IT目標(biāo)的。”
Hitachi Content Intelligence擁有最多36種數(shù)據(jù)分析方法,并可創(chuàng)建一個(gè)元數(shù)據(jù)的自定義子集以供模式匹配使用。客戶可為特定數(shù)據(jù)集編寫他們自己的自定義屬性,或者從諸如合規(guī)性或醫(yī)療記錄這樣的特定數(shù)據(jù)源中提取有用信息。HCP的搜索引擎可允許用戶根據(jù)查詢操作來(lái)提取信息,從而挑選出有待進(jìn)入傳輸和載入過(guò)程而需排序的文件。
“一旦用戶定義了連接器,之后工作流就可被設(shè)計(jì)為一個(gè)拖放的操作。用戶還可以通過(guò)測(cè)試來(lái)明確流程管道是如何影響索引末尾或隨HCP遷移的相關(guān)關(guān)聯(lián)文檔的,”Baker說(shuō)。“這種設(shè)計(jì)可允許用戶查看可定義產(chǎn)生一般結(jié)果的過(guò)程,而這正是用戶可從中受益的一個(gè)環(huán)節(jié)。”
Baker表示,這個(gè)軟件工具還可允許管理員們進(jìn)行測(cè)試以確保根據(jù)特定查詢提取和載入內(nèi)容的正確性。