HDS公司已經公布了日立內容智能方案(Hitachi Content Intelligence,簡稱HCI),這款軟件專門負責立足于多種結構化與非結構化數據孤島進行搜索與內容讀取,隨后對其加以分析。
HDS
公司指出,其可利用內容智能化方案解決輸入數據井噴的問題
HCI能夠從各孤島當中提取數據并將其引入工作流,從而通過多種方式加以處理。HCI的用戶亦需要經過驗證,從而確保敏感內容只由相關人員進行查看,文檔安全控制也因此得以保障。HDS方面指出,HCI能夠跨越整體IT環境幫助企業創建一套標準且統一的搜索流程。
HDS公司指出,HCI可跨越異構式數據孤島及不同位置以連接并聚合多種結構化數據。該公司宣稱,HCI能夠為全部企業數據提供自動化提取、分類、富集與組織功能。需要注意的是,其使用了“全部”一詞,因此可以認為HCI能夠訪問企業內的一切數字化數據。這確實是一項了不起的成就。
HCI對現有公共應用程序編程接口(簡稱API)進行擴展,從而支持定制化數據連接、轉換階段或者構建新型應用。
其作為HDS公司對象存儲產品組合(簡稱HCP)中的一部分,幫助這套整體方案實現文件同步與共享、云存儲網關以及新的搜索與分析功能。HCI能夠運行在物理或者虛擬服務器之上,亦可被托管于公有或者私有云當中。其可作為一組容器進行實例化,并作為一項自助式服務實體被交付給用戶,同時提供對詳盡查詢與自然語言查詢的支持能力。
另外,其還將為用戶提供多種個性化結果。需要強調的是,它亦能夠檢測到舊有數據并將其導出至低成本在線歸檔服務之內。
總體而言,這是一項非常出色的批量內容智能化功能。單從公布內容來看,其極為強大且蘊含著無窮無盡的潛力空間。
針對HCI公告當中提到的“全部”數據以及其它一些內容,我們向日立數據系統公司新興技術高級主管Scott Baker進行了求證。
郵件采訪細節
HCI能夠支持哪些多結構化數據孤島?
Scott Baker內容智能軟件所提供的數據連接器能夠支持日立連接平臺、日立Data Ingestor、HCP Anywhere、S3托管存儲庫以及文件系統(CIFS/NFS)。內容智能擁有完備的說明文檔,包括一套包含示例的軟件開發者工具包,合作伙伴與客戶可利用其創建未直接提供的、指向各類數據存儲庫的連接。
其如何支持詳盡查詢與特設自然語言搜索?(即能否處理‘企業數據存儲內與X射線相關的內容有哪些?’這樣的查詢問題?)
Scott Baker內容智能允許用戶通過以下方式進行數據導航:基于特定方面導航,或者將同類數據劃分為一個組別的能力。在您所提到的例子中,您可以在數據處理過程中使用元數據標簽,從而將全部包含X射線內容的文件源進行標記。如此一來,用戶即可快速選定該類別以查看與之相關的文檔列表結果。
用戶還可以將查詢結果限定至特定屬性或者范圍之內。舉例來說,顯示一切來自日期1與日期2之間的包含X射線內容的文件,或者設定其它過濾選項。模式匹配或者數據分析機制亦可用于對文件內容進行分享。例如,用戶可以找到全部與特定X射線定義數據相關的文件(在文件處理過程中使用這一模式),由此給出可識別信息。
特設查詢亦可支持自然語言形式,而內容智能軟件則會給出輸入建議。相關結果將根據各文件與查詢內容的匹配程度進行排序,并將匹配度最高的內容突出顯著出來。多詞查詢實質上等同于“OR(或)”自然語言搜索(即‘什么’OR‘內容’OR‘做’……),但亦可使用綽號時將語義轉換為“AND(和)”。
使用哪種搜索語言?
Scott Baker最終用戶在查詢或者導航以上列出的結果時,內容智能軟件的索引引擎會使用SolrQuerySyntax進行處理,并借此返回與查詢內容最為匹配的結果。這些結果可通過任意附加參數進行放大——例如增加值、相關性排序、排除某些文件或者將其列入黑名單等等。
其是如何自動提取、分類、富集并組織全部客戶數據的?
Scott Baker在工作流創建及數據連接定義完成之后,所對接存儲庫內的任意發現數據都會通過工作流管道內的不同階段進行處理。作為這些管道的組成部分,內容與元數據會被提取出來,內容會基于數據類型或者元數據值進行分類,軟件采取一系列步驟進行數據標準化處理,其它元數據被添加進來,從而允許利用特定模式實現搜索(例如個人識別數據)等等。大家可以采取24種不同的處理步驟,分具體條件進行選擇,其中包括內容分析、轉換、富集、過濾、內存內提取以及必然提供的利用SDK創建定制化步驟等。這些工作流皆可立足于周期基礎進行按需或者計劃執行。
真的嗎?可用于全部客戶數據?您能否證明這一論斷?
Scott Baker好的——這里肯定是有點創意發揮的成分在,但基本上答案是肯定的。要證明這一論點,我們需要探討內容智能軟件的可擴展性。如果大家需要一款連接器,但我們并未直接提供,那么用戶可以自行創建。如果大家希望以某種默認選項中不具備的方式進行數據處理,亦可自由設計。另外,如果大家需要一套我們未直接提供的特定界面以查看結果,則可使用REST API進行數據渲染來達成目的。
這款軟件會將生成的元數據存儲在哪里?
Scott Baker具體取決于處理數據的預期目的。如果我們的目標是創建一套集中化索引且不影響數據源,而后全部操作皆由工作流執行,那么由此產生的元數據與提取內容會被存儲在一套Solr索引當中。我們利用特定的Solr功能以平衡不同實例間的索引,從而確保搜索操作的性能表現并保護索引免于丟失。這意味著,大家也可以創建一套與進行數據探索或者發現活動的用戶更為貼近的索引。
面向HCP與S3位置的數據連接器亦可對其執行相關“WRITE”操作——具體寫入對象包括數據、元數據、自定義元數據、保留設置、保留持有權、執行權限類刪除、執行權限類保留等。這是一種非常重要的使用方式,能夠幫助用戶利用內容智能軟件以智能化方式實現數據遷移,并在將其寫入新存儲庫時與全部自定義元數據相關聯。
其會查看數據中的內容嗎?
Scott Baker是的——內容智能軟件可以執行表層內容識別、次表層(即文件標題)或者深度內容識別。在提取、轉換、模式匹配、分析與加載方面,內容智能可在深層識別中使用文件的全部內容。其中包括從文件容器(pst、zip、tar、mbox等)內提取每個文檔并進行獨立處理。
公告內容指出,HCI將“最大程度降低數據無法訪問、無法識別或者丟失的風險及泄露可能性,”這意味著并未完全消除這種風險。我的理解對嗎?
Scott Baker沒錯——要完全消除這類風險意味著極高的自動化程度。在產品的成熟度方面,我們目前力圖讓用戶意識到風險的存在,不過具體操作仍由用戶決定,因此其可采取適當步驟以降低風險級別。當然也有例外,假如我利用數據連接器對接HCP或者S3作為數據遷移手段,從而確保不使用那些隱藏且極少訪問的存儲庫,那么就能夠利用高水平自動化機制利用HCP管理與治理功能消除這種風險。
其分層機制是如何檢測并導出陳舊數據的?
Scott Baker用戶可以構建一套工作流,用于對接其一級數據與文件分離條件(即過去30天中未被訪問的全部文件),并將這部分文件遷移至HCP。
HCI軟件是否運行在服務器之上?需要配合哪種服務器?
Scott Baker內容智能是一款純軟件解決方案。其可被部署在裸機、虛擬機或者云環境(即AWS)當中。其要求64位Linux發行版以運行DOcker 1.10以及更新版本。這意味著大家能夠隨意將內容智能軟件部署在任意平臺上,從而適應您用例中的實際情況。其最低配置要求為四計算核心、16 GB內存以及64 GB磁盤空間。很明顯,您為其分配的內存容量越大,每一實例所能處理的進程與請求也就越多。
其如何為每一位獨立用戶提供有針對性的個性化結果?
Scott Baker由工作流創建的搜索結果索引可進行自定義,從而控制結果的具體顯示方式。在工作流設計器中,大家可以定義與個別用戶或者組用戶相關的查詢設置,其會檢查能夠查詢哪些索引、查看哪些字段以及利用哪些方面進行導航、可使用哪種改進機制,最終判斷可利用哪種途徑渲染結果集以滿足最終用戶的應用需求。
在發布API以支持定制化數據連接、轉換階段或者構建新應用方面,它擁有怎樣的擴展性能力?
Scott Baker這款產品會提供一套具備完整說明文檔的軟件開發者工具包(其中包含示例代碼),用于構建數據連接以及/或者處理階段。我們還面向數據訪問提供完備的RESTful API集,以供最終用戶應用(即搜索應用)使用。
HCI的價格與上市日期是如何設定的?
Scott Baker內容智能軟件按照計算核心數量進行授權,內容智能的每個實例要求最低配備四個計算核心。如果需要性能更為強大且具備可擴展性的環境,亦可將內容智能軟件運行在一套集群化配置方案內。單一集群最低需要包含四臺節點(三臺主節點與一臺工作節點),但規模亦可進一步提升。目前每核心的市售價格為1萬3300美元,但請時刻留意我們的公告,其中經常提供折扣優惠。
產品的正式上市時間為今年12月16日。