亞馬遜CloudSearch是一個為云計算中文檔創建搜索索引的有用工具。這項服務是基于使用文檔現有屬性項的,它可允許開發人員新增新的屬性項以便于對搜索索引進行微調。
這里,我選擇了一個LibreOffice Writer文檔以用于說明如何使用CloudSearch來創建搜索索引和修復問題。出于演示的目的,我所選的文檔較小,這樣就可確保創建索引成本更低。
創建搜索索引共需五個步驟:準備文檔、啟動亞馬遜CloudSearch、定位索引字段源、增加索引字段以及運行測試搜索。如果測試結果是成功的,那么你就可以使用相同的索引來搜索其他的LibreOffice文檔。
步驟1:準備一個樣本文檔
選中File標簽,選擇Properties。 在General Properties標簽中,確保選中Apply the user data多選框。在Tools標簽下的Options,在LibreOffice User Data文本框中輸入你的名字。選中Use Data for document properties多選框。點擊OK。在Edit標簽下,打開Record Changes。進行必要的編輯。 以LibreOffice Writer的格式(.odt)保存文檔文件,然后以微軟的Word格式(.doc 或 .docx)保存。因為CloudSearch并不會接受LibreOffice Writer (.odt)格式的文檔文件。步驟2:啟動CloudSearch
登錄到AWS的管理控制臺。選擇CloudSearch。 在相關區域選擇激活域。點擊Upload Documents。選擇 File(s) on my local disk并點擊 Browse 選中你需要上傳的樣本文件。點擊Continue。在CloudSearch分析樣本文檔之后,相關界面會顯示索引字段的一個列表:
application_nameauthorcontentcontent_typecreation_datecreatordatelanguagelast_authorlast_modifiedlast_printedresourcenamerevision_numbertotal_time上述列表中的斜體標記表示并沒有針對域進行配置。只有解決了這一問題,你才能繼續下一步。
點擊Cancel。
步驟3:定位正確配置的索引字段源
在Help標簽下選擇About LibreOffice以獲得application_name 字段的源。在Tools標簽的Options中選擇Language Settings以獲得Language字段的源。英語(美國)是默認選項。在File標簽的Properties中選擇General Properties以獲得以下表格中字段的源。在向域配置新增索引字段之前,你可以確定是刪除還是保留這些字段。
步驟4:新增索引字段
登錄CloudSearch,打開相關界面。選擇一個激活域名。選擇Indexing Options。每次對下述每一個字段點擊Add Index Field。注:在默認情況下,CloudSearch將把每個字段自動設置為可搜索。
點擊Submit。點擊Run indexing,重新編制索引。點擊OK開始編制索引。一般來說,編制和部署小型索引文件只需花費數分鐘時間,而編制和部署大型索引文件則可能需要花費數個小時之久。索引文件越小,重建搜索索引文件的成本就越低。步驟5:提交搜索請求
選擇Dashboard。從S3 buckets或你的本地文件系統中選擇待上傳文件,并點擊Upload Documents。點擊Run a Test Search。在Search框內輸入一個單詞。例如,“vulnerability”。點擊Go,CloudSearch就會以文檔相關度分數降序的次序列出索引字段。注:文檔相關度得分是根據文檔中搜索詞出現次數與整個域中所有文檔中搜索詞出現次數的比值而得到的。在本文的示例中,我們使用了一個文檔。
以下是一個文檔的結果:
該文檔相關度得分為0.5532488。搜索詞被發現一次。
創建者和作者是Judith。
最后的作者是Judith。
該文檔被修改過六次。
語言默認為美國英語(en-US)。
創建者和作者是Judith。
創建時間為2014年6月20日10:08:15。
內容是:生物漏洞評估變更。
修改日期為12:57:38。
內容類型為application/vnd.openxmlformats(Word docx)。
資源名稱Biometric vulnerability assessment.docx。
總之,對一個小文件運行測試搜索可確保處理成本較低。如果測試結果是成功的,那么你就可以使用相同的索引來對大量的文檔進行搜索。
原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_88060.htm