文本、圖像、視頻、3D模型等視覺資源是互聯(lián)網(wǎng)大數(shù)據(jù)的重要組成部分,視覺搜索是其資源組織、分析和整合的重要方法,也是視覺大數(shù)據(jù)資源內(nèi)容理解和價值發(fā)現(xiàn)的有效手段。傳統(tǒng)基于文本標(biāo)注的視覺資源信息檢索模式的缺點(diǎn)是標(biāo)注時間和人力成本高、精確性低,且難以應(yīng)對數(shù)據(jù)規(guī)模和數(shù)據(jù)類型的飛速增長。視覺搜索體系有別于此,它具有較強(qiáng)的視覺資源整合與信息檢索能力,通過實(shí)時處理和有效整合視覺搜索對象的時空關(guān)聯(lián)信息,發(fā)現(xiàn)視覺大數(shù)據(jù)資源的潛在價值與知識,為用戶提供嵌入式協(xié)作化的大數(shù)據(jù)知識服務(wù),這一特征在“互聯(lián)網(wǎng)+”時代體現(xiàn)得尤為明顯。視覺搜索的價值在于它能充分發(fā)掘和展示出視覺大數(shù)據(jù)資源蘊(yùn)含的時空關(guān)聯(lián)關(guān)系、價值演化方式與知識服務(wù)規(guī)律。但是,視覺大數(shù)據(jù)資源之間復(fù)雜的時空關(guān)聯(lián)關(guān)系與無序的動態(tài)進(jìn)化過程,使得其資源整合和信息檢索難度加大。視覺搜索作為實(shí)現(xiàn)這一目標(biāo)的重要途徑,不同于傳統(tǒng)信息檢索模式,它能以獲取到的客觀物理世界的圖像或視頻等視覺資源作為檢索對象,通過互聯(lián)網(wǎng)獲取與之相關(guān)的多元化、多層次時空關(guān)聯(lián)信息。
當(dāng)前視覺搜索已成為信息科學(xué)領(lǐng)域的前沿課題,主要用于分析和研究現(xiàn)實(shí)世界實(shí)體屬性、行為、事件與視覺大數(shù)據(jù)資源之間的發(fā)展規(guī)律,針對視覺大數(shù)據(jù)資源的獲取、組織、描述與利用問題,研究視覺資源及其時空關(guān)聯(lián)信息之間的價值發(fā)現(xiàn)與資源整合的內(nèi)在機(jī)理,解決其多維關(guān)聯(lián)與協(xié)同融合問題,進(jìn)而實(shí)現(xiàn)視覺大數(shù)據(jù)資源的有效整合、知識發(fā)現(xiàn)與實(shí)時交互。
基于此,本研究從宏觀與中觀角度,從信息科學(xué)視角下視覺搜索研究的起源著手,對其發(fā)展歷程、概念與特點(diǎn)進(jìn)行描述,圍繞其理論與應(yīng)用研究的幾個關(guān)鍵問題展開討論,并簡要探討其最新研究進(jìn)展及應(yīng)用。
1 大數(shù)據(jù)環(huán)境下視覺搜索的發(fā)展歷程及特點(diǎn)
1.1 問題的提出
視覺搜索不是一個新名詞,它最早出現(xiàn)于心理學(xué)與生理學(xué)領(lǐng)域,用于描述人們通過視覺通道在特定區(qū)域內(nèi)檢測某特定目標(biāo)是否出現(xiàn)或出現(xiàn)后確定其位置的行為[1]。如在地圖上找某大學(xué)所處位置、在食堂內(nèi)點(diǎn)菜、在書架上找書或在圖書館內(nèi)找人等。在現(xiàn)實(shí)世界中,人們經(jīng)常需要利用視覺搜索在復(fù)雜物理環(huán)境中獲取有價值的信息,來決定接下來的語言和行為[2]。因此,視覺搜索理論受到心理學(xué)家和人因(Human Factors)學(xué)家的廣泛關(guān)注,大量研究集中在對人類視覺認(rèn)知[3-4]、生理反饋機(jī)理[5]的理解與表達(dá)上,并總結(jié)出了許多應(yīng)用型和理論型知識。正是由于視覺搜索的可用性和有效性,使得許多工作、行業(yè)、領(lǐng)域都離不開這一生理行為。
相關(guān)基礎(chǔ)理論和關(guān)鍵技術(shù)的不斷發(fā)展與完善,促使傳統(tǒng)視覺搜索應(yīng)用不斷向信息化、技術(shù)化和網(wǎng)絡(luò)化方向發(fā)展,如何將傳統(tǒng)視覺搜索行為轉(zhuǎn)換成“所見即所知”式視覺搜索模式,這一難題逐漸擺在了人們面前。與此同時,網(wǎng)絡(luò)環(huán)境、信息技術(shù)、計算性能、存儲空間、數(shù)據(jù)規(guī)模與軟硬件設(shè)施等方面的飛速提升,也為客觀物理世界與虛擬網(wǎng)絡(luò)空間之間建立起密不可分的關(guān)聯(lián)關(guān)系,使視覺搜索技術(shù)的實(shí)現(xiàn)成為可能。人們可以方便快捷地采集客觀物理世界中的視覺對象,從互聯(lián)網(wǎng)中獲取與之相關(guān)的關(guān)聯(lián)信息[6]。
1.2 視覺搜索發(fā)展歷程及發(fā)展趨勢
近幾年來,隨著大數(shù)據(jù)環(huán)境的逐步完善和大數(shù)據(jù)技術(shù)的迅速發(fā)展,關(guān)于視覺資源整合與視覺搜索研究的呼聲越來越大。Nature和Science分別于2008年、2011年出版了大數(shù)據(jù)專題研究[7],提出圖像、視頻與用戶交互信息是未來大數(shù)據(jù)的重要組成部分。2009年,Stanford University的Griod、Chandrasekhar等學(xué)者將視覺搜索理論引入到信息檢索領(lǐng)域,提出Visual Search、Mobile Visual Search等概念,舉辦了第一屆移動視覺搜索研討會,并對其體系結(jié)構(gòu)、應(yīng)用與服務(wù)模式等問題進(jìn)行了探討[8]。2010年,Google技術(shù)研究部前主管Norvig在Nature上發(fā)表的專題論文2020 Visions中指出,“文本、圖像和視頻等視覺資源及用戶交互信息、傳感信息的有機(jī)融合,會給搜索引擎帶來巨大挑戰(zhàn),如何對視覺搜索結(jié)果進(jìn)行資源深度整合將會成為Google未來10年面臨的最大挑戰(zhàn)。”[9-10]同年,北京大學(xué)高文、黃鐵軍與段凌宇等將其引入國內(nèi),舉辦了第二屆移動視覺搜索研討會,并圍繞其關(guān)鍵技術(shù)、體系結(jié)構(gòu)、視覺資源組織與描述方法、視覺資源標(biāo)準(zhǔn)化與視覺知識庫建設(shè)等問題展開了研討[6,11]。2012年,這一理論與技術(shù)迅速被中國計算機(jī)學(xué)會所接受,認(rèn)為將視覺搜索與增強(qiáng)現(xiàn)實(shí)技術(shù)相結(jié)合的信息檢索模式,將是繼搜索引擎之后的新一代互聯(lián)網(wǎng)服務(wù)范式[3,6]。隨后,張興旺[12]、朱慶華[13]等嘗試將其引入數(shù)字圖書館領(lǐng)域,并圍繞相關(guān)理論與應(yīng)用模式展開了研究。
根據(jù)視覺搜索研究的發(fā)展軌跡來看,國內(nèi)關(guān)于視覺搜索研究總體仍處于探索與嘗試階段,研究軌跡已基本跨過早期理論性嘗試過程,正步入中期技術(shù)性和應(yīng)用性探索階段。尤其是在我國科學(xué)技術(shù)部于2011年啟動國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(“973”計劃)“面向公共安全的跨媒體計算理論與方法”,對跨媒體視覺資源的統(tǒng)一表示和建模方法、關(guān)聯(lián)推理和深度挖掘、綜合搜索和內(nèi)容合成等關(guān)鍵科學(xué)問題進(jìn)行研究之后,國內(nèi)相關(guān)研究步入快速發(fā)展階段。自2015年以來,視覺搜索理論與應(yīng)用研究的重要性和必要性更加凸顯,國務(wù)院2015年9月印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》提出,要充分利用大數(shù)據(jù),提升領(lǐng)域數(shù)據(jù)資源的獲取和利用能力,推動各類數(shù)據(jù)融合和資源整合[14]。國務(wù)院2015年7月印發(fā)的《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》提出“構(gòu)建包括語音、圖像、視頻、地圖等數(shù)據(jù)的海量訓(xùn)練資源庫,加強(qiáng)人工智能基礎(chǔ)資源和公共服務(wù)等創(chuàng)新平臺建設(shè)”[15]。國家自然科學(xué)重大研究計劃“大數(shù)據(jù)驅(qū)動的管理與決策研究”認(rèn)為“大數(shù)據(jù)價值的產(chǎn)生機(jī)理和轉(zhuǎn)換規(guī)律具有高度的應(yīng)用領(lǐng)域依賴性”[16]。科技部2016年發(fā)布的《關(guān)于發(fā)布國家重點(diǎn)研發(fā)計劃精準(zhǔn)醫(yī)學(xué)研究等重點(diǎn)專項2016年度項目申報指南的通知》的“云計算和大數(shù)據(jù)重點(diǎn)專項”中更是明確將“面向大范圍場景透徹感知的視覺大數(shù)據(jù)智能分析關(guān)鍵技術(shù)”列為重點(diǎn)研究內(nèi)容之一,要求對視覺語義建模、視覺對象的時空定位與搜索、跨場景數(shù)據(jù)關(guān)聯(lián)技術(shù)等展開研究[17]。
1.3 視覺搜索研究對象及視覺大數(shù)據(jù)資源特點(diǎn)
視覺搜索的研究已逐漸發(fā)展成為信息檢索領(lǐng)域的主要研究趨勢[6,8,10],到目前為止,關(guān)于視覺搜索的定義尚未形成統(tǒng)一的認(rèn)識,但從信息檢索角度來看,大家對它的普遍理解是指將客觀物理世界中的視覺資源作為檢索對象,通過互聯(lián)網(wǎng)去獲取關(guān)聯(lián)信息的一種信息檢索方式[6,12]。它是以視覺大數(shù)據(jù)資源及其關(guān)聯(lián)信息為研究對象,以視覺大數(shù)據(jù)資源的獲取、分析、組織、理解和表達(dá)方法為主要研究內(nèi)容,以信息技術(shù)與方法為主要研究手段,以發(fā)現(xiàn)視覺大數(shù)據(jù)資源蘊(yùn)含的知識價值和拓展其利用能力為主要研究目標(biāo)的一種綜合性的應(yīng)用型前沿領(lǐng)域。它主要針對的是當(dāng)前大數(shù)據(jù)環(huán)境下海量、多元異構(gòu)、動態(tài)無序和高速進(jìn)化的視覺資源的分析和利用問題,重點(diǎn)研究的是如何充分利用當(dāng)前飛速發(fā)展的信息技術(shù)來解決視覺大數(shù)據(jù)資源的理解和表達(dá),如何有效地實(shí)現(xiàn)視覺搜索,如何利用視覺搜索技術(shù)來從海量視覺大數(shù)據(jù)資源中發(fā)現(xiàn)新的知識。
毫無疑問,未來是一個智慧(或稱之為“互聯(lián)網(wǎng)+”)的時代。智慧地球、智慧城市、智慧圖書館等理論與應(yīng)用的迅速發(fā)展,給視覺搜索理論與應(yīng)用研究提供了“沃土”。“互聯(lián)網(wǎng)+”時代所衍生的數(shù)據(jù)規(guī)模的劇增,文本、圖像、音視頻、用戶交互信息與各種傳感信息會成為“數(shù)據(jù)海洋”的主流[18],而這些數(shù)據(jù)來源中超過80%來自于人類視覺通道,現(xiàn)階段把握“互聯(lián)網(wǎng)+”時代信息檢索和知識服務(wù)未來發(fā)展脈絡(luò)的最重要手段可能是視覺搜索。
視覺大數(shù)據(jù)資源因其包含文本、圖像、音視頻與用戶觀看記錄等復(fù)雜無序、動態(tài)變化的時空信息,使其成為數(shù)字圖書館中內(nèi)容最豐富的信息載體,并將會成為“互聯(lián)網(wǎng)+”時代最為重要的信息表達(dá)和信息傳播媒介[19]。而以視覺大數(shù)據(jù)資源為研究對象的視覺搜索,由于前者所處知識空間的知識實(shí)體與知識價值在時間、空間和屬性三個方面的自有特性,使得視覺搜索也呈現(xiàn)出復(fù)雜無序、動態(tài)變化和時空語義關(guān)聯(lián)等特性,同時也需要對視覺大數(shù)據(jù)資源的形式化表達(dá)、系統(tǒng)化組織、結(jié)構(gòu)化描述與時空關(guān)聯(lián)關(guān)系分析方法等進(jìn)行研究。由此可得知視覺大數(shù)據(jù)資源主要具有以下特征:
1)視覺大數(shù)據(jù)資源包含文本、圖像、視頻、用戶觀看信息及用戶交互信息等時空信息,并且它所包含的視覺對象、事物內(nèi)容、事件過程在時間、空間、語義等方面具有時序或時空關(guān)聯(lián)關(guān)系。
2)視覺大數(shù)據(jù)資源具有時空語義關(guān)聯(lián)、動態(tài)變化、數(shù)據(jù)規(guī)模大和結(jié)構(gòu)復(fù)雜等特點(diǎn),這些基于視覺對象、事物內(nèi)容、事件過程的動態(tài)變化可以用時空語義關(guān)聯(lián)進(jìn)行表達(dá)和描述,其獲取、組織和描述過程可以用機(jī)器語言來進(jìn)行表達(dá),通過視覺對象、事物內(nèi)容、事件過程之間的語義關(guān)聯(lián)映射,建立視覺大數(shù)據(jù)資源的時空語義關(guān)聯(lián)關(guān)系。
3)視覺大數(shù)據(jù)資源具有數(shù)據(jù)規(guī)模大、結(jié)構(gòu)復(fù)雜、類型多元、多維尺度關(guān)聯(lián)和縱深緯度高等特性,可根據(jù)視覺大數(shù)據(jù)資源的時空語義關(guān)系建立對應(yīng)的尺度關(guān)聯(lián)機(jī)制。針對不同尺度、縱深緯度的視覺大數(shù)據(jù)資源的時空關(guān)聯(lián)關(guān)系,可實(shí)現(xiàn)視覺對象、事物內(nèi)容、事件過程之間的多維尺度轉(zhuǎn)換和重置,進(jìn)而實(shí)現(xiàn)視覺大數(shù)據(jù)資源的語義關(guān)聯(lián)關(guān)系分析。
4)視覺大數(shù)據(jù)資源能提供基于視覺資源內(nèi)容來理解視覺對象行為,根據(jù)視覺對象的時空語義關(guān)聯(lián)關(guān)系建立起發(fā)展趨勢模型,并根據(jù)有效組織、理解和描述來預(yù)測某特定事物在某特定階段將可能發(fā)生的行為態(tài)勢。
5)可針對視覺大數(shù)據(jù)資源的獲取、組織、理解和描述問題,來實(shí)現(xiàn)用戶與視覺大數(shù)據(jù)資源之間的實(shí)時交互、反饋和視覺對象知識庫的構(gòu)建。根據(jù)視覺對象的相似行為特征、時空關(guān)聯(lián)關(guān)系和實(shí)時交互結(jié)果,來幫助人們制作、生產(chǎn)、運(yùn)營和消費(fèi)新的視覺資源,滿足數(shù)字圖書館用戶的多元化知識服務(wù)需求。
2 大數(shù)據(jù)環(huán)境下視覺搜索的應(yīng)用與組織模式
視覺大數(shù)據(jù)資源經(jīng)過組織、分析、處理和整合,并建立基于特定領(lǐng)域的數(shù)字圖書館視覺搜索平臺之后,才能為用戶提供大數(shù)據(jù)知識服務(wù)。不同學(xué)科、領(lǐng)域的視覺搜索模式對視覺大數(shù)據(jù)資源的獲取、組織、處理與整合模式會有所不同。正因如此,當(dāng)前大部分應(yīng)用是從知識服務(wù)與信息檢索角度,建立起領(lǐng)域?qū)虻囊曈X大數(shù)據(jù)資源整合平臺,通過視覺搜索來對視覺大數(shù)據(jù)資源進(jìn)行有效管理與利用,并按照特定學(xué)科、專業(yè)和領(lǐng)域的知識服務(wù)需求來提供服務(wù),從而滿足各類大數(shù)據(jù)知識服務(wù)需求。
2.1 基于深度學(xué)習(xí)的視覺搜索工業(yè)應(yīng)用模式
傳統(tǒng)視覺搜索研究主要是先采用人工標(biāo)注方法對視覺資源的底層特征進(jìn)行標(biāo)注后,再采用機(jī)器學(xué)習(xí)方法來解決視覺資源之間的語義鴻溝、異構(gòu)鴻溝與語義關(guān)聯(lián)之間的問題。基于人工標(biāo)注的視覺大數(shù)據(jù)資源整合與利用方法,需要標(biāo)注者擁有豐富的專業(yè)領(lǐng)域知識和工業(yè)應(yīng)用經(jīng)驗,需耗費(fèi)大量的時間和人力成本,且精確性低。與對視覺資源特征進(jìn)行人工標(biāo)注方法不同的是,深度學(xué)習(xí)一般都是通過對視覺資源特征進(jìn)行多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,進(jìn)行視覺特征學(xué)習(xí),進(jìn)而獲取到特征提取更合理、區(qū)分性更強(qiáng)的視覺特征理解和描述。大量研究證明通過深度分析方法所提取到的視覺特征在圖像分類與識別、視覺場景識別、智能監(jiān)控、語音識別、知識圖譜構(gòu)建等[20-21]應(yīng)用領(lǐng)域都獲得過成功。視覺資源的顯著性特征提取和分割方法,能夠采用模擬人類視覺系統(tǒng)和生理認(rèn)知體系來提取視覺資源中顯著性特征區(qū)域。目前,性能相對最好的視覺資源特征提取方法在公開的視覺大數(shù)據(jù)資源數(shù)據(jù)集中的顯著性特征檢測準(zhǔn)確率在95%左右,視覺資源前景特征分割準(zhǔn)確率將近92%,這一比例在近幾年全球性各類大規(guī)模視覺資源分析與識別比賽中,仍然在不斷增加。比如,Google研究組在大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)中,采用改進(jìn)的深度卷積網(wǎng)絡(luò)Google Net將圖像識別準(zhǔn)確率提升到93%;Google小組在微軟圖像標(biāo)題生成挑戰(zhàn)賽(MS COCO ICC)中,采用基于深度分析的圖像特征提取方法獲得冠軍;悉尼科技大學(xué)與卡耐基梅隆大學(xué)、微軟亞洲研究院和浙江大學(xué)在THUMOS比賽中,均將深度分析方法與視覺對象運(yùn)動特征結(jié)合起來對視覺資源進(jìn)行動作識別,分別獲得前三名[10]。
傳統(tǒng)學(xué)術(shù)研究的理論成果往往需要很長一段時間發(fā)展,才能逐漸走向成熟,并進(jìn)入到實(shí)際的工業(yè)應(yīng)用中去。但無論是深度學(xué)習(xí),還是視覺搜索,它們都擁有著極強(qiáng)的工程理論模型。一方面,它們在被學(xué)術(shù)界關(guān)注和研究的同時,也被工業(yè)領(lǐng)域所密切關(guān)注和嘗試;另一方面,由于工業(yè)領(lǐng)域(如Google、百度、微軟等)早就擁有著大規(guī)模的視覺大數(shù)據(jù)資源,且一直活躍在諸多信息科學(xué)領(lǐng)域的研究前沿,在很多領(lǐng)域,它們相較于學(xué)術(shù)界更有優(yōu)勢。如Google的知識圖譜Knowledge Graph,Google Now與Google街景地圖,微軟的語音助手Cortana,愛奇藝的愛奇藝大腦,F(xiàn)acebook的Graph Search等均屬于工業(yè)界視覺搜索較為經(jīng)典的應(yīng)用案例。事實(shí)上,國外工業(yè)界各大公司,如Google,F(xiàn)acebook,Microsoft等對視覺搜索不僅僅只是開展大量的研究,甚至還在內(nèi)部成立了專門研究機(jī)構(gòu),國內(nèi)的百度、華為、騰訊和阿里巴巴也不例外。
2.2 基于知識計算的視覺搜索知識服務(wù)模式
數(shù)字圖書館領(lǐng)域?qū)σ曈X搜索理論與應(yīng)用展開研究的一個重要目的,就是為高校和科研機(jī)構(gòu)的研究人員提供嵌入式協(xié)作化的知識服務(wù),而數(shù)字圖書館視覺搜索平臺是將海量視覺大數(shù)據(jù)資源與平臺提供的視覺大數(shù)據(jù)資源的組織、分析和處理功能嵌入到知識服務(wù)過程中。
視覺大數(shù)據(jù)資源整合與利用是當(dāng)前國內(nèi)外人工智能、信息檢索領(lǐng)域的研究熱點(diǎn),擁有非常廣泛的應(yīng)用與研究前景。事實(shí)上,圖像搜索作為視覺搜索的一個研究分支方向,近幾年來,國內(nèi)已有很多個人(如中國科學(xué)院高科、北京大學(xué)高文與黃鐵軍、南京大學(xué)朱慶華)、機(jī)構(gòu)(如浙江大學(xué)、清華大學(xué)、北京大學(xué)、中國科學(xué)院計算所等)、企業(yè)(如愛奇藝、百度、騰訊、360、搜狗等)正在做與之相關(guān)的研究,并且很多已經(jīng)推出了基于內(nèi)容的圖像搜索平臺,為用戶提供圖像搜索服務(wù)。而美國的麻省理工學(xué)院、加州大學(xué)伯克利分校、伊利諾伊大學(xué)和英國的牛津大學(xué)等相關(guān)研究工作開始得更早,也研發(fā)出了相應(yīng)的基于圖像內(nèi)容的圖像搜索系統(tǒng)。
在以上所有相關(guān)研究中,它們都具有一個典型的研究特征:研究目的是為了解決視覺搜索的應(yīng)用問題,而對應(yīng)的視覺搜索模式大部分是基于知識計算。由于視覺搜索需要組織、分析和處理的對象主要包括文本、圖像、視頻等各類蘊(yùn)含大量價值的視覺資源,因此,如何從視覺大數(shù)據(jù)資源中獲取有價值的知識,就成為國外學(xué)術(shù)界和工業(yè)界一直以來的研究熱點(diǎn)。以發(fā)掘視覺大數(shù)據(jù)資源中蘊(yùn)含的豐富的、復(fù)雜關(guān)聯(lián)的知識為目的的知識庫稱之為視覺對象知識庫。目前,全球基于文本、圖像、音視頻等視覺資源的各類知識庫有不少于60種,而基于這些視覺對象知識庫的具體應(yīng)用案例和系統(tǒng)平臺也有幾百種。其中,比較有代表性的應(yīng)用案例有維基百科的DBpedia(2014版中包含8.7萬部電影、12.3萬張唱片、45萬個物件等)、Google的知識圖譜Knowledge Graph(包括地標(biāo)、城市、人名、建筑、電影、藝術(shù)作品等5億個搜索結(jié)果實(shí)體與350億條關(guān)聯(lián)知識條目)、Facebook的Graph Search(包含10億名用戶、2400億張圖像、10000億次頁面訪問量等)等。
借助視覺搜索的相關(guān)理論與技術(shù),開展對海量、異構(gòu)、多元的視覺大數(shù)據(jù)資源的研究,不僅可豐富信息檢索的外延和內(nèi)涵,而且可以有效地解決當(dāng)前數(shù)字圖書館所面臨的“大數(shù)據(jù)、小知識、小服務(wù)”的瓶頸,具有一定的應(yīng)用價值和現(xiàn)實(shí)意義。
2.3 基于語義分析的視覺內(nèi)容關(guān)聯(lián)組織模式
從已有研究來看,視覺搜索的研究對象大部分集中在文本與圖像上,其中圖像搜索是學(xué)者們著力解決的重點(diǎn)方向。視覺搜索研究可分為3個階段:一是20世紀(jì)70年代末期開始的基于文本/元數(shù)據(jù)的圖像搜索。這一方式主要通過人工標(biāo)注元數(shù)據(jù)對圖像進(jìn)行描述,來實(shí)現(xiàn)對圖像的信息檢索功能,缺點(diǎn)是元數(shù)據(jù)標(biāo)注費(fèi)時費(fèi)力,描述標(biāo)準(zhǔn)與反饋內(nèi)容不完整,且容易有太多主觀色彩。二是20世紀(jì)90年代開始提出基于視覺內(nèi)容的圖像搜索方法。這一方式其本質(zhì)是采用人工構(gòu)造圖像底層視覺特征的方式來進(jìn)行圖像相似性比較,進(jìn)而實(shí)現(xiàn)圖像搜索,缺點(diǎn)是對圖像底層特征和高層語義之間存在的語義鴻溝問題沒有得到較好解決。三是21世紀(jì)初期提出的基于深度學(xué)習(xí)的圖像搜索方法。社交網(wǎng)絡(luò)與用戶生成內(nèi)容成為網(wǎng)絡(luò)數(shù)據(jù)的主要來源,利用用戶標(biāo)簽對圖像語義進(jìn)行組織、表達(dá)和理解成為研究主流,深度學(xué)習(xí)方法由此融入到相關(guān)領(lǐng)域。
與圖像搜索相比,視頻表達(dá)和分析則是視覺搜索領(lǐng)域相對較新的研究領(lǐng)域。視頻由大量圖像幀組成,且圖像幀之間有較為緊密的時空與語義關(guān)聯(lián)關(guān)系,這對視覺搜索技術(shù)要求更高。但由于深度學(xué)習(xí)在文本與圖像搜索領(lǐng)域所取得的成功,學(xué)者們開始借助于深度學(xué)習(xí)框架,對視頻進(jìn)行組織、理解和描述,尤其是在視頻特征提取這一關(guān)鍵環(huán)節(jié)采取了以下幾種方法:一是視頻靜態(tài)關(guān)鍵幀特征描述。由于視頻是由大量圖像幀按時序與語義關(guān)聯(lián)組成,故可采用深度學(xué)習(xí)方法對靜態(tài)視頻幀(即圖像關(guān)鍵幀)進(jìn)行特征學(xué)習(xí)。在具體應(yīng)用中,一旦確定合理的靜態(tài)關(guān)鍵幀提取和編碼方式,也能形成較好的視頻描述效果。二是動態(tài)視頻時序特征描述。有學(xué)者曾提出密集軌跡方法對視頻進(jìn)行分析,取得了不錯效果[10,22]。三是前面兩種方法的有機(jī)結(jié)合。牛津大學(xué)的Simonyan等提出采用時間和空間深度神經(jīng)網(wǎng)絡(luò)來對視頻進(jìn)行分析,時間軸輸入的原始視頻,用于對視頻中的視覺對象進(jìn)行識別,空間軸輸入的時序關(guān)聯(lián)場,用于對視頻中視覺對象的動作及其軌跡進(jìn)行識別[23]。
目前國內(nèi)外也有大量針對視覺內(nèi)容分析與表達(dá)方面的競賽,比如2013年美國佛羅里達(dá)大學(xué)組織開展的THUMOS比賽,就對海量視覺數(shù)據(jù)集中異構(gòu)無序的視覺資源進(jìn)行分析和理解,該項賽事隨后每年都會開展相關(guān)研究。國內(nèi)外許多高校、科研機(jī)構(gòu)都積極參與到該項賽事中,如清華大學(xué)、浙江大學(xué)、香港中文大學(xué)、卡耐基梅隆大學(xué)、悉尼科技大學(xué)等。美國國家標(biāo)準(zhǔn)與技術(shù)研究所2011年組織開展的TRECVID比賽,針對大規(guī)模視覺數(shù)據(jù)集中復(fù)雜視覺資源中事件監(jiān)測問題展開研究。近幾年來,該項賽事也一直在圍繞著這個主題開展相關(guān)研究,國內(nèi)許多高校,如復(fù)旦大學(xué)、浙江大學(xué)、北京理工大學(xué)與同濟(jì)大學(xué)等,在這項賽事中也獲得了一定成績。
目前雖然在視覺大數(shù)據(jù)資源的組織、分析、理解和利用方法上有很多研究成果,但這些成果最終目的是應(yīng)用于視覺搜索。近年來一系列研究對于視覺搜索及其在各行業(yè)、領(lǐng)域的應(yīng)用與推廣工作起到了積極作用,這對于數(shù)字圖書館領(lǐng)域而言,是一個積極信號。
3 大數(shù)據(jù)環(huán)境下視覺搜索研究的5個核心問題
盡管視覺搜索已經(jīng)獲得了工業(yè)界和學(xué)術(shù)界(包括數(shù)字圖書館領(lǐng)域在內(nèi))的高度關(guān)注,但目前在國內(nèi)并未得到廣泛應(yīng)用及推廣,主要原因是由于相關(guān)技術(shù)與應(yīng)用產(chǎn)品尚未完全成熟,存在著視覺搜索性能不夠理想或不夠穩(wěn)定、用戶體驗質(zhì)量不佳、應(yīng)用局限性較強(qiáng)等問題,圍繞這些問題,就需要從視覺搜索研究基礎(chǔ)理論與技術(shù)角度來解決。從數(shù)字圖書館視覺搜索模式構(gòu)建流程[1]來看,視覺搜索研究主要包括5個核心問題,分別描述如下。
1)視覺大數(shù)據(jù)資源的獲取與組織方法。互聯(lián)網(wǎng)環(huán)境下視覺大數(shù)據(jù)資源的存在形式是動態(tài)無序和異構(gòu)離散的,視覺資源的生產(chǎn)和發(fā)布是動態(tài)變化的。視覺資源所蘊(yùn)含的信息內(nèi)容都包含多個異構(gòu)、復(fù)雜的信息主題,彼此之間存在語義時空關(guān)聯(lián)關(guān)系。而傳統(tǒng)基于人工標(biāo)注的視覺資源標(biāo)注方法往往不夠精確,因此,如何快速獲取到所需視覺資源,是視覺搜索應(yīng)用的關(guān)鍵問題。而對與待搜索視覺對象無關(guān)的視覺資源的清洗過濾,以及視覺大數(shù)據(jù)資源的有效組織是視覺搜索應(yīng)用的核心問題。
2)視覺大數(shù)據(jù)資源的理解與表達(dá)方法。為了在海量視覺大數(shù)據(jù)資源中找到與待搜索對象一致的視覺資源,就需要從符合待搜索視覺資源的特征分析與理解出發(fā),對其視覺內(nèi)容進(jìn)行多元化、結(jié)構(gòu)化、多層次的深度理解和表達(dá)。
3)視覺大數(shù)據(jù)資源整合與交互方法。視覺搜索作為一種信息檢索模式,其服務(wù)對象是用戶。對視覺大數(shù)據(jù)資源的獲取與組織、理解與表達(dá)的目的是為了給用戶提供智慧化、人性化的知識服務(wù)。因此,如何圍繞視覺大數(shù)據(jù)資源整合全生命周期進(jìn)行多維度分析,從而滿足用戶對視覺大數(shù)據(jù)資源的多元化知識服務(wù)需求,也是視覺搜索研究能否成為現(xiàn)實(shí)的核心問題。
4)視覺對象知識庫建設(shè)及標(biāo)準(zhǔn)化問題。視覺搜索依賴于視覺對象知識庫的建設(shè)。基于高質(zhì)量的視覺對象知識庫,用戶可快速將待搜索視覺對象與虛擬信息空間中的視覺大數(shù)據(jù)資源進(jìn)行有效關(guān)聯(lián),從而享受到數(shù)字圖書館提供的視覺搜索知識服務(wù)。同時,標(biāo)準(zhǔn)化問題也是視覺搜索應(yīng)用能否順利應(yīng)用和推廣的關(guān)鍵所在。
5)視覺搜索體系的安全與可靠性理論。無論在任何時候,網(wǎng)絡(luò)安全及系統(tǒng)可靠性問題是永遠(yuǎn)無法回避的難題,視覺搜索亦不例外。在視覺搜索體系中,數(shù)據(jù)安全性與知識產(chǎn)權(quán)、用戶隱私權(quán)、系統(tǒng)可用性與可靠性等問題亦是視覺搜索能否得到有效推廣與應(yīng)用的核心問題。
4 總結(jié)與展望
在“互聯(lián)網(wǎng)+”時代,信息服務(wù)正越來越廣泛地深入到用戶智慧化、個性化和嵌入式的知識服務(wù)需求中去,數(shù)字圖書館領(lǐng)域開始呼喚新型的殺手級信息檢索模式。視覺搜索是當(dāng)前信息檢索領(lǐng)域發(fā)展的一個重要前沿和創(chuàng)新突破口,在充分汲取國內(nèi)外信息科學(xué)領(lǐng)域先進(jìn)研究成果的基礎(chǔ)上,開展數(shù)字圖書館視覺搜索基礎(chǔ)理論與應(yīng)用研究,不僅有望從理論上豐富數(shù)字圖書館知識服務(wù)研究思想與未來發(fā)展框架,也有利于揭示數(shù)字圖書館中視覺大數(shù)據(jù)資源價值的產(chǎn)生機(jī)理與轉(zhuǎn)換規(guī)律。
毫無疑問,人類正在向“‘互聯(lián)網(wǎng)+’時代”邁進(jìn),作為一種技術(shù)與理念創(chuàng)新,視覺搜索必然符合一般信息技術(shù)生存、發(fā)展與成熟基本規(guī)律,需要經(jīng)歷技術(shù)誕生的萌芽期、飛速進(jìn)步的發(fā)展期、迅速膨脹的高峰期、去泡沫化的低谷期、穩(wěn)步發(fā)展的光明期和實(shí)際應(yīng)用的高峰期6個階段。目前來看,國內(nèi)外已有視覺搜索研究正處于發(fā)展期,存在著理論與技術(shù)交叉之后學(xué)科間的不平衡這一問題。當(dāng)前視覺搜索的理論、方法與技術(shù)研究主要集中在商業(yè)型視覺搜索應(yīng)用上,對于產(chǎn)生視覺大數(shù)據(jù)資源的學(xué)術(shù)領(lǐng)域則關(guān)注較少。實(shí)際上,以科學(xué)研究、學(xué)科服務(wù)等學(xué)術(shù)領(lǐng)域為代表的視覺大數(shù)據(jù)資源,具有異于商業(yè)型應(yīng)用的豐富內(nèi)涵與獨(dú)特特征,只有全面掌握商業(yè)應(yīng)用與學(xué)術(shù)領(lǐng)域的相關(guān)研究,才有助于建立更加科學(xué)、系統(tǒng)、合理的視覺搜索理論體系和應(yīng)用框架。
參考文獻(xiàn):
[1]張興旺,李晨暉.數(shù)字圖書館移動視覺搜索機(jī)制建設(shè)的若干關(guān)鍵問題[J].圖書情報工作,2015,59(15):42-48.
[2]牟兵兵,宛小昂.視覺搜索中的情緒干擾項預(yù)習(xí)效應(yīng)[J].心理學(xué)報,2014(11):1603-1612.
[3]陳文鋒,禤宇明,傅小蘭.視覺搜索的認(rèn)知機(jī)理與應(yīng)用[J].中國計算機(jī)學(xué)會通訊,2009,5(7):17-22.
[4]孫琪,任衍具.場景情境和目標(biāo)模板在視覺搜索中的交互作用[J].心理科學(xué),2014(2):265-271.
[5]胡中華,趙光,劉強(qiáng),等.視覺搜索任務(wù)中直視探測優(yōu)勢的眼動研究[J].心理學(xué)報,2012(4):435-445.
[6]段凌宇,黃鐵軍,ALEXCK,等.移動視覺搜索技術(shù)瓶頸與挑戰(zhàn)[J].中國計算機(jī)學(xué)會通訊,2012,8(12):8-15.
[7]李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動分析與數(shù)據(jù)挖掘[J].測繪學(xué)報,2014,43(12):1211-1216.
[8]GIROD B,CHANDRASEKHAR V,RADEK G,et al.Mobile visual search:architectures,technologies,and the emerging MPEG standard[J].IEEE Multimedia,2011,11(3 ):86-94.
[9]NORVIG P.2020 Visions[J].Nature,2010,463(7227):26-32.
[10]吳飛,朱文武,于俊清.多媒體技術(shù)研究:2014——深度學(xué)習(xí)與媒體計算[J].中國圖象圖形學(xué)報,2015,20(11):1423-1433.
[11]段凌宇,黃鐵軍,高文.移動視覺搜索技術(shù)研究與標(biāo)準(zhǔn)化進(jìn)展[J].信息通信技術(shù),2012(6):51-58.
[12]張興旺,黃曉斌.國外移動視覺搜索研究述評[J].中國圖書館學(xué)報,2014(3):114-128.
[13]全國哲學(xué)社會科學(xué)規(guī)劃辦公室.2015年度國家社科基金重大項目(第二批)立項名單公布[EB/OL].(2015-11-05)[2016-03-18].
http://www.npopss-cn.gov.cn/n/2015/1105/c219469-27780781.html.
[14]國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動綱要的通知[EB/OL].(2015-09-05)[2016-03-18].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[15]國務(wù)院關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見[EB/OL].(2015-07-04)[2016-03-18].http://www.gov.cn/zhengce/content/2015-07/04/content_10002.htm.
[16]國家自然科學(xué)基金委員會.“大數(shù)據(jù)驅(qū)動的管理與決策研究”重大研究計劃2015年度項目指南[EB/OL].(2015-09-08)[2016-03-18].
http://www.nsfc.gov.cn/publish/portal0/tab38/info49994.htm.
[17]科技部.科技部關(guān)于發(fā)布國家重點(diǎn)研發(fā)計劃精準(zhǔn)醫(yī)學(xué)研究等重點(diǎn)專項2016年度項目申報指南的通知[EB/OL].(2016-03-08)[2016-03-18].
http://www.most.gov.cn/tztg/201603/t20160308_124542.htm.
[18]于瑞峰,孔哲昕.多目標(biāo)隨機(jī)視覺搜索的目標(biāo)獨(dú)立性及模型研究[J].工業(yè)工程與管理,2013(3):113-116,126.
[19]張興旺,李晨暉.當(dāng)圖書館遇上“互聯(lián)網(wǎng)+”[J].圖書與情報,2015(4):63-70.
[20]石祥濱,房雪鍵,張德園,等.基于深度學(xué)習(xí)混合模型遷移學(xué)習(xí)的圖像分類[J].系統(tǒng)仿真學(xué)報,2016(1):167-173,182.
[21]張鴻宇,劉威,許煒,等.基于深度圖像的多學(xué)習(xí)者姿態(tài)識別[J].計算機(jī)科學(xué),2015(9):299-302.
[22]WANG H,SCHMID C.Action recognition with improved trajectories[C].IEEE International Conference on Computer Vision,Washington DC,2013(159):3551-3558.