在進入正題之前,我們先來看一個例子:
美國國防部長卡特(AshCarter)曾赴硅谷招募頂尖科技人才。近年來的信息大爆炸使得五角大樓不得不將目光聚焦高科技硅谷,以打擊反恐。美國中央情報局的CTOGusHunt表示,為了提高情報分析能力,他們已經加快了運用云計算的步伐。
神秘的大數據平臺Palantir就是美國CIA、FBI等尋求的合作對象。Palantir最為人津津樂道的案例有兩個,一是此前美國政府追捕本拉登行動中,Palantir扮演了重要的情報分析的角色;二是Palantir協助多家銀行追回了納斯達克前主席麥道夫BernieMadoff所隱藏起來的數十億美元巨款。
Palantir在洛杉磯警局通過技術與業務的深入交流與合作,采用Palantir的Gotham平臺,構建了一套洛杉磯警局的語義知識搜索挖掘平臺,用于日常的警方業務工作中。該平臺全面整合警情日志文檔、電子表格數據、數據庫等結構化數據和電子郵件、文檔、圖片、錄像等非結構化數據,對各類多源異構,繁雜的信息進行清洗梳理,總結提煉為八個關鍵的信息實體:人、車、位置、罪案、逮捕、文件、備注與其他。實體本身還有不同的屬性,不同個體之間還存在這相應的知識關聯。Palantir公安大數據語義知識搜索平臺建立以后,警方就可以通過非常簡潔的前端搜索頁面,來搜索指定的各類實體與線索。
Palantir的搜索結果與百度等通用搜索引擎完全不一樣,并不完全基于關鍵詞,而是探索搜索背后的關聯關系,搜索結果如上圖所示。這里,中間的焦掉是搜索的嫌疑人“Michael Barton”,通過Palantir平臺,可以快速將各類龐雜的數據通過可視化平臺的形式匯聚到一起,最終我們發現該犯綜合立體化視圖,其中包括:使用的手機,入境記錄,逮捕時開的車,逮捕的案子,同時涉嫌一起盜竊案,包括已有的兩次審訊記錄。點擊任何一個節點,右邊會展示其詳細的屬性與其他實體的關聯關系。例如,點擊該車,可以展示出該車的歷史所有被抓拍的照片與數據。辦案人員同時可以根據關聯連接一層一層往下挖,并人機互動,補充各種篩選條件,將模糊的破案線索逐步求精,最后極大的提高破案準確性與效率。
綜合大數據的前沿技術進展,可以綜合研判出大數據反恐平臺背后的三大關鍵技術:知識圖譜、大數據人機可視化交互、非結構化精準搜索與挖掘。分別介紹如下:
知識圖譜
知識圖譜本質上是一種語義網絡,圖中的結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關系。Palantir在圖一中使用的就是知識圖譜的技術,其中嫌疑犯、車、手機等都節點屬于知識圖譜中的實體,而邊就是實體之間的關系。知識圖譜允許用戶搜索引擎知道的所有事物、人物或者地方,而且能夠顯示查詢的實時信息。知識圖譜技術表征了公安大數據的本質語義關聯,比傳統的關系型數據庫更加自由多樣化,更適合于公安的辦案。
大數據人機可視化交互
運用了大數據可視化、知識圖譜化、地圖GIS化等手段,同時開放了大量方便的人機交互接口,實現了人與機器的完美融合,也實現了人與人之間的協同工作,大大提升了警務人員掌控數據的能力。
非結構化語義精準搜索與挖掘
非結構化大數據指的是文本、圖像與視頻等信息,比傳統結構化數據的信息量大得多,非結構化語義精準搜索與挖掘,是指在知識圖譜的基礎上真正理解用戶的搜索請求,不再拘泥于用戶所輸入請求語句的字面本身,而是透過現象看本質,準確地捕捉到用戶所輸入語句后面的真正意圖,并以此來進行搜索與挖掘,從而更準確地向用戶返回最符合其需求的搜索結果。
大數據分析工具和技術,結合文本挖掘、機器學習以及本體建模,已成為進行軍事安全威脅預測、檢測和早期階段預防的第一道防線。如今大數據和數據科技,通過改進協作和數據分析,減低了情報調查過程的繁瑣程度,以便機構更輕易地檢測到國家安全威脅。
通過分析恐怖分子日常各種信息,如通話、交通、購物、交友、電子郵件、聊天記錄、視頻等,對恐怖行為發生前進行預警和事后分析排查,越來越成為國際預防反恐的通用手段之一。
阿里巴巴集團CTO王堅曾表示:“今天任何人做事都不可能完全避開互聯網,犯罪分子也不例外,敵人都用上了互聯網手段,國家反恐必須用上大數據分析了。具備了數據分析的能力并不是說能百分百解決問題,但肯定可以大大提高反恐能力,以及實施恐怖行為的成本。”就像在紅綠燈前裝攝像頭,不可能杜絕闖紅綠燈的行為,但肯定減少。
事實上,國內也有科研院所、企業等機構進行了深入的研究。據國內學者相關研究成果顯示,采用大數據分析模型對恐怖襲擊歷史數據中隱含的可演化信息進行學習,利用所獲取的結果進行未來的恐怖襲擊預測。預測過程中融入多步時間序列預測中的遞推計算的思想,將每一步預測的不確定性作為下一次預測迭代的輸入要素加以充分考慮。仿真結果證實,利用大數據分析的預測精度和效率都高于傳統模式。據公開報道,通過對社交網絡等信息的大數據挖掘,我國成功破獲多個涉恐案件。而隨著數據量的增長,利用大數據來打擊犯罪的比例正在提高。
大數據的本質是系統通過處理采集到的所有數據,去提取其特征和共性的信息。通過大數據的處理使得所有的數據都有價值。通過大數據的處理,把傳統認為沒有價值的信息也能夠產生非常有價值的信息,大數據的核心價值是通過數據分析達到預警預測的目的。因此,在反恐領域,借助大數據分析,從各種綜合數據中,諸如社交網絡信息、個人活動信息以及公安視頻監控數據等等中能夠預測出重點監控人員將要實施的恐怖襲擊事件,并作出預警提示,成為未來視頻監控發展目標。
我國公安大數據方面的主要工作包括情報抽取、自動脫敏、分類、聚類、特征挖掘、關聯挖掘等工作。情報抽取主要從文本表述中抽取各類案情要素,如嫌疑人姓名、身份證、性別、案由等;自動脫敏技術是將敏感信息自動替換,脫敏后的信息無法追溯到具體的個人,不再涉及公民隱私,而公安部門可以根據脫敏的對照庫,實現信息還原。下圖是我們利用公安某局脫敏后的15萬數據自動生成的毒品、詐騙、盜竊三類警情的宏觀可視化特征畫像。
公安作為與海量證據、線索、數據、信息打交道的部門,使用好已有的數據信息,將門類龐雜、種類繁多的海量公安數據進行整合,建立統一的公安大數據語義知識網搜索平臺,全面而深入挖掘信息之間的關聯關系,這對于提取關鍵線索、提高辦案效率具有非常重要的現實意義,更對于優化警力部署、提前制定預案,將違法犯罪事件扼殺在萌芽狀態具有重大指導意義。
1、以知識圖譜來整合各類數據:與美國情報界一樣,公安當前的信息分散、孤立,部分信息不一定準確,大數據本身的特點就是價值密度低、參差不起,龐雜多樣。因此,梳理公安的知識體系,將各類數據庫整合為統一的知識圖譜,以國際統一的本體網絡語言OWL表示知識,并利用知識圖譜技術實現公安大數據的推理與應用;
2、構建公安大數據的業務平臺,而不是簡單的信息系統:與一般的公安信息系統不一樣,我們需要提供并不是一個傻瓜式的查詢輸出系統,而是一個較好的工作平臺,利用人機接口,輔助警方從復雜大數據中發現清晰的線索,幫助得到輔助問題的答案。簡單的打個比方來說,公安大數據平臺提供的不是直接的魚,而是釣魚的工具與方法。因此,公安的大數據平臺不能做成簡單的查詢系統,而是業務平臺,可以快速簡便地開發各類SaaS(軟件即服務)應用,警務人員可以查詢信息,還可以簡單靈活地組合各類模塊,將業務人員的經驗與技術人員的大數據技術緊密結合。
3、實施創新驅動發展戰略,突破已有的思維定勢,大力引進公安大數據相關的知識圖譜技術、大數據可視化、語義分析計算等前沿技術。可以將公安大數據脫敏后大力開放,供國內專家學者作為研究開發使用,廣泛地獲取外腦支撐。