最早提出詞匯“Big Data”的是2011年麥肯錫的《大數據:下一個創新、競爭和生產力的前沿》研究報告,他提到“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。”之后,大數據概念開始風靡全球。近年來大數據不斷地向社會各行各業滲透,可以為每一個領域帶來變革性影響,并且正在成為各行業創新的原動力和助推器。
以近年來在中國興起并急劇發展的輿情監測和分析行業為例,即通過海量信息采集、智能語義分析、自然語言處理、數據挖掘,以及機器學習等技術,不間斷地監控網站、論壇、博客、微博、平面媒體、微信等信息,及時、全面、準確地掌握各種信息和網絡動向,從浩瀚的數據宇宙中發掘事件苗頭、歸納輿論觀點傾向、掌握公眾態度情緒、并結合歷史相似和類似事件進行趨勢預測和應對建議。互聯網如今已經成為收集民意、了解政府和企業工作成效的一個非常有效的途徑。然而由于缺乏對互聯網發貼等行為的必要監管措施,在輿情危機事件發生后,難以及時有效獲取深層次、高質量的網絡輿情信息,經常造成輿情危機事件處置工作的被動,因此,北信源輿情分析專家建議應該重視對互聯網輿情的應對,建立起“監測、響應、總結、歸檔”的輿情應對體系。
大數據帶來的信息風暴正在改變我們的生活、工作和思維。輿情服務在進行行業規范和整合的同時,正面臨著大數據的挑戰。在國內市場中,輿情分析類產品林林總總,產品水平也參差不齊。如何選擇一款優秀的產品?首先需要選擇技術背景雄厚的生產廠商。北信源經過十幾年的發展,擁有專門的數據管理部門和專業分析團隊,專業的技術人員對信息的鑒別力、萃取力、掌控力處于全國領先水平。
對大數據的采集加工是整個輿情分析服務的基礎,掌握數據抓取能力與輿情解讀能力,通過“加工”實現數據的“增值”,是輿情分析的必備技能。北信源網情監測平臺采用多線路、加密隧道方式作為互聯網上公開信息的采集通道,通過自主研發的爬蟲系統,從網上自動獲取頁面信息。北信源輿情搜索引擎使用信息采集技術對全球范圍內的網頁進行檢索,通過中文語義特性并結合輿情結構特點而構成的元數據搜索技術,能夠提高信息采集的針對性,同時擴大采集范圍的廣度,提升輿情搜索的精準度。另外在采集的速率上,北信源網情監測平臺通過“云計算”技術在互聯網不同位置可任意部署監測工作站PC機,實現非重點網站的定時監測、重要網站及鏈接全天候監測。并根據網頁及鏈接的重要度,做到對最重要的網站數據分鐘級的采集更新。
如何對復雜大數據進行解釋是輿情服務的關鍵,數據分析的模式是否科學將直接影響數據分析的質量,決定了輿情產品的可用性。基于數據分析,能否提煉出獨到、高質量的觀點,在凌亂紛繁的數據背后找到更符合客戶要求的輿情產品和服務,并進行針對性的調整和優化,這是大數據時代輿情最大的變量。北信源輿情分析引擎,涉及的最主要的技術包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤等計算機文本信息內容識別技術。以數據挖掘為核心技術,應用不同的建模基礎,包括關聯規則、序列模式、頻繁序列、決策樹分類、神經元網絡、線性回歸、Logistic回歸、K-Means聚類、模糊聚類、異常檢測等多種數據挖掘算法,結合相應的數據挖掘模型可視化方法,用預測模型對輿情數據進行預測評分。
對趨勢的研判則是大數據時代輿情分析的目標。如今人們能夠從浩如煙海的數據中挖掘信息、判斷趨勢、提高效益,但這遠遠不夠,信息爆炸的時代要求人們不斷增強關聯輿情信息的分析和預測,把服務的重點從單純的收集有效數據向對輿情的深入研判拓展。北信源輿情監測與分析平臺從情報檢索與分析技術基礎上發展起來,除了能夠跟蹤、協助解決關聯輿情,還能夠輔以經過分析后的決策參考。
大數據時代的大輿情充分反映數據爆炸背景下的數據處理與應用需求,這是大數據時代最大的輿情變革。北信源網情監測與分析管理平臺成功地實現了針對互聯網海量輿情自動實時的監測、自動內容分析和自動報警的功能,有效地解決了傳統的以人工方式對輿情監測的實施難題,加快了網絡輿論的監管效率,有利于組織力量展開信息整理、分析、引導和應對工作,提高用戶對網絡突發輿情的公共事件應對能力,加強互聯網“大數據”分析研判。并能夠協助用戶建立起輿情監測應對體系:
快速發現:實踐表明,在互聯網輿情出現后4小時內是控制輿情的黃金時間,被稱為“黃金4小時”;
體系化應對:建立起橫向、縱向的專職輿情員隊伍,當輿情出現時統一指揮、協同作戰、快速響應、科學應對;
總結歸檔:做好輿情存檔、應對能力回溯與評估有利于改進行業行政執行力,避免類似的輿情再次發生,也可以預測某類輿情的發展趨勢及總結對該類輿情的科學應對措施。