對來自互聯網的非結構化數據中隱含的輿情信息進行提煉和分析,正在大數據的第一波浪潮中創造出越來越大的市場空間。而如何利用從互聯網、社交網絡、移動應用等創新領域創造的、呈現出爆發式增長的海量非結構化數據中創造價值,是當前大數據行業最為關注的熱點話題。利用海量數據分析工具和算法對來自互聯網的非結構化數據中隱含的輿情信息進行提煉和分析,從而為政府和企業管理者的工作提供決策支持,也正在大數據的第一波浪潮之中創造出越來越大的市場空間。
面對互聯網上的海量信息,如何有效地發現和分析互聯網輿情,是當前各類互聯網信息系統必須面對的事實。2013年7月,國務院辦公廳公布的《國務院關于加快促進信息消費擴大內需的若干意見》中指出了六個方面,其中一個方面就是加大信息消費產品的供給。大數據輿情屬于互聯網信息服務產業,同時也屬于目前新一代信息技術和軟件領域的熱門領域。
而在整個大數據產業之中,互聯網輿情監測行業作為先發者也正在迎來巨大的機遇。有分析數據顯示,在中國輿情監測軟件的市場規模將很快達到10億以上,而在未來幾年之中,輿情監測服務產業將會進一步迎來爆發式的增長,整個市場規模將達到100億左右。
大數據市場中的引領產業
對于所有意欲在大數據產業中有所作為的IT服務商而言,互聯網輿情監測服務的巨大商機都意味著所有市場的角逐者都會將其當做是不可能忽視的巨大餡餅。誠然互聯網輿情對信息獲取的“實時性、全面性”有更高的要求,因此,互聯網輿情系統必須能支持大數據的輿情處理,才能有效為用戶提供輿情服務。
位于連云港市的江蘇金鴿網絡科技有限公司,就是互聯網輿情監測服務行業中的先行者之一。這家成立于1997年的IT服務商先后通過了ISO9001:2008質量管理體系國際認證和ISO27001:2005信息安全管理體系國際認證。公司軟件開發能力成熟度(CMMI)達到國際SEI組織規定的三級標準,并從網站建設、網絡安全等信息技術貿易起步,自主研發國內互聯網精準搜索領域技術,推出互聯網信息搜索與監測系統軟件、基于社交網絡分析的情報搜集與分析系統、基于波特5力模型的企業情報系統、干部動態信息管理系統、面向行業的垂直搜索引擎、科技創新服務平臺等一系列解決方案。
在互聯網輿情監測服務行業之中,江蘇金鴿的商業模型基本思路是以“基于SaaS模式的互聯網輿情監測平臺”為基礎,以縣市級行政區域為渠道單元,以客戶關系管理系統為手段,基于商業生態系統理念,整合直接用戶和區域代理商或功能服務商等合作伙伴,通過構建獨特的商業價值網絡,使利益相關方在既定的規則和關系中,均能獲得持續穩定的收益,以期實現產業價值分享和共贏。而江蘇金鴿在此價值網中將扮演知識、技術和解決方案提供商角色。
江蘇金鴿研發的產品“互聯網信息搜索與監測系統”,結合公司基于商業生態系統構建的創新商業模式,已經在全國很多地區進行推廣和銷售,除了一些行業典型客戶如河南和海南省消防、南京市檢察院、連云港市委宣傳部、淮海工學院、湖南省水文局、連云港港務局等等以外,還在長沙、鄭州、深圳、長春、石家莊、南京、成都等地,與合作伙伴共同建設有基于SaaS服務的互聯網輿情監測服務平臺。
對ISV的“全才”式要求
“在整個互聯網輿情分析產業之中,輿情軟件主要圍繞互聯網輿情搜索與監測進行,雖然一些廠商提出了一些面向不同政府部門的輿情系統改進版本,但幾乎仍是傳統輿情監測的功能,僅僅是界面等有些變化。沒有體現出行業互聯網輿情海量非結構化數據處理的特點。”江蘇金鴿公司負責人陳宗華表示。
在他看來,政府不同的職能部門的輿情監控功能應當有所側重,比如政府宣傳部門監測輿情,應該是對本地域所有重大事件進行監控,而且還有輿情導控的功能,而消防部門關注的是本地與消防有關的輿情,組織部門側重的是本地的干部監測等。只有在深入的結合行業工作特點的基礎上,才能體現互聯網輿情處理的優勢。
而要想做到這些,整個輿情處理系統必須具有很好的架構支持,比如在采集目標管理和知識庫構建上都要分公共和行業管理,而且可進行自由擴展,監測專題的自動生成需結合行業特征進行。系統的功能應該是可配置的,為不同的行業配置不同的功能模塊。
“因此,面對大數據輿情,系統的發展方向應該是面向行業的細分,比如政府版、組織檢察版、消防版、環保版、教育版等等,而且應該和行業固有工作密切結合。隨著移動終端的普及,不僅僅是給用戶提供瀏覽器或者App方式的手機客戶端,而是要研發多元化的輸入模式的搜索、精準的內容返回、個性化的搜索體驗。”陳宗華說。
互聯網輿情監控解決方案的開發,需要ISV在各個前沿的技術領域具備一定的能力。在陳宗華看來,這一行業中的ISV必須有能力結合云計算、大數據、社交網絡分析、移動搜索等密切相關的技術,這樣研發出的產品才具有技術競爭力。其中,互聯網知識工程是以知識為基礎構建的互聯網智能信息系統。涉及到知識獲取、知識表示和知識應用等技術。
改進已有數據挖掘和機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基于對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。
社會網絡分析關注的焦點是關系和關系的模式,涉及到數據挖掘中的關聯分析,相關矩陣或差異矩陣的統計分析,社交網絡劃分,核心人物識別,信息擴展過程,圈子話題傾向分析,小世界理論,六度空間分割等方法和技術。
而智能信息處理是計算機科學中的前沿交叉學科,是應用導向的綜合性學科,其目標是處理海量和復雜信息,研究新的、先進的理論和技術。以互聯網應用為主要背景的特定領域智能信息處理,包括:大規模文本處理、多媒體信息檢索與處理、基于Web的知識挖掘、提煉和集成等。
互聯網海量信息的高效采集方法,需結合模板定制采集,更重要的是使用諸多媒體自帶的內置搜索功能,靠完全爬取多個媒體的信息技術已經很難滿足客戶的綜合需要。而監測主題的機器理解,在監測互聯網輿情時,多是以專題的形式定制的,而專題在描述時有關鍵詞、短語、規則(關鍵詞及與、或關系)、一段話、若干篇文章,如何支持多種形式的主題描述,如何能自動理解用戶對主題的描述,是輿情主題監測的首頁一環。
此外,輿情處理系統在采集、正文提取、排重、分詞、命名實體識別、分類、聚類、檢索、簡報專報生成、各類輿情統計、存儲等環節中,需要面對并行處理問題。大數據處理的核心問題是并行化處理和信息存儲,只有解決好了這些環節,才能體現一個輿情處理系統在大數據處理上的優勢。
即便是在各個技術領域都做好了準備,利用大數據技術搭建互聯網輿情分析系統對ISV而言同樣意味著重大挑戰。在陳宗華看來,與用戶具體工作和業務流程的結合,以及輿情處理分析過程中的安全性,是這一產業ISV所面臨最為主要的難點和挑戰。
“行業大數據輿情系統開發與用戶工作的結合,研發的系統在業務領域,工作模式,工作流程,功能設計等環節都應與用戶的工作密切結合。”他表示,“此外,我們公司的互聯網輿情分析采用先進的SaaS模式提供服務,而在軟件服務過程中,輿情安全性、保密性、可追溯性都值得注意。”
而對于企業本身,研發團隊的培養同樣是進軍這一市場所必需的關注點。大數據輿情涉及情報分析、新聞傳播、計算語言、數據挖掘、機器學習、自然語言理解、社交網絡分析、網絡安全、知識工程、信息檢索等等知識領域,如何組建一支知識結構合理、水平高的專業研發團隊是一個輿情軟件研發公司必須面對的問題。此外,企業的商業模式同樣要具有獨特價值,才能在這個新興的產業市場之中取得較大的核心競爭優勢。
打造多維度生態圈
在基于互聯網的輿情分析產業之中,擁有發展機遇的不僅僅是分析技術的提供者。自行開發之外,IT方案商也可以通過合作的方式,將其他企業的技術用于用戶解決方案的部署。從而與提供核心技術的ISV之間,形成立體的生態合作關系。
“在互聯網輿情分析領域,人民網擁有雄厚的實力和權威性的身份,他們旗下的技術團隊開發了全套基于大數據技術的互聯網輿情分析系統,并在許多政府和大型國有企業的宣傳部門中使用,我公司也與他們建立了合作關系,將他們的解決方案在我們的智慧城市等項目中部署。”南京幻方科技有限公司CEO陳哲介紹。
在陳哲看來,傳統行業包括物流運輸等領域受到應用開放程度限制,大數據挖掘的需求并不是特別高。而在政府和國有企業中,對輿情的分析和處理投入巨大,在政府輿情監控的帶動下,一些大型的國有企業都參與到輿情監測控制項目的投入中。這方面的非結構化數據分析處理解決方案市場發展前景看好。
而對于競爭力優勢在大數據之外領域的企業而言,要想進入這一被看好的市場,采取與其他企業合作的方式,同樣能夠幫助企業獲得成功。如陳宗華所言,互聯網大數據輿情分析市場的推廣,離不開產業鏈上下游伙伴之間精誠的合作。在生態圈中,ISV最為主要的任務是推動市場更加創新,用更快的速度復制應用,從而把整個蛋糕做大。只有應用足夠吸引人,后面的發展才會順理成章。而將創新的應用與用戶個性化的需求進行結合,讓更多的政府、企業單位宣傳、市場和業務部門負責人接受這一新的技術,同樣也是貼近用戶的IT方案商最重要的任務和最核心的業務價值所在。