據深圳市科創委日前發布的《2013年度深圳市科學技術獎擬獎名單》顯示,由深港產學研基地等完成的“互聯網高端商情挖掘及服務平臺”獲得“2013年度深圳市科學技術獎科技進步獎(社會公益類)”一等獎。團隊研發人員稱,從垂直領域入手,將隱藏在海量數據中的商情提供給用戶,未來將是一片藍海。
數據挖掘是比一般的信息檢索復雜得多的技術,也是目前人工智能和數據庫領域研究的熱點問題。數據挖掘主要基于人工智能、數據庫等,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。而深港產學研基地的這一平臺則是定位在垂直領域的數據挖掘。
深港產學研基地深圳語音搜索及應用工程實驗室主任王昕用“三高”—高科技含量、高增值和高使用體驗來概括這個平臺的特點。她說,該平臺借助數據挖掘和自然語言處理技術,可以對信息進行采集、清洗,乃至分類、聚類,將隱藏在海量數據中的商情知識提供給用戶。為了達到這一效果,王昕和團隊成員開發出了自主知識產權的“智能網絡爬蟲”技術,它可以在15分鐘以內對萬余個重點媒體、博客、論壇、微博等網站中的企業相關信息進行梳理,并對用戶定制的監控關鍵詞所關聯的危機信息進行“報警”,而這是國內其他的爬蟲技術無法做到的。
借助這一平臺,王昕的團隊開發出移動APP應用IPO 007,不久前已在安卓市場上線。她說,IPO 007是國內首個面向擬上市企業的商情聚合應用。它覆蓋了近630多家擬上市企業,可以實現對擬上市企業從初審到上市這一敏感時期全天24小時、覆蓋多種信息來源的輿情監控。
做數據挖掘,一不小心就會碰到BAT這樣的互聯網巨頭,“運氣好的被收購,運氣不好被干掉”,王昕說,如果做普通的數據挖掘,在廣度上做不過谷歌、百度,普通民眾也不會為隨手可得的信息付錢。而在垂直領域,反而有愿意為此付費的需求。
據悉,“互聯網高端商情挖掘及服務平臺”已經應用到深圳報業集團、深圳證券信息有限公司等相關系統中。