騰訊、華傲數據等深企在大數據相關領域占得先機 □大數據應用已為部分企業業務發展帶來顯著成效
騰訊憑借用戶資源優勢,掌握了豐富的數據源。 魯力 攝
在大數據時代,數據成為重要的資源,在數據采集、清理、存儲、分析等各個環節,都蘊藏著大量的機遇。深圳的騰訊、華傲數據等公司被認為已在大數據相關領域占位。
“盡管當前國內在對于數據重要性的認識、實踐應用、基礎研究上,相比歐美發達國家還相對滯后,但人們對于數據的理解和應用變得越發清晰和深入。深圳作為全國性的金融中心及高新技術企業較為集中的城市,很多企業對于大數據的應用水平均走在國內的前列,包括騰訊、平安集團、中信銀行和招商銀行等知名企業,其大數據的應用實踐已經為其企業的業務發展帶來了顯著成效。”
深圳華策略科技有限公司創辦人張新昌30日在接受南方日報采訪時稱,盡管一些大型公司擁有龐大的數據、資本等資源,但也不可能占有整個市場,因此中小企業尤其是有“數據挖掘基因”的中小企業能找到更好的細分市場,會比大企業顯得更加矯健、靈活。
大數據“孤島困境”
急需打破
騰訊公司社交網絡事業群即通產品部副總經理冼業成上周公布的兩張圖引起了廣泛關注,一張是我國著名人口地理學家胡煥庸在1935年提出的劃分我國人口密度的對比線“黑河—騰沖線”,也叫胡煥庸線;另一張則是今年4月QQ同時在線用戶數突破2億用戶實時地理位置分布的“星云圖”。兩張圖呈現出驚人的相似,讓人不由感慨科學的力量。
在7月25日舉辦的2014年騰訊互聯網與社會研究院高峰論壇上,騰訊首次對外公開解讀QQ大數據,展示出一個基于8億活躍用戶的大數據平臺雛形。8億活躍用戶每天產生的QQ消息達到155億條,發表的空間說說超過6500萬條。值得注意的是,這些數據更接近標準的社會學“人口”概念,QQ用戶擁有完整的年齡、性別、星座等資料信息,有同學、同事等關系鏈,而且數據類型豐富,包羅了游戲、音樂、購物等多個方面。
冼業成當天談到,QQ大數據可以滿足政府、企業、個人不同維度的數據需求。比如2013年春節,騰訊進行了用戶春運遷徒大數據挖掘,根據QQ登錄地點的變化,發現北上廣深在春節后涌入的流動人口情況,了解到中國人春節期間出國喜歡選擇美國、法國等,最喜歡春節外出的人在江蘇、廣東、北京等,這些發現都有助于交通運輸等方面提供更多的服務。
豐富的數據源是大數據的前提條件,但大多數企業面臨著“孤島危機”,只能獲得公司自身的數據而無法獲取外部數據。即便是對坐擁大量高價值數據的騰訊而言,如何在大數據中找到更大的商業價值,則仍在探路當中。
“處在信息的孤島上,每一家公司可能都有自己的云,而要把這些處在不同孤島上的數據進行整合,去創建一個更加綜合的情景來從中受益,這里還有很多的挑戰。”騰訊社交網絡事業群總裁、騰訊高級執行副總裁湯道生25日也表示,他在思考是否應當建立一個數據交換的平臺,在保護用戶隱私的前提下,使得數據實現正常化,從而創造經濟上的價值,“但目前建立這樣的信息交流體系,對商業實體來說仍然存在很大挑戰,大數據現在已經成為其資產的一部分,分享數據可能意味著會喪失其競爭優勢”。
除了企業之外,政府的數據也被呼吁開放。中國工程院院士、中國互聯網協會理事長鄔賀銓曾在深圳表示,大數據既為政府決策提供了更多有價值的參考,也需要政府對公共數據進行整合和開放。
海云大數據CEO馮一村認為,大數據的價值是用于預測而不是總結,信息孤島的事情還沒解決,可能還談不上用一些很酷的分析能力得到未來的價值,但是這天一定會到來,人們需要大數據的這種“感知”能力。
轉化為市場價值
是大數據核心
數據能夠轉化為市場價值,這是大數據服務的核心魅力。
張新昌早在上世紀90年代就已進入統計分析行業,曾在全球領先的統計分析公司擔任首席顧問,也曾在澳大利亞、香港、泰國等國家和地區的銀行等機構從事數據挖掘工作,在數據挖掘和分析行業擁有20年經驗。2006年,張新昌來到深圳創立了自己的數據挖掘和分析公司。
“大數據這幾年在國內的發展用‘迅猛’來形容一點也不為過。華策略不是跟風地去做大數據,事實上我們4年前就已經開始了。只是這兩年大數據的風潮才吹起來,而且感覺還吹得有點過頭了。”張新昌表示,由于大環境的影響,企業對于數據重要性以及數據挖掘的認識也是經歷了一個從無到有、從比較模糊到逐漸清晰的過程。
不過,憑借著強勢的“數據挖掘基因”,華策略為金融、電信和零售等行業提供了一系列數據挖掘解決方案,如為某著名證券公司實施分析型客戶關系管理項目,前期幫助客戶做積累數據的顧問及規劃,搭建數據挖掘平臺;中期做數據應用的方案,完善客戶群的開拓戰略,評估客戶資產,梳理精準營銷模型以及運作流程,挽留價值客戶等;后期做數據的維護,通過提供這樣的整體解決方案,大大增強了該證券公司的獲取高價值客戶的能力,產品營銷成功率也平均取得了15倍以上的提升,項目在客戶集團內部獲得“技術創新獎”。
如何評價一個數據挖掘公司的水平?“我認為唯一的指標是能否幫助到客戶提高效益、節省成本、增加利潤。”張新昌稱,現在從事數據挖掘的服務性公司,除了必備傳統的數據挖掘綜合能力外,也應該要具備自身生產數據的能力,兩者相輔相成、不可或缺,而這種生產數據的能力將成為大數據時代擺脫競爭對手真正的競爭優勢來源。
“騰訊的主要業務在于網絡社交,阿里巴巴的主要業務在于電子商務。騰訊的大數據繞不開網絡社交進行大數據的應用,從而實現龐大用戶群帶來的商業利益,阿里巴巴的大數據也是繞不開電子商務進行大數據應用來實現其利潤。因此并不是說騰訊、阿里巴巴等擁有龐大的數據資源,他們就能做完整個數據挖掘市場。”
張新昌認為,由于這些大公司已經有了一個穩定的“基因序列”,因此即使有資源上的優勢也不能占有整個市場,中小企業尤其是有“數據挖掘基因”的中小企業依然有著不可替代的重要性,兼顧技術與高度管理思維,在大數據以及數據挖掘上能找到更好的細分市場,在提供優質的差異化服務上,比大企業顯得更加矯健、靈活。
垂直領域數據
挖掘前景看好
由深港產學研基地和深圳市北科瑞訊信息技術有限公司共同研發完成的“互聯網高端商情挖掘及服務平臺”項目,近日出現在深圳市科創委發布的《2013年度深圳市科學技術獎擬獎名單》中,該項目將獲得2013年度深圳市科學技術獎科技進步獎(社會公益類)唯一的一等獎。
“這個平臺借助智能爬蟲技術和自然語言處理技術,不僅支持用戶方便地瀏覽商情信息,更能將隱藏在海量數據中的重要商情提供給用戶,還能為用戶提供預警的功能。這是除了提高工作效率之外,傳統信息搜集難以企及的另一個優勢。”該項目負責人、深港產學研基地深圳語音搜索及應用工程實驗室主任王昕告訴記者,她的團隊研發出的具有自主知識產權的“智能網絡爬蟲”技術,可以在15分鐘內采集萬余個重點媒體、論壇、博客、微博等網站中的企業相關信息,并對用戶定制的監控關鍵詞所關聯的輿情信息及時報警,未來或將還能提供預測機制,以幫助決策者及時調整策略、減少風險。
據介紹,“互聯網高端商情挖掘及服務平臺”是國內外首個面向證券領域的高端商情服務系統,集成了自然語言理解技術和文本挖掘技術,實現了高端商情的自動發現。王昕稱,數據挖掘是比一般的信息檢索復雜得多的技術,在機器學習算法中融合了語義理解,通過與關鍵字的強相關和弱相關等關系,保證任何與關鍵字相關的信息都不會被忽略或遺漏,比如在對企業高管的信息挖掘中,就會避開同名同姓的不相關人士,同時收集到與高管關系密切人士如合作伙伴的信息。
借助互聯網高端商情挖掘及服務平臺,王昕團隊建設的新股風向標網站(www.ipo007.com)是我國首個面向擬上市企業的商情挖掘服務網站,移動APP應用“新股風向標”不久前已在安卓市場上線,這是國內首個面向擬上市企業的商情聚合應用,覆蓋了近900家擬上市企業,可以實現對擬上市企業從初審到上市這一敏感時期全天24小時、覆蓋多種信息來源的輿情監控。
王昕表示,在國外專注做爬蟲技術的小企業可以活得很好,但在國內純粹做技術的小企業生存空間很小,技術與應用相結合才有發展空間。
“BAT并不專門做數據挖掘,中國還沒有特別領先的數據挖掘公司商業模式可供我們參考。路透和彭博的模式很不錯,從公開信息中挖掘到它們背后有價值的信息提供給需要的客戶,我們希望在中文領域也能做那么好。”王昕說,數據挖掘的市場非常大,前景光明,自己和團隊將堅持做垂直領域,目前他們已經在商情、人才、媒體領域做出了成果,接下來他們將會在電子商務等領域進行開發。與此同時,團隊在如何高效滿足不同行業、不同客戶的需求、技術之外的人才如何架構等方面面臨挑戰,還需要不斷探索。