由德同資本、IDG創投及博信資本聯合投資創立的比格達塔,專注于提供“大數據行業云服務解決方案”。
比格達塔聯合創始人兼首席專家杜登斌
互聯網信息紛繁復雜、卻又相互關聯。人們常常通過搜索引擎將互聯網上某一主題的信息進行收集、整理并拼接出一幅相對完整的畫面供自己參考。而北京比格達塔信息技術股份有限公司(下稱“比格達塔”)這家以“大數據”命名的公司目前所做的,正是幫助用戶從浩如煙海的互聯網信息中挖掘出有價值的信息,以此來追蹤企業的社會行為軌跡。
比格達塔是一家提供“大數據行業云服務解決方案”的公司,其名號來自英文“大數據”(big data)的音譯。比格達塔針對新三板所開發了四套大數據平臺系統,其中包含多套子系統,以滿足新三板行業可能涉及的眾多數據挖掘需求。這四套系統包括券商項目持續督導系統、擬掛牌公司的業務咨詢系統、已上市公司在線監測系統以及新三板新聞集納與線索發現系統等。通過這些系統,比格達塔能夠重點關注企業的兼并、重組、關聯交易及輿情等企業社會行為軌跡;這些數據在企業財報上可能并未體現,但對于投資者而言卻至關重要。其他相關信息也包括在其中,如高管異動、司法訴訟、行政處罰、關聯擔保等。
據公開資料顯示,比格達塔由德同資本、IDG創投及博信資本聯合投資創立。工商注冊資料顯示,比格達塔的最大股東為北京漢鼎盛世咨詢服務有限公司,認繳出資850萬元,占比格達塔總股本的85%;自然人股東呂紹娟認繳出資150萬元,占比格達塔總股本15%。
從云計算到云交易的大數據產業鏈條
比格達塔聯合創始人兼首席專家杜登斌對于自己在大數據行業中深耕細作十分自信:盡管“大數據行業非常熱”,但“近幾年來,中國以云數據為核心做大數據行業應用的不多。”
比格達塔究竟擁有何種特色,足以讓杜登斌針對巨頭林立的大數據行業做出這樣的表述?他解釋道:“目前大家提到的‘大數據’基本上是云計算,其中主要是硬件:建產業園、買服務器、租用帶寬,讓用戶儲存數據。”而比格達塔的工作重心并不在此,在杜登斌所設想的服務路徑中,“大數據應用是一個以云數據為中心的綜合解決方案,集云計算、云數據、云服務和云交易為一體。云計算作為應用中的重要環節,它只是第一步,而大數據應用的核心是云數據,再往后是云服務,最后是云交易。”
在杜登斌的字典中,所謂“云計算”指的是硬件設備及一些基礎的算法系統,“云數據”主要指數據采集,“云服務”是針對特定行業的數據挖掘和服務,而“云交易”則是基于數據可以買賣的原則,在數據市場中進行交易。這些聽來有些與眾不同的用詞傳達出了比格達塔在“大數據”應用行業中的上下游布局。
“云計算”硬件部分主要是做互聯網數據中心(Internet Data Center, IDC),“主要靠存儲備份和算法。”杜登斌對此著墨不多,他更關心服務鏈條中的云數據和云服務部分。
在杜登斌看來,大數據除了具體的技術性應用之外,還涉及到“思維方式”:大數據強調關聯,數據的使用者并不關心數據的具體來源,大數據服務商需要通過技術采集和挖掘,整合分散在網絡各處的資源,同時將數據中的關聯關系分析出來,供用戶使用。“十年前,當互聯網上數據量并未達到一個量級時,大數據并不火熱,近年來數據量開始膨脹,不僅考驗大數據服務商的整合和架構能力,也考驗其對于中文數據的采集和挖掘能力”,杜登斌向《融資中國》記者表示。
數據采集:定向垂直,小處切入
“要做大數據,有幾個技術需要實現,其中一個就是采集技術。”杜登斌對于自己的數據采集——也就是數據服務鏈條中的“云數據”——頗為得意,其采集的內容不僅包括“網絡論壇、貼吧、微博、公告年報的PDF文件”等公開信息,也包括“專利、信用系統,各省市工商稅務登記資料”等需查詢獲取的半公開信息。“我們只采集信息公開的部分,隱私數據我們不做”,杜登斌說。
比格達塔的數據收集范圍與通用搜索引擎有著很大的區別,“對于百度、谷歌就像在太平洋上撒網,一網下去把各種數據都收集起來,而我們則通過垂直定向的方式,看準一個行業猛扎下去,需要什么數據就收集什么數據。”同時,杜登斌也認為,通過垂直定向的數據收集方式,比格達塔避開了與搜索巨頭們的直接競爭,“這樣才有價值,大網收集你拼不過巨頭們。”
杜登斌做出這樣的判斷是基于自己在人民在線的工作經歷,他一直看好垂直定向的數據收集方式。杜登斌曾任人民在線副總裁,分管架構、技術和銷售等工作。人民在線由人民網和《證券時報》合資成立,與專業監測、研究和處置網絡輿情的人民網輿情監測室是“一班人馬,兩塊牌子”。
現已與盤古搜索合并的人民搜索上線于2010年6月,據杜登斌介紹,人民搜索在與中科院計算所合作的同時,也從人民在線抽調了部分技術骨干。杜登斌說自己預見到了人民搜索的發展前景:很難成功。原因很簡單,盡管人民搜索資金充裕,能夠大量購買服務器資源,快速采集數據,但“這些收集到的數據根本沒用,數據量太大,人民搜索不具備挖掘、清晰和分析這些數據的經驗和能力,特別是在系統應用和架構上沒有想清楚,所以走通用搜索根本不可能。”對于人民搜索的發力方向,杜登斌堅持認為“從小處切入”的行業垂直搜索會比立刻上馬通用搜索要有優勢。
數據分析:如何從數據中“淘出金子”
比格達塔主要做社會化數據采集與挖掘,分析這些數據中所隱含的企業機構行為,其主要內容與萬德、彭博等金融終端所提供的數據類型有很大的差異,這也是比格達塔與其他競爭對手的重要區隔。
當各式數據就緒,如何能從這些數據中“淘出金子”?杜登斌說,數據很龐雜,“有結構化數據、非結構化數據甚至是異構的數據”,因此挖掘數據中所蘊含的價值需要有一定的技術積累。杜登斌將比格達塔使用的技術命名為“分詞矩陣”、“信息元矩陣”和“規則矩陣”,針對這些技術所能夠獲得的有用信息,杜登斌向《融資中國》記者表示,“這么多年來沒有看到做得更好的。”
公開信息的獲得沒有門檻,比格達塔如何從中保持自身的競爭力?杜登斌表示,這涉及到數據的“預處理”階段:這是大數據產生價值的過程中最為重要的一個環節。所謂“預處理”,指的是將各種結構化以及非結構化的數據從外圍系統中導入到需要使用的系統中,統一數據格式和編碼并對數據進行清洗,去除有誤和無用的信息。
大數據領域公司的門檻較高,一方面要有足夠的采集和挖掘能力,但僅僅有采集和挖掘能力還不夠,這樣獲得的數據常常無法直接使用,這就需要對數據進行預處理。杜登斌表示,對數據預處理的大量人力和物力投入奠定了比格達塔在大數據領域的優勢。以一條公開信息為例,比格達塔需要對其進行多維度分析,將非結構化的信息分解整理到結構化表格之中。此外,動態數據要實現實時可視化,這對于可視化的能力要求很高。再往后,需要大量的存儲能力和實時的調取能力,“由于各種數據的類型不同,如果分庫分錯了,就不能滿足實時分析的需要。”
杜登斌笑稱,“大數據是一個環,每一個環節你都需要有所投入和積累,才能成為大數據應用的玩家。”
支撐智慧城市,深挖行業應用
“為什么有這么多人蜂擁去做云計算、做商業智能、做輿情?因為國內很少有公司能夠將大數據所涉及的各個環節統統打通,他們大多或許只能做其中的一個環節。”這是杜登斌對于行業中競爭對手的看法。而各重點行業和智慧城市規劃對于社會化大數據的需求,使得比格達塔面前的潛在市場一下子大了起來。
智慧城市作為國家支持的未來城市方向,成為各地爭搶的“香饃饃”。目前193個城市獲批成為試點,但智慧城市真正落地后是什么樣子,各地都還在摸索。杜登斌認為,在這個過程中,缺乏必要的數據支撐是智慧城市構建面臨的重要問題:一方面通用搜索引擎的數據過于雜亂,另一方面職能部門的數據又無法獲取,“現在智慧城市的云平臺很多是空的。”這就為比格達塔提供了向智慧城市提供服務的可能性。
而針對垂直行業的大數據解決方案也是比格達塔的工作重點。杜登斌表示,當底層系統建構完畢,其他針對不同領域的垂直應用部分架構起來就會非常容易。“就像建房子打地基一樣,地基已經打好,房子的框架建成,房子簡單裝修下就可以居住。”
杜登斌表示,除了能源和新三板兩個垂直行業,針對銀行系統、證券、基金、保險(放心保)等行業的云服務系統也正在開發中。為方便業務開展,在杜登斌部署的公司群組架構中,北京中潤普達信息技術有限公司是知識產權持有公司和員工持股平臺,而在對應行業則擁有不同的公司作為業務對接主體,其中比格達塔是新三板業務的對接主體。