星圖數據技術團隊的前身是2010年組建于美國加州的BDTAC團隊,其核心成員來自于USC和CMU等高校,聚焦于大數據前沿技術及應用。2014年初,星圖數據的國內研發團隊組建完成,在首席科學家糜萬軍博士的幫助和指導下,基于BDTAC團隊的技術研究和積累,歷經數月的本土化和行業化,開發了現在星圖數據兩個系統的里程碑版,即底層的大數據采集及存儲系統iNebula和中臺的大數據處理分析引擎WarpEngine,并在此之上逐步研發了針對消費領域的企業云服務產品線。
iNebula是一套針對互聯網海量信息的實時監測和數據獲取系統,通過分布式解偶采集和智能解析,從常態監控或定向的web頁面中提取結構化數據,并通過動態地址池、智能任務路由、網絡環境自適應以及多樣化的數據校驗及存儲技術確保數據獲取的完整性和效率。目前iNebula平均每分鐘獲取的頁面數量為50000個以上,每日常態化獲取并存儲的互聯網數據超過3TB。
中臺的大數據處理及分析引擎WarpEngine,主要完成數據的清洗挖掘、QC和標準化、以及建模計算和語義分析。通過應用Hadoop平臺上的各項技術以及機器自學習技術,目前WarpEngine每分鐘處理的數據超過6000萬條。
星圖數據的云服務產品線目前已上線三款產品:D-Matrix、SkyScope及Atom.Power,主要采用主流的LNMP架構來提高產品系統的效率和擴展性,其中數據庫主從方式和Redis熱數據緩存的應用,使大數據產品在云端服務的承載量級更高、展現速度更快;而數據可視化部分使用了目前主流的Chart圖方式,讓數據的易用性更強,展現更加生動。
星圖數據創立僅僅數月時間,便被評為了中關村高新企業,公司所有系統及產品均已申請相關國家知識產權認定,其中多款已獲國家頒發證書。從起始初期聚焦于前沿大數據技術的自主研發與創新,到目前在行業中的落地應用以及企業云服務的推廣,星圖數據走出了自己的技術產業化的創新之路。