寧波數方信息技術有限公司成立一年多來研發攻關結出碩果。日前,該公司主要創辦人之一顧博士告訴記者,數方公司自主研發成功名為Tiber City的大數據技術,不但是目前全球最快,而且是國內唯一不依賴開源軟件,核心技術完全自主開發的大數據技術,并已成功應用于網絡日志分析、基因數據處理等領域。
數方公司是一家落戶寧波開發區科技創業園的留學生創業企業,成立于2013年,主要從事大數據和云計算系統的研發和服務。顧博士畢業于美國弗吉尼亞大學計算機科學專業,曾經供職微軟、谷歌。今年11月1日在上海舉辦的“2014數據中國產業創新峰會”上,數方公司經多家專注于大數據領域的知名風投機構等聯合評選,成為10家入選“首屆中國大數據最具投資價值排行榜”企業之一。
目前,國際計算機領域數據處理應用時間最長、最廣泛的技術為MapReduce/Hadoop,該技術也是第一代大數據技術的代表,能夠處理PB(1PB=1024TB;1TB=1024GB)級以上的數據,但該技術在需要開展海量數據計算、統計、推介等處理時,卻存在速度慢、適用范圍窄的問題,制約了其在商業領域的更廣泛應用。
“經過測試,數方公司的Tiber City在對GB—PB量級數據進行存儲、搜索、挖掘、學習及商業智能處理時,性能比Hadoop要高10倍以上,比同為第二代大數據技術代表之一,加州大學伯克利分校研發的Spark要高1.6—5倍,且系統內部架構方面也獨具優勢,比如能夠同時支持更多種程序語言,且與傳統計算機程序交互更好。”顧博士表示。
該項技術目前已應用于多個領域。香港某科研機構存儲海量基因數據并在此基礎上開展相關數據分析,原本傳統計算方式下需要30年左右才能處理完成的數據,應用該項技術后提速24倍,也就是說1年多就能計算完成,且軟件部分還在進一步優化,有望處理時間再度大幅縮短。此外,數方公司基于Tiber City技術開發的命名為Greppy的大數據檢索系統,相比傳統的搜索工具,速度也實現了大幅提升,例如,在無索引的情況下搜索400GB的數據只需要7秒時間,而利用傳統的搜索工具一般需要200到300秒才能完成,基本上秒級時間內能夠搜索TB級數據。
顧博士告訴記者,目前,數方公司大數據技術最核心的軟件部分已經基本實現了開源(向公眾開放),公司在此基礎上為客戶提供技術咨詢和服務,并致力于為客戶“量身訂制”企業版大數據軟件。同時,該公司已經自主研發成功高性價比的大數據一體機硬件。