寧波數(shù)方信息技術有限公司成立一年多來研發(fā)攻關結(jié)出碩果。日前,該公司主要創(chuàng)辦人之一顧博士告訴記者,數(shù)方公司自主研發(fā)成功名為Tiber City的大數(shù)據(jù)技術,不但是目前全球最快,而且是國內(nèi)唯一不依賴開源軟件,核心技術完全自主開發(fā)的大數(shù)據(jù)技術,并已成功應用于網(wǎng)絡日志分析、基因數(shù)據(jù)處理等領域。
數(shù)方公司是一家落戶寧波開發(fā)區(qū)科技創(chuàng)業(yè)園的留學生創(chuàng)業(yè)企業(yè),成立于2013年,主要從事大數(shù)據(jù)和云計算系統(tǒng)的研發(fā)和服務。顧博士畢業(yè)于美國弗吉尼亞大學計算機科學專業(yè),曾經(jīng)供職微軟、谷歌。今年11月1日在上海舉辦的“2014數(shù)據(jù)中國產(chǎn)業(yè)創(chuàng)新峰會”上,數(shù)方公司經(jīng)多家專注于大數(shù)據(jù)領域的知名風投機構(gòu)等聯(lián)合評選,成為10家入選“首屆中國大數(shù)據(jù)最具投資價值排行榜”企業(yè)之一。
目前,國際計算機領域數(shù)據(jù)處理應用時間最長、最廣泛的技術為MapReduce/Hadoop,該技術也是第一代大數(shù)據(jù)技術的代表,能夠處理PB(1PB=1024TB;1TB=1024GB)級以上的數(shù)據(jù),但該技術在需要開展海量數(shù)據(jù)計算、統(tǒng)計、推介等處理時,卻存在速度慢、適用范圍窄的問題,制約了其在商業(yè)領域的更廣泛應用。
“經(jīng)過測試,數(shù)方公司的Tiber City在對GB—PB量級數(shù)據(jù)進行存儲、搜索、挖掘、學習及商業(yè)智能處理時,性能比Hadoop要高10倍以上,比同為第二代大數(shù)據(jù)技術代表之一,加州大學伯克利分校研發(fā)的Spark要高1.6—5倍,且系統(tǒng)內(nèi)部架構(gòu)方面也獨具優(yōu)勢,比如能夠同時支持更多種程序語言,且與傳統(tǒng)計算機程序交互更好。”顧博士表示。
該項技術目前已應用于多個領域。香港某科研機構(gòu)存儲海量基因數(shù)據(jù)并在此基礎上開展相關數(shù)據(jù)分析,原本傳統(tǒng)計算方式下需要30年左右才能處理完成的數(shù)據(jù),應用該項技術后提速24倍,也就是說1年多就能計算完成,且軟件部分還在進一步優(yōu)化,有望處理時間再度大幅縮短。此外,數(shù)方公司基于Tiber City技術開發(fā)的命名為Greppy的大數(shù)據(jù)檢索系統(tǒng),相比傳統(tǒng)的搜索工具,速度也實現(xiàn)了大幅提升,例如,在無索引的情況下搜索400GB的數(shù)據(jù)只需要7秒時間,而利用傳統(tǒng)的搜索工具一般需要200到300秒才能完成,基本上秒級時間內(nèi)能夠搜索TB級數(shù)據(jù)。
顧博士告訴記者,目前,數(shù)方公司大數(shù)據(jù)技術最核心的軟件部分已經(jīng)基本實現(xiàn)了開源(向公眾開放),公司在此基礎上為客戶提供技術咨詢和服務,并致力于為客戶“量身訂制”企業(yè)版大數(shù)據(jù)軟件。同時,該公司已經(jīng)自主研發(fā)成功高性價比的大數(shù)據(jù)一體機硬件。