日前在東北大學(xué)獲悉,由該校教授王國仁牽頭研發(fā)的項(xiàng)目“海量異構(gòu)數(shù)據(jù)集成管理與分析技術(shù)及應(yīng)用”,成功破解大數(shù)據(jù)集成質(zhì)量、管理效率和分析可伸縮性等關(guān)鍵難題,實(shí)現(xiàn)對(duì)異構(gòu)大數(shù)據(jù)的集成、管理、分析,將對(duì)我國“數(shù)字水資源”“數(shù)字醫(yī)療”和“數(shù)字國土資源”等領(lǐng)域海量異構(gòu)數(shù)據(jù)集成管理與分析發(fā)揮不可替代的重要作用。
據(jù)介紹,大數(shù)據(jù)處理過程中的海量數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了人們掌握和理解數(shù)據(jù)的能力。特別是異構(gòu)數(shù)據(jù),由于缺乏統(tǒng)一的格式與規(guī)范,在各部門和各軟件系統(tǒng)中的流動(dòng)與共享困難重重。針對(duì)這些難題,王國仁帶領(lǐng)研究團(tuán)隊(duì)開展攻關(guān),從模式匹配、數(shù)據(jù)清洗、數(shù)據(jù)管理和數(shù)據(jù)分析等關(guān)鍵技術(shù)切入,成功設(shè)計(jì)出一套基于人機(jī)交互的數(shù)據(jù)集成體系。與當(dāng)前國際上最先進(jìn)的數(shù)據(jù)清洗系統(tǒng)相比,該系統(tǒng)數(shù)據(jù)集成質(zhì)量提升10%以上,集成方法的可用性居世界領(lǐng)先水平,與國際通用的系統(tǒng)相比,數(shù)據(jù)管理效率提升50%以上,并在國際上率先提出了面向大數(shù)據(jù)的分布式極限學(xué)習(xí)機(jī)數(shù)據(jù)分析技術(shù)。該系統(tǒng)的平臺(tái)可伸縮性、數(shù)據(jù)可伸縮性、隱層節(jié)點(diǎn)可伸縮性、數(shù)據(jù)標(biāo)注可伸縮性最高提升近20倍。