国产成人亚洲合集青青草原精品,久久精品视频国产,中文精品视频一区二区在线观看

MIT 做了一個(gè)全自動(dòng)的大數(shù)據(jù)分析系統(tǒng)

責(zé)任編輯：editor006

作者：boxi

2015-10-20 18:26:07

摘自：36kr

信息爆炸引爆了大數(shù)據(jù)時(shí)代的到來，前一兩年大數(shù)據(jù)到達(dá)了炒作的高峰，而馬云則稱今后 30年屬于數(shù)據(jù)技術(shù)（DT）。然后，Data Science Machine 還會(huì)把這個(gè)特征集運(yùn)用到樣本數(shù)據(jù)上，再用不同的方式重新組合特征來優(yōu)化預(yù)測(cè)的準(zhǔn)確率。

MIT 做了一個(gè)全自動(dòng)的大數(shù)據(jù)分析系統(tǒng)

信息爆炸引爆了大數(shù)據(jù)時(shí)代的到來，前一兩年大數(shù)據(jù)到達(dá)了炒作的高峰，而馬云則稱今后 30年屬于數(shù)據(jù)技術(shù)（DT）。但是最近一段時(shí)間大數(shù)據(jù)似乎沒有那么大的動(dòng)靜了，這固然有技術(shù)炒作周期曲線的規(guī)律作用，也跟大數(shù)據(jù)遭遇到的一些瓶頸有關(guān)。

這個(gè)最大的瓶頸之一便是人。隱藏在大數(shù)據(jù)里面的模式挖掘很長(zhǎng)程度上需要依靠人的建模和直覺，但是數(shù)據(jù)科學(xué)家的數(shù)量卻跟不上大數(shù)據(jù)的規(guī)模發(fā)展。不過 MIT 正在為打破這個(gè)瓶頸而努力，其研發(fā)的一款名為 Data Science Machine（數(shù)據(jù)科學(xué)機(jī)器）的軟件實(shí)現(xiàn)了無人參與下的大數(shù)據(jù)分析，經(jīng)過對(duì)比發(fā)現(xiàn)，其表現(xiàn)已經(jīng)與數(shù)據(jù)分析師不分高下。

Data Science Machine 由 MIT CSAIL 的 Max Kanter 和他的指導(dǎo)老師 Kalyan Veeramachaneni 等人設(shè)計(jì)。其關(guān)鍵突破是它不僅會(huì)尋找模式，還會(huì)自己設(shè)計(jì)特征集。學(xué)機(jī)器學(xué)習(xí)的人都知道特征工程的重要性。特征工程是指利用數(shù)據(jù)的領(lǐng)域知識(shí)來創(chuàng)建特征以便讓機(jī)器學(xué)習(xí)算法可以工作的過程，這個(gè)過程往往需要人的直覺。而 Data Science Machine 卻利用了關(guān)系數(shù)據(jù)庫的不同表間的結(jié)構(gòu)化關(guān)系作為線索來進(jìn)行特征構(gòu)造，從中生成一批候選的特征集，然后再通過分析值的相關(guān)性來縮小特征集的范圍，從而免去了人的參與。然后，Data Science Machine 還會(huì)把這個(gè)特征集運(yùn)用到樣本數(shù)據(jù)上，再用不同的方式重新組合特征來優(yōu)化預(yù)測(cè)的準(zhǔn)確率。

為了測(cè)試這套系統(tǒng)的第一款原型，研究人員讓它參與了三項(xiàng)數(shù)據(jù)科學(xué)方面的競(jìng)賽，競(jìng)賽的目標(biāo)是在不常見的數(shù)據(jù)集中尋找出預(yù)測(cè)性的模式。三場(chǎng)競(jìng)賽供有 906 支隊(duì)伍參加，Data Science Machine 的成績(jī)比其中的 615 支隊(duì)伍都要高。

在準(zhǔn)確率方面，Data Science Machine 在其中兩場(chǎng)競(jìng)賽的準(zhǔn)確率分別達(dá)到了 94%和 96%。另外一場(chǎng)的準(zhǔn)確率略低，為 87%。但是效率方面卻是人類不能比的，因?yàn)?Data Science Machine 得出結(jié)果用時(shí)在 2-12 小時(shí)之間，而人類團(tuán)隊(duì)的預(yù)測(cè)性算法往往要折騰數(shù)月的時(shí)間。

目前 Data Science Machine 已能對(duì)哪些學(xué)生有可能退出 MIT 的在線課程做出分析，它選出的兩個(gè)特征分析學(xué)生開始寫作業(yè)時(shí)間的早晚，以及在網(wǎng)上學(xué)習(xí)課程的時(shí)間長(zhǎng)短。盡管這種能力看起來還不夠強(qiáng)大，但是這只是開始，一旦機(jī)器具備真正的自我學(xué)習(xí)能力，在計(jì)算能力指數(shù)增長(zhǎng)的作用下，其進(jìn)化速度將是我們難以想象的。

MIT Data Machine