精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

從算法到項(xiàng)目應(yīng)用,如何真正落地機(jī)器學(xué)習(xí)

責(zé)任編輯:editor005

作者:木環(huán)

2016-10-31 16:04:57

摘自:INFOQ

這方面做的一些工作我們?cè)敢忾_(kāi)源出來(lái),幫助大規(guī)模機(jī)器學(xué)習(xí)能夠得到更好的應(yīng)用。張夏天:現(xiàn)在人工智能最好的模型就是人腦,很多科學(xué)家正在研究人腦,琢磨怎么模仿人腦來(lái)實(shí)現(xiàn)智能。

編者按

Cisco發(fā)布的總結(jié)報(bào)告《澤字節(jié)時(shí)代:趨勢(shì)和分析》中指出:2016年末,全球年度互聯(lián)網(wǎng)流量將突破ZB大關(guān)(1ZB 澤字節(jié):1000EB艾字節(jié)),并將于2020年達(dá)到2.3ZB;互聯(lián)網(wǎng)的流量將在未來(lái)五年內(nèi)增長(zhǎng)三倍;智能手機(jī)終端的流量將于2020年超過(guò)PC終端。(注:澤字節(jié)為十萬(wàn)億億字節(jié))

IT業(yè)內(nèi)很多公司都開(kāi)始研究怎樣能超越傳統(tǒng)數(shù)據(jù)處理模式,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的處理以收獲前所未有的信息價(jià)值。

TalkingData是一家獨(dú)立的第三方移動(dòng)數(shù)據(jù)服務(wù)平臺(tái)公司,其平臺(tái)上每天新產(chǎn)生14TB的數(shù)據(jù),有超過(guò)370億條的消息。在9月12日至9月14日舉辦的T112016暨TalkingData智能數(shù)據(jù)峰會(huì)上,InfoQ采訪了TalkingData首席數(shù)據(jù)科學(xué)家張夏天,下文來(lái)自對(duì)采訪內(nèi)容整理。

TalkingData的機(jī)器學(xué)習(xí)

TalkingData的日均處理量,現(xiàn)在每天在TalkingData的平臺(tái)上新產(chǎn)生14TB的數(shù)據(jù),有超過(guò)370億條的消息。

機(jī)器學(xué)習(xí)有很多算法,學(xué)術(shù)上的分類都是公認(rèn)的。TalkingData內(nèi)部更多的是看一個(gè)算法或者算法的實(shí)現(xiàn)是適合處理大數(shù)據(jù)還是小數(shù)據(jù),會(huì)根據(jù)這個(gè)標(biāo)準(zhǔn)分成兩類。

我們既要處理互聯(lián)網(wǎng)公司的超大規(guī)模數(shù)據(jù),又要支持很多小規(guī)模數(shù)據(jù)的客戶需求,所以我們的情況比較復(fù)雜。大規(guī)模數(shù)據(jù)處理的算法棧基于Spark,我們做了大量基于Spark的算法創(chuàng)新和優(yōu)化;小規(guī)模數(shù)據(jù)的處理主要是一些具體客戶項(xiàng)目,比如銀行、房地產(chǎn),對(duì)一些乙方數(shù)據(jù)的挖掘,因?yàn)閿?shù)據(jù)處理中遇到的技術(shù)問(wèn)題不是特別大,所以主要使用基于Python、R的算法庫(kù)。

大規(guī)模與小規(guī)模數(shù)據(jù)項(xiàng)目的處理模式

項(xiàng)目很多,可供選擇的算法也很多;那在實(shí)際中怎么選擇使用呢?這個(gè)與上面一樣,還是要分兩類討論。

大規(guī)模機(jī)器學(xué)習(xí)的整個(gè)體系還不夠成熟,市面上沒(méi)有特別好用的工具;大互聯(lián)網(wǎng)公司都是自研平臺(tái)和系統(tǒng),實(shí)現(xiàn)各自業(yè)務(wù)的需求。開(kāi)源那些技術(shù)則各有各的問(wèn)題,像Spark的MLlib,我們進(jìn)行測(cè)試時(shí)發(fā)現(xiàn)在處理TalkingData規(guī)模級(jí)別的數(shù)據(jù)上有些力不從心。形勢(shì)所迫,我們也是沒(méi)辦法只好自己重新做對(duì)應(yīng)的研發(fā)工作。目前看來(lái),大規(guī)模機(jī)器學(xué)習(xí)中可用的模型并不多,會(huì)考慮一些簡(jiǎn)單的線性模型,因?yàn)閿?shù)據(jù)規(guī)模太大,太復(fù)雜的模型并不一定好,我們會(huì)用到Logistic Regression這樣的模型去解決問(wèn)題。

在處理小規(guī)模數(shù)據(jù)時(shí),其實(shí)沒(méi)有絕對(duì)偏好;首先理解清楚具體問(wèn)題;再去尋找找哪個(gè)算法更適合,這其中的過(guò)程可能會(huì)測(cè)試很多算法。對(duì)小規(guī)模問(wèn)題我們有一些基準(zhǔn)算法,比如Random Forest、Random Decision Tree、Random Decision Hashing。在這些基準(zhǔn)算法的基礎(chǔ)上,在逐步細(xì)化并嘗試其他算法,其中有一些問(wèn)題我們也在用深度學(xué)習(xí)去解決。換句話說(shuō),我們的原則是哪個(gè)適用用哪個(gè)。通常,解決小規(guī)模問(wèn)題的邏輯是先用簡(jiǎn)單的快速的,如果能夠解決問(wèn)題,就用簡(jiǎn)單的模型;如果問(wèn)題不能解決,再逐步引入一些更復(fù)雜的模型。

什么時(shí)候進(jìn)行數(shù)據(jù)降維

在實(shí)際應(yīng)用中,我們的最高維度會(huì)超過(guò)一千萬(wàn)。在降維的這個(gè)處理上,可能比較令大家想象不到的是:大維度的問(wèn)題,我們反而是不做降維;對(duì)維度不太大的小規(guī)模問(wèn)題,會(huì)用傳統(tǒng)的PCA或者其他方法去做降維。

為什么大規(guī)模的問(wèn)題不做降維?首先是很難去做降維,因?yàn)榫S度太大了,數(shù)據(jù)空間太大了,如果做一次降維,付出的代價(jià)非常大。比如如果用PCA做降維,就需要有很多矩陣操作,矩陣操作現(xiàn)在以MapReduce為核心的計(jì)算模型效率非常低,尤其對(duì)大矩陣而言,那么為降維付出的代價(jià)是不值得的。

小規(guī)模的問(wèn)題與大規(guī)模的問(wèn)題有很大的不同:小規(guī)模數(shù)據(jù)問(wèn)題主要面向我們的客戶,他們會(huì)追求可解釋性,需要找到起決定性的穩(wěn)定因素;這種情況下希望把不重要的維度摒棄掉。

反觀大規(guī)模問(wèn)題,一千萬(wàn)維度的模型,人工解讀也非常難。對(duì)于大規(guī)模問(wèn)題我們更多的關(guān)注模型的預(yù)測(cè)能力,為了預(yù)測(cè)的更精準(zhǔn);很多情況下我們會(huì)放棄對(duì)模型的理解,而是看在實(shí)際中這個(gè)模型能不能起到很好的效果。

大數(shù)據(jù)團(tuán)隊(duì)的內(nèi)部工作分工

在TalkingData內(nèi)部,從職位上來(lái)看,大數(shù)據(jù)工作分為兩類:大數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家。在我們公司內(nèi)部,大數(shù)據(jù)工程師主要建設(shè)大數(shù)據(jù)平臺(tái),基于大數(shù)據(jù)平臺(tái)做一些數(shù)據(jù)處理工作,涉及算法的工作內(nèi)容并不太多。TalkingData內(nèi)部定義跟算法相關(guān)的職位是數(shù)據(jù)科學(xué)家。大數(shù)據(jù)領(lǐng)域更希望有數(shù)學(xué)和計(jì)算機(jī)的復(fù)合人才,目前復(fù)合人才比較稀缺;不過(guò),作為一個(gè)團(tuán)隊(duì)來(lái)說(shuō)會(huì)看重一個(gè)團(tuán)隊(duì)本身的復(fù)合型。

從工作內(nèi)容上講,我們大數(shù)據(jù)團(tuán)隊(duì)有不同的分工,可以分成三塊。有兩三個(gè)同學(xué)一起在做大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí),他們是在底層打基礎(chǔ),提升系統(tǒng)平臺(tái)基礎(chǔ)能力。中間層的工作是挖掘數(shù)據(jù),比如人口屬性挖掘,豐富標(biāo)簽體系;從地理位置數(shù)據(jù)挖掘信息,如識(shí)別Wi-Fi的類型是家庭還是公司,把我們數(shù)據(jù)變得更豐富、價(jià)值更大。還有一部分工作在上層,要結(jié)合到具體的客戶項(xiàng)目,比如給某家銀行做推薦系統(tǒng)、互聯(lián)網(wǎng)金融風(fēng)控、幫助房地產(chǎn)企業(yè)做營(yíng)銷等等。

算法書(shū)中的大數(shù)據(jù)對(duì)接業(yè)務(wù)

TalkingData的有些產(chǎn)品,比如營(yíng)銷云,要面對(duì)來(lái)自客戶的很多需求。我們要幫助客戶去篩選人群。怎么篩選?首先,我們提供簡(jiǎn)單的方法,基于標(biāo)簽的、統(tǒng)計(jì)學(xué)的去篩選;然后,還有一些基于所謂的人群擴(kuò)大的方式,這個(gè)工作無(wú)法通過(guò)統(tǒng)計(jì)學(xué)完成,必須使用機(jī)器學(xué)習(xí)。

雖然我們會(huì)使用很成熟的機(jī)器學(xué)習(xí)算法,但是由于一方面候選庫(kù)是十億級(jí)別以上的樣本,另一方面我們的數(shù)據(jù)維度也是超過(guò)千萬(wàn),所以需要將大規(guī)模機(jī)器學(xué)習(xí)的能力嵌入到產(chǎn)品里面。

對(duì)某個(gè)業(yè)務(wù)而言,如果僅從純數(shù)學(xué)的角度講,可能這個(gè)業(yè)務(wù)背后并不是一個(gè)特別難、特別復(fù)雜的算法;從工程角度看,實(shí)際上較大的難點(diǎn)在于怎樣算法做到可用,并且在大規(guī)模下可用。用傳統(tǒng)方法也是可以得出結(jié)果的,但是那樣可能需要跑一個(gè)禮拜才能跑出一個(gè)結(jié)果;對(duì)于項(xiàng)目而言,這個(gè)結(jié)果實(shí)際上是過(guò)期的,已經(jīng)完全沒(méi)有意義了。需要通過(guò)很多努力做到十分鐘內(nèi)算出結(jié)果,這樣才算的上真正的作用。

數(shù)據(jù)和計(jì)算結(jié)果的存儲(chǔ)

這么多年來(lái)我們數(shù)據(jù)一直都有備份,TalkingData作為大數(shù)據(jù)公司,所有的數(shù)據(jù)都是存儲(chǔ)在自己的云上面。只有一些邊緣的系統(tǒng)會(huì)去用現(xiàn)在的一些云服務(wù),核心的系統(tǒng)都是我們自己的系統(tǒng)。這樣做有兩個(gè)原因:第一,公司是在2011年發(fā)展起來(lái)的,那時(shí)候云計(jì)算還沒(méi)有到現(xiàn)在的能力;第二,我們本身是一個(gè)大數(shù)據(jù)公司,我們要對(duì)自己的數(shù)據(jù)負(fù)責(zé)。

“初始數(shù)據(jù)和計(jì)算結(jié)果是否都有保存?”都會(huì)有的,原始的log也會(huì)做備份。我們有一個(gè)理念:數(shù)據(jù)經(jīng)過(guò)處理以后,不管處理得多好,里面的信息都會(huì)有丟失。對(duì)信息做任何操作,信息量不可能增加,只可能減少,最多就是不變。為了實(shí)現(xiàn)某個(gè)目的,中間做了很多處理,那不可避免地在處理中就舍棄了一些信息。所以,TalkingData原始數(shù)據(jù)都會(huì)做備份;不過(guò)會(huì)做大量的壓縮,用更廉價(jià)的方式存放起來(lái),中間過(guò)程中某些使用頻率高的數(shù)據(jù)也會(huì)都存下來(lái)。

如何成為一名大數(shù)據(jù)工作者

這一點(diǎn)分兩個(gè)方向談,一個(gè)是具有IT背景的職場(chǎng)人怎樣轉(zhuǎn)向大數(shù)據(jù),另外一個(gè)方向是在校生怎樣踏入大數(shù)據(jù)領(lǐng)域。

IT工程師是可以轉(zhuǎn)向大數(shù)據(jù)的。個(gè)人而言,比起工程方面經(jīng)驗(yàn),我更看重的是一個(gè)人的基本功。不論是大數(shù)據(jù)基礎(chǔ)還是計(jì)算機(jī)技術(shù),如果你目前的基本功不扎實(shí),想轉(zhuǎn)大數(shù)據(jù),一樣有很大的困難。如果你有很強(qiáng)的代碼能力,其實(shí)要轉(zhuǎn)到大數(shù)據(jù)并不是一個(gè)特別難的事情。如果你有比較好的基礎(chǔ),在大數(shù)據(jù)公司,比如TalkingData;可能半年、一年也就能夠成長(zhǎng)為一個(gè)還不錯(cuò)的大數(shù)據(jù)工程師。上面提到,大數(shù)據(jù)工程師負(fù)責(zé)建設(shè)大數(shù)據(jù)平臺(tái),數(shù)據(jù)科學(xué)家從事算法相關(guān)功做。

IT背景想成長(zhǎng)為數(shù)據(jù)科學(xué)家,我感覺(jué)個(gè)人如果想做好,可能確實(shí)需要補(bǔ)一補(bǔ)數(shù)學(xué)方面的基礎(chǔ),比如直接看一些相關(guān)書(shū)籍。團(tuán)隊(duì)內(nèi)部的信任,如果是畢業(yè)生,我一般會(huì)要求先把大學(xué)的概率統(tǒng)計(jì)好好復(fù)習(xí)一遍,這是非常基礎(chǔ)的一個(gè)學(xué)科;然后還有相關(guān)如線性代數(shù),如果能夠很好掌握,對(duì)深入算法非常有幫助。

現(xiàn)在還有一種趨勢(shì),在小規(guī)模問(wèn)題上,提供的工具越來(lái)越多、越來(lái)越好用。有些人認(rèn)為用這些工具處理一個(gè)或者同類的問(wèn)題就可以了。但我認(rèn)為只能說(shuō)會(huì)使用算法包,但對(duì)算法原理不能有清晰認(rèn)識(shí),不能舉一反三,這樣的數(shù)據(jù)科學(xué)家,不管你做多長(zhǎng)時(shí)間,始終會(huì)停留在初級(jí)的層面上。會(huì)使用一千種算法卻沒(méi)有深入了解,相當(dāng)于是學(xué)了一千種招式但內(nèi)功沒(méi)有練好;如果你把內(nèi)功練好,招式學(xué)的很快。

不能盲從,哪個(gè)工具好就用哪個(gè)。比如,現(xiàn)在深度學(xué)習(xí)很火,大家都是用深度學(xué)習(xí),但是對(duì)深度學(xué)習(xí)的基本原理又不太了解。這種心態(tài)的話是走不長(zhǎng)遠(yuǎn)的,因?yàn)槭褂脤用嫔线@個(gè)基本上沒(méi)門檻,對(duì)于懂編程的人來(lái)說(shuō),調(diào)用人家的庫(kù)做一個(gè)事情可能也就是一天兩天的事情。這樣做我不認(rèn)為有什么特別大價(jià)值,一定要去深入了解算法背后的原理。即使你自己不去實(shí)現(xiàn)算法,這個(gè)對(duì)你以后遇到什么問(wèn)題,用什么樣的算法,或者自己去定義問(wèn)題有很大幫助。數(shù)據(jù)科學(xué)里面有很多是定義問(wèn)題,你對(duì)算法、對(duì)數(shù)學(xué)掌握的更深一些,就能夠把問(wèn)題數(shù)學(xué)化更好,選擇更好的工具來(lái)解決。

對(duì)于學(xué)生而言,如果你是一名大學(xué)生,學(xué)校若是有相關(guān)的選修課可以去選修。雖然有一些大學(xué)已經(jīng)開(kāi)設(shè)了大數(shù)據(jù)專業(yè),但是這還不是普遍性的;因?yàn)閺母叩冉逃膶I(yè)設(shè)置跟時(shí)代的發(fā)展是有一定的滯后性,更多需要自己去關(guān)注。網(wǎng)上學(xué)習(xí)資料很多,包括TalkingData University也有很多的公開(kāi)課程,如果自己真的有興趣的話,可以去自學(xué)很多東西。想找到這樣的學(xué)習(xí)資料,機(jī)會(huì)都是比較容易的,就看自己用不用心。如果是中學(xué)生還是好好學(xué)習(xí),爭(zhēng)取在好大學(xué)就讀計(jì)算機(jī)、數(shù)學(xué)的相關(guān)專業(yè),不管大數(shù)據(jù)還是科學(xué)方面打下好的基礎(chǔ)。如果既有數(shù)學(xué)的背景又有計(jì)算機(jī)背景,在數(shù)據(jù)科學(xué)方面有很大的優(yōu)勢(shì)。純數(shù)學(xué)背景或者純計(jì)算機(jī)背景在數(shù)據(jù)科學(xué)方面都會(huì)有一些短板。

談機(jī)器學(xué)習(xí)、人工智能帶來(lái)的變化

怎么看待機(jī)器學(xué)習(xí)和人工智能給人類帶來(lái)的影響?這個(gè)問(wèn)題很大。AlphaGo是一個(gè)非常大的突破:因?yàn)橹罢J(rèn)為按照計(jì)算量的發(fā)展,需要50年或者100年才能夠達(dá)到超越人的水平;沒(méi)想到2016年就超過(guò)了。這突破式發(fā)展讓大家現(xiàn)在對(duì)人工智能抱有很大熱情。

我個(gè)人認(rèn)為現(xiàn)在人工智能確實(shí)可以做很多很多的事情。其實(shí)在AlphaGo之前,就已經(jīng)有很多智能的技術(shù)就在影響我們的生活,像推薦系統(tǒng)、精準(zhǔn)廣告,只不過(guò)這是個(gè)比較平緩的發(fā)展,大家沒(méi)有感覺(jué)出來(lái)。未來(lái)認(rèn)為還將依舊是平緩的發(fā)展,AlphaGo更像一個(gè)標(biāo)志性事件,意味著達(dá)到了一個(gè)水平,但是這個(gè)突破并不是突然,經(jīng)過(guò)多年的不管是數(shù)據(jù)、技術(shù)還是算法的積累,這是一個(gè)必然結(jié)果。

未來(lái)的人工智能應(yīng)用,目前整個(gè)業(yè)界更關(guān)注的就是智能駕駛,不管是國(guó)內(nèi)的百度、國(guó)外的Uber都在做測(cè)試。這可能是接下來(lái)五年之內(nèi)人工智能有希望取得比較大的進(jìn)步方向。其他領(lǐng)域,人工智能可能會(huì)比較潤(rùn)物細(xì)無(wú)聲,不會(huì)有特別大的變化。

現(xiàn)在一直在發(fā)展,像廣告會(huì)做得越來(lái)越智能,越來(lái)越符合你的需求。我們看看,原來(lái)廣告是怎么做的,我們會(huì)分析人的興趣;我們昨天還在跟一個(gè)劍橋的教授聊,他們?cè)诜治鋈说男愿瘢鶕?jù)性格,同一個(gè)廣告我給你不同的廣告素材,這不是一個(gè)飛躍性的發(fā)展,是逐步漸進(jìn)式的發(fā)展。現(xiàn)在還會(huì)看到很火熱的聊天機(jī)器人,我們目前認(rèn)為通用性的聊天機(jī)器人短期內(nèi)看不到真正落地的場(chǎng)景,現(xiàn)在更多會(huì)垂直化發(fā)展。

在垂直領(lǐng)域產(chǎn)生價(jià)值,國(guó)外有一些公司在做小場(chǎng)景的應(yīng)用創(chuàng)新,比如有一家公司在做一個(gè)簡(jiǎn)單的事情,國(guó)外很多人都會(huì)收到貼停車罰單,這家公司做的是一個(gè)法庭申訴咨詢聊天機(jī)器人,他給你建議,怎么到法庭上申訴,成功率可以達(dá)到64%。這里的case不是通用性的,是在法律范圍內(nèi),屬于非常固定的場(chǎng)景,但是能夠起到很好的效果。聊天機(jī)器人我們用了很多的技術(shù),但現(xiàn)在即使是比較成熟的技術(shù),還沒(méi)有到能夠真正理解人的話語(yǔ)里面的邏輯。做成通用的無(wú)所不能的聊天機(jī)器人,短期內(nèi)還是難以實(shí)現(xiàn)。在限定領(lǐng)域,第一,問(wèn)題空間變得很小;第二,人對(duì)機(jī)器的期望會(huì)降低,我并不是說(shuō)真的把你當(dāng)做一個(gè)朋友在聊,你幫我解決特定的問(wèn)題。人對(duì)體驗(yàn)上的要求降低了,問(wèn)題空間減少了,這樣就能夠起到比較好的效果,未來(lái)就有比較微小的智能會(huì)逐步圍繞著我們生活出現(xiàn)。

至于人工智能的發(fā)展,什么時(shí)候量變變成質(zhì)變。我個(gè)人認(rèn)為,如果從強(qiáng)人工智能的角度看,現(xiàn)在的技術(shù)水平離這塊比較遙遠(yuǎn)。舉例說(shuō)明,深度學(xué)習(xí)的發(fā)展,本質(zhì)上深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò),從數(shù)學(xué)上看是函數(shù)擬合器,現(xiàn)在還不太具備理解世界的能力,更多是去從某種層次上模仿人的決策函數(shù),或者說(shuō)它并不會(huì)理解里面的因果關(guān)系。我個(gè)人認(rèn)為在這方面還不能夠有特別大的突破,也就是說(shuō)科幻片里面人工智能還是相對(duì)來(lái)說(shuō)比較遙遠(yuǎn)的。

基于現(xiàn)在的技術(shù),包括未來(lái)數(shù)據(jù)會(huì)越來(lái)越多,在兩者的發(fā)展結(jié)合下,我認(rèn)為智能確實(shí)會(huì)越來(lái)越多,但是都是功能性的智能:駕駛領(lǐng)域有駕駛的智能,推薦領(lǐng)域有推薦的智能,語(yǔ)音助手中有語(yǔ)音助手的智能,這些都是未來(lái)5-10年內(nèi)能夠看到的。

其他問(wèn)答

問(wèn):“是不是可以理解機(jī)器學(xué)習(xí)都是基于已有的數(shù)據(jù)進(jìn)行概率統(tǒng)計(jì)學(xué)習(xí),選擇合適的模型?”

張夏天:可以這么認(rèn)為。不過(guò),我更認(rèn)可的一種觀點(diǎn),不見(jiàn)得盡然對(duì):機(jī)器學(xué)習(xí)是統(tǒng)計(jì)學(xué)發(fā)展到一定程度,無(wú)法解決大數(shù)據(jù)量的情況下做的一個(gè)妥協(xié)。在以往,對(duì)于很多問(wèn)題都能夠用概率的模型描述,或者概率密度函數(shù),或者概率函數(shù)進(jìn)行描述;但是發(fā)展到后來(lái),我們發(fā)現(xiàn)在多維度,尤其高維度的情況下,用統(tǒng)計(jì)學(xué)不可能精確地求解或估計(jì)出這樣的函數(shù)。機(jī)器學(xué)習(xí)就退而求其次,在分類問(wèn)題上不要求精確到概率的結(jié)果,比如90%是A或者80%是B;機(jī)器學(xué)習(xí)需要的結(jié)果就是,要看到在某個(gè)空間里面,給出一個(gè)分類界面,指出結(jié)果是在哪邊就OK了。

問(wèn):在處理大規(guī)模問(wèn)題時(shí),你們會(huì)對(duì)算法進(jìn)行一些優(yōu)化,并且考慮開(kāi)源出來(lái)?

張夏天:我們內(nèi)部是,剛才說(shuō)到了大規(guī)模機(jī)器學(xué)習(xí)的問(wèn)題,現(xiàn)在市面上沒(méi)有特別成熟的東西,不像小規(guī)模問(wèn)題,我找一個(gè)Python的包就能解決很多問(wèn)題了。這種情況下很多大的公司,不管是國(guó)外的谷歌、臉書(shū),國(guó)內(nèi)的BAT,自己內(nèi)部有相當(dāng)大的投入,不管是在系統(tǒng)上還是人員上都構(gòu)建自己的能力。

這方面做的一些工作我們?cè)敢忾_(kāi)源出來(lái),幫助大規(guī)模機(jī)器學(xué)習(xí)能夠得到更好的應(yīng)用。

問(wèn):對(duì)于小規(guī)模問(wèn)題是不是會(huì)采那些歷史很悠久的統(tǒng)計(jì)算法?

張夏天: 是的,但是我們也不拒絕新的算法。

問(wèn):那么在您看來(lái),人工智能距離發(fā)展成科幻片還差對(duì)人腦科學(xué)理解?

張夏天:現(xiàn)在人工智能最好的模型就是人腦,很多科學(xué)家正在研究人腦,琢磨怎么模仿人腦來(lái)實(shí)現(xiàn)智能。我認(rèn)為大腦確實(shí)是一個(gè)好的參照對(duì)象,但是我們更多的應(yīng)該是受大腦運(yùn)行機(jī)制的啟發(fā),而不是嚴(yán)格的去“山寨”大腦。因?yàn)榇竽X的運(yùn)行機(jī)制是受制于生物體的限制下的機(jī)制,是炭基的智能。現(xiàn)在的計(jì)算機(jī)技術(shù)是硅基的,我們并不一定要讓硅基的智能來(lái)模擬炭基的智能,而是發(fā)展更適合現(xiàn)有計(jì)算機(jī)技術(shù)的智能機(jī)制。而且,目前對(duì)人腦的研究也還談不上特別深入,想模仿好都不容易。

嘉賓簡(jiǎn)介

張夏天,TalkingData首席數(shù)據(jù)科學(xué)家,北京郵電大學(xué)碩士畢業(yè),長(zhǎng)期從事數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的研究和應(yīng)用工作。曾在IBM中國(guó)研究院,騰訊數(shù)據(jù)平臺(tái)部,華為諾亞方舟實(shí)驗(yàn)室任職,2013年加入騰云天下任首席數(shù)據(jù)科學(xué)家,全面負(fù)責(zé)數(shù)據(jù)挖掘工作,包括移動(dòng)應(yīng)用推薦系統(tǒng)、移動(dòng)廣告優(yōu)化、移動(dòng)應(yīng)用受眾畫像、移動(dòng)設(shè)備用戶畫像、游戲數(shù)據(jù)挖掘、位置數(shù)據(jù)挖掘等工作。同時(shí)負(fù)責(zé)大數(shù)據(jù)機(jī)器學(xué)習(xí)算法的研究和實(shí)現(xiàn)工作。發(fā)表學(xué)術(shù)論文10篇,申請(qǐng)專利9個(gè)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 荃湾区| 隆安县| 冷水江市| 兴和县| 白河县| 正定县| 长子县| 甘德县| 宜都市| 长治县| 蓬安县| 普陀区| 临猗县| 营山县| 佳木斯市| 永清县| 大田县| 衡东县| 斗六市| 平陆县| 南安市| 成武县| 广昌县| 上犹县| 杭州市| 中牟县| 云浮市| 莱阳市| 诏安县| 岳西县| 清徐县| 汶川县| 淳安县| 民和| 内乡县| 科尔| 昌江| 开封县| 湘阴县| 西和县| 左云县|