精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

DT時(shí)代變革的反思:為何這么突然?

責(zé)任編輯:editor006 作者:blogchong |來(lái)源:企業(yè)網(wǎng)D1Net  2015-05-26 20:33:10 本文摘自:虎嗅網(wǎng)

DT(Digital Technology)一詞,翻譯過(guò)來(lái)即數(shù)據(jù)科技,可以說(shuō),這并不是一個(gè)新詞,但它真正引起我注意的是阿里研究院最近寫(xiě)的一本書(shū)《互聯(lián)網(wǎng)+:從IT到DT》,阿里作為國(guó)內(nèi)IT技術(shù)的引領(lǐng)者,其技術(shù)定論不可輕視。

我們先撇開(kāi)DT不說(shuō),我們先來(lái)看一看IT。

從1936年圖靈機(jī)的發(fā)明,到1945年馮.諾依曼機(jī)的出現(xiàn),這些都是計(jì)算機(jī)發(fā)展的基石,甚至于往后各種大型、小型計(jì)算機(jī)的誕生,嚴(yán)格意義上來(lái)說(shuō),這都不是IT。真正IT技術(shù)的開(kāi)始應(yīng)該是萬(wàn)維網(wǎng)的發(fā)明,這標(biāo)志著信息進(jìn)入了互聯(lián)的時(shí)代。

國(guó)內(nèi)互聯(lián)網(wǎng)技術(shù)的發(fā)展比國(guó)外稍微的晚了那么幾年,但其發(fā)展勢(shì)頭遠(yuǎn)非其他國(guó)家能比。1997年,中國(guó)只有60萬(wàn)網(wǎng)民,而現(xiàn)在已經(jīng)超過(guò)了6億,其增長(zhǎng)速度可見(jiàn)一斑??梢哉f(shuō),如今互聯(lián)網(wǎng)已經(jīng)影響到了人們衣食住行的方方面面。

這是一個(gè)IT時(shí)代,對(duì)于這個(gè)定論,或許大部分人都不會(huì)反對(duì)。但是有一天,有人突然對(duì)你說(shuō):人類(lèi)正在從IT時(shí)代步入到DT時(shí)代(數(shù)據(jù)科技時(shí)代),我們一只腳已經(jīng)踏入了數(shù)據(jù)科技時(shí)代?

為何這么突然?

這并不突然,這一切的一切都是那么有預(yù)見(jiàn)性!

DT時(shí)代來(lái)臨:變革在悄然發(fā)生

數(shù)據(jù)科學(xué)家一詞,最早是在2009年被提出來(lái)的。當(dāng)然,它的提出并不是一個(gè)轟動(dòng)性的事件,甚至還有很多人并不贊成突然出現(xiàn)這一科學(xué)分支。

然而就在幾個(gè)月前,有人在騰訊科技上發(fā)表了一篇文章《數(shù)據(jù)科學(xué)家可能成為2015年最熱門(mén)職業(yè)》,我們暫且不去評(píng)論這篇文章的觀點(diǎn)是否正確,但是它已經(jīng)給出了一個(gè)信息:數(shù)據(jù),已經(jīng)引起了人們的“警惕”。

如今,在各大招聘網(wǎng)站,我們可以隨意搜索一下“數(shù)據(jù)挖掘”,各大公司針對(duì)于這個(gè)崗位的需求如同雨后春筍般的出現(xiàn)。同樣,通過(guò)各個(gè)招聘網(wǎng)站平臺(tái)等,我們可以發(fā)現(xiàn)不斷有新的職位名稱(chēng)被創(chuàng)新出來(lái),如數(shù)據(jù)工程師、數(shù)據(jù)分析工程師、Hadoop工程師等等。

數(shù)據(jù)挖掘工程師這個(gè)崗位或許早就有了,那么大數(shù)據(jù)挖掘工程師呢?一字之差,蘊(yùn)含的意義卻相隔千里?;蛟S有人會(huì)說(shuō),這些都是從程序猿、攻城獅的角度看到的,這并不能代表宇宙大眾的意思。好吧,我們換個(gè)思路來(lái)思考這個(gè)問(wèn)題。不過(guò)咱還是接著說(shuō)招聘,我曾寫(xiě)過(guò)一篇關(guān)于大數(shù)據(jù)時(shí)代招聘模式的文章,分析了一下招聘網(wǎng)站到底“懂不懂”我們(求職者)需要什么。

其實(shí)答案是顯而易見(jiàn)的,我們打開(kāi)了一個(gè)招聘網(wǎng)站,呈現(xiàn)在我們面前的是一個(gè)個(gè)我們想要投遞的職位;我們打開(kāi)一個(gè)電影,側(cè)欄顯示的是一個(gè)個(gè)相關(guān)的電影,要么恰巧是同類(lèi)型的,要么恰巧是同一個(gè)演員的電影;我們?cè)诰W(wǎng)上購(gòu)物,底欄顯示的恰巧是你需要的東西。好吧,不止如此,我們看文章、搜索問(wèn)題、網(wǎng)上預(yù)約旅行甚至是看新聞,總是會(huì)在一些不經(jīng)意的角落里發(fā)現(xiàn)我們剛好需要的信息。好巧。

這并不是巧合,個(gè)性化定制已經(jīng)體現(xiàn)在我們生活中的方方面面。我們暫且不去考慮這個(gè)個(gè)性到底有多個(gè)性,不可否認(rèn)的是,與傳統(tǒng)的信息展現(xiàn)來(lái)對(duì)比,它的確是起作用了。

是的,我們猛然發(fā)現(xiàn):人,作為一個(gè)在互聯(lián)網(wǎng)上主動(dòng)尋求信息的主體,已經(jīng)開(kāi)始變得“被動(dòng)”起來(lái)了。曾幾何時(shí),信息已經(jīng)開(kāi)始變得如此“主動(dòng)”,但是,這一切讓我們感到又是那么自然。究其所因,其背后的數(shù)據(jù)是“罪魁禍?zhǔn)?rdquo;。是的,數(shù)據(jù)把我們“出賣(mài)”了。

我突然想到了前一段時(shí)間發(fā)生的一個(gè)事,出于某種原因,我需要一批小企業(yè)、小公司的聯(lián)系方式。按照我們傳統(tǒng)的做法,肯定是找相關(guān)領(lǐng)域的人,依賴(lài)其關(guān)系脈絡(luò),拿到這一批聯(lián)系方式。但是我突然發(fā)現(xiàn),我們?cè)谙嚓P(guān)領(lǐng)域并沒(méi)有熟識(shí)的朋友,或者說(shuō)即使有,也不可能拿到足夠的聯(lián)系信息。

我以智聯(lián)招聘為源頭,使用爬蟲(chóng)、網(wǎng)頁(yè)信息提取、數(shù)據(jù)分析挖掘等相關(guān)技術(shù)拿到了一批數(shù)據(jù)——近3000多個(gè)企業(yè)郵箱。風(fēng)過(guò)留痕,雁過(guò)留聲,如今是一個(gè)互聯(lián)網(wǎng)“橫行”的時(shí)代,只要是個(gè)行為實(shí)體,總是會(huì)在互聯(lián)網(wǎng)上留下足跡的。

這次的事讓我再一次感嘆互聯(lián)網(wǎng)信息量的浩瀚、偉大。信息技術(shù)“滄海桑田”般的快速變遷,十幾年積累的底蘊(yùn),互聯(lián)網(wǎng)上蘊(yùn)含信息就如同一座巨大的金山。“卑微”如斯的人都能從中“竊取”一份小小的財(cái)富,那么浩瀚地球中的其他萬(wàn)千大眾呢?數(shù)據(jù)竟然已經(jīng)變得如此有用,數(shù)據(jù)的影響力竟然強(qiáng)大如斯!這一切的變化是那么的順其自然,是那么的悄無(wú)聲息。

或許,真如馬云所言:人類(lèi)正從IT時(shí)代走向DT時(shí)代!

DT時(shí)代的骨骼:大數(shù)據(jù)處理平臺(tái)的衍變

在數(shù)據(jù)處理需求急劇上升的今天,是什么在支撐著數(shù)據(jù)的變現(xiàn)?是的,正是數(shù)據(jù)處理平臺(tái),或者換種說(shuō)法:一套完整的數(shù)據(jù)處理流程。

從數(shù)據(jù)的采集、清洗、流式實(shí)時(shí)計(jì)算、數(shù)據(jù)落地。在大多數(shù)時(shí)候,這一套完整的流程過(guò)后(或許會(huì)沒(méi)有流式實(shí)時(shí)計(jì)算),這才真正進(jìn)入數(shù)據(jù)的價(jià)值挖掘階段,包括了數(shù)據(jù)的離線(xiàn)計(jì)算,通過(guò)一系列的建模挖掘其隱含的商業(yè)價(jià)值。

當(dāng)然,在大數(shù)據(jù)遍地的今天,數(shù)據(jù)的收集也好、處理也好、挖掘也好,我們想必也要加一個(gè)“大”字了。那么,在DT時(shí)代來(lái)臨的今天,能夠支撐這一流程得以流通的正是數(shù)據(jù)平臺(tái),或者說(shuō)是大數(shù)據(jù)處理平臺(tái),它將是支撐DT時(shí)代來(lái)臨的骨骼!

當(dāng)然,大數(shù)據(jù)處理平臺(tái)也不是一開(kāi)始存在的,它是在經(jīng)歷過(guò)一系列的衍變之后,才形成今天我們看到的,或這或那的數(shù)據(jù)平臺(tái)形式。

就在不久前,我曾在storm-分布式-IT技術(shù)群中發(fā)起了一次近千人的話(huà)題討論(當(dāng)然,實(shí)際參與討論的人遠(yuǎn)沒(méi)有這么多,很大一部分人還是喜歡靜靜的圍觀的),其核心就是當(dāng)前互聯(lián)網(wǎng)公司中大數(shù)據(jù)平臺(tái)發(fā)展的現(xiàn)狀。

當(dāng)時(shí)的討論過(guò)程很劇烈,匯聚了各個(gè)企業(yè)公司的大牛小牛、程序猿、設(shè)計(jì)獅、產(chǎn)品狗,總之各種“動(dòng)物”都有,眾說(shuō)紛紜,各有各的觀點(diǎn)看法,但總體來(lái)說(shuō)就目前幾種大數(shù)據(jù)平臺(tái)的形態(tài),大家還是有比較一致的看法的。

1、大數(shù)據(jù)處理平臺(tái)的終極形態(tài):深度挖掘

數(shù)據(jù)已經(jīng)完美流通,包括了完整的大規(guī)模數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)預(yù)處理清洗系統(tǒng)、數(shù)據(jù)流式實(shí)時(shí)計(jì)算系統(tǒng)、大規(guī)模數(shù)據(jù)存儲(chǔ)系統(tǒng)、大規(guī)模離線(xiàn)計(jì)算系統(tǒng);擁有全面的數(shù)據(jù)監(jiān)控調(diào)度系統(tǒng),能夠方便地低成本地進(jìn)行數(shù)據(jù)流程監(jiān)控、調(diào)度,實(shí)時(shí)掌握數(shù)據(jù)的動(dòng)態(tài)變化;擁有完善符合自身業(yè)務(wù)需求的機(jī)器學(xué)習(xí)算法庫(kù),數(shù)據(jù)挖掘?qū)用妫呀?jīng)進(jìn)入了數(shù)據(jù)深層挖掘階段。

其中以BAT為代表。在國(guó)內(nèi),BAT一向是技術(shù)的引領(lǐng)者,因此他們?cè)跀?shù)據(jù)價(jià)值挖掘這一方面,也確實(shí)做到了領(lǐng)先地步。

2、其次是大數(shù)據(jù)平臺(tái)完善,處于數(shù)據(jù)淺層挖掘狀態(tài)

同樣,這種形態(tài)的企業(yè)公司,數(shù)據(jù)平臺(tái)的數(shù)據(jù)已經(jīng)完全打通,他們已經(jīng)在開(kāi)始嘗試挖掘數(shù)據(jù)的潛在價(jià)值,意圖達(dá)成數(shù)據(jù)的變現(xiàn)。

當(dāng)然,或許是由于技術(shù)積累的問(wèn)題,或許是人力物力的原因,他們并沒(méi)有能力做深一層的探索、挖掘,但是他們卻一直在努力。他們?nèi)鄙偈且惶淄晟频?,適合自己的,又能夠方便使用的數(shù)據(jù)挖掘庫(kù)。

處于這種形態(tài)的公司也不少,諸如CSDN、去哪兒、藝龍等等,他們?cè)趥€(gè)性化的道路上孜孜不倦地探索著。

3、數(shù)據(jù)流通,處于數(shù)據(jù)統(tǒng)計(jì)分析階段

這種形態(tài)的數(shù)據(jù)中心,大規(guī)模數(shù)據(jù)處理平臺(tái)已經(jīng)基本搭建,數(shù)據(jù)已經(jīng)能夠流通,處于大規(guī)模數(shù)據(jù)的統(tǒng)計(jì)分析階段。

這種類(lèi)型的公司,他們更多傾向于對(duì)數(shù)據(jù)倉(cāng)庫(kù)的建立,對(duì)大批量數(shù)據(jù)進(jìn)行存儲(chǔ)、統(tǒng)計(jì)并且分析數(shù)據(jù)的走勢(shì)以及變化。所以,就Hadoop生態(tài)來(lái)說(shuō),他們可能更傾向于使用Hive之類(lèi)的技術(shù)或者工具。

處于這種形態(tài)的公司是占大多數(shù)的,典型如剛組建大數(shù)據(jù)部門(mén)的短短一年時(shí)間的360,當(dāng)然還有很多很多類(lèi)似的公司,數(shù)不勝數(shù)。他們希望摸清楚自己到底掌握了什么樣的數(shù)據(jù),這些數(shù)據(jù)到底是怎么變化的,通過(guò)對(duì)這些數(shù)據(jù)的了解以及掌控,他們才能更好做出更合理的商業(yè)決策。

在不久的將來(lái),在他們已經(jīng)充分掌握了數(shù)據(jù)的規(guī)律,他們也必然會(huì)向數(shù)據(jù)潛在價(jià)值挖掘方向努力。

4、數(shù)據(jù)整合,平臺(tái)搭建階段

這種形態(tài)下,數(shù)據(jù)尚未流通,整個(gè)體系尚未搭建起來(lái)。

或者說(shuō),很多企業(yè)公司,在以往的情況下,各個(gè)部門(mén)產(chǎn)品,其數(shù)據(jù)都是分開(kāi)維護(hù)的。需要維護(hù)多份數(shù)據(jù),成本高;數(shù)據(jù)的利用率低,數(shù)據(jù)不連通。

他們意圖將數(shù)據(jù)進(jìn)行整合,有一套完整的收集、清洗以及落地的流程,因此,他們尤其缺少懂得數(shù)據(jù)收集、數(shù)據(jù)清晰以及數(shù)據(jù)大規(guī)模落地的人才?;蛘?,換個(gè)更通俗的說(shuō)法,他們?nèi)鄙俣肏adoop生態(tài)平臺(tái)的人。

這種公司也不少,諸如金山的西山居,智能手機(jī)界的黑馬小米等。

5、數(shù)據(jù)量不夠,但然仍意圖搭建一個(gè)大數(shù)據(jù)處理平臺(tái)

這一部分公司大部分都是小公司,在數(shù)據(jù)量層面上,他們并沒(méi)有很急切的需求,去搭建起一套完善的數(shù)據(jù)處理平臺(tái)。

或許是受大數(shù)據(jù)潮流影響,但是,從長(zhǎng)遠(yuǎn)的角度來(lái)看,隨著數(shù)據(jù)量的增長(zhǎng),這也必然是一個(gè)趨勢(shì)。所以,他們往往也會(huì)花費(fèi)少量的人力物力,在這一方面上進(jìn)行技術(shù)預(yù)研,或者搭建起一個(gè)簡(jiǎn)單的小規(guī)模數(shù)據(jù)處理平臺(tái)。

其實(shí),簡(jiǎn)單來(lái)看,這是大數(shù)據(jù)處理平臺(tái)的五種不同形態(tài),但這又何嘗不是大數(shù)據(jù)處理平臺(tái)的一個(gè)衍變過(guò)程呢?!在DT時(shí)代來(lái)臨的今天,你是否清楚自己處于一個(gè)什么的位置,將來(lái)又會(huì)向何處發(fā)展變遷?

只有將骨骼搭建起來(lái)了,我們才能、才有資格去談?wù)撊绾瓮诰驍?shù)據(jù)的潛在價(jià)值。我們不止需要骨骼來(lái)支撐DT這一體系,更需要源源不斷的血液來(lái)激發(fā)它的活力。

DT時(shí)代的血液:數(shù)據(jù)從何而來(lái)

如果說(shuō)大數(shù)據(jù)處理平臺(tái)是支撐DT的骨骼,那么數(shù)據(jù)就是DT的血液,如何造血就是大家需要關(guān)注的問(wèn)題了。

1、企業(yè)的業(yè)務(wù)數(shù)據(jù)

數(shù)據(jù)最直接來(lái)源就是各個(gè)企業(yè)公司自己產(chǎn)生的業(yè)務(wù)數(shù)據(jù),或許是某些公司擁有很強(qiáng)的預(yù)見(jiàn)性,多年前就已經(jīng)開(kāi)始收集自己的數(shù)據(jù),也或許是他的無(wú)意之舉,但不管怎么樣,他把自己的歷史數(shù)據(jù)給保留了下來(lái)。當(dāng)然,有部分公司,本身產(chǎn)生數(shù)據(jù)的速度就足夠快,數(shù)據(jù)量也足夠多,他們就不必?fù)?dān)心這個(gè)問(wèn)題了。

2、互聯(lián)網(wǎng)的隱藏?cái)?shù)據(jù)

前不久,有一個(gè)朋友在群里問(wèn)了一個(gè)比較復(fù)雜問(wèn)題,是關(guān)于數(shù)據(jù)抓取解析方面的??赡苁撬麊?wèn)的問(wèn)題太深?yuàn)W,也可能是恰巧群里大牛都不在,總之就是沒(méi)有人解決。

有人就問(wèn)了:

哥們,你研究這個(gè)這么深干嘛?

他回答了一句:

抓取數(shù)據(jù)啊,難道你們研究處理的數(shù)據(jù)不是從網(wǎng)上抓取的嗎?

這句話(huà)讓我猛然驚醒:有人已經(jīng)開(kāi)始向互聯(lián)網(wǎng)這座公共金山動(dòng)手了。十幾年的底蘊(yùn),隱藏了多少數(shù)據(jù)財(cái)富?在DT時(shí)代來(lái)臨的今天,必定會(huì)越來(lái)越多的人去挖掘它的價(jià)值,只不過(guò)這需要一定的技術(shù)、一定手段而已。

3、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的暴漲

相對(duì)于互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng)的發(fā)展歷史并不長(zhǎng),但他的發(fā)展可謂是日新月異。如今,隨著智能手機(jī)的普及,3G、4G網(wǎng)絡(luò)的推廣,移動(dòng)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)正在處于爆炸似得增長(zhǎng),這是一座新的數(shù)據(jù)金山,需要我們?nèi)ラ_(kāi)采它。

4、傳統(tǒng)以及線(xiàn)下數(shù)據(jù)的接入整合

隨著總理的一句“互聯(lián)網(wǎng)+”,傳統(tǒng)行業(yè)開(kāi)始紛紛與互聯(lián)網(wǎng)結(jié)合,這帶來(lái)的最直接影響是:線(xiàn)下數(shù)據(jù)的接入與整合。

或許有人會(huì)說(shuō):傳統(tǒng)行業(yè)能有多少數(shù)據(jù)??汕f(wàn)不能小看傳統(tǒng)行業(yè)的數(shù)據(jù),畢竟他們有著近乎數(shù)十年,遠(yuǎn)超于互聯(lián)網(wǎng)的歷史,其累計(jì)的數(shù)據(jù)量亦不可小看。

隨著“互聯(lián)網(wǎng)+”的進(jìn)一步發(fā)展,線(xiàn)下接入的數(shù)據(jù)也將是DT時(shí)代的血液之一。

5、網(wǎng)連萬(wàn)物:萬(wàn)物都可以產(chǎn)生數(shù)據(jù)

說(shuō)到物聯(lián)網(wǎng),其實(shí)很多年前就有人說(shuō)它一定會(huì)火起來(lái),但是之前卻一直沒(méi)有火起來(lái)。究其因,不在乎兩個(gè):一是移動(dòng)網(wǎng)絡(luò)成本過(guò)高;二是終端感應(yīng)技術(shù)尚未發(fā)展到這個(gè)階段。

但如今不一樣了,隨著3G、4G網(wǎng)絡(luò)的普及,移動(dòng)網(wǎng)絡(luò)成本大幅度下降;智能終端感應(yīng)技術(shù)的快速發(fā)展也讓物聯(lián)網(wǎng)這一技術(shù)方向不再是概念。我們可以看到,眾多互聯(lián)網(wǎng)公司已經(jīng)開(kāi)始紛紛布局智能領(lǐng)域了,包括智能家居、智能交通、智慧城市、智能辦公等等。

在DT時(shí)代,感應(yīng)終端也將是一個(gè)巨大的數(shù)據(jù)產(chǎn)生源,一個(gè)DT時(shí)代造血的源頭。

在DT時(shí)代即將來(lái)臨的今天,不止是數(shù)據(jù)處理以及數(shù)據(jù)獲取這兩個(gè)方面值得我們反思,還有其他的方方面面需要我們?nèi)ニ伎?。通過(guò)不斷的反思,不斷的改進(jìn),我們做好最充分的準(zhǔn)備,迎接DT時(shí)代的到來(lái)!

關(guān)鍵字:DTHive數(shù)據(jù)挖掘

本文摘自:虎嗅網(wǎng)

x DT時(shí)代變革的反思:為何這么突然? 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

DT時(shí)代變革的反思:為何這么突然?

責(zé)任編輯:editor006 作者:blogchong |來(lái)源:企業(yè)網(wǎng)D1Net  2015-05-26 20:33:10 本文摘自:虎嗅網(wǎng)

DT(Digital Technology)一詞,翻譯過(guò)來(lái)即數(shù)據(jù)科技,可以說(shuō),這并不是一個(gè)新詞,但它真正引起我注意的是阿里研究院最近寫(xiě)的一本書(shū)《互聯(lián)網(wǎng)+:從IT到DT》,阿里作為國(guó)內(nèi)IT技術(shù)的引領(lǐng)者,其技術(shù)定論不可輕視。

我們先撇開(kāi)DT不說(shuō),我們先來(lái)看一看IT。

從1936年圖靈機(jī)的發(fā)明,到1945年馮.諾依曼機(jī)的出現(xiàn),這些都是計(jì)算機(jī)發(fā)展的基石,甚至于往后各種大型、小型計(jì)算機(jī)的誕生,嚴(yán)格意義上來(lái)說(shuō),這都不是IT。真正IT技術(shù)的開(kāi)始應(yīng)該是萬(wàn)維網(wǎng)的發(fā)明,這標(biāo)志著信息進(jìn)入了互聯(lián)的時(shí)代。

國(guó)內(nèi)互聯(lián)網(wǎng)技術(shù)的發(fā)展比國(guó)外稍微的晚了那么幾年,但其發(fā)展勢(shì)頭遠(yuǎn)非其他國(guó)家能比。1997年,中國(guó)只有60萬(wàn)網(wǎng)民,而現(xiàn)在已經(jīng)超過(guò)了6億,其增長(zhǎng)速度可見(jiàn)一斑??梢哉f(shuō),如今互聯(lián)網(wǎng)已經(jīng)影響到了人們衣食住行的方方面面。

這是一個(gè)IT時(shí)代,對(duì)于這個(gè)定論,或許大部分人都不會(huì)反對(duì)。但是有一天,有人突然對(duì)你說(shuō):人類(lèi)正在從IT時(shí)代步入到DT時(shí)代(數(shù)據(jù)科技時(shí)代),我們一只腳已經(jīng)踏入了數(shù)據(jù)科技時(shí)代?

為何這么突然?

這并不突然,這一切的一切都是那么有預(yù)見(jiàn)性!

DT時(shí)代來(lái)臨:變革在悄然發(fā)生

數(shù)據(jù)科學(xué)家一詞,最早是在2009年被提出來(lái)的。當(dāng)然,它的提出并不是一個(gè)轟動(dòng)性的事件,甚至還有很多人并不贊成突然出現(xiàn)這一科學(xué)分支。

然而就在幾個(gè)月前,有人在騰訊科技上發(fā)表了一篇文章《數(shù)據(jù)科學(xué)家可能成為2015年最熱門(mén)職業(yè)》,我們暫且不去評(píng)論這篇文章的觀點(diǎn)是否正確,但是它已經(jīng)給出了一個(gè)信息:數(shù)據(jù),已經(jīng)引起了人們的“警惕”。

如今,在各大招聘網(wǎng)站,我們可以隨意搜索一下“數(shù)據(jù)挖掘”,各大公司針對(duì)于這個(gè)崗位的需求如同雨后春筍般的出現(xiàn)。同樣,通過(guò)各個(gè)招聘網(wǎng)站平臺(tái)等,我們可以發(fā)現(xiàn)不斷有新的職位名稱(chēng)被創(chuàng)新出來(lái),如數(shù)據(jù)工程師、數(shù)據(jù)分析工程師、Hadoop工程師等等。

數(shù)據(jù)挖掘工程師這個(gè)崗位或許早就有了,那么大數(shù)據(jù)挖掘工程師呢?一字之差,蘊(yùn)含的意義卻相隔千里。或許有人會(huì)說(shuō),這些都是從程序猿、攻城獅的角度看到的,這并不能代表宇宙大眾的意思。好吧,我們換個(gè)思路來(lái)思考這個(gè)問(wèn)題。不過(guò)咱還是接著說(shuō)招聘,我曾寫(xiě)過(guò)一篇關(guān)于大數(shù)據(jù)時(shí)代招聘模式的文章,分析了一下招聘網(wǎng)站到底“懂不懂”我們(求職者)需要什么。

其實(shí)答案是顯而易見(jiàn)的,我們打開(kāi)了一個(gè)招聘網(wǎng)站,呈現(xiàn)在我們面前的是一個(gè)個(gè)我們想要投遞的職位;我們打開(kāi)一個(gè)電影,側(cè)欄顯示的是一個(gè)個(gè)相關(guān)的電影,要么恰巧是同類(lèi)型的,要么恰巧是同一個(gè)演員的電影;我們?cè)诰W(wǎng)上購(gòu)物,底欄顯示的恰巧是你需要的東西。好吧,不止如此,我們看文章、搜索問(wèn)題、網(wǎng)上預(yù)約旅行甚至是看新聞,總是會(huì)在一些不經(jīng)意的角落里發(fā)現(xiàn)我們剛好需要的信息。好巧。

這并不是巧合,個(gè)性化定制已經(jīng)體現(xiàn)在我們生活中的方方面面。我們暫且不去考慮這個(gè)個(gè)性到底有多個(gè)性,不可否認(rèn)的是,與傳統(tǒng)的信息展現(xiàn)來(lái)對(duì)比,它的確是起作用了。

是的,我們猛然發(fā)現(xiàn):人,作為一個(gè)在互聯(lián)網(wǎng)上主動(dòng)尋求信息的主體,已經(jīng)開(kāi)始變得“被動(dòng)”起來(lái)了。曾幾何時(shí),信息已經(jīng)開(kāi)始變得如此“主動(dòng)”,但是,這一切讓我們感到又是那么自然。究其所因,其背后的數(shù)據(jù)是“罪魁禍?zhǔn)?rdquo;。是的,數(shù)據(jù)把我們“出賣(mài)”了。

我突然想到了前一段時(shí)間發(fā)生的一個(gè)事,出于某種原因,我需要一批小企業(yè)、小公司的聯(lián)系方式。按照我們傳統(tǒng)的做法,肯定是找相關(guān)領(lǐng)域的人,依賴(lài)其關(guān)系脈絡(luò),拿到這一批聯(lián)系方式。但是我突然發(fā)現(xiàn),我們?cè)谙嚓P(guān)領(lǐng)域并沒(méi)有熟識(shí)的朋友,或者說(shuō)即使有,也不可能拿到足夠的聯(lián)系信息。

我以智聯(lián)招聘為源頭,使用爬蟲(chóng)、網(wǎng)頁(yè)信息提取、數(shù)據(jù)分析挖掘等相關(guān)技術(shù)拿到了一批數(shù)據(jù)——近3000多個(gè)企業(yè)郵箱。風(fēng)過(guò)留痕,雁過(guò)留聲,如今是一個(gè)互聯(lián)網(wǎng)“橫行”的時(shí)代,只要是個(gè)行為實(shí)體,總是會(huì)在互聯(lián)網(wǎng)上留下足跡的。

這次的事讓我再一次感嘆互聯(lián)網(wǎng)信息量的浩瀚、偉大。信息技術(shù)“滄海桑田”般的快速變遷,十幾年積累的底蘊(yùn),互聯(lián)網(wǎng)上蘊(yùn)含信息就如同一座巨大的金山。“卑微”如斯的人都能從中“竊取”一份小小的財(cái)富,那么浩瀚地球中的其他萬(wàn)千大眾呢?數(shù)據(jù)竟然已經(jīng)變得如此有用,數(shù)據(jù)的影響力竟然強(qiáng)大如斯!這一切的變化是那么的順其自然,是那么的悄無(wú)聲息。

或許,真如馬云所言:人類(lèi)正從IT時(shí)代走向DT時(shí)代!

DT時(shí)代的骨骼:大數(shù)據(jù)處理平臺(tái)的衍變

在數(shù)據(jù)處理需求急劇上升的今天,是什么在支撐著數(shù)據(jù)的變現(xiàn)?是的,正是數(shù)據(jù)處理平臺(tái),或者換種說(shuō)法:一套完整的數(shù)據(jù)處理流程。

從數(shù)據(jù)的采集、清洗、流式實(shí)時(shí)計(jì)算、數(shù)據(jù)落地。在大多數(shù)時(shí)候,這一套完整的流程過(guò)后(或許會(huì)沒(méi)有流式實(shí)時(shí)計(jì)算),這才真正進(jìn)入數(shù)據(jù)的價(jià)值挖掘階段,包括了數(shù)據(jù)的離線(xiàn)計(jì)算,通過(guò)一系列的建模挖掘其隱含的商業(yè)價(jià)值。

當(dāng)然,在大數(shù)據(jù)遍地的今天,數(shù)據(jù)的收集也好、處理也好、挖掘也好,我們想必也要加一個(gè)“大”字了。那么,在DT時(shí)代來(lái)臨的今天,能夠支撐這一流程得以流通的正是數(shù)據(jù)平臺(tái),或者說(shuō)是大數(shù)據(jù)處理平臺(tái),它將是支撐DT時(shí)代來(lái)臨的骨骼!

當(dāng)然,大數(shù)據(jù)處理平臺(tái)也不是一開(kāi)始存在的,它是在經(jīng)歷過(guò)一系列的衍變之后,才形成今天我們看到的,或這或那的數(shù)據(jù)平臺(tái)形式。

就在不久前,我曾在storm-分布式-IT技術(shù)群中發(fā)起了一次近千人的話(huà)題討論(當(dāng)然,實(shí)際參與討論的人遠(yuǎn)沒(méi)有這么多,很大一部分人還是喜歡靜靜的圍觀的),其核心就是當(dāng)前互聯(lián)網(wǎng)公司中大數(shù)據(jù)平臺(tái)發(fā)展的現(xiàn)狀。

當(dāng)時(shí)的討論過(guò)程很劇烈,匯聚了各個(gè)企業(yè)公司的大牛小牛、程序猿、設(shè)計(jì)獅、產(chǎn)品狗,總之各種“動(dòng)物”都有,眾說(shuō)紛紜,各有各的觀點(diǎn)看法,但總體來(lái)說(shuō)就目前幾種大數(shù)據(jù)平臺(tái)的形態(tài),大家還是有比較一致的看法的。

1、大數(shù)據(jù)處理平臺(tái)的終極形態(tài):深度挖掘

數(shù)據(jù)已經(jīng)完美流通,包括了完整的大規(guī)模數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)預(yù)處理清洗系統(tǒng)、數(shù)據(jù)流式實(shí)時(shí)計(jì)算系統(tǒng)、大規(guī)模數(shù)據(jù)存儲(chǔ)系統(tǒng)、大規(guī)模離線(xiàn)計(jì)算系統(tǒng);擁有全面的數(shù)據(jù)監(jiān)控調(diào)度系統(tǒng),能夠方便地低成本地進(jìn)行數(shù)據(jù)流程監(jiān)控、調(diào)度,實(shí)時(shí)掌握數(shù)據(jù)的動(dòng)態(tài)變化;擁有完善符合自身業(yè)務(wù)需求的機(jī)器學(xué)習(xí)算法庫(kù),數(shù)據(jù)挖掘?qū)用?,已?jīng)進(jìn)入了數(shù)據(jù)深層挖掘階段。

其中以BAT為代表。在國(guó)內(nèi),BAT一向是技術(shù)的引領(lǐng)者,因此他們?cè)跀?shù)據(jù)價(jià)值挖掘這一方面,也確實(shí)做到了領(lǐng)先地步。

2、其次是大數(shù)據(jù)平臺(tái)完善,處于數(shù)據(jù)淺層挖掘狀態(tài)

同樣,這種形態(tài)的企業(yè)公司,數(shù)據(jù)平臺(tái)的數(shù)據(jù)已經(jīng)完全打通,他們已經(jīng)在開(kāi)始嘗試挖掘數(shù)據(jù)的潛在價(jià)值,意圖達(dá)成數(shù)據(jù)的變現(xiàn)。

當(dāng)然,或許是由于技術(shù)積累的問(wèn)題,或許是人力物力的原因,他們并沒(méi)有能力做深一層的探索、挖掘,但是他們卻一直在努力。他們?nèi)鄙偈且惶淄晟频模m合自己的,又能夠方便使用的數(shù)據(jù)挖掘庫(kù)。

處于這種形態(tài)的公司也不少,諸如CSDN、去哪兒、藝龍等等,他們?cè)趥€(gè)性化的道路上孜孜不倦地探索著。

3、數(shù)據(jù)流通,處于數(shù)據(jù)統(tǒng)計(jì)分析階段

這種形態(tài)的數(shù)據(jù)中心,大規(guī)模數(shù)據(jù)處理平臺(tái)已經(jīng)基本搭建,數(shù)據(jù)已經(jīng)能夠流通,處于大規(guī)模數(shù)據(jù)的統(tǒng)計(jì)分析階段。

這種類(lèi)型的公司,他們更多傾向于對(duì)數(shù)據(jù)倉(cāng)庫(kù)的建立,對(duì)大批量數(shù)據(jù)進(jìn)行存儲(chǔ)、統(tǒng)計(jì)并且分析數(shù)據(jù)的走勢(shì)以及變化。所以,就Hadoop生態(tài)來(lái)說(shuō),他們可能更傾向于使用Hive之類(lèi)的技術(shù)或者工具。

處于這種形態(tài)的公司是占大多數(shù)的,典型如剛組建大數(shù)據(jù)部門(mén)的短短一年時(shí)間的360,當(dāng)然還有很多很多類(lèi)似的公司,數(shù)不勝數(shù)。他們希望摸清楚自己到底掌握了什么樣的數(shù)據(jù),這些數(shù)據(jù)到底是怎么變化的,通過(guò)對(duì)這些數(shù)據(jù)的了解以及掌控,他們才能更好做出更合理的商業(yè)決策。

在不久的將來(lái),在他們已經(jīng)充分掌握了數(shù)據(jù)的規(guī)律,他們也必然會(huì)向數(shù)據(jù)潛在價(jià)值挖掘方向努力。

4、數(shù)據(jù)整合,平臺(tái)搭建階段

這種形態(tài)下,數(shù)據(jù)尚未流通,整個(gè)體系尚未搭建起來(lái)。

或者說(shuō),很多企業(yè)公司,在以往的情況下,各個(gè)部門(mén)產(chǎn)品,其數(shù)據(jù)都是分開(kāi)維護(hù)的。需要維護(hù)多份數(shù)據(jù),成本高;數(shù)據(jù)的利用率低,數(shù)據(jù)不連通。

他們意圖將數(shù)據(jù)進(jìn)行整合,有一套完整的收集、清洗以及落地的流程,因此,他們尤其缺少懂得數(shù)據(jù)收集、數(shù)據(jù)清晰以及數(shù)據(jù)大規(guī)模落地的人才?;蛘撸瑩Q個(gè)更通俗的說(shuō)法,他們?nèi)鄙俣肏adoop生態(tài)平臺(tái)的人。

這種公司也不少,諸如金山的西山居,智能手機(jī)界的黑馬小米等。

5、數(shù)據(jù)量不夠,但然仍意圖搭建一個(gè)大數(shù)據(jù)處理平臺(tái)

這一部分公司大部分都是小公司,在數(shù)據(jù)量層面上,他們并沒(méi)有很急切的需求,去搭建起一套完善的數(shù)據(jù)處理平臺(tái)。

或許是受大數(shù)據(jù)潮流影響,但是,從長(zhǎng)遠(yuǎn)的角度來(lái)看,隨著數(shù)據(jù)量的增長(zhǎng),這也必然是一個(gè)趨勢(shì)。所以,他們往往也會(huì)花費(fèi)少量的人力物力,在這一方面上進(jìn)行技術(shù)預(yù)研,或者搭建起一個(gè)簡(jiǎn)單的小規(guī)模數(shù)據(jù)處理平臺(tái)。

其實(shí),簡(jiǎn)單來(lái)看,這是大數(shù)據(jù)處理平臺(tái)的五種不同形態(tài),但這又何嘗不是大數(shù)據(jù)處理平臺(tái)的一個(gè)衍變過(guò)程呢?!在DT時(shí)代來(lái)臨的今天,你是否清楚自己處于一個(gè)什么的位置,將來(lái)又會(huì)向何處發(fā)展變遷?

只有將骨骼搭建起來(lái)了,我們才能、才有資格去談?wù)撊绾瓮诰驍?shù)據(jù)的潛在價(jià)值。我們不止需要骨骼來(lái)支撐DT這一體系,更需要源源不斷的血液來(lái)激發(fā)它的活力。

DT時(shí)代的血液:數(shù)據(jù)從何而來(lái)

如果說(shuō)大數(shù)據(jù)處理平臺(tái)是支撐DT的骨骼,那么數(shù)據(jù)就是DT的血液,如何造血就是大家需要關(guān)注的問(wèn)題了。

1、企業(yè)的業(yè)務(wù)數(shù)據(jù)

數(shù)據(jù)最直接來(lái)源就是各個(gè)企業(yè)公司自己產(chǎn)生的業(yè)務(wù)數(shù)據(jù),或許是某些公司擁有很強(qiáng)的預(yù)見(jiàn)性,多年前就已經(jīng)開(kāi)始收集自己的數(shù)據(jù),也或許是他的無(wú)意之舉,但不管怎么樣,他把自己的歷史數(shù)據(jù)給保留了下來(lái)。當(dāng)然,有部分公司,本身產(chǎn)生數(shù)據(jù)的速度就足夠快,數(shù)據(jù)量也足夠多,他們就不必?fù)?dān)心這個(gè)問(wèn)題了。

2、互聯(lián)網(wǎng)的隱藏?cái)?shù)據(jù)

前不久,有一個(gè)朋友在群里問(wèn)了一個(gè)比較復(fù)雜問(wèn)題,是關(guān)于數(shù)據(jù)抓取解析方面的??赡苁撬麊?wèn)的問(wèn)題太深?yuàn)W,也可能是恰巧群里大牛都不在,總之就是沒(méi)有人解決。

有人就問(wèn)了:

哥們,你研究這個(gè)這么深干嘛?

他回答了一句:

抓取數(shù)據(jù)啊,難道你們研究處理的數(shù)據(jù)不是從網(wǎng)上抓取的嗎?

這句話(huà)讓我猛然驚醒:有人已經(jīng)開(kāi)始向互聯(lián)網(wǎng)這座公共金山動(dòng)手了。十幾年的底蘊(yùn),隱藏了多少數(shù)據(jù)財(cái)富?在DT時(shí)代來(lái)臨的今天,必定會(huì)越來(lái)越多的人去挖掘它的價(jià)值,只不過(guò)這需要一定的技術(shù)、一定手段而已。

3、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的暴漲

相對(duì)于互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng)的發(fā)展歷史并不長(zhǎng),但他的發(fā)展可謂是日新月異。如今,隨著智能手機(jī)的普及,3G、4G網(wǎng)絡(luò)的推廣,移動(dòng)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)正在處于爆炸似得增長(zhǎng),這是一座新的數(shù)據(jù)金山,需要我們?nèi)ラ_(kāi)采它。

4、傳統(tǒng)以及線(xiàn)下數(shù)據(jù)的接入整合

隨著總理的一句“互聯(lián)網(wǎng)+”,傳統(tǒng)行業(yè)開(kāi)始紛紛與互聯(lián)網(wǎng)結(jié)合,這帶來(lái)的最直接影響是:線(xiàn)下數(shù)據(jù)的接入與整合。

或許有人會(huì)說(shuō):傳統(tǒng)行業(yè)能有多少數(shù)據(jù)??汕f(wàn)不能小看傳統(tǒng)行業(yè)的數(shù)據(jù),畢竟他們有著近乎數(shù)十年,遠(yuǎn)超于互聯(lián)網(wǎng)的歷史,其累計(jì)的數(shù)據(jù)量亦不可小看。

隨著“互聯(lián)網(wǎng)+”的進(jìn)一步發(fā)展,線(xiàn)下接入的數(shù)據(jù)也將是DT時(shí)代的血液之一。

5、網(wǎng)連萬(wàn)物:萬(wàn)物都可以產(chǎn)生數(shù)據(jù)

說(shuō)到物聯(lián)網(wǎng),其實(shí)很多年前就有人說(shuō)它一定會(huì)火起來(lái),但是之前卻一直沒(méi)有火起來(lái)。究其因,不在乎兩個(gè):一是移動(dòng)網(wǎng)絡(luò)成本過(guò)高;二是終端感應(yīng)技術(shù)尚未發(fā)展到這個(gè)階段。

但如今不一樣了,隨著3G、4G網(wǎng)絡(luò)的普及,移動(dòng)網(wǎng)絡(luò)成本大幅度下降;智能終端感應(yīng)技術(shù)的快速發(fā)展也讓物聯(lián)網(wǎng)這一技術(shù)方向不再是概念。我們可以看到,眾多互聯(lián)網(wǎng)公司已經(jīng)開(kāi)始紛紛布局智能領(lǐng)域了,包括智能家居、智能交通、智慧城市、智能辦公等等。

在DT時(shí)代,感應(yīng)終端也將是一個(gè)巨大的數(shù)據(jù)產(chǎn)生源,一個(gè)DT時(shí)代造血的源頭。

在DT時(shí)代即將來(lái)臨的今天,不止是數(shù)據(jù)處理以及數(shù)據(jù)獲取這兩個(gè)方面值得我們反思,還有其他的方方面面需要我們?nèi)ニ伎肌Mㄟ^(guò)不斷的反思,不斷的改進(jìn),我們做好最充分的準(zhǔn)備,迎接DT時(shí)代的到來(lái)!

關(guān)鍵字:DTHive數(shù)據(jù)挖掘

本文摘自:虎嗅網(wǎng)

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 仁布县| 保德县| 岳阳县| 张家界市| 布拖县| 曲周县| 双城市| 郓城县| 望城县| 台前县| 万载县| 临汾市| 子洲县| 邹平县| 外汇| 荥经县| 浙江省| 江阴市| 铜梁县| 连山| 瓦房店市| 信宜市| 延边| 丹江口市| 海兴县| 德保县| 安仁县| 河池市| 洛隆县| 株洲县| 新泰市| 伊春市| 连山| 西畴县| 岳西县| 昭觉县| 松潘县| 嘉黎县| 中西区| 辽宁省| 北宁市|