摘要 : 可以說,如今互聯(lián)網(wǎng)已經(jīng)影響到了人們衣食住行甚至是政務(wù)等方方面面。這是一個(gè)IT時(shí)代!對于這個(gè)定論,或許大部分人都不會(huì)反對。但是有一天,有人突然對你說:人類正在從IT時(shí)代步入到DT時(shí)代。 DT時(shí)代,數(shù)據(jù)科技時(shí)代。我們一只腳已經(jīng)踏入了數(shù)據(jù)科技時(shí)代?為何這么突然?!這并不突然,這一切的一切都是那么有預(yù)見性!
DT一詞,翻譯過來即數(shù)據(jù)科技。可以說,這并不是一個(gè)新詞,但它真正引起我注意的是阿里研究院最近寫的一本書《互聯(lián)網(wǎng)+:從IT到DT》。阿里作為國內(nèi)IT技術(shù)的引領(lǐng)者,其技術(shù)定論不可輕易忽視之!
我們先撇開DT不說,我們先來看一看IT。
從1936年的圖靈機(jī)的發(fā)明到1945年馮.諾依曼機(jī)的出現(xiàn),這些都是計(jì)算機(jī)發(fā)展的基石,甚至于往后各種大型計(jì)算機(jī)、小型計(jì)算機(jī)的誕生,嚴(yán)格意義上來說,這都不是IT。真正IT技術(shù)的開始應(yīng)該是萬維網(wǎng)的發(fā)明,這標(biāo)志著信息進(jìn)入了互聯(lián)的時(shí)代。
國內(nèi)互聯(lián)網(wǎng)技術(shù)的發(fā)展比國外稍微的晚了那么幾年,但其發(fā)展勢頭遠(yuǎn)不是其他國家能比的,97年的時(shí)候只有60萬網(wǎng)民,而現(xiàn)在已經(jīng)超過了6億,其增長速度可見一斑。
可以說,如今互聯(lián)網(wǎng)已經(jīng)影響到了人們衣食住行甚至是政務(wù)等方方面面。
這是一個(gè)IT時(shí)代!
對于這個(gè)定論,或許大部分人都不會(huì)反對。但是有一天,有人突然對你說:人類正在從IT時(shí)代步入到DT時(shí)代。
DT時(shí)代,數(shù)據(jù)科技時(shí)代。我們一只腳已經(jīng)踏入了數(shù)據(jù)科技時(shí)代?為何這么突然?!
這并不突然,這一切的一切都是那么有預(yù)見性!
DT時(shí)代來臨--變革在悄然發(fā)生
數(shù)據(jù)科學(xué)家一詞,最早是在09年被提出來的。當(dāng)然,它的提出并不是一個(gè)轟動(dòng)性的事件,甚至可以說還有很多人并不贊成突然出現(xiàn)這一科學(xué)分支。
然而就在幾個(gè)月前,有人在騰訊科技上發(fā)表了一篇文章《數(shù)據(jù)科學(xué)家可能成為2015年最熱門職業(yè)》,我們暫且不去評論這篇文章的觀點(diǎn)是否正確,但是它已經(jīng)給出了一個(gè)信息—數(shù)據(jù),已經(jīng)引起了人們的“警惕”!
如今,在各大招聘網(wǎng)站,我們可以隨意的搜索一下“數(shù)據(jù)挖掘”,各大公司企業(yè)的針對于這個(gè)崗位的需求如同雨后春筍般的出現(xiàn)。
同樣,通過各個(gè)招聘網(wǎng)站平臺等,我們可以發(fā)現(xiàn)不斷有新的職位名稱被創(chuàng)新出來,如數(shù)據(jù)工程師、數(shù)據(jù)分析工程師、Hadoop工程師等等。
數(shù)據(jù)挖掘工程師這個(gè)崗位或許早就有了,那么大數(shù)據(jù)挖掘工程師呢?一字之差,但蘊(yùn)含的意義卻相隔千里。
或許有人會(huì)說,這些都是從程序猿、攻城獅的角度看到的,這并不能代表宇宙大眾的意思。
好吧,我們換個(gè)思路來思考這個(gè)問題。不過咱還是接著說招聘,我曾寫過一篇關(guān)于大數(shù)據(jù)時(shí)代招聘模式的文章,分析了一下招聘網(wǎng)站到底“懂不懂”我們(求職者)需要什么。
其實(shí)答案是顯而易見的,我們打開了一個(gè)招聘網(wǎng)站,呈現(xiàn)在我們面前的是一個(gè)個(gè)恰巧是我們想要投遞的職位;我們打開一個(gè)電影,側(cè)欄顯示的是一個(gè)個(gè)相關(guān)的電影,要么恰巧是同類型的,要么恰巧是同一個(gè)演員的電影;我們在網(wǎng)上購物,底欄顯示的恰巧是你需要的東西。
好吧,不止如此,我們看文章、搜索問題、網(wǎng)上預(yù)約旅行甚至是看新聞,總是會(huì)在一些不經(jīng)意的角落里發(fā)現(xiàn)我們剛好需要的信息。好巧!
這并不是巧合!個(gè)性化定制已經(jīng)體現(xiàn)在我們生活中的方方面面。我們暫且不去考慮這個(gè)個(gè)性到底有多個(gè)性,不可否認(rèn)的是,與傳統(tǒng)的信息展現(xiàn)來對比,它的確是起作用了。
是的,我們猛然發(fā)現(xiàn):人,作為一個(gè)在互聯(lián)網(wǎng)上主動(dòng)尋求信息的主體,已經(jīng)開始變得“被動(dòng)”起來了。
曾幾何時(shí),信息已經(jīng)變得如此“主動(dòng)”。但是,這一切讓我們感到又是那么自然。
究其所因,其背后的數(shù)據(jù)是“罪魁禍?zhǔn)?rdquo;。是的,數(shù)據(jù)把我們“出賣”了!
我突然想到了前一段時(shí)間發(fā)生的一個(gè)事。出于某種原因的需求,我需要一批小企業(yè)、小公司的聯(lián)系方式。按照我們傳統(tǒng)的做法,肯定是找相關(guān)領(lǐng)域的人,依賴其關(guān)系脈絡(luò),拿到這一批聯(lián)系方式。
但是我突然發(fā)現(xiàn),我們在相關(guān)領(lǐng)域并沒有熟識的朋友,或者說即使有,也不可能拿到這么多的聯(lián)系信息。
最終,我還是拿到了近3000多個(gè)企業(yè)郵箱。風(fēng)過留痕,雁過留聲。如今是一個(gè)互聯(lián)網(wǎng)“橫行”的時(shí)代,只要是個(gè)行為實(shí)體,總是會(huì)在互聯(lián)網(wǎng)上留下足跡的。我以智聯(lián)招聘為源頭,使用爬蟲、網(wǎng)頁信息提取、數(shù)據(jù)分析挖掘等相關(guān)技術(shù)拿到了這一批數(shù)據(jù)。
這次的事讓我再一次感嘆互聯(lián)網(wǎng)信息量的浩瀚、偉大。信息技術(shù)“滄海桑田”般的快速變遷,十幾年積累的底蘊(yùn),互聯(lián)網(wǎng)上蘊(yùn)含信息就如同一座巨大的金山。“卑微”如斯的人都能從中“竊取”一份小小的財(cái)富,那么浩瀚地球中的其他萬千大眾呢?
數(shù)據(jù)竟然已經(jīng)變得如此有用,數(shù)據(jù)的影響力竟然強(qiáng)大如斯!這一切的變化是那么的順其自然,是那么的悄無聲息。
或許,真如馬云所言:人類正從IT時(shí)代走向DT時(shí)代!
在數(shù)據(jù)處理需求急劇上升的今天,是什么在支撐著數(shù)據(jù)的變現(xiàn)?
DT時(shí)代的骨骼--大數(shù)據(jù)處理平臺的衍變
是的,正是數(shù)據(jù)處理平臺,或者換種說法:一套完整的數(shù)據(jù)處理流程。
從數(shù)據(jù)的采集、清洗、流式實(shí)時(shí)計(jì)算、數(shù)據(jù)落地。在大多數(shù)時(shí)候,這一套完整的流程過后(或許會(huì)沒有流式實(shí)時(shí)計(jì)算),這才真正進(jìn)入數(shù)據(jù)的價(jià)值挖掘階段,包括了數(shù)據(jù)的離線計(jì)算,通過一系列的建模挖掘其隱含的商業(yè)價(jià)值。
當(dāng)然,在大數(shù)據(jù)遍地的今天,數(shù)據(jù)的收集也好、處理也好、挖掘也好,我們想必也要加一個(gè)“大”字了。
那么,在DT時(shí)代來臨的今天,能夠支撐這一流程得以流通的正是數(shù)據(jù)平臺,或者說是大數(shù)據(jù)處理平臺。
它將是支撐DT時(shí)代來臨的骨骼!
當(dāng)然,大數(shù)據(jù)處理平臺也不是一開始存在的,它也必然經(jīng)歷著一系列的衍變。才形成今天我們看到的,或這或那的數(shù)據(jù)平臺形式。
就在不久前,我曾在storm-分布式-IT技術(shù)群中發(fā)起了一次近千人的話題討論(當(dāng)然,實(shí)際參與討論的人遠(yuǎn)沒有這么多,很大一部分人還是喜歡靜靜的圍觀的),其核心就是當(dāng)前互聯(lián)網(wǎng)公司中大數(shù)據(jù)平臺發(fā)展的現(xiàn)狀。
當(dāng)時(shí)的討論過程很劇烈,匯聚了各個(gè)企業(yè)公司的大牛小牛、程序猿、設(shè)計(jì)獅、產(chǎn)品狗,總之各種動(dòng)物都有,眾說紛紜,各有各的觀點(diǎn)看法,但總體來說就目前幾種大數(shù)據(jù)平臺的形態(tài),大家還是有比較一致的看法的。
(1)大數(shù)據(jù)處理平臺的終極形態(tài)--深度挖掘
數(shù)據(jù)已經(jīng)完美流通,包括了完整的大規(guī)模數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)預(yù)處理清洗系統(tǒng)、數(shù)據(jù)流式實(shí)時(shí)計(jì)算系統(tǒng)、大規(guī)模數(shù)據(jù)存儲(chǔ)系統(tǒng)、大規(guī)模離線計(jì)算系統(tǒng);擁有全面的數(shù)據(jù)監(jiān)控調(diào)度系統(tǒng),能夠方便地低成本地進(jìn)行數(shù)據(jù)流程監(jiān)控、調(diào)度,實(shí)時(shí)掌握數(shù)據(jù)的動(dòng)態(tài)變化;擁有完善符合自身業(yè)務(wù)需求的機(jī)器學(xué)習(xí)算法庫,數(shù)據(jù)挖掘?qū)用妫呀?jīng)進(jìn)入了數(shù)據(jù)深層挖掘階段。
其中以BAT為代表。在國內(nèi),BAT一向是技術(shù)的引領(lǐng)者,因此他們在數(shù)據(jù)價(jià)值挖掘這一方面,也確實(shí)做到了領(lǐng)先地步。
(2)其次是大數(shù)據(jù)平臺完善,處于數(shù)據(jù)淺層挖掘狀態(tài)
同樣,這種形態(tài)的企業(yè)公司,數(shù)據(jù)平臺的數(shù)據(jù)已經(jīng)完全打通,他們已經(jīng)在開始嘗試挖掘數(shù)據(jù)的潛在價(jià)值,意圖達(dá)到數(shù)據(jù)的變現(xiàn)。
當(dāng)然,或許是由于技術(shù)積累的問題,或許是人力物力的原因,他們并沒有能力做深一層的探索、挖掘,但是他們卻一直在努力。他們?nèi)鄙偈且惶淄晟频模m合自己的,又能夠方便使用的數(shù)據(jù)挖掘庫。
處于這種形態(tài)的公司也不少,諸如CSDN、去哪兒、藝龍等等,他們在個(gè)性化的道路上孜孜不倦地探索著。
(3)數(shù)據(jù)流通,處于數(shù)據(jù)統(tǒng)計(jì)分析階段
這種形態(tài)的數(shù)據(jù)中心,大規(guī)模數(shù)據(jù)處理平臺已經(jīng)基本搭建,數(shù)據(jù)已經(jīng)能夠流通,處于大規(guī)模數(shù)據(jù)的統(tǒng)計(jì)分析階段。
這種類型的公司,他們更多傾向于對數(shù)據(jù)倉庫的建立,對大批量數(shù)據(jù)進(jìn)行存儲(chǔ)、統(tǒng)計(jì)并且分析數(shù)據(jù)的走勢以及變化。所以,就Hadoop生態(tài)來說,他們可能更傾向于使用Hive之類的技術(shù)或者工具。
處于這種形態(tài)的公司是占大多數(shù)的,典型如剛組建大數(shù)據(jù)部門的短短一年時(shí)間的360,當(dāng)然還有很多很多類似的公司,數(shù)不勝數(shù)。
他們希望摸清楚自己到底掌握了什么樣的數(shù)據(jù),這些數(shù)據(jù)到底是怎么變化的,通過對這些數(shù)據(jù)的了解以及掌控,他們才能更好做出更合理的商業(yè)決策。
在不久的將來,在他們已經(jīng)充分掌握了數(shù)據(jù)的規(guī)律,他們也必然會(huì)向數(shù)據(jù)潛在價(jià)值挖掘方向努力。
(4)數(shù)據(jù)整合,平臺搭建階段
這種形態(tài)下,數(shù)據(jù)尚未流通,整個(gè)體系尚未搭建起來。
或者說,很多企業(yè)公司,在以往的情況下,各個(gè)部門產(chǎn)品,其數(shù)據(jù)都是分開維護(hù)的。需要維護(hù)多份數(shù)據(jù),成本高;數(shù)據(jù)的利用率低,數(shù)據(jù)不連通。
他們意圖將數(shù)據(jù)進(jìn)行整合,有一套完整的收集、清洗以及落地的流程,因此,他們尤其缺少懂得數(shù)據(jù)收集、數(shù)據(jù)清晰以及數(shù)據(jù)大規(guī)模落地的人才。或者,換個(gè)更通俗的說法,他們?nèi)鄙俣胔adoop生態(tài)平臺的人。
這種公司也不少,諸如金山的西山居,智能手機(jī)界的黑馬小米等。
(5)數(shù)據(jù)量不夠,但然仍意圖搭建一個(gè)大數(shù)據(jù)處理平臺
這一部分公司大部分都是小公司,在數(shù)據(jù)量層面上,他們并沒有很急切的需求,去搭建起一套完善的數(shù)據(jù)處理平臺。
或許是受大數(shù)據(jù)潮流影響,但是,從長遠(yuǎn)的角度來看,隨著數(shù)據(jù)量的增長,這也必然是一個(gè)趨勢。
所以,他們往往也會(huì)花費(fèi)少量的人力物力,在這一方面上進(jìn)行技術(shù)預(yù)研,或者搭建起一個(gè)簡單的小規(guī)模數(shù)據(jù)處理平臺。
其實(shí),簡單來看,這是大數(shù)據(jù)處理平臺的五種不同形態(tài),但這又何嘗不是大數(shù)據(jù)處理平臺的一個(gè)衍變過程呢?!
在DT時(shí)代來臨的今天,你是否清楚自己處于一個(gè)什么的位置,將來又將向何處發(fā)展變遷?
只有將骨骼搭建起來了,我們才能、才有資格去談?wù)撊绾瓮诰驍?shù)據(jù)的潛在價(jià)值。
我們不止需要骨骼來支撐DT這一體系,更需要源源不斷的血液來激發(fā)它的活力。
DT時(shí)代的血液--數(shù)據(jù)從何處而來
是的,前面我們說了很多很多,但一個(gè)關(guān)鍵的問題不可忽視:數(shù)據(jù)從何處而來?
如果說大數(shù)據(jù)處理平臺是支撐DT的骨骼,那么數(shù)據(jù)就是DT的血液。那么如何造血就是大家所關(guān)注的問題了。
(1)企業(yè)的業(yè)務(wù)數(shù)據(jù)
數(shù)據(jù)最直接來源就是各個(gè)企業(yè)公司自己產(chǎn)生的業(yè)務(wù)數(shù)據(jù),或許是某些公司擁有很強(qiáng)的預(yù)見性,多年前就已經(jīng)開始收集自己的數(shù)據(jù),也或許是他的無意之舉。
但不管怎么樣,他把自己的歷史數(shù)據(jù)給保留了下來。當(dāng)然,有部分公司,本身產(chǎn)生數(shù)據(jù)的速度就足夠快,數(shù)據(jù)量也足夠多,他們就不必?fù)?dān)心這個(gè)問題了。
(2)互聯(lián)網(wǎng)的隱藏?cái)?shù)據(jù)
前不久,有一個(gè)朋友在群里問了一個(gè)比較復(fù)雜問題,是關(guān)于數(shù)據(jù)抓取解析方面的。
可能是他問的問題太深?yuàn)W,也可能是恰巧群里大牛都不在,總之就是沒有人解決。
有人就問了:哥們,你研究這個(gè)這么深干嗎?他回答了一句:抓取數(shù)據(jù)啊,難道你們研究處理的數(shù)據(jù)不是從網(wǎng)上抓取的嗎?
這句話讓我猛然驚醒:有人已經(jīng)開始向互聯(lián)網(wǎng)這座公共金山動(dòng)手了。
十幾年的底蘊(yùn),隱藏了多少數(shù)據(jù)財(cái)富?在DT時(shí)代來臨的今天,必定會(huì)越來越多的人去挖掘它的價(jià)值,只不過這需要一定的技術(shù)、一定手段而已。
(3)移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的暴漲
相對于互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng)的發(fā)展歷史并不長,但他的發(fā)展可謂是日新月異。
如今,隨著智能手機(jī)的普及,3G、4G網(wǎng)絡(luò)的推廣,移動(dòng)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)正在處于爆炸似得增長。
同樣,這是一座新的數(shù)據(jù)金山,需要我們?nèi)ラ_采它。
(4)傳統(tǒng)以及線下數(shù)據(jù)的接入整合
隨著總理的一句“互聯(lián)網(wǎng)+”,傳統(tǒng)行業(yè)開始紛紛與互聯(lián)網(wǎng)進(jìn)行結(jié)合,這帶來的最直接影響是:線下數(shù)據(jù)的接入與整合。
或許有人會(huì)說:傳統(tǒng)行業(yè)能有多少數(shù)據(jù)。可千萬不能小看傳統(tǒng)行業(yè)的數(shù)據(jù),畢竟他們有著近乎數(shù)十年,遠(yuǎn)超于互聯(lián)網(wǎng)的歷史,其累計(jì)的數(shù)據(jù)量亦不可小看。
隨著“互聯(lián)網(wǎng)+”的進(jìn)一步發(fā)展,線下接入的數(shù)據(jù)也將是DT時(shí)代的血液之一。
(5)網(wǎng)連萬物--萬物都可以產(chǎn)生數(shù)據(jù)
說道物聯(lián)網(wǎng),其實(shí)很多年前就有人說他一定會(huì)火起來,但是之前卻一直沒有火起來。究其因,不在乎兩個(gè):一是移動(dòng)網(wǎng)絡(luò)成本過高;二是終端感應(yīng)技術(shù)尚未發(fā)展到這個(gè)階段。
但如今不一樣了,隨著3G、4G網(wǎng)絡(luò)的普及,移動(dòng)網(wǎng)絡(luò)成本大幅度下降;智能終端感應(yīng)技術(shù)的快速發(fā)展也讓物聯(lián)網(wǎng)這一技術(shù)方向不再是概念。
我們可以看到,眾多互聯(lián)網(wǎng)公司已經(jīng)開始紛紛布局智能領(lǐng)域了,包括智能家居、智能交通、智慧城市、智能辦公等等。
在DT時(shí)代,感應(yīng)終端也將是一個(gè)巨大的數(shù)據(jù)產(chǎn)生源,一個(gè)DT時(shí)代造血的源頭。
在DT時(shí)代即將來臨的今天,不止是數(shù)據(jù)處理以及數(shù)據(jù)獲取這兩個(gè)方面值得我們反思,還有其他的方方面面需要我們?nèi)ニ伎肌?/p>
通過不斷的反思,不斷的改進(jìn),我們做好最充分的準(zhǔn)備,迎接DT時(shí)代的到來!