大數(shù)據(jù)這個關(guān)鍵詞從去年紅到今年,早已成為科技業(yè)的重要趨勢,研調(diào)機(jī)構(gòu)IDC便預(yù)測2015年將有超過25%的企業(yè)導(dǎo)入大數(shù)據(jù)方案,而美國專業(yè)招聘公司羅致 恒富(Robert Halt)公布的《2015薪資指南(2015 Salary Guide》更把大數(shù)據(jù)工程師列為今年薪資漲幅最大的六大行業(yè)之一,預(yù)計(jì)薪資年成長率9.3%,平均年薪119,250美元至168,250美元。
據(jù)美國大數(shù)據(jù)分析與儲存技術(shù)公司Teradata首席CTO寶立明(Stephen Brobst)表示:他認(rèn)為大數(shù)據(jù)這個詞將會在五年內(nèi)消失,并認(rèn)為從物理學(xué)家到社會學(xué)家都會是優(yōu)秀的數(shù)據(jù)科學(xué)家,以下為寶立明專訪的內(nèi)容摘要:
1. 大數(shù)據(jù)這個詞近年來非常火紅,但也有人認(rèn)為大數(shù)據(jù)已處在泡沫期,您怎么看這種人人高喊大數(shù)據(jù)的現(xiàn)象?
我承認(rèn)現(xiàn)在整個社會上彌漫著一股大數(shù)據(jù)熱潮,但我認(rèn)為這不失為一種好現(xiàn)象,因?yàn)檫@讓大家注意到這個世界上還有許多尚未被挖掘,并且充滿價(jià)值的數(shù)據(jù),我認(rèn)為在這股熱潮當(dāng)中,其實(shí)是有黃金的,但就像你說的,其實(shí)還是有很多人不知道大數(shù)據(jù)是什么意思,更不知道怎么用他。
他們以為大數(shù)據(jù)就是指大數(shù)目的數(shù)據(jù),事實(shí)上,我認(rèn)為這是大數(shù)據(jù)中最無趣的部分,我們真正在尋找的是非傳統(tǒng)的、而且未曾被挖掘過的數(shù)據(jù),并且從這些數(shù)據(jù)中去提 煉出價(jià)值,我相信在五年內(nèi)我們就不會再使用”大數(shù)據(jù)”這個詞了,到頭來大數(shù)據(jù)就只是數(shù)據(jù)而已,不是嗎?數(shù)據(jù)是很重要,但是這個世界上還有一大堆以往根本不 被視為是數(shù)據(jù)的數(shù)據(jù)在那邊等著我們挖掘,到最后,人們會開始回頭分析這些資料,他們會發(fā)現(xiàn),大數(shù)據(jù)不過就只是數(shù)據(jù)的一種,大數(shù)據(jù)、小數(shù)據(jù)、結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)...這些稱呼通通都不重要,因?yàn)檫@些都是數(shù)據(jù)啊,這是我認(rèn)為為什么到最后大數(shù)據(jù)這個詞匯將會退燒的原因。
2. 你認(rèn)為數(shù)據(jù)經(jīng)濟(jì)以后將會成為每個企業(yè)的DNA嗎?
是的沒錯,人們將會依據(jù)一家公司是否有效地運(yùn)用數(shù)據(jù),來定義這家公司是否成功。大數(shù)據(jù)這個詞也許是三年前才出現(xiàn)的,但其實(shí)它早在十年前就有了,概念比名詞出 現(xiàn)得更早,在八年前發(fā)生了一個比較重大的轉(zhuǎn)變,人們從研究一筆交易變成研究互動,我們開始往下鉆研,不只研究一筆交易,更研究真實(shí)的顧客體驗(yàn),因此我認(rèn)為 雖然不是每一個,但許多大數(shù)據(jù)應(yīng)用必須要能夠更妥善了解顧客的行為和體驗(yàn)。
我認(rèn)為大數(shù)據(jù)發(fā)展可以分成三階段:
第一階段是.com時(shí)期,人們研究log資料,搜集人們的Cookie和搜尋行為等等,這類分析已經(jīng)存在很久了,我們不只知道使用者買了什么東西而已,而是更深層地去分析行為,一筆交易只告訴我價(jià)值,但沒有告訴我顧客體驗(yàn),大數(shù)據(jù)想要去分析的是顧客體驗(yàn)。
第二階段是社交網(wǎng)站,這也是我們現(xiàn)在正在經(jīng)歷的階段,我們分析Facebook、Twitter、部落格文章...等等等,這可以幫助我們進(jìn)一步了解顧客行為。
第三階段是物聯(lián)網(wǎng),這是我覺得最有趣的階段,有些企業(yè)已經(jīng)開始分析來自傳感器的數(shù)據(jù)了,在這邊我說的物聯(lián)網(wǎng)不只是穿戴式設(shè)備或智能家庭而已,我說的是機(jī)器與 機(jī)器之間的溝通,這些數(shù)據(jù)的價(jià)值很值得被研究。現(xiàn)在制造業(yè)都會訂下一些規(guī)矩,例如我們的汽車每半年就要進(jìn)廠維修,就跟人每年都要去做健康檢查一樣,我認(rèn)為 這是非常過時(shí)的想法,一旦我們用傳感器去搜集引擎、汽車和生理數(shù)據(jù),我們就可以精確知道何時(shí)需要進(jìn)廠維修或做健康檢查,這就叫做預(yù)測性維修 (condition based maintenance),這個概念對于促進(jìn)顧客體驗(yàn)、效益和健康保險(xiǎn)等領(lǐng)域非常重要。
3.你對大數(shù)據(jù)的定義是什么?
一般來說我們用3V定義大數(shù)據(jù),容量(Volume)、快速(Velocity)與多樣性(Variety),其中我認(rèn)為最重要的是多樣性,數(shù)據(jù)不只來自那 些傳統(tǒng)管道,有更多來自非傳統(tǒng)管道的非傳統(tǒng)數(shù)據(jù)產(chǎn)生,我認(rèn)為價(jià)值(Value)是第四個V,人們常常忘了這件事,他們專注于技術(shù),卻忘了創(chuàng)造價(jià)值,但這卻 是一個大數(shù)據(jù)計(jì)劃能否成功的關(guān)鍵:這不只關(guān)乎技術(shù),而是你能用技術(shù)創(chuàng)造出什么價(jià)值。
4.有許多中小企業(yè),許多中小企業(yè)也許認(rèn)為大數(shù)據(jù)是個離他們很遙遠(yuǎn)的概念,因?yàn)樗麄兏緵]有”大數(shù)據(jù)”,您會給他們什么樣的建議?
這些小企業(yè)一看到大數(shù)據(jù)就會想說,喔這一定是很大的數(shù)據(jù)才有辦法做,但數(shù)據(jù)的量其實(shí)從來都不是重點(diǎn),我認(rèn)為”大數(shù)據(jù)”是個非常差勁的命名,因?yàn)樗屓藗冎苯?聯(lián)想到”大”,但數(shù)據(jù)的大小其實(shí)是最無趣的部分,最重要的其實(shí)是那些你從來沒有想過可以用的數(shù)據(jù)以及那些非傳統(tǒng)的數(shù)據(jù),我認(rèn)為這才是人們對大數(shù)據(jù)應(yīng)有的認(rèn)知。
有許多新創(chuàng)企業(yè)在思考如何用大數(shù)據(jù)創(chuàng)造全新的商業(yè)模式,例如硅谷最近有一個正在做P2P交易服務(wù)的新創(chuàng)公司,比如說我們一起去吃午餐,你買單,然后我透過手機(jī)給你我的部份的錢,這不是什么新的概念,但這家公司有趣的地方他不收任何手續(xù)費(fèi),而銀行一點(diǎn)都不喜歡這個主意,你知道現(xiàn)在的銀 行交易都必須額外負(fù)擔(dān)手續(xù)費(fèi),銀行于是說:”你怎么可以完全不收手續(xù)費(fèi)?”這家公司說,因?yàn)檫@些事務(wù)數(shù)據(jù)本身的價(jià)值遠(yuǎn)遠(yuǎn)超過手續(xù)費(fèi)本身。
從此之后,這家公司會知道你我之間有一種連結(jié),如果我們每個禮拜五都出去吃飯,他們就可以判斷我們之間有強(qiáng)烈連結(jié),如果我們一個月或一年才吃一次,那么也許 我們之間的連結(jié)比較弱,這家公司可以藉此判斷人與人之間的關(guān)系強(qiáng)弱,你也許會說:那又怎么樣?這可以干嘛?這家公司將會知道誰是社交意見領(lǐng)袖,如果他要賣 新產(chǎn)品,他可以先從這些人開始著手,例如我也許會買他的東西,但我沒有朋友(笑)所以它就只能賣出一項(xiàng)產(chǎn)品,但你有一百個朋友,你也許是個疑心病比較重的人,所以我要花比較多功夫來說服你買東西,但你一旦用了而且覺得好用,那么你很有可能會將這個訊息散播給你其他一百個朋友,那我搞不好可以再多賣50個產(chǎn) 品,這就是一個善加利用社交數(shù)據(jù),而且突破舊有思考模式的例子。
5. 如何用大數(shù)據(jù)創(chuàng)造商業(yè)模式?
這是個頗為復(fù)雜的問題,因?yàn)榇?數(shù)據(jù)是由很多不同元素組成的,我會把大數(shù)據(jù)認(rèn)定為是比交易系統(tǒng)更深一層的互動分析,首先,如果你有一筆訂單,你就得到了顧客的價(jià)值,但你無法了解他們?yōu)槭?么如此行動,如果我能夠了解他們的行為喜好,我就可以創(chuàng)造更好的顧客體驗(yàn),我創(chuàng)造了更好的顧客體驗(yàn),他們就會越買越多,他們會停留更久,如此我當(dāng)然就可以 創(chuàng)造一個非常強(qiáng)大的商業(yè)模式。
基本上所有的電商網(wǎng)站都在做這件事情,因?yàn)殡娚叹W(wǎng)站無法直接與顧客接觸,所以他們必須透過分析數(shù)據(jù)來與顧客建立關(guān)系,這是個很顯而易見的商業(yè)模式,如果你不分析數(shù)據(jù)去改善顧客經(jīng)驗(yàn),顧客就會離你而去。如果就制造業(yè)來說,預(yù)測性維修是比較常見的大數(shù)據(jù)商業(yè)模式, 這跟傳統(tǒng)的維修模式全然不同,這當(dāng)中的經(jīng)濟(jì)價(jià)值差異是數(shù)以千萬的美元,就算對中小型企業(yè)亦然,如果你知道這些企業(yè)每年花多少錢在維修設(shè)備和安全改善,你就應(yīng)該知道預(yù)測性維修是門好生意。
6.這些對企業(yè)來說是技術(shù)層次的問題,但商業(yè)嗅覺是否才是如何讓大數(shù)據(jù)變現(xiàn)的關(guān)鍵?
是的,我稱之為直覺,你為了驗(yàn)證你的假說,于是你設(shè)計(jì)了一個實(shí)驗(yàn)?zāi)P停绻銢]有商業(yè)嗅覺,你很可能會實(shí)驗(yàn)了一千次但得到很差的結(jié)果,我相信你一定有聽過這個笑話:” 一百萬只猴子也可以寫出莎士比亞等級的著作,只是我們要等很久而已。”你放猴子在那邊一直打字,總會有好的產(chǎn)出的,但這其實(shí)不太好,對吧?所以我認(rèn)為還是需要具備一定的商業(yè)眼光。
好的數(shù)據(jù)科學(xué)家和不好的數(shù)據(jù)科學(xué)家的差別就在于他們的商業(yè)眼光,我認(rèn)為這不只是管理階級的職責(zé),而是一個數(shù)據(jù)科學(xué)家的職責(zé)之一。
7.大數(shù)據(jù)項(xiàng)目牽涉到許多跨部門的協(xié)作,而不只是IT部門的事,你認(rèn)為這會更像是一個管理問題而非技術(shù)問題嗎?
我的確觀察到許多只專注在技術(shù)層面的公司,他們的大數(shù)據(jù)表現(xiàn)通常都不怎么好,管理者必須確保你在埋首進(jìn)行的事是有商業(yè)價(jià)值的,而不只是在玩技術(shù)而已,在麻省 理工學(xué)院有個詞用來形容這些只埋頭搞技術(shù)的人:追隨流行者(Fashionist),這些人盲目追隨科技新潮流,看到云端運(yùn)算就趕快跑去搞云端運(yùn)算,噢看 那邊是大數(shù)據(jù)耶,大家都有我們一定也要有! 他們不知道為什么需要,只是因?yàn)榇蠹叶加校麄兙鸵校@不是一個好策略。
你必須要思考:這有什么商業(yè)價(jià)值?為什么我需要做這個?所以那些最成功的大數(shù)據(jù)項(xiàng)目都是由技術(shù)部門和商業(yè)部門協(xié)作而成的,只有技術(shù)人員是不可能成功的,但同樣地,只有業(yè)務(wù)部門也不會成功,他們必須在一起才能創(chuàng)造價(jià)值。
而數(shù)據(jù)分析的技術(shù)的關(guān)鍵在于,你是否有用對技術(shù),這是許多公司低估的地方,有很多公司混淆了做報(bào)告和分析數(shù)據(jù)的人。比如說美國的教育很重視數(shù)學(xué),但我們的統(tǒng)計(jì)學(xué)教得一蹋胡涂,統(tǒng)計(jì)學(xué)對于數(shù)據(jù)分析非常重要,很多人高中畢業(yè)后也許幾何、微積分很厲害,但他們連最基本的期望值理論都不懂,他們也不懂交叉分析,但這 些技能對于分析數(shù)據(jù)都是非常重要的,我認(rèn)為我們的教育體系和企業(yè)在培育擁有這方面技能的人才上,投資得太少了。
近年來有很多大學(xué)開始開設(shè)數(shù)據(jù)分析課程,我覺得這是一件好事,但問題是等這些人才畢業(yè)了,到時(shí)候我們對大數(shù)據(jù)人才的需求已經(jīng)遠(yuǎn)遠(yuǎn)超過供給了。
8. 你認(rèn)為現(xiàn)在要尋找優(yōu)秀的數(shù)據(jù)分析學(xué)家很困難嗎?
人們常常把計(jì)算機(jī)科學(xué)家和數(shù)據(jù)科學(xué)家混為一談,數(shù)據(jù)科學(xué)家不一定非得要寫程序才能分析數(shù)據(jù),當(dāng)然你不應(yīng)該害怕科技,如果你害怕新科技那你就不是那個對的人,你需要會使用科技,但重點(diǎn)其實(shí)還是在數(shù)據(jù),你要會設(shè)計(jì)實(shí)驗(yàn)、熟悉數(shù)學(xué)和統(tǒng)計(jì)、如何獲取資料和得到結(jié)果...等等等。
當(dāng)然,數(shù)學(xué)系畢業(yè)的人是很好的選擇,但我的經(jīng)驗(yàn)是畢業(yè)自實(shí)驗(yàn)性科學(xué)科系的人也會成為很好的數(shù)據(jù)科學(xué)家,例如:應(yīng)用物理系、化學(xué)系、天文系...等等,因?yàn)樗麄冎涝趺丛O(shè)計(jì)實(shí)驗(yàn)、怎么搜集數(shù)據(jù)和得到結(jié)果,這讓他們成為優(yōu)秀的數(shù)據(jù)科學(xué)家。在麻省理工學(xué)院我們有個笑話,物理系畢業(yè)的人如果不去教物理,他們就失業(yè)了。因?yàn)槌私涛锢砟氵€能干嘛?但現(xiàn)在物理系的人也會是很好的數(shù)據(jù)科學(xué)家,例如eBay最優(yōu)秀的數(shù)據(jù)科學(xué)家就是物理學(xué)家。
你看事情的眼光還需要充滿創(chuàng)意,所以社會學(xué)出身的人也會是很好的數(shù)據(jù)科學(xué)家,很多社會學(xué)家必須做調(diào)查,并且從中搜集和調(diào)查數(shù)據(jù),這已經(jīng)具備了數(shù)據(jù)科學(xué)家該有的特質(zhì)了。但如果你不具備這種分析數(shù)據(jù)的背景的話,可能就不是那么好的候選人了。