Intetix Foundation(英明泰思基金會(huì))由從事數(shù)據(jù)科學(xué)、非營(yíng)利組織和公共政策研究的中國(guó)學(xué)者發(fā)起成立,致力于通過(guò)數(shù)據(jù)科學(xué)改善人類社會(huì)和自然環(huán)境。通過(guò)聯(lián)絡(luò)、動(dòng)員中美最頂尖的數(shù)據(jù)科學(xué)家和社會(huì)科學(xué)家,以及分布在全球的志愿者,我們創(chuàng)造性地踐行著我們的使命:為美好生活洞見(jiàn)數(shù)據(jù)價(jià)值。
在大數(shù)據(jù)時(shí)代,人們很容易把一大堆數(shù)據(jù)定義為“大數(shù)據(jù)”,比如,大型制造企業(yè)和倉(cāng)庫(kù)可能存有多年積累下來(lái)的存貨數(shù)據(jù),或許高達(dá)幾兆兆字節(jié),但這并不能算大數(shù)據(jù)。同樣,1500個(gè)PoS機(jī)的現(xiàn)金數(shù)據(jù)、一大份工作表中的數(shù)據(jù)也不是大數(shù)據(jù)。
企業(yè)需要行之有效的方法去儲(chǔ)存、分析、使用數(shù)據(jù),如果管理的不是大數(shù)據(jù)問(wèn)題,那就沒(méi)有必要建立數(shù)據(jù)池、雇傭數(shù)據(jù)科學(xué)家,也沒(méi)有必要買一堆Hadoop產(chǎn)品去管理。說(shuō)到底,辨別所管理的是大數(shù)據(jù)還是大量數(shù)據(jù)至關(guān)重要。以下推出五種辨別方法:
1. 數(shù)據(jù)是否來(lái)源于多種不同渠道?如果數(shù)據(jù)來(lái)源單一,即使數(shù)據(jù)量很大,也不太可能是大數(shù)據(jù)。
職業(yè)數(shù)據(jù)人會(huì)考慮大數(shù)據(jù)的三V(或4V):數(shù)量,多樣性,速度,(精確性)。本文討論的就是第二種:多樣性。一般來(lái)說(shuō),大數(shù)據(jù)往往不是來(lái)自于單一源頭或系統(tǒng),而是來(lái)自于許多不同的地方,不同的形式,以及不同的變量。例如,PoS數(shù)據(jù)盡管數(shù)量龐大但不是大數(shù)據(jù),可是如果把從供應(yīng)商處取得的數(shù)據(jù)與其整合以構(gòu)建供應(yīng)鏈,則它們就成了大數(shù)據(jù)。因此,問(wèn)題在于是什么形成了大數(shù)據(jù),而不是僅僅考慮數(shù)量因素。
2. 數(shù)據(jù)是否需要被實(shí)時(shí)分析使用?并不是所有的大數(shù)據(jù)都一定來(lái)源于多種不同渠道,當(dāng)數(shù)據(jù)需要被實(shí)時(shí)分析使用,比如預(yù)防欺詐、股票交易,盡管數(shù)據(jù)缺乏多樣性,但仍可被定義為大數(shù)據(jù)。在信用服務(wù)業(yè),用于預(yù)防欺詐的數(shù)據(jù)來(lái)源并不復(fù)雜,但需要實(shí)時(shí)分析技術(shù)(通常用Spark,有時(shí)會(huì)同時(shí)使用Hadoop和Spark),這樣若真的存在欺詐,也會(huì)被馬上檢測(cè)出并予以阻止。同樣的,股票交易員所依賴的高頻交易數(shù)據(jù)也并不是特別復(fù)雜的數(shù)據(jù),但需要連續(xù)處理以做出買入或賣出股票的決定,Hadoop和Spark是被經(jīng)常使用的分析工具。
3. 你是否需要詢問(wèn)復(fù)雜問(wèn)題?當(dāng)你開(kāi)始針對(duì)數(shù)據(jù)詢問(wèn)更加復(fù)雜的問(wèn)題的時(shí)候,比如確定因果關(guān)系,則該數(shù)據(jù)就成了大數(shù)據(jù)。當(dāng)然,在這種情況下,最好還是使用多方面來(lái)源的數(shù)據(jù)。比如,當(dāng)你想知道女性紅色高跟鞋的四月份的市場(chǎng)情況的時(shí)候,你所要的數(shù)據(jù)就不僅僅是你自己的采購(gòu)記錄了,你還要整合社交媒體和其他外部市場(chǎng)數(shù)據(jù)以得到最佳答案。
4. 數(shù)據(jù)集是否代表了許多不同的變量?如果數(shù)據(jù)代表了一系列不同的難以界定模式和關(guān)聯(lián)性的變量,那么即使數(shù)據(jù)是由單一系統(tǒng)或小型系統(tǒng)搜集而來(lái),也可認(rèn)定為是大數(shù)據(jù)。例如,氣象數(shù)據(jù)僅從一些基礎(chǔ)的系統(tǒng)取得(氣溫,氣壓,風(fēng)速等),但數(shù)據(jù)關(guān)系卻極為復(fù)雜,即使是最富經(jīng)驗(yàn)的氣象學(xué)家也不一定總能做出準(zhǔn)確的氣象預(yù)測(cè),因此,他們會(huì)使用高度專業(yè)化的數(shù)據(jù)分析方法以作出更準(zhǔn)確的預(yù)測(cè)(盡管還是有人會(huì)說(shuō)他們并不比有關(guān)節(jié)炎的老人更準(zhǔn)確)。
5. 數(shù)據(jù)是未架構(gòu)的,半架構(gòu)的,架構(gòu)的還是以上的綜合?諸如SQL等關(guān)系明確的數(shù)據(jù)庫(kù)長(zhǎng)時(shí)間以來(lái)成功的處理了組織良好的數(shù)據(jù),但如今的多媒體世界為我們呈現(xiàn)了一系列未架構(gòu)的和半架構(gòu)的數(shù)據(jù),這些數(shù)據(jù)在SQL中無(wú)法得到良好的處理。這些數(shù)據(jù)包括圖像,視頻,文本文件,電子郵件交流,社交媒體,音頻文件以及其他。NoSQL數(shù)據(jù)庫(kù)正在變得更受歡迎,Hadoop和其他大數(shù)據(jù)工具在處理這些多樣化的數(shù)據(jù)類型的時(shí)候顯得更為強(qiáng)大,特別是你所做的處理工作不僅僅是保存和找回圖像等。
你的數(shù)據(jù)是大數(shù)據(jù)嗎?如果是,那么就去找尋合適的工具處理你的數(shù)據(jù),通過(guò)Syncsort你可以找到大數(shù)據(jù)處理辦法;如果你需要處理主機(jī)上的大數(shù)據(jù),現(xiàn)在Hadoop也能幫你解決這個(gè)問(wèn)題了。