如今,我們每天有多少數(shù)據(jù)處理?每年將產(chǎn)生多少數(shù)據(jù)?這一數(shù)字變化如此之快,每一年或兩年翻一番,人們只能從知情人士獲得最佳的估計(jì)數(shù)量。而這些透露消息的人士,其中大部分都是在組織中數(shù)據(jù)管理領(lǐng)域的杰出人物,他們所估計(jì)這個(gè)數(shù)字如此之高,這幾乎讓人不可能想象。根據(jù)全球市場(chǎng)調(diào)查機(jī)構(gòu)IDC公司稱,在2011年,我們大約創(chuàng)造了1.8澤字節(jié)的數(shù)據(jù),換而言之就是1.8萬億千兆字節(jié)的信息。他們繼續(xù)說,在2012年,我們創(chuàng)造了2.8澤字節(jié)的信息。此外,他們說,到2020年,我們將產(chǎn)生40澤字節(jié)的信息。
據(jù)IBM公司估計(jì),我們現(xiàn)在每天創(chuàng)建了2.50億千兆字節(jié)的數(shù)據(jù)。
這種大規(guī)模的數(shù)據(jù)集被稱為大數(shù)據(jù)。大數(shù)據(jù)是已經(jīng)成為非常流行的一個(gè)術(shù)語,以皮字節(jié)和艾字節(jié)表示和描述數(shù)據(jù)集,并且其有時(shí)施加到數(shù)據(jù)集的技術(shù),并處理它的應(yīng)用設(shè)置。
對(duì)于這篇文章的目的,我們將限制定義一個(gè)描述巨大的數(shù)據(jù)量。在2014年9月AIP會(huì)議議事程序中,安德列德·毛羅,馬可·格雷科,米歇爾·格里馬爾迪為我們提供了一個(gè)更具體的和健壯的定義:“大數(shù)據(jù)代表著這種高容量的信息資產(chǎn)的特征,通過各種需要特定的技術(shù)和分析方法,將其轉(zhuǎn)變?yōu)閮r(jià)值”。
注意,這個(gè)定義是很重要的。它不僅是數(shù)據(jù)的數(shù)量,或體積,而且還有速度,也就是服務(wù)和消耗的速度。數(shù)據(jù)流已經(jīng)改變了我們對(duì)存儲(chǔ)和交付數(shù)據(jù)的看法,并放置在基礎(chǔ)設(shè)施和應(yīng)用程序引擎中,而以前難以想象要求能這樣做。
一個(gè)更近的維基百科定義了“體積,速度和品種”短語,并添加到另外兩個(gè)額外的“V”的概念,這兩者都與大數(shù)據(jù)所面臨的挑戰(zhàn)非常相關(guān)的:變異性和準(zhǔn)確性。
數(shù)據(jù)采集及其應(yīng)用
隨著互聯(lián)網(wǎng)的出現(xiàn)和使用大數(shù)據(jù)的人數(shù)成倍增長,收集大量數(shù)據(jù)的能力也與之一起成長。數(shù)據(jù)收集發(fā)生幾乎一樣的其他計(jì)算活動(dòng)的副作用。在我們采取的過程中,數(shù)據(jù)在創(chuàng)建帳戶,上傳文件,以及產(chǎn)生其他明顯的行動(dòng)。然而,數(shù)據(jù)也被無意提交收集,因?yàn)橐恍┢渌钚缘母碑a(chǎn)品。一個(gè)看似私人的行為,如點(diǎn)擊一個(gè)鏈接,對(duì)于營銷人員就可以提供一個(gè)有價(jià)值的信息。因此,數(shù)據(jù)正在被記錄和存儲(chǔ)。并且在某處進(jìn)行處理。
而計(jì)算機(jī)對(duì)于工作人員處理信息是優(yōu)秀的,但沒過多久,營銷等行業(yè)實(shí)現(xiàn)保留供收集數(shù)據(jù)的大量的潛力,因?yàn)樗窃诰W(wǎng)絡(luò)上傳來傳去,最引人注目的是互聯(lián)網(wǎng)(雖然重要的是記住很多大數(shù)據(jù),并將其存儲(chǔ)在企業(yè)的內(nèi)部網(wǎng))。當(dāng)該數(shù)據(jù)與其他數(shù)據(jù),例如人口統(tǒng)計(jì)信息,一個(gè)人的YouTube的喜好,地理位置,社會(huì)行為與Outlook配對(duì),這個(gè)數(shù)據(jù)變得更加強(qiáng)大。
其他行業(yè)也意識(shí)到,他們?cè)谑占吞幚硇畔⒎矫鎻膩頉]有見過這樣大的規(guī)模。不僅互聯(lián)網(wǎng),而且企業(yè)和其他實(shí)體的內(nèi)部網(wǎng)絡(luò)可以容納大量的信息。在美國、印度和其他地方的政府已經(jīng)能夠運(yùn)行更精細(xì)的數(shù)據(jù)調(diào)整,以贏得選舉。國際組織收集和使用醫(yī)療保健、生產(chǎn)力,以及就業(yè)數(shù)據(jù),以幫助他們了解發(fā)展資金是最好的花費(fèi)。私營部門在許多方面使用大數(shù)據(jù),包括交易數(shù)據(jù)和分析。科學(xué)研究涉及到大數(shù)據(jù)分析,例如,大型強(qiáng)子對(duì)撞機(jī)的科研活動(dòng),以及超大型望遠(yuǎn)鏡(VLT)陣列的數(shù)據(jù)返回。此外,大數(shù)據(jù)改變了制造業(yè),通過提供生產(chǎn)、需求、足夠的數(shù)據(jù),分析師將了解是什么導(dǎo)致短缺和過剩,并對(duì)以前難以確定行為和計(jì)劃進(jìn)行可用性分析。
數(shù)據(jù)記錄的澤字節(jié)是一回事,數(shù)據(jù)采集方便又便宜。當(dāng)你認(rèn)為你正在做別的事情的時(shí)候,數(shù)據(jù)收集正在發(fā)生。而我們?nèi)绾卫盟且粋€(gè)完全不同的問題,也是任何組織所面臨的最大挑戰(zhàn)之一,從企業(yè)營銷到政府部門,將考慮如何有效地使用這樣大量的數(shù)據(jù)。
德毛羅等人所描述的數(shù)據(jù)的品種是大數(shù)據(jù)的關(guān)鍵特征之一。數(shù)據(jù)源無處不在,并收集所有類型的信息,其中一些應(yīng)該被認(rèn)為是敏感的,需要安全處理。隨著各種各樣的數(shù)據(jù)到來,這意味著來自不同來源的數(shù)據(jù),格式和可訪問性,即使是相同的信息,也可能是不同的。最后,數(shù)據(jù)的可靠性和準(zhǔn)確性,是數(shù)據(jù)分析人員必須關(guān)注的重點(diǎn)。“臟數(shù)據(jù)”一直是數(shù)據(jù)庫管理的一個(gè)問題,但這個(gè)問題與今天的環(huán)境指數(shù)相乘,具有更高的容量,并提供數(shù)據(jù)多源。
當(dāng)它被成功地分析,大數(shù)據(jù)可以幫助科學(xué)家解碼DNA,它可以幫助政府預(yù)測(cè)恐怖活動(dòng),它可以調(diào)整企業(yè)的產(chǎn)品結(jié)構(gòu),以滿足客戶的需求。
但面對(duì)這樣的數(shù)據(jù)采集,持有人的問題是將如何利用它?并且越來越多,我們?nèi)绾螌?duì)此保證安全?
挑戰(zhàn)和安全
如今,人們所面臨的安全漏洞一直是很嚴(yán)重的,但大數(shù)據(jù)的安全漏洞可能是災(zāi)難性的。數(shù)據(jù)收集可以包括非常敏感和極其隱秘的個(gè)人信息,這將成為身份盜竊和惡意操縱的潛在數(shù)據(jù)。隨著企業(yè)開發(fā)他們的大數(shù)據(jù)存儲(chǔ)和分析系統(tǒng),安全性必須列于他們的優(yōu)先級(jí)名單的首位。
數(shù)據(jù)分析系統(tǒng)面臨著大數(shù)據(jù)這個(gè)第一大挑戰(zhàn)是簡(jiǎn)單的事實(shí),系統(tǒng)和流程都不能處理,我們現(xiàn)在希望定期處理這些數(shù)據(jù)。存儲(chǔ)基礎(chǔ)設(shè)施相對(duì)容易創(chuàng)建:因?yàn)榇鎯?chǔ)設(shè)備已經(jīng)成為廉價(jià)和可用的,并對(duì)其挑戰(zhàn)有著相當(dāng)充分的了解。具分析和使用數(shù)據(jù)是目前正在開發(fā)的高需求,很多企業(yè)都已經(jīng)建立了自己的內(nèi)部數(shù)據(jù)分析:谷歌公司在2014年每天處理的信息大約20PB。