基于云的應(yīng)用程序處理大數(shù)據(jù)時(shí),被處理的大數(shù)據(jù)不僅具有高容量、高速度、多類型的3V特性,還必須輔以第四個(gè)V:準(zhǔn)確性。尤其在處理屬于他人的數(shù)據(jù)的時(shí)候。
在波士頓大數(shù)據(jù)創(chuàng)新會(huì)議上的一個(gè)對(duì)話會(huì)上,IBM云數(shù)據(jù)服務(wù)事業(yè)部產(chǎn)品開發(fā)副總裁邁克·奧羅克(Mike O’Rourke)表示,所有四個(gè)特性,包括在論證中的數(shù)據(jù)所有權(quán)的問題,在推動(dòng)業(yè)務(wù)敏捷性上都各自扮演著一個(gè)重要角色。大部分現(xiàn)代云應(yīng)用處理的數(shù)據(jù)都來自外部資源,在使用前必須清理。
“開發(fā)團(tuán)隊(duì)必須敏捷,這樣他們才能迅速反應(yīng),提供應(yīng)用程序的快速更新。”他說。“這意味著,在處理大數(shù)據(jù)時(shí),你必須有不同的思考方式。”雖然奧羅克(O’Rourke)并沒有過于發(fā)揮到引用阿甘的“生活就像一盒巧克力”的格言,但他明確表示,當(dāng)應(yīng)用程序收集、處理和存儲(chǔ)大數(shù)據(jù)時(shí),你永遠(yuǎn)不知道會(huì)得到什么。因此,基于云的應(yīng)用程序的設(shè)計(jì)必須足夠靈活,以保證無論遇到何種數(shù)據(jù),運(yùn)行不間斷。
奧羅克解釋4個(gè)V的概念。他說,首先,高容量是最主要的。因?yàn)樵坪鸵苿?dòng)應(yīng)用需要處理交互的數(shù)據(jù)量,不論是事務(wù)型數(shù)據(jù)還是流數(shù)據(jù),正從TB級(jí)到PB級(jí)飛漲。
多類型是說,應(yīng)用程序必須能處理結(jié)構(gòu)化和非結(jié)構(gòu)化的多種形式的數(shù)據(jù)。視頻數(shù)據(jù)是非結(jié)構(gòu)化的,但應(yīng)用程序必須了解其內(nèi)容。奧羅克解釋,“如果你是一個(gè)廣播公司,你不希望在有許多人喪生的嚴(yán)重車禍的影片后,廣告出現(xiàn)說,買一輛雪佛蘭車吧。這兩者放在一起違和。”
高速度,或者說動(dòng)態(tài)數(shù)據(jù),正變得越來越重要,尤其是在數(shù)據(jù)容量突飛猛進(jìn)的現(xiàn)實(shí)情況下。奧羅克說,“物聯(lián)網(wǎng)通過傳感器收集的和社會(huì)化的海量數(shù)據(jù),正向我們涌來,你的應(yīng)用程序必須能夠提供實(shí)時(shí)決策。” 收集數(shù)據(jù)供以后分析或處理的概念已經(jīng)過時(shí)了,他補(bǔ)充道。
準(zhǔn)確性是指在處理的數(shù)據(jù)的可靠性各異的情況下(這被稱為數(shù)據(jù)的不確定性),應(yīng)用程序需表現(xiàn)出靈活性。奧羅克舉例,電池沒電或突然失去通訊聯(lián)系時(shí),健身設(shè)備和手機(jī)傳來的數(shù)據(jù)可能突然中斷。“你的應(yīng)用程序能處理這樣的突發(fā)情況嗎?”
傳統(tǒng)上,無論是零售交易、工廠車間的工藝控制,或是保險(xiǎn)的保費(fèi)和效益跟蹤的案例,企業(yè)都是自己收集數(shù)據(jù)、自己處理。但云時(shí)代世界不一樣了。奧羅克說,“當(dāng)構(gòu)建應(yīng)用程序或做應(yīng)用分析時(shí),可能遇到的情況是,不論你在哪間公司,大部分需要處理的數(shù)據(jù)都不是公司自己擁有的。
他舉了一個(gè)批大學(xué)工程專業(yè)學(xué)生夏天在IBM實(shí)習(xí)的例子。這些學(xué)生為紐約市搭建了一個(gè)應(yīng)用程序,用來精確定位不安全道路的位置。學(xué)生們利用的數(shù)據(jù)包括機(jī)動(dòng)車交通事故、天氣、日出、日落、空氣的濕度、道路是否濕滑、道路指示牌和道路標(biāo)志的地理空間信息等。所有的數(shù)據(jù)都是公共數(shù)據(jù),來自公共領(lǐng)域。
在幾個(gè)星期內(nèi),這組學(xué)生創(chuàng)建了一個(gè)應(yīng)用程序,標(biāo)識(shí)了需要維修或重新設(shè)計(jì)具體道路的地點(diǎn),司機(jī)可能會(huì)受益于更早展示警告標(biāo)志的地方,和交通信號(hào)需要改變的十字路口。
“因?yàn)榇蟛糠中枰幚淼臄?shù)據(jù)不是你自己擁有的,所以我可以提供給開發(fā)人員的最好建議是:在檢視和分析數(shù)據(jù)之前,必須有必要對(duì)數(shù)據(jù)進(jìn)行清理、標(biāo)記和儲(chǔ)存。” 奧羅克總結(jié)說。