斯諾登帶來(lái)的啟發(fā),不僅僅在于信息安全和自主可控的重要性,還包括如何避免大數(shù)據(jù)項(xiàng)目的一些誤區(qū)。
斯諾登最新的爆料涉及911和NSA(美國(guó)國(guó)家安全局)的監(jiān)控手段。據(jù)央視日前報(bào)道,斯諾登稱,美國(guó)在911事件發(fā)生前已獲得必要的情報(bào)信息,CIA(中情局)也都知道恐怖分子是誰(shuí),但在所有搜集到的海量機(jī)密信息中,他們沒(méi)能完全理解信息之間的關(guān)聯(lián),以致沒(méi)能及時(shí)做出決策性判斷,有效的措施也就更無(wú)從說(shuō)起了。
NSA的新信息來(lái)自《紐約時(shí)報(bào)》的報(bào)道。除了收集電話元數(shù)據(jù)和郵件通訊內(nèi)容,NSA每天還收集數(shù)百萬(wàn)張圖像,建造一個(gè)大型數(shù)據(jù)庫(kù)以便更好地追蹤和識(shí)別目標(biāo)人物,斯諾登說(shuō),其中約5.5萬(wàn)張具備“面部識(shí)別質(zhì)量”。
通過(guò)上述信息,無(wú)論從“4V(Volume、Velocity、Variety、Value)”的哪個(gè)角度來(lái)看,美國(guó)情報(bào)部門所做的事情都應(yīng)該算得上是“大數(shù)據(jù)”項(xiàng)目。事實(shí)上,受斯諾登事件影響而卸任的原NSA局長(zhǎng)、美軍網(wǎng)絡(luò)司令部司令、四星上將Gen.KeithAlexander(基思·亞歷山大)曾表示,未來(lái)屬于大數(shù)據(jù)。
明確價(jià)值點(diǎn)
“我們生活在大數(shù)據(jù)的時(shí)代,我們必須弄清楚如何利用它。”Alexander說(shuō)。NSA在他主政長(zhǎng)達(dá)8年多的時(shí)間里,所收集的海量信息甚至令該機(jī)構(gòu)的諸多前高管感到難以置信。據(jù)悉,Alexander引入了大數(shù)據(jù)解決方案為NSA加速數(shù)據(jù)的分類和處理,其中一款名為“ApacheAccumulo”的工具可以處理PB級(jí)數(shù)據(jù)。
結(jié)果,盡管Alexander辯護(hù)稱棱鏡項(xiàng)目在反恐工作中發(fā)揮了作用,但不管CIA還是NSA,911這樣本來(lái)可以預(yù)防的重大恐怖襲擊事件畢竟還是發(fā)生了。所以說(shuō),斯諾登的爆料,再次驗(yàn)證了Value(價(jià)值)才是大數(shù)據(jù)的核心。組織如果要實(shí)施大數(shù)據(jù)項(xiàng)目,價(jià)值最大化一定是評(píng)估項(xiàng)目的第一要素。
按照斯諾登的說(shuō)法,美國(guó)投入大量資金的監(jiān)控項(xiàng)目并沒(méi)能保證美國(guó)公民的安全,反而剝奪了人們的權(quán)利。這可能是是斯諾登和Alexander對(duì)價(jià)值的理解有差異。信奉數(shù)據(jù)的人,不便以陰謀論去推測(cè)Alexander和NSA的具體用意,但監(jiān)控百余名外國(guó)領(lǐng)導(dǎo)人這樣的行動(dòng),確實(shí)似乎和美國(guó)公民安全沒(méi)有直接的聯(lián)系,更不用說(shuō)未經(jīng)授權(quán)監(jiān)控美國(guó)公民了。
我們能夠得到兩點(diǎn)啟示:資源要用到刀刃上,否則大數(shù)據(jù)也會(huì)成為廢數(shù)據(jù)或者大浪費(fèi)——畢竟,數(shù)據(jù)的收集和存儲(chǔ)需要人力、財(cái)力、時(shí)間和IT基礎(chǔ)設(shè)施的投入,甚至還可能有組織架構(gòu)的調(diào)整;更為重要的是,你要弄清楚刀刃在哪里,也就是說(shuō)實(shí)施大數(shù)據(jù)要樹立正確的目標(biāo)。
相信奉行利益最大化的現(xiàn)代企業(yè)一定能想到大數(shù)據(jù)要追求大價(jià)值,迷茫的更多在于刀刃在哪里。這可以參考互聯(lián)網(wǎng)公司,在大數(shù)據(jù)概念走紅之前,壓榨數(shù)據(jù)的潛能作為企業(yè)核心競(jìng)爭(zhēng)力就已經(jīng)是他們的信條。例如,百度和谷歌借助用戶瀏覽行為提供個(gè)性化的搜索,淘寶亞馬遜因?yàn)楦鶕?jù)用戶購(gòu)物習(xí)慣為用戶提供精準(zhǔn)的喜好物品。學(xué)習(xí)互聯(lián)網(wǎng)企業(yè),從營(yíng)銷入手,更快速地定位到你的客戶,或者更好地理解和響應(yīng)客戶的需求,改善產(chǎn)品的用戶體驗(yàn),是一個(gè)不錯(cuò)的切入點(diǎn),相對(duì)易于實(shí)施和見(jiàn)效。
另外,從此前報(bào)道的“CIA每年花費(fèi)千萬(wàn)美元向電信運(yùn)營(yíng)商AT&T公司購(gòu)買國(guó)際電話數(shù)據(jù)”來(lái)看,神秘的NSA,盡管對(duì)通訊的監(jiān)控很到位,但其數(shù)據(jù)庫(kù)并不能為CIA的同行所用,而后者出于業(yè)務(wù)需求,也建設(shè)有自己的大數(shù)據(jù)。這種數(shù)據(jù)壁壘的現(xiàn)象,無(wú)疑會(huì)帶來(lái)重復(fù)建設(shè)的問(wèn)題,資源浪費(fèi)嚴(yán)重,無(wú)法做到將資源用到刀刃上。隨著IT的發(fā)展逐步推進(jìn)的信息化,煙囪式的系統(tǒng)帶來(lái)的數(shù)據(jù)孤島已是現(xiàn)實(shí),如果要更好地發(fā)揮數(shù)據(jù)的價(jià)值,是時(shí)候考慮數(shù)據(jù)集中、云平臺(tái)的建設(shè)或者利用了。
當(dāng)然,如果實(shí)現(xiàn)數(shù)據(jù)的共享,NSA的保密性就要差很多,普通的項(xiàng)目,還可能涉及奧巴馬的智囊團(tuán)最近提醒白宮的大數(shù)據(jù)隱私問(wèn)題(在NSA和CIA面前應(yīng)當(dāng)可以無(wú)視隱私了)。但在一個(gè)企業(yè)組織內(nèi)部,如果沒(méi)有必要,故意設(shè)置數(shù)據(jù)壁壘,是不利于大數(shù)據(jù)價(jià)值的發(fā)揮的。
關(guān)注分析而非數(shù)據(jù)量
更重要的一點(diǎn),CIA未能提前預(yù)防911,是因?yàn)椴荒芡耆斫庑畔⒅g的關(guān)聯(lián)。但維克托·邁爾-舍恩伯格早已指出,大數(shù)據(jù)的相關(guān)關(guān)系分析法,更準(zhǔn)確,更快,而且不易受偏見(jiàn)的影響。換言之,建立在相關(guān)關(guān)系基礎(chǔ)上的預(yù)測(cè)應(yīng)該是大數(shù)據(jù)的核心,這種預(yù)測(cè)更加靠譜。對(duì)于911事件而言,盡管大數(shù)據(jù)工具足夠給力,但Alexander和他的同行在關(guān)聯(lián)性分析方面還做得不夠。殷鑒不遠(yuǎn),我們就更要根據(jù)關(guān)聯(lián)性來(lái)收集數(shù)據(jù)并分析,提升大數(shù)據(jù)的價(jià)值。
和整個(gè)業(yè)界產(chǎn)生的數(shù)據(jù)量相比,有選擇地收集的數(shù)據(jù)、甚至只是利用已有的數(shù)據(jù)可能還太小,但不必懊喪,我們要的是數(shù)據(jù)的價(jià)值,沒(méi)必要糾結(jié)是不是大數(shù)據(jù),也沒(méi)必要為滿足占有欲望而保有數(shù)據(jù)(當(dāng)然合規(guī)性需求不在此列)。
JMP數(shù)據(jù)分析大中華地區(qū)總經(jīng)理嚴(yán)雪林就對(duì)大數(shù)據(jù)的概念不甚熱心。在他看來(lái),數(shù)據(jù)分析的本質(zhì)是用來(lái)改善運(yùn)營(yíng)的,大小數(shù)據(jù)分析的差別只是數(shù)據(jù)量及其對(duì)數(shù)據(jù)存儲(chǔ)、查詢及分析吞吐量的要求不同;從手頭、身邊保有的小數(shù)據(jù)當(dāng)中提取價(jià)值,是大數(shù)據(jù)時(shí)代數(shù)字化決策的基礎(chǔ)。
所以說(shuō),分析才是數(shù)據(jù)實(shí)現(xiàn)價(jià)值的保障。其實(shí),上述CIA不能理解關(guān)聯(lián)性,也是業(yè)務(wù)分析技能不足的一種表現(xiàn)。但嚴(yán)雪林從Google的搜索結(jié)果分析得出結(jié)論,中國(guó)用戶對(duì)大數(shù)據(jù)看得太重,對(duì)分析看得太輕。
當(dāng)然,也有一些務(wù)實(shí)的企業(yè),譬如百度,注重?cái)?shù)據(jù)分析結(jié)果的呈現(xiàn),年初基于LBS利用的“春運(yùn)大數(shù)據(jù)”就是代表之作,而其開放的大數(shù)據(jù)引擎,提供的也是大數(shù)據(jù)存儲(chǔ)、分析及挖掘的技術(shù)能力,至于其后端的分布式基礎(chǔ)設(shè)施,用戶就無(wú)需了解太多。
高大上的IT基礎(chǔ)設(shè)施提供商或者分析解決方案提供商,是不太愿意承認(rèn)春運(yùn)大數(shù)據(jù)是真正的大數(shù)據(jù)的——它雖然容易為民眾接受,但確實(shí)也和我們?cè)缜暗恼J(rèn)知有所差距。可是對(duì)于社會(huì)管理、生活服務(wù)商或者個(gè)人生活安排來(lái)說(shuō),這種展現(xiàn)自有其價(jià)值。
中國(guó)氣象局與阿里云的攜手是另外一個(gè)例子。借助于阿里云基礎(chǔ)設(shè)施的計(jì)算能力,氣象局在全國(guó)雷達(dá)數(shù)據(jù)的處理即使再快速,天氣預(yù)報(bào)再精確,似乎也只是“數(shù)據(jù)大”而非大數(shù)據(jù),但氣象數(shù)據(jù)和阿里積累的商業(yè)數(shù)據(jù)交匯融合之后形成的服務(wù),其對(duì)各行各業(yè)的價(jià)值之大顯然是不可估量的。
更加務(wù)實(shí)的是教育行業(yè)。在日前第六屆中國(guó)云計(jì)算大會(huì)的云計(jì)算大數(shù)據(jù)教育行業(yè)應(yīng)用論壇,來(lái)自清華、國(guó)防科大、北航等名校的專家教授們就MOOC(大型開放式網(wǎng)絡(luò)課程)的發(fā)展趨勢(shì)進(jìn)行熱烈的討論,他們認(rèn)為MOOC是當(dāng)前云計(jì)算大數(shù)據(jù)在教育領(lǐng)域的最佳實(shí)踐,并提出了計(jì)算教育學(xué)的概念——通過(guò)對(duì)教育全過(guò)程的大數(shù)據(jù)進(jìn)行精確分析,把以定性研究為主體、以經(jīng)驗(yàn)為基礎(chǔ)的教育學(xué),轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為基礎(chǔ)、以計(jì)算和模型為手段的定量科學(xué)。
不過(guò),在他們的探討中,MOOC目前也只是比傳統(tǒng)方式多了簡(jiǎn)單的統(tǒng)計(jì),甚至沒(méi)有涉及數(shù)據(jù)分析技術(shù)的應(yīng)用。一般而言,教授們對(duì)概念摳的比企業(yè)要細(xì)得多,但他們都已經(jīng)接受了這就是大數(shù)據(jù)。這再次證明價(jià)值才是根本。