正確理解大數(shù)據(jù)
定義一個(gè)接一個(gè),各類學(xué)者試圖對(duì)大數(shù)據(jù)理論、模型、分析、解決方案等等提出自己的見解。但有2點(diǎn)是清晰的:
首先,關(guān)于大數(shù)據(jù)最常見,而且也是最佳的定義是由道格拉斯 蘭尼(Douglas Laney)在2001年提出的。 在為META Group撰寫的一篇研究報(bào)告中,蘭尼將大數(shù)據(jù)的特質(zhì)總結(jié)為規(guī)模龐大的數(shù)據(jù)集合(volume)、高速(velocity)地累積和變化、以及廣泛(variety)的來源種類。 這就是我們?nèi)缃袢栽谑褂玫慕?jīng)典的3V定義。雖然后來有人加入了更多的特性,尤其是“真實(shí)性”(veridicality),但這其實(shí)是一種分類錯(cuò)誤。因?yàn)樗劦氖侨藗儚拇髷?shù)據(jù)中提取出的信息的性質(zhì),而不是從量化的角度考慮到大數(shù)據(jù)本身的特性。
其次, 在2012年世界經(jīng)濟(jì)論壇上增加了第四個(gè)V:價(jià)值(value),將大數(shù)據(jù)作為一種新的經(jīng)濟(jì)資產(chǎn)。這沒有改變大數(shù)據(jù)的定義,而是表明,無論大數(shù)據(jù)是什么,它都具有非常重要的價(jià)值。 同年,IBM現(xiàn)任董事長(zhǎng)兼CEO羅瑞蘭(Ginni Rometty)在他的年度公開信中寫道:“大數(shù)據(jù)不亞于一種新的自然資源。數(shù)據(jù)在我們當(dāng)今時(shí)代的角色就像是蒸汽、電磁和化石燃料對(duì)之前時(shí)代的角色一樣。它有潛力推動(dòng)更高一層的社會(huì)進(jìn)步和繁榮。”
現(xiàn)在基本沒有人會(huì)懷疑大數(shù)據(jù)是一種非常真實(shí)的現(xiàn)象,并且是一種對(duì)任何組織來說都非常珍貴的資源。正如那句被用濫的比喻,許多重要特征讓大數(shù)據(jù)成為新的石油,這其中有5大特征最為重要。
1、非競(jìng)爭(zhēng)性(non-Rival)
與其他許多無形資產(chǎn)一樣,大數(shù)據(jù)是非競(jìng)爭(zhēng)性(non-Rival)的。與石油不同,它可以被許多消費(fèi)者同時(shí)使用和重復(fù)使用。更確切地說,這意味著向個(gè)人提供大數(shù)據(jù)的邊際成本是零。
2、持續(xù)增長(zhǎng)(Rising)
與包括石油在內(nèi)的其他資源不同的是,大數(shù)據(jù)還呈指數(shù)級(jí)增長(zhǎng)(Rising)。易安信(EMC Corporation)的數(shù)據(jù)顯示,在2013年之前的所有歷史時(shí)期內(nèi),人類積累了4.4ZB的數(shù)據(jù)(1ZB是1000EB,1EB是1000PB,1PB是100萬GB),但到2020年,我們將擁有44ZB(44萬億GB)的數(shù)據(jù)。90%的數(shù)據(jù)產(chǎn)生于過去2年,而在2015年產(chǎn)生的數(shù)據(jù)超過了過去5000年的總和。
此外,這種增長(zhǎng)唯一的限制是物理學(xué)、人工智能和內(nèi)存支持。現(xiàn)在這種資源的利用率只有1%,部分原因在于一些被大數(shù)據(jù)支持在遺忘或者忽略的成本。這些成本涉及獲取和存儲(chǔ)、可用性和處理模式、防護(hù)和安全、可及性、分析以及法律費(fèi)用。然而,值得注意的是,得益于信息革命,人類成功發(fā)明了以極低成本產(chǎn)生巨量數(shù)據(jù)的技術(shù)。
3、精煉(Refinable)
這些海量數(shù)據(jù)很容易處理和精煉(Refinable)——精煉是大數(shù)據(jù)的第三個(gè)R特征。這意味著在某些情況下,大數(shù)據(jù)可能是反競(jìng)爭(zhēng)的:一家公司越使用大數(shù)據(jù),它的質(zhì)量和價(jià)值就越高。
4、可再生(Renewable)
大數(shù)據(jù)是可再生的(Renewable),像太陽能一樣。
5、可轉(zhuǎn)變用途(Repurposable)
最后,大數(shù)據(jù)是可延展和轉(zhuǎn)變用途的(Repurposable)。這是大數(shù)據(jù)一個(gè)偉大但卻也令人沮喪的一個(gè)特征:只要你有正確的遠(yuǎn)見,出于一個(gè)目的收集的大型數(shù)據(jù)庫(kù)可能被用于完全不同的另一個(gè)目的。數(shù)據(jù)轉(zhuǎn)變用途的一個(gè)典型例子是不起眼的郵政編碼。郵編最初是美國(guó)郵政局為了改善普通郵件投遞而設(shè)計(jì)的,但它現(xiàn)在已成為處理無窮無盡的商業(yè)和社交應(yīng)用的主力,與信封和郵票毫無關(guān)系。
另一個(gè)更近一些的例子是,Trip Advisor擁有巨量的網(wǎng)絡(luò)數(shù)據(jù),結(jié)果卻被旅行社之類的機(jī)構(gòu)用來評(píng)估某個(gè)地區(qū)飯店的健康和安全標(biāo)準(zhǔn)。
然而,正是因?yàn)闊o法預(yù)見大數(shù)據(jù)有哪些新的應(yīng)用,你就很難完全明白你該如何處理獲得的數(shù)據(jù)財(cái)富。實(shí)際上,一開始很難計(jì)劃應(yīng)該記錄和處理哪一種大數(shù)據(jù)。
作為一種資源,大數(shù)據(jù)是非競(jìng)爭(zhēng)性、不斷增長(zhǎng)、可精煉、可再生以及可轉(zhuǎn)變用途的。這五個(gè)R讓大數(shù)據(jù)在至少6個(gè)隊(duì)任何企業(yè)都非常關(guān)鍵的主要應(yīng)用領(lǐng)域成為一項(xiàng)偉大的資產(chǎn)。大數(shù)據(jù)可被用于:
1.改善服務(wù)、產(chǎn)品或流程(比如公司后勤),因?yàn)榇髷?shù)據(jù)可以幫助找到低效的地方;
2.為用戶或客戶量身定制產(chǎn)品或服務(wù),因?yàn)榇髷?shù)據(jù)讓公司更了解他們;
3.預(yù)測(cè)趨勢(shì)發(fā)展方向,因?yàn)榇髷?shù)據(jù)可以表明歷史是如何塑造未來的;
4.激發(fā)可能的戰(zhàn)略,比如新產(chǎn)品的設(shè)計(jì)和發(fā)行、時(shí)間、方式、方式、目標(biāo)人口等等,因?yàn)榇髷?shù)據(jù)能夠讓公司用電腦模擬實(shí)驗(yàn),看到在設(shè)計(jì)的“如果”條件下的虛擬場(chǎng)景中會(huì)發(fā)生什么;
5.規(guī)劃并決定替代方案,因?yàn)榇髷?shù)據(jù)支持實(shí)證選擇;
6.最后,對(duì)產(chǎn)品和服務(wù)進(jìn)行創(chuàng)新或革新,因?yàn)榇髷?shù)據(jù)可以幫助公司預(yù)測(cè)或只是找出新的、未被發(fā)現(xiàn)或者以其他方式無法察覺的需要、愿望和需求。
大數(shù)據(jù)的商業(yè)價(jià)值
顯然大數(shù)據(jù)的價(jià)值極大。問題在于,當(dāng)人們談?wù)摯髷?shù)據(jù)的實(shí)際價(jià)值的時(shí)候,事情變得混亂起來。讓我們先從市場(chǎng)價(jià)值、市場(chǎng)價(jià)格或者經(jīng)濟(jì)價(jià)值的標(biāo)準(zhǔn)差別說起,這種差別非常重要。
假設(shè)一副畫在eBay上拍賣,沒有任何底價(jià)或者“一口價(jià)”選項(xiàng)。Alice是一位專家,她知道這幅畫真正的基本價(jià)值應(yīng)該是1000美元,這是它的市場(chǎng)價(jià)值,也是她準(zhǔn)備支付的價(jià)格。
Bob不知道這幅畫的市場(chǎng)價(jià)值,但他查看了同一畫家其他作品的估價(jià),估計(jì)這幅畫當(dāng)前售價(jià)通常會(huì)達(dá)到1500美元。這是其市場(chǎng)價(jià)格,也是Bob的最高出價(jià)。
Carol不知道這幅畫的市場(chǎng)價(jià)值和價(jià)格,她所知道的是,自己只愿意為這幅畫出價(jià)800美元。對(duì)她來說,這是這幅畫的經(jīng)濟(jì)價(jià)值。
注意,這3個(gè)人的估值可能完全不同:Alice可能出價(jià)500美元,表明這是她所認(rèn)為的這幅畫的經(jīng)濟(jì)估值,即便她知道實(shí)際價(jià)值高出一倍,她可能想撿個(gè)大便宜。
正如你所看到的,他們的出價(jià)與Alice的知識(shí)、Bob的理性分析和Carol的需要和愿望都有點(diǎn)關(guān)系。一旦他們確定價(jià)格以后,不相關(guān)但是有聯(lián)系的是這3個(gè)估值之間的比率。在這個(gè)例子里,Bob的市場(chǎng)價(jià)格高估500美元,而Carol的經(jīng)濟(jì)價(jià)值低估200美元。
這些之所以重要,是因?yàn)楹茈y確定無形資產(chǎn)的市場(chǎng)價(jià)值和市場(chǎng)價(jià)格,比如品牌認(rèn)知度、專利、商標(biāo)、版權(quán)、商業(yè)模式甚至商譽(yù)(即良好的客戶基礎(chǔ)、客戶關(guān)系和員工關(guān)系等等)。盡管根據(jù)Ocean Tomo發(fā)布的年度研究報(bào)告,2015年標(biāo)普500指數(shù)中逾84%的價(jià)值由無形資產(chǎn)組成。
我們不知道這種價(jià)值有多少依賴公司所有的大數(shù)據(jù)。我們知道的是,確定此類無形資產(chǎn)的市場(chǎng)估值實(shí)際上是不可能的。這并非是因?yàn)槿狈Χ攘抗ぞ摺@纾褪袌?chǎng)營(yíng)銷而言,人們可以努力使用客戶終身價(jià)值(CLV)來預(yù)測(cè)與客戶的未來關(guān)系帶來的凈利潤(rùn)。
而是因?yàn)槿藗儾豢赡軐?duì)一家公司的大數(shù)據(jù)的價(jià)值本身給出一個(gè)合理的近似值,除非他明確知道大數(shù)據(jù)的用途及如何成功運(yùn)用。因此,合理的方法是談?wù)摯髷?shù)據(jù)的經(jīng)濟(jì)價(jià)值,這么做是為公司準(zhǔn)備從大數(shù)據(jù)中獲取信息付費(fèi)時(shí)做一參考。這種新古典主義的方法有助于我們聚焦于大數(shù)據(jù)的真正用途,也就是人們準(zhǔn)備付費(fèi)的東西:小模式。
小模式為什么關(guān)鍵?
仔細(xì)想想看,如果一種模式或者趨勢(shì)可以輕易被發(fā)現(xiàn),你就不需要大數(shù)據(jù)了。正如NSA曾經(jīng)說過的那樣,你需要大海撈針。只有當(dāng)模式或趨勢(shì)很小的時(shí)候,你才需要海量的數(shù)據(jù)來發(fā)現(xiàn)它。
因此大數(shù)據(jù)就像是一個(gè)顯微鏡:一個(gè)分析企業(yè)中細(xì)小但是非常重要的特征的偉大工具,只要你知道你自己在找什么。由于如此多的數(shù)據(jù)現(xiàn)在可以非常快速而低成本地產(chǎn)生和處理,因此無論是亞馬遜、Facebook、谷歌等數(shù)據(jù)新貴,還是銀行、石油公司或者超市等老牌數(shù)據(jù)巨頭,它們的壓力是在龐大的數(shù)據(jù)庫(kù)里找到具有真正附加值的新模式,以及如何才能最大程度利用這些模式創(chuàng)造財(cái)富。
小模式之所以關(guān)鍵,是因?yàn)閺目茖W(xué)到商業(yè)、從治理到社會(huì)政策,它們都代表著競(jìng)爭(zhēng)的最前沿。在一個(gè)競(jìng)爭(zhēng)和開放的思想市場(chǎng),如果其他人能夠比你更快更成功地利用它們,你可能很快就會(huì)破產(chǎn)。就像柯達(dá)(Kodak)一樣,錯(cuò)過利用根本性的創(chuàng)新;像施樂帕克實(shí)驗(yàn)室(Xerox PARC Lab)錯(cuò)過鼠標(biāo)和圖形界面解決方案(GUI)一樣——而史蒂夫 喬布斯(Steve Jobs)將這種技術(shù)轉(zhuǎn)化為商業(yè)上的成功。
當(dāng)然,小模式也可能有風(fēng)險(xiǎn),因?yàn)樗鼈兺黄屏丝深A(yù)測(cè)的極限。它們可能讓一家公司預(yù)測(cè)并操縱人們的行為。這不僅是一個(gè)法律問題,而且還是一個(gè)道德問題。第一個(gè)注明的案例出現(xiàn)在2012年,主角是美國(guó)零售商Target。當(dāng)時(shí)Target依靠對(duì)25種產(chǎn)品的購(gòu)買模式分析,為每位顧客分配了“懷孕預(yù)測(cè)”指數(shù),估計(jì)她們的預(yù)產(chǎn)期,并在其妊娠階段及時(shí)寄送優(yōu)惠廣告信息。在一則引起轟動(dòng)的新聞里,Target制造了大麻煩——它寄送的優(yōu)惠廣告讓某位蒙在鼓里的家長(zhǎng)發(fā)現(xiàn)他們還在讀高中的女兒懷孕了。
至此,從大數(shù)據(jù)中獲取價(jià)值似乎只需要有一個(gè)合理的戰(zhàn)略找到能對(duì)企業(yè)產(chǎn)生積極影響的小模式。遺憾的是,事情并沒有那么簡(jiǎn)單。小模式只有在做到以下幾點(diǎn)的基礎(chǔ)上才有意義:正確匯總,比如就會(huì)員卡和購(gòu)物建議而言;進(jìn)行比較,比如當(dāng)一家銀行可以使用大數(shù)據(jù)打擊欺詐的時(shí)候;以及及時(shí)處理,比如在金融市場(chǎng)。
信息在匱乏的時(shí)候也有指示作用,因此可怕的消息是大數(shù)據(jù)之所以對(duì)于一家公司價(jià)值極大正是因?yàn)槿狈π∧J健_@看起來似乎有些矛盾:什么東西會(huì)因?yàn)槠鋮T乏而有價(jià)值呢?想想福爾摩斯正是因?yàn)榘l(fā)現(xiàn)了本應(yīng)狂叫的狗沒有叫才最終偵破那個(gè)著名案件的吧。如果大數(shù)據(jù)在本應(yīng)“叫”的時(shí)候沒有“叫”,顯然事出有因。困難就在于理解本應(yīng)發(fā)生而沒有發(fā)生的事情。
掌握數(shù)據(jù)科學(xué)的“黑魔法”
日益擴(kuò)大的大數(shù)據(jù)海洋中有價(jià)值的“潛流”越來越多,但是對(duì)于沒有計(jì)算能力的人來說是看不到的,因此更多更好的技能和技術(shù)將會(huì)有極大的幫助。當(dāng)IT部門要求更多的資金的時(shí)候,它可能有非常好的理由。然而,僅靠他們一己之力,再多的數(shù)字技術(shù)和解決方案也依然不夠用。沒有能夠自動(dòng)從大數(shù)據(jù)中獲取經(jīng)濟(jì)價(jià)值的方式,經(jīng)濟(jì)價(jià)值就是從大數(shù)據(jù)中找到的小但是重要的模式。如果你覺得只要等著更好更強(qiáng)大軟硬件就能解決問題,你最好還是三思。單純地儲(chǔ)存數(shù)據(jù)沒啥用。
從2007年起,世界產(chǎn)生的數(shù)據(jù)就超過了可用存儲(chǔ)量。我們已經(jīng)從思考“存儲(chǔ)什么”轉(zhuǎn)向了“清除什么”。有些東西必須被清除,而且從一開始就不應(yīng)該記錄。想想你的智能手機(jī)由于存儲(chǔ)了過多的圖片而變得空間不足,這已經(jīng)是一個(gè)全球性的問題了。信息界多年前就已經(jīng)用光了自己的儲(chǔ)存空間,需要清空給自己的數(shù)據(jù)騰地方了。這并不像看起來那么壞。改寫一句廣告界俗語:一半的數(shù)據(jù)是垃圾,只是我們不知道是哪一半。
一家公司需要的是,前瞻性地深入理解哪些數(shù)據(jù)值得首先存儲(chǔ)和處理。這就得明白現(xiàn)在或未來哪些問題會(huì)引起關(guān)注,從而找出相關(guān)的小模式。大數(shù)據(jù)只提供答案,但它們對(duì)該問的問題保持緘默。這些問題來自負(fù)責(zé)人的智慧。也就是說,由于大數(shù)據(jù)的價(jià)值是小模式,最終獲勝的將是哪些“知道如何回答問題的人”。正如柏拉圖2500年前在某部作品中寫道的那樣(Cratylus, 390c)。
只有那些知道怎么樣提出正確問題的人才知道,哪些數(shù)據(jù)可能會(huì)回答問題有用和相關(guān),從而值得收集和處理,目的是開發(fā)它們的寶貴模式。我們需要更多更好的技術(shù)和技能來發(fā)現(xiàn)大數(shù)據(jù)中的小數(shù)據(jù)模式,但我們更需要更多更好的思路來篩選有價(jià)值的模式。
大數(shù)據(jù)將會(huì)不斷地增長(zhǎng)。應(yīng)對(duì)它的唯一方式是了解自己是誰和正在尋找什么。目前而言,此類技巧被當(dāng)做分析學(xué)和數(shù)據(jù)科學(xué)的“黑魔法”教授和運(yùn)用,并不完全是大學(xué)里的標(biāo)準(zhǔn)課程。這種情況將很快改變,因?yàn)閷?duì)此類技術(shù)的需求正在堆積。而且因?yàn)槲覀內(nèi)绱硕嗟臉I(yè)務(wù)、創(chuàng)新和福利都取決與數(shù)據(jù)科學(xué),現(xiàn)在是時(shí)間開發(fā)一套系統(tǒng)地方法論了。誰知道,哲學(xué)家可能也會(huì)學(xué)習(xí)一些東西,教授一些東西。柏拉圖應(yīng)該會(huì)同意。