我和許多經理人討論大數據現象時,也同樣提到,我很喜歡大數據這個概念的一切,但唯獨不喜歡這個名字。大數據是一個革命性的概念,它可能握有改變幾乎各行各業的能力。不過,基于某幾項塬因,這個專有名詞本身大有問題。
第一個問題是,「大」只是這種新型態的數據有別于既有數據的面向之一,而且對許多組織而言,「大」并非最重要的特質。根據2012年由大數據顧問業者NewVantage Partners針對大型組織的五十名經理人所做的一項調查,在大公司里,他們所處理的較屬于「數據缺乏結構」的問題,而非「數據量過于龐大」的問題。在該調查中,有30%的受訪者表示,他們所處理的大數據問題主要在于「必須分析來自多個來源的數據」;另有22%的受訪者則主要聚焦于「分析新型態的數據」;還有12%的人主要是「分析動態的數據串流」;只有28%的受訪者是以分析大于1TB的數據集為主要工作,而且這群人當中有13%是在處理介于 1TB與100TB間的數據集,但若以大數據的標準來看,這樣的數據量并不算多。
「大數據」這個稱呼還存在著其他問題。「大」這個字,很明顯是相對的──就算今天看起來很「大」,并不表示到了明天仍然算「大」。而且,前述調查也顯示,對一家組織而言的「大」,對另一家組織來說可能很「小」。我個人基本上認為,「大」應該指的是1/10PB以上的數據,但就算數據真的多到會造成影響,也不過就是必須購買更多硬件來儲存與處理這些數據而已。
有人以三個V(量〔volume〕、龐雜程度〔variety〕、累積的速度〔velocity〕)來定義大數據,但有人又另外加了幾個V(真實性〔veracity〕、價值〔value〕──或許下一個V是「能夠花錢搞定」〔venality〕),然而這樣的描述也有問題。我認同這些都是大數據的重要特質,但假如你手邊的數據只符合其中一兩項的V呢?難道你就因此只握有三分之一或五分之二的大數據嗎?
另一個問題是,太多人(尤其是相關軟硬件廠商)已經把「大數據」一詞拿來指稱任何接受分析的數據,或者夸張一點,連純粹呈報用的數據,或傳統的企業內部資訊,也全都算在內。相關軟硬件廠商與企管顧問,把任何熱門新字眼拿來套用在自己既有的產品或服務上,已經是他們的慣用伎倆;在大數據方面,他們肯定也使用了這樣的手法。假如你已開始在閱讀談論大數據的書籍、文章或廣告,千萬小心,里頭若提到「數據導向決策」或是傳統的數據分析手法,你所吸收的想法或許很有用、很有價值,但并不能算是什么新東西。
基于定義「大數據」時的上述問題,我(以及我徵詢過其意見的一些專家)估計,這個不幸的術語,可能會比別的術語短命。媒體與新創企業都愛用這個字眼,但我已觀察到,一些在大企業從事資訊工作的人,尤其是在銀行、運輸業者等已經長年掌握龐大數據的企業服務的人士,都不太愛用這樣的字眼。簡單講,他們認為,這一代的新數據來源與型態,不過是先前好幾代新東西的其中一代而已。當然,這并不表示「先前大家認知為大數據的那種現象」將會消失。假如你是要描述過去十年左右冒出來、種類繁多的大量新型態數據,就我所知,「大數據」依舊是最好的統稱術語。
不過,由于這字眼實在太不精確,企業必須多解構一些,才能修正自己的策略,并且讓利害關系人知道,管理團隊有意如何運用這些新型態的數據,以及哪些類型的數據最為重要。大數據當然有許多不同的變種可以選擇─而且每一種特質都有多種可能的選擇,如圖表1-2所示。你可以先從每一行之中選擇一項。
換句話說,你與其說「我們正針對大數據推動一項硬件計劃」,還不如說「我們正準備分析來自于ATM與各分行的影音數據,以求對顧客關系有更深入的了解」,會比較有建設性一些。或者,假如你服務于醫療業,你可以決定要「整合電子病歷與基因數據,提供個人化的治療方案」。此舉除了有助于厘清目標與策略,也有助于避免無止境地討論涉及的數據量究竟是大還是小(事實上,即便發展的是值得崇敬的出色事業,還是有少數企業承認,他們只有「小數據」需要處理而已─ 由此我也學到,若要讓一個專有名詞真正管用,就必須把彼此相對的兩種情況都囊括進去)。
當然,你還是可以使用時下流行術語。假如你們公司只喜歡采用夠新夠炫的管理工具,而且在你閱讀這段文字時,「大數據」依然是個相較之下夠新夠炫的概念,那就設法推個大數據專案(big data project)吧,或者乾脆叫它BDP。也就是說,假如稱之為大數據,有助于在公司內部激發大家的行動與熱情,那就這樣叫吧。但千萬要做好準備,好在下一個流行新名詞出現時,「移轉軸心」(這個說法夠時髦吧!)。IBM已設有一處專供「巨量數據」的研究中心,料想不久就會演變為「海量」或「龐量」數據!