你可能已經(jīng)知道“大數(shù)據(jù)”是2015年來最熱門的話題。你怎么可能不知道呢?因?yàn)楣?yīng)商和記者之流總是不停地用這個(gè)詞給大家洗腦(這條指控一點(diǎn)兒也 沒冤枉他們)。相信你也知道他們都是如何大肆宣傳的吧?大數(shù)據(jù)將為我們提供一切問題的答案,可以使公司的運(yùn)作更加高效,有助于制定絕妙的、由數(shù)據(jù)驅(qū)動(dòng)的決 策,為公司提供一柄競(jìng)爭(zhēng)利器。
從某種程度上說,這樣的說法的確沒錯(cuò),但是,如同其他被過度宣傳的技術(shù)一樣,許多公司都發(fā)現(xiàn)這一切實(shí)現(xiàn)起來很困難,現(xiàn)實(shí)和廣告宣傳之間存在著相當(dāng)大 的差距。他們也許已經(jīng)想出了有效的方法來收集和處理數(shù)據(jù),但要讓它付諸于實(shí)際,并幫助做出更好的決策卻是另一回事。這些公司試圖找出大數(shù)據(jù)和深度理解大數(shù) 據(jù)之間所缺失的至關(guān)重要的一環(huán),因?yàn)槿绻槐M快解決這一問題,他們最終只能空守一大堆混亂的數(shù)據(jù),而得不到任何收獲。
正如一位硅谷內(nèi)部人士告訴我的:最近,在創(chuàng)業(yè)公司的活動(dòng)和融資方面,大數(shù)據(jù)的收集與處理已經(jīng)受到越來越多的關(guān)注,可與此同時(shí),預(yù)期和實(shí)際結(jié)果之前卻 存在著巨大的鴻溝。他指出:“大數(shù)據(jù)還沒有轉(zhuǎn)換成大知識(shí)、大見解和大智慧。”據(jù)他們估計(jì),為了達(dá)到這一目標(biāo),我們?nèi)杂泻荛L(zhǎng)的路要走。
分清現(xiàn)實(shí)和炒作
我們?cè)敢庀嘈盼覀兡芎芊奖愕貜拇髷?shù)據(jù)中獲取有價(jià)值的信息,簡(jiǎn)單得就如同以下幾個(gè)步驟:將數(shù)據(jù)導(dǎo)入,跑一段程序,然后就能得到想要的結(jié)果,可實(shí)際要比 這復(fù)雜得多?!稊?shù)據(jù)預(yù)測(cè):大數(shù)據(jù)戰(zhàn)略》(Data Divination: Big Data Strategies)一書的作者Pam Baker指出,盡管存在明確事例證明可以從數(shù)據(jù)中直接獲取答案,但并非事事如此。
她解釋道:“在相當(dāng)多的情況下,數(shù)據(jù)可以為我們提供明確的答案。例如,預(yù)測(cè)分析能夠精確地預(yù)報(bào)飛機(jī)或者供水系統(tǒng)中某個(gè)零件的使用壽命,而且還能告訴我們更換零件的準(zhǔn)確時(shí)間,以確保舊零件在損壞之前,我們能盡可能地利用它。”
但她又補(bǔ)充道:“還有很多情況,我們雖然無法得到明確的答案,但我們可以從多種可能的行動(dòng)中采取一種,或者我們甚至可以選擇不采取行動(dòng)。這僅取決于你所做的事情。”
Baker所言極是,一些由數(shù)據(jù)驅(qū)動(dòng)的決策比我們所看到的要微妙得多,而且,正如Brue Springsteen(一位男歌手)曾經(jīng)所唱,做出決策“還需要一點(diǎn)人情味兒”。人們可以通過開發(fā)可靠的度量標(biāo)準(zhǔn)以及強(qiáng)大的算法來幫助決策的制定,還必 須知道如何最大限度地利用數(shù)據(jù)中透露出的信息。這些信息有時(shí)很直觀,有時(shí)卻很隱晦。
專家的缺乏
我們也愿意相信大數(shù)據(jù)能夠使商業(yè)用戶直接且迅速地進(jìn)行數(shù)據(jù)的訪問,更神奇的在于,能夠使他們?cè)谠L問的過程中就可以做出最佳決策。很不幸,我們?nèi)缃駬碛械墓ぞ哌€不足以提供如此神奇的功能。
為了解決這一問題,我們需要更多大數(shù)據(jù)專家們的幫助,幫我們處理數(shù)據(jù)、從海量信息中尋找答案。Keith Rabois是Kholsa Ventures公司的投資合伙人,他對(duì)諸如Parstream這樣的大數(shù)據(jù)公司很有興趣,據(jù)他所言:公司需要大數(shù)據(jù)科學(xué)家們進(jìn)行極為復(fù)雜的深入分析,但 一般的公司做不到這一點(diǎn)。
Rabois說道,我們希望讓大數(shù)據(jù)科學(xué)家們?nèi)ミM(jìn)行應(yīng)用程序及算法的研究,甚至希望他們能扛起研究數(shù)據(jù)科學(xué)的重任,但事實(shí)上,許多公司里的大數(shù)據(jù)科學(xué)家并非總有時(shí)間做這些事,部分原因在于他們往往把時(shí)間花在了不需要他們盡情發(fā)揮聰明才智的不太復(fù)雜的分析上,
Rabois還稱,最理想的情況是,大數(shù)據(jù)科學(xué)家已經(jīng)開發(fā)出用于將分析分發(fā)到整個(gè)組織中需要答案的各個(gè)部門的工具。 在這樣一個(gè)問題需要被快速解答的年代里,我們不希望產(chǎn)生這樣的瓶頸,當(dāng)你跑去向?qū)<覍で蟠鸢笗r(shí),卻只能等待結(jié)果。
問題在于,即使最聰明的科學(xué)家開發(fā)出極其復(fù)雜的算法,也無法為復(fù)雜問題提供確定性答案。因?yàn)樗鼰o論如何也不可能將問題的所有因素都考慮在內(nèi),或者無法考慮某些難以度量的因素。
替我找個(gè)優(yōu)秀的中場(chǎng)手
棒球就是個(gè)很好的例子,理論上,各方面能力相當(dāng)?shù)膬擅x手,比賽時(shí)可能引起完全不同的結(jié)果。統(tǒng)計(jì)學(xué)極客們將告訴你,他們花了多年時(shí)間開發(fā)出一款名為 棒球數(shù)據(jù)統(tǒng)計(jì)分析法(Sabermetrics,譯者注[1])的算法,當(dāng)你需要一名優(yōu)秀的球員來填補(bǔ)球隊(duì)中某個(gè)特定位置時(shí),該算法可以為你提供所有你想 要的信息。他們還引入了一系列諸如“額外勝利數(shù)(WAR,譯者注[2])”之類的測(cè)量統(tǒng)計(jì)類術(shù)語(yǔ),F(xiàn)anGraphs網(wǎng)站(譯者注[3])對(duì)該術(shù)語(yǔ)的描述 如下:“如果某名選手受傷,其球隊(duì)不得不用低級(jí)別球員或是“能力不佳”的替補(bǔ)選手將其替換,那么這支球隊(duì)會(huì)因此丟失多少分呢?”他們用一系列復(fù)雜的指標(biāo)來 衡量這樣的更換所導(dǎo)致的勝率差異。
毫無疑問,所有這些復(fù)雜的指標(biāo)都有助于更加準(zhǔn)確地計(jì)算選手的價(jià)值,但它們測(cè)量不了所有情形,例如選手在壓力下的表現(xiàn)、他勤學(xué)苦練的程度、所具有的領(lǐng)導(dǎo)特質(zhì),以及他與隊(duì)友的相處情況等等。所有的這些因素也都很重要,但卻更加難以量化得多。
純統(tǒng)計(jì)測(cè)量理論的信徒會(huì)告訴你“一切皆可測(cè)量”,這幾乎可以認(rèn)為是正確的。但我就曾經(jīng)見過兩個(gè)理論數(shù)據(jù)上基本相同的選手,后者接替了前者所在的位置,但比賽表現(xiàn)卻遠(yuǎn)不如前者,盡管他倆的統(tǒng)計(jì)數(shù)據(jù)非常相似。
此類情形同樣也可以應(yīng)用到商業(yè)中。人力資源部在招聘時(shí),就會(huì)遇到雷同的場(chǎng)景:為某個(gè)程序員職位挑選最為合適的應(yīng)聘者。此時(shí),你手頭上有兩個(gè)技術(shù)能力 相當(dāng)?shù)膶I(yè)人員同時(shí)競(jìng)爭(zhēng)該職位,但他們其中一個(gè)可能情商較高,可以很好地與同事合作,而另一個(gè)卻完全不善溝通,遺憾的是,這些都無法從簡(jiǎn)歷看出來。即便有 了很多數(shù)據(jù)信息,我們也很難將所有可能的結(jié)果一一考慮,尤其涉及到人為因素時(shí)。
考慮醫(yī)學(xué)診斷中的細(xì)微差異
任何一位優(yōu)秀的醫(yī)生都會(huì)告訴你,即使兩個(gè)病人的癥狀完全相同,也可能需要使用不同的治療方法。這是因?yàn)橹委煼椒ㄍ蕾囉趥€(gè)體因素,例如年齡、體重、其他身體健康狀況,以及額外的特殊因素。
我們以IBM Watson電腦(譯者注[4])的使用為例,這是一臺(tái)可以用于醫(yī)療的智能分析平臺(tái)。最近,我向一位朋友談及有些醫(yī)生已經(jīng)開始使用Watson來幫助進(jìn)行 病情的診斷以及提供治療方法,他聽后很生氣,因?yàn)樗幌胗梢慌_(tái)機(jī)器來決定自己的治療手段。這種想法很正常。但在我說的情況里,并非只是Watson簡(jiǎn)單地 給出個(gè)答案,而醫(yī)生則盲目地跟從。Watson會(huì)基于已經(jīng)有的跡象、對(duì)病人的了解、癥狀,以及當(dāng)前的研究水準(zhǔn),給出一些可選項(xiàng),供醫(yī)生選擇(這與醫(yī)生實(shí)際 的工作情形并不相同)。
正如我指出的,醫(yī)生們忙于工作,往往不能緊跟自身所在領(lǐng)域的研究步伐,因?yàn)橄嚓P(guān)的研究實(shí)在太多了(當(dāng)然,這是件好事)。這也正是Watson發(fā)揮作 用的地方。它能夠以比人類快得多的速度從當(dāng)前的研究成果中為醫(yī)生甄選出需要的信息,但另一方面,醫(yī)生仍然需要了解病人間的細(xì)微差別,應(yīng)用自身的知識(shí),最終 確定治療方案。我喜歡將這一過程稱為科學(xué)中的藝術(shù)。知識(shí)能將我們帶得很遠(yuǎn),但最終的決定權(quán)依然在醫(yī)師而非機(jī)器的手中。
企業(yè)很可能也將面臨類似這樣不確定的結(jié)果,這時(shí)就需要有人員參與,運(yùn)用自身的知識(shí),在數(shù)據(jù)的幫助下做出選擇。
何去何從?
機(jī)器有時(shí)可以提供人類需要花費(fèi)多年時(shí)間才能找出的答案和見解。舉個(gè)例子,Baker指出大數(shù)據(jù)已經(jīng)幫助我們找出例如癌癥等許多疾病的答案,而人類的 研究者甚至從未想過要從這些方面入手研究。她告訴我,“如果沒有大數(shù)據(jù)為我們提供這些信息,我們很可能永遠(yuǎn)無法找到合適的治療方案(或者說,至少幾年內(nèi)無 法成功)。我的觀點(diǎn)就是:大數(shù)據(jù)絕對(duì)可以做到相當(dāng)精準(zhǔn)的程度。”
另外,她相信,在不久的將來,機(jī)器學(xué)習(xí)可以發(fā)展到一個(gè)足夠成熟的高度,到那時(shí),機(jī)器也許可以為我們作出更多決策,因?yàn)槿四X永遠(yuǎn)不可能記下所有有用的信息。
她的觀點(diǎn)很可能是對(duì)的,但就目前而言,我們收集和處理數(shù)據(jù)的能力似乎領(lǐng)先于對(duì)數(shù)據(jù)涵義的理解能力。正于Baker所提出的,預(yù)測(cè)分析技術(shù)一直在提 高,并且有時(shí)數(shù)據(jù)能直觀地給出答案,但這仍然是一個(gè)復(fù)雜的人機(jī)交互的過程。即使技術(shù)正在不斷向前發(fā)展,但如何將兩者合二為一依然是一項(xiàng)正在探索中的工作。
除非我們能找到某個(gè)平衡點(diǎn),或者機(jī)器技術(shù)有顛覆性的發(fā)展,否則我們?nèi)詫⒚媾R大數(shù)據(jù)與大智慧之間的鴻溝,并且需要花一定的時(shí)間以及依靠技術(shù)進(jìn)步來填補(bǔ)這一鴻溝。