邏輯推理能力是人類特有的本領,給出原因,我們能夠通過邏輯推理得到結果。在過去,我們一直非常強調因果關系,一方面是因為我們常常是先有原因,再有結果,另一方面是因為如果我們找不出原因,常常會覺得結果不是非常可信。
邏輯推理能力是人類特有的本領,給出原因,我們能夠通過邏輯推理得到結果。在過去,我們一直非常強調因果關系,一方面是因為我們常常是先有原因,再有結果,另一方面是因為如果我們找不出原因,常常會覺得結果不是非常可信。而大數據時代,大數據思維要求我們從探求因果聯系到探索強相關關系。
以下三個案例分別來自藥品研發、司法判決與廣告投放,從三個不同的角度了解大數據思維的核心。
大數據與藥品研發:尋找特效藥的方法
比如在過去,現代醫學里新藥的研制,就是典型的利用因果關系解決問題的例子。
青霉素的發明過程就非常具有代表性。首先,在19世紀中期,奧匈帝國的塞麥爾維斯(Ignaz Philipp Semmelweis,1818—1865)a、法國的巴斯德等人發現微生物細菌會導致很多疾病,因此人們很容易想到殺死細菌就能治好疾病,這就是因果關系。不過,后來弗萊明等人發現,把消毒劑涂抹在傷員傷口上并不管用,因此就要尋找能夠從人體內殺菌的物質。
最終在1928年弗萊明發現了青霉素,但是他不知道青霉素殺菌的原理。而牛津大學的科學家錢恩和亞伯拉罕搞清楚了青霉素中的一種物質—青霉烷—能夠破壞細菌的細胞壁,才算搞清楚青霉素有效性的原因,到這時青霉素治療疾病的因果關系才算完全找到,這時已經是1943年,離賽麥爾維斯發現細菌致病已經過去近一個世紀。
兩年之后,女科學家多蘿西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子結構,并因此獲得了諾貝爾獎,這樣到了1957年終于可以人工合成青霉素。當然,搞清楚青霉烷的分子結構,有利于人類通過改進它來發明新的抗生素,亞伯拉罕就因此而發明了頭孢類抗生素。
在整個青霉素和其他抗生素的發明過程中,人類就是不斷地分析原因,然后尋找答案(結果)。當然,通過這種因果關系找到的答案非常讓人信服。
其他新藥的研制過程和青霉素很類似,科學家們通常需要分析疾病產生的原因,尋找能夠消除這些原因的物質,然后合成新藥。這是一個非常漫長的過程,而且費用非常高。在七八年前,研制一種處方藥已經需要花費10年以上的時間,投入10億美元的科研經費。
如今,時間和費用成本都進一步提高;一些專家,比如斯坦福醫學院院長米納(Lloyd Minor)教授則估計需要20年的時間,20億美元的投入。這也就不奇怪為什么有效的新藥價格都非常昂貴,因為如果不能在專利有效期內a賺回20億美元的成本,就不可能有公司愿意投錢研制新藥了。
按照因果關系,研制一種新藥就需要如此長的時間、如此高的成本。這顯然不是患者可以等待和負擔的,也不是醫生、科學家、制藥公司想要的,但是過去沒有辦法,大家只能這么做。
如今,有了大數據,尋找特效藥的方法就和過去有所不同了。美國一共只有5 000多種處方藥,人類會得的疾病大約有一萬種。如果將每一種藥和每一種疾病進行配對,就會發現一些意外的驚喜。比如斯坦福大學醫學院發現,原來用于治療心臟病的某種藥物對治療某種胃病特別有效。
當然,為了證實這一點需要做相應的臨床試驗,但是這樣找到治療胃病的藥只需要花費3年時間,成本也只有1億美元。這種方法,實際上依靠的并非因果關系,而是一種強關聯關系,即A藥對B病有效。至于為什么有效,接下來3年的研究工作實際上就是在反過來尋找原因。這種先有結果再反推原因的做法,和過去通過因果關系推導出結果的做法截然相反。無疑,這樣的做法會比較快,當然,前提是有足夠多的數據支持。
大數據思維與司法:為香煙定罪
在過去,由于數據量有限,而且常常不是多維度的,這樣的相關性很難找得到,即使偶爾找到了,人們也未必接受,因為這和傳統的觀念不一樣。20世紀90年代中期,在美國和加拿大圍繞香煙是否對人體有害這件事情的一系列訴訟上,如何判定吸煙是否有害是這些案子的關鍵,是采用因果關系判定,還是采用相關性判定,決定了那些訴訟案判決結果。
在今天一般的人看來,吸煙對人體有害,這是板上釘釘的事實。比如美國外科協會的一份研究報告顯示,吸煙男性肺癌的發病率是不吸煙男性的23倍,女性則是相應的13倍a,這從統計學上講早已經不是隨機事件的偶然性了,而是存在必然的聯系。但是,就是這樣看似如山的鐵證,依然“不足夠”以此判定煙草公司就是有罪,因為它們認為吸煙和肺癌沒有因果關系。
煙草公司可以找出很多理由來辯解,比如說一些人之所以要吸煙,是因為身體里有某部分基因缺陷或者身體缺乏某種物質;而導致肺癌的,是這種基因缺陷或者某種物質的缺乏,而非煙草中的某些物質。從法律上講,煙草公司的解釋很站得住腳,美國的法律又是采用無罪推定原則a,因此,單純靠發病率高這一件事是無法判定煙草公司有罪的。
這就導致了在歷史上很長的時間里,美國各個州政府的檢察官在對煙草公司提起訴訟后,經過很長時間的法庭調查和雙方的交鋒,最后結果都是不了了之。其根本原因是提起訴訟的原告一方(州檢察官和受害人)拿不出足夠充分的證據,而煙草公司又有足夠的錢請到很好的律師為它們進行辯護。
這種情況直到20世紀90年代中期美國歷史上的那次世紀大訴訟才得到改變。1994年,密西西比州的總檢察長麥克·摩爾(Michael Moore)又一次提起了對菲利普·莫里斯等煙草公司的集體訴訟,隨后,美國40多個州加入了這場有史以來最大的訴訟行動。在訴訟開始以前,雙方都清楚官司的勝負其實取決于各州的檢察官們能否收集到讓人信服的證據來證明是吸煙而不是其他原因導致了很多疾病(比如肺癌)更高的發病率。
我們在前面講了,單純講吸煙者比不吸煙者肺癌的發病率高是沒有用的,因為得肺癌可能是由其他更直接的因素引起的。要說明吸煙的危害,最好能找到吸煙和得病的因果關系,但是這件事情短時間內又做不到。因此,訴訟方只能退而求其次,他們必須能夠提供在(煙草公司所說的)其他因素都被排除的情況下,吸煙者發病的比例依然比不吸煙者要高很多的證據,這件事做起來遠比想象的困難。
雖然當時全世界的人口多達60億,吸煙者的人數也很多,得各種與吸煙有關疾病的人也不少,但是在以移民為主的美國,尤其是大城市里,人們彼此之間基因的差異相對較大,生活習慣和收入狀況也千差萬別,即使調查了大量吸煙和不吸煙的樣本,能夠進行比對的、各方面條件都很相似的樣本并不多。不過在20世紀90年代的那次世紀大訴訟中,各州的檢察長下定決心要打贏官司,而不再是不了了之,為此他們聘請了包括約翰·霍普金斯大學在內的很多大學的頂級專家作為訴訟方的顧問,其中既包括醫學家,也包括公共衛生專家。
這些專家們為了收集證據,派下面的工作人員到世界各地,尤其是第三世界國家的農村地區(包括中國的西南地區),去收集對比數據。在這樣的地區,由于族群相對單一(可以排除基因等先天的因素),收入和生活習慣相差較小(可以排除后天的因素),有可能找到足夠多的可對比的樣本,來說明吸煙的危害。
各州檢察官們和專家們經過三年多的努力,最終讓煙草公司低頭了。1997年,煙草公司和各州達成和解,同意賠償3 655億美元。在這場歷史性勝利的背后,靠的并非是檢察官們找到了吸煙對人體有害的因果關系的證據,而依然是采用了統計上強相關性的證據,只是這一次的證據能夠讓陪審團和法官信服。在這場馬拉松式的訴訟過程中,其實人們的思維方式已經從接受因果關系,轉到接受強相關性上來了。
如果在法律上都能夠被作為證據接受,那么把相關性的結果應用到其他領域更是順理成章的事情。
大數據思維與廣告:咖啡與信用卡廣告更配哦
2003年Google推出了根據網頁內容安插廣告的AdSense服務,以與那些在網頁中隨機投放廣告的產品競爭。根據我們的直覺,如果在一個和照相機有關的網站(或者)網頁中放上照相機的廣告,效果應該最好。這其實就是用到了相關性的特點,但是大部分時候,相關性并不是那么直接,不能一眼就看出來。根據大量數據的統計結果,我們發現這樣一些廣告和內容的搭配效果非常好,很多和我們的想象不大相同,比如:
在電影租賃和收看視頻的網站上,放上零食的廣告;
在女裝網站上,放男裝的廣告;
在咖啡評論和銷售網站上,放信用卡和房貸的廣告;
在工具(Hardware)評論網站上,放上快餐的廣告;
……
這些搭配,如果沒有大量的數據統計作為基礎,一般人是想不到的。當然,如果仔細分析有些看似不太相關的搭配,還是能夠找到合理的解釋,比如電影租賃和視頻播放網站與零食廣告的搭配,符合人在看視頻時喜歡吃零食的習慣。
但是,有些搭配會讓人完全摸不到頭腦,比如把咖啡和信用卡或者房貸聯系起來。不管是能夠找到原因的,還是想不出原因的(可能背后存在著我們一時想不到的原因),只要使用了這些相關性,廣告的效果就好。當然,在利用相關性時,我們希望是那種可信度比較高的,即數學上所謂的強相關性,而不是隨便把一些看似相關的東西扯到一起。
我們在前面提到,能通過因果關系找到答案,根據因果關系知道原因固然好,但是對于復雜的問題,其難度非常大,除了靠物質條件、人們的努力,還要靠運氣。
牛頓和愛因斯坦都是運氣很好的人。遺憾的是,大部分時候我們并沒有靈感和運氣,因此很多問題得不到解決。在大數據時代,我們能夠得益于一種新的思維方法—從大量的數據中直接找到答案,即使不知道原因。