導(dǎo)讀:《紐約時報》網(wǎng)站今天刊載文章稱,“大數(shù)據(jù)時代”已經(jīng)降臨,在這一領(lǐng)域擁有專長的人士正面臨許多機會。文章指出,“大數(shù)據(jù)”正在對每個領(lǐng)域都造成影響。舉例來說,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策行為將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗和直覺;而在公共衛(wèi)生、經(jīng)濟發(fā)展和經(jīng)濟預(yù)測等領(lǐng)域中,“大數(shù)據(jù)”的預(yù)見能力也已經(jīng)嶄露頭角。以下是這篇文章的全文。
你在數(shù)字方面很拿手?數(shù)據(jù)令你感到著迷?那么你聽到的聲音是機會正在敲門。
作為一名剛剛畢業(yè)的耶魯大學(xué)MBA(工商管理碩士),周默(音譯)在去年夏天被IBM搶聘,加入了該公司迅速增長中的數(shù)據(jù)顧問團隊。IBM數(shù)據(jù)顧問的職責(zé)是幫助企業(yè)弄明白數(shù)據(jù)爆炸背后的意義——網(wǎng)絡(luò)流量和社交網(wǎng)絡(luò)評論,以及監(jiān)控出貨量、供應(yīng)商和客戶的軟件和傳感器等——用來指導(dǎo)決策、削減成本和提高銷售額。“我一直都熱愛數(shù)字。”周默說道,她的崗位是數(shù)據(jù)分析師,與其所學(xué)的技能相符合。
為了開發(fā)數(shù)據(jù)洪流,美國將需要許多象她一樣的人。據(jù)顧問公司麥肯錫旗下研究部門麥肯錫全球?qū)W會(McKinsey Global Institute)去年發(fā)布的一份報告顯示,預(yù)計美國需要14萬名到19萬名擁有“深度分析”專長的工作者,以及150萬名更加精通數(shù)據(jù)的經(jīng)理人,無論是已退休人士還是已受聘人士。
數(shù)據(jù)充斥所帶來的影響遠遠超出了企業(yè)界。舉例來說,賈斯汀-格里莫(Justin Grimmer)是新生代的政治科學(xué)家,他現(xiàn)年28歲,在斯坦福大學(xué)任助理教授。在大學(xué)生和研究生時期的研究報告中,他將數(shù)學(xué)與政治科學(xué)聯(lián)系起來,稱其看到了“一個機會,原因是紀律正日益變得數(shù)據(jù)密集化”。他研究的內(nèi)容涉及對博客文章、國會演講和新聞稿進行計算機自動化分析等,希望藉此洞察政治觀點是如何傳播的。
在科學(xué)和體育、廣告和公共衛(wèi)生等其他許多領(lǐng)域中,也有著類似的情況——也就是朝著數(shù)據(jù)驅(qū)動型的發(fā)現(xiàn)和決策的方向發(fā)生轉(zhuǎn)變。哈佛大學(xué)量化社會科學(xué)學(xué)院(Institute for Quantitative Social Science)院長加里-金(Gary King)稱:“這是一種革命,我們確實正在進行這場革命,龐大的新數(shù)據(jù)來源所帶來的量化轉(zhuǎn)變將在學(xué)術(shù)界、企業(yè)界和政界中迅速蔓延開來。沒有哪個領(lǐng)域不會受到影響。”
歡迎來到“大數(shù)據(jù)時代”(Age of Big Data)。硅谷新貴們——最初是在谷歌(微博),現(xiàn)在是在Facebook——都精通于駕馭網(wǎng)絡(luò)數(shù)據(jù)(網(wǎng)絡(luò)搜索、帖子和信息等)與互聯(lián)網(wǎng)廣告之間的關(guān)系。在上個月于瑞士達沃斯召開的世界經(jīng)濟論壇上,大數(shù)據(jù)是討論的主題之一。這個論壇上發(fā)布的一份題為《大數(shù)據(jù),大影響》(Big Data, Big Impact)的報告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。
“生命中的一天”(Day in the Life)系列攝影作品的創(chuàng)作人里克-斯莫蘭(Rick Smolan)正計劃在今年晚些時候推出一個新項目,這個名為“大數(shù)據(jù)的人類臉孔”(The Human Face of Big Data)的項目將記錄數(shù)據(jù)的采集和使用。斯莫蘭是一名狂熱分子,他認為“大數(shù)據(jù)”有成為“人性儀表盤”的潛力,也就是一種能幫助人類與貧窮、犯罪和污染等現(xiàn)象展開斗爭的智能工具。而私人部門的倡導(dǎo)組織則持有悲觀的觀點,警告稱“大數(shù)據(jù)”與“獨裁者”(Big Brother)同出一轍,只是披上了企業(yè)的外衣。
什么是“大數(shù)據(jù)”?這當(dāng)然是一個帶有文化基因和營銷理念的詞匯,但同時也反映了科技領(lǐng)域中正在發(fā)展中的趨勢,這種趨勢為理解這個世界和作出決策的新方法開啟了一扇大門。根據(jù)科技研究公司IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,換而言之,也就是每兩年就增長一倍。這不是簡單的數(shù)據(jù)增多的問題,而是全新的問題。舉例來說,在當(dāng)今全球范圍內(nèi)的工業(yè)設(shè)備、汽車、電子儀表和裝運箱中,都有著無數(shù)的數(shù)字傳感器,這些傳感器能測量和交流位置、運動、震動、溫度和濕度等數(shù)據(jù),甚至還能測量空氣中的化學(xué)變化。
將這些交流傳感器與計算智能連接起來,那么你就會看到所謂的“物聯(lián)網(wǎng)”(Internet of Things)或“工業(yè)互聯(lián)網(wǎng)”(Industrial Internet)。在信息獲取的問題上取得進步也是促進“大數(shù)據(jù)”趨勢發(fā)展的原因之一。舉例來說,政府?dāng)?shù)據(jù)——聘用數(shù)據(jù)及其他信息——一直都在穩(wěn)步地向網(wǎng)絡(luò)轉(zhuǎn)移。在2009年中,美國政府通過啟動Data.gov網(wǎng)站的方式進一步開放了數(shù)據(jù)的大門,這個網(wǎng)站向公眾提供各種各樣的政府?dāng)?shù)據(jù)。
數(shù)據(jù)不僅僅是正在變得更加可用,同時也正在變得更加容易被計算機所理解。“大數(shù)據(jù)”發(fā)展趨勢中所增加的大部分數(shù)據(jù)都是在自然環(huán)境下產(chǎn)生的,比如說網(wǎng)絡(luò)言論、圖片和視頻等不受控制的東西,以及來自于傳感器的數(shù)據(jù)等。這些是所謂的“非結(jié)構(gòu)化數(shù)據(jù)”,通常不能為傳統(tǒng)的數(shù)據(jù)庫所用。
但是,旨在從互聯(lián)網(wǎng)時代非結(jié)構(gòu)化數(shù)據(jù)的龐大“寶藏”中獲得知識和洞察力的計算機工具正在迅速發(fā)展中。在這種工具發(fā)展的最前沿是迅速取得進步的人工智能(AI)技術(shù),比如說自然語言處理、模式識別和機器學(xué)習(xí)等。
這些人工智能技術(shù)能應(yīng)用于許多領(lǐng)域。舉例來說,谷歌的搜索和廣告業(yè)務(wù)及其實驗中的機器人(21.010,0.14,0.67%)汽車都利用了很多的人工智能技術(shù)。在加利福尼亞州的公路上,谷歌的機器人汽車已經(jīng)跑了數(shù)千英里的路。谷歌的這兩項業(yè)務(wù)都讓“大數(shù)據(jù)”時代的挑戰(zhàn)卻步,它們對數(shù)量龐大的數(shù)據(jù)進行分析,并作出瞬時的決策。
反過來,大量的新數(shù)據(jù)也正在加快計算領(lǐng)域的進步,這是“大數(shù)據(jù)”時代中的一個良性循環(huán)。舉例來說,機器學(xué)習(xí)算法能基于數(shù)據(jù)來進行學(xué)習(xí),數(shù)據(jù)越多機器就能學(xué)到越多。以蘋果在去年秋天推出的iPhohne手機Siri語音助理服務(wù)為例,這個應(yīng)用的源頭可回溯至五角大樓的一個研究項目,該項目隨后被分離出來,成為了一家硅谷創(chuàng)業(yè)公司。蘋果在2010年收購了Siri,并繼續(xù)向其提供更多數(shù)據(jù)。時至今日,在人們提供成百上千萬條問題的環(huán)境下,Siri正在變成一種日益熟練的個人助理,能向用戶提供提醒服務(wù)、天氣預(yù)報、餐飲建議和對大量問題作出解答等服務(wù)。
麻省理工學(xué)院斯隆管理學(xué)院的經(jīng)濟學(xué)教授埃里克-布呂諾爾夫松(Erik Brynjolfsson)稱,如果想要理解“大數(shù)據(jù)”的潛在影響力,那么可以看看顯微鏡的例子。顯微鏡是在四個世紀以前發(fā)明的,能讓人們看到以前從來都無法看到的事物并對其進行測量——在細胞的層面上。顯微鏡是測量領(lǐng)域中的一場革命。
呂諾爾夫松解釋稱,數(shù)據(jù)測量就相當(dāng)于是現(xiàn)代版的顯微鏡。舉個例子,谷歌搜索、Facebook帖子和Twitter消息使得對人們行為和情緒的細節(jié)化測量成為可能。
呂諾爾夫松進一步指出,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策行為將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗和直覺。“我們能開始變得遠為科學(xué)化。”他這樣說道。
有很多的軼事證據(jù)表明,數(shù)據(jù)至上的思考方式將帶來很高的回報。其中,最著名的例子仍舊是邁克爾-劉易斯(Michael Lewis)在2003年出版的《點球成金》(Moneyball)一書,這本書記錄了低預(yù)算的奧克蘭運動家隊是如何利用經(jīng)過分析的數(shù)據(jù)和晦澀難解的棒球統(tǒng)計學(xué)來找到被評價過低的棒球手的。在布拉德-皮特(Brad Pitt)主演的電影版《點球成金》去年被搬上銀幕以前,深度的數(shù)據(jù)分析就不僅已經(jīng)成為棒球領(lǐng)域中的標準,而且在英國足球聯(lián)賽等其他體育項目中也是如此。
沃爾瑪(WMT)和Kohl’s等零售商也已經(jīng)開始對銷售額、定價以及經(jīng)濟學(xué)、人口統(tǒng)計學(xué)和天氣數(shù)據(jù)進行分析,藉此在特定的連鎖店中選擇合適的上架產(chǎn)品,并基于這些分析來判定商品減價的時機。UPS等貨運公司也正在對卡車交貨時間和交通模式等相關(guān)數(shù)據(jù)進行分析,以此對其運輸路線進行微調(diào)。
Match.com等交友網(wǎng)站也經(jīng)常會仔細查看其網(wǎng)站上列出的個人特征、回應(yīng)和交流信息,用來改進其算法,從而為想要約會的男女提供更好的配對。在全美范圍內(nèi),以紐約市為首的警方部門也正在使用計算機化的地圖以及對歷史性逮捕模式、發(fā)薪日、體育項目、降雨天氣和假日等變量進行分析,從而試圖對最可能發(fā)生罪案的“熱點”地區(qū)作出預(yù)測,并預(yù)先在這些地區(qū)部署警力。
呂諾爾夫松及其兩名同僚在去年發(fā)表研究報告稱,數(shù)據(jù)指導(dǎo)下的管理活動正在美國企業(yè)界中蔓延開來,而且這種管理活動正開始獲得回報。這三名學(xué)者對179家大型公司進行了研究,發(fā)現(xiàn)那些采用“數(shù)據(jù)驅(qū)動型決策”模式的公司能將其生產(chǎn)力提高5%到6%,這種生產(chǎn)力的提高是很難用其他因素來解釋的。
在公共衛(wèi)生、經(jīng)濟發(fā)展和經(jīng)濟預(yù)測等領(lǐng)域中,“大數(shù)據(jù)”的預(yù)見能力正在被開發(fā)中,而且已經(jīng)嶄露頭角。研究者發(fā)現(xiàn),曾有一次他們發(fā)現(xiàn)“流感癥狀”和“流感治療”等詞匯在谷歌上的搜索查詢量增加;而在幾個星期以后,到某個地區(qū)醫(yī)院急診室就診的流感病人數(shù)量就有所增加(還需要指出的是,醫(yī)院急診室發(fā)布報告的時間通常要比病人就診的時間晚上兩個星期左右)。
聯(lián)合國(微博)已經(jīng)推出了名為“全球脈動”(Global Pulse)的新項目,希望利用“大數(shù)據(jù)”來促進全球經(jīng)濟發(fā)展。聯(lián)合國將進行所謂的“情緒分析”,使用自然語言解密軟件來對社交網(wǎng)站和文本消息中的信息作出分析,用來幫助預(yù)測某個給定地區(qū)的失業(yè)率、支出削減或是疾病爆發(fā)等現(xiàn)象,其目標在于利用數(shù)字化的早期預(yù)警信號來提前指導(dǎo)援助項目,以阻止某個地區(qū)重新陷入貧困等困境。
在經(jīng)濟預(yù)測領(lǐng)域中,已經(jīng)有研究表明,與不動產(chǎn)經(jīng)濟學(xué)家所作出的預(yù)測相比,谷歌上住房相關(guān)搜索查詢量的增加或減少的趨勢能更加準確地預(yù)測未來一個季度中的住房市場走勢。美聯(lián)儲及其他機構(gòu)已經(jīng)注意到這一點。在去年7月份,美國國家經(jīng)濟研究局(National Bureau of Economic Research)主持召開了一次研討會,此次會議所討論的內(nèi)容是“大數(shù)據(jù)時代的機會”及其對經(jīng)濟領(lǐng)域的影響。
“大數(shù)據(jù)”還已經(jīng)令針對社交網(wǎng)絡(luò)運作方式的研究發(fā)生了變化。在20世紀60年代,哈佛大學(xué)的斯坦利-米爾格拉姆(Stanley Milgram)利用包裹作為研究媒介,進行了一項與社交網(wǎng)絡(luò)相關(guān)的著名實驗。他將包裹寄往美國中西部地區(qū)的志愿者,指導(dǎo)他們?nèi)绾螌鼛Ыo波士頓的陌生人,但不能直接交付;參與實驗者如果想要通過郵寄方式來交付包裹,那么目標對象就是能是他們認識的人。結(jié)果表明,一個包裹換手的平均次數(shù)相當(dāng)之低,僅為6次左右。這是對所謂“小世界現(xiàn)象”的經(jīng)典闡釋,據(jù)此形成了“六度分隔”(six degrees of separation)的流行詞匯。
時至今日,社交網(wǎng)絡(luò)研究的內(nèi)容涉及如何采集龐大的數(shù)字化數(shù)據(jù)集合,用來闡釋網(wǎng)絡(luò)上的集體化行為。這種研究的結(jié)果表明,你認識但不經(jīng)常聯(lián)系的人——在社會學(xué)中被稱為“微弱聯(lián)系”(weak ties)——是職務(wù)空缺小道消息的最佳來源,原因是與關(guān)系親密的朋友相比,這些人在略有不同的社交世界中穿行,因此能看到你和你最好的朋友們所無法看到的機會。
在有關(guān)某個主題的交流中,研究學(xué)者們還能看到其影響模式和高峰——舉例來說,可以通過追蹤Twitter上的趨勢標簽的方式來達成這個目標。對于數(shù)量龐大的用戶人群來說,Twitter這個在線“玻璃魚缸”是透視其實時行為的窗口。康奈爾大學(xué)教授喬恩-克倫伯格(Jon Kleinberg)稱:“我尋找的是數(shù)據(jù)中的‘熱點’,這是我需要理解的一種活動爆發(fā)的現(xiàn)象。只有通過‘大數(shù)據(jù)’,你才能做到這一點。”
毫無疑問,“大數(shù)據(jù)”本身也存在一些風(fēng)險。統(tǒng)計學(xué)家和計算機科學(xué)家指出,“大數(shù)據(jù)”的集合和高密度的測量將令“錯誤發(fā)現(xiàn)”的風(fēng)險增長。斯坦福大學(xué)的統(tǒng)計學(xué)教授特來沃爾-哈斯迪(Trevor Hastie)稱,如果想要在龐大的數(shù)據(jù)“干草垛”中找到一根有意義的“針”,那么所將面臨的問題就是“許多稻草看起來就像是針一樣”。
此外,對于統(tǒng)計學(xué)惡作劇和有偏見的實情調(diào)查活動而言,“大數(shù)據(jù)”也提供了更多的原材料。“大數(shù)據(jù)”為一個老把戲提供了高科技的手段,那就是——我知道事實,現(xiàn)在讓我們來找到事實吧。喬治梅森大學(xué)的數(shù)學(xué)家瑞貝卡(7.41,0.10,1.37%)-高爾丁(Rebecca Goldin)稱,這是“最有害的數(shù)據(jù)使用方式之一”。
數(shù)據(jù)已被計算機和數(shù)學(xué)模型所馴服和理解,這些模型就像是文學(xué)中的隱喻修辭,也就是一種簡化后的解釋方式。對于理解數(shù)據(jù)而言,這些模式是有用的,但它們也存在局限性。私人部門的倡導(dǎo)組織發(fā)出警告稱,一個基于網(wǎng)絡(luò)搜索的模式可能會發(fā)現(xiàn)一種相關(guān)性,從而作出不公平或是帶有歧視性的統(tǒng)計推斷,對產(chǎn)品、銀行貸款和養(yǎng)老基金提供的醫(yī)療保險造成影響。
雖然面臨著這種警告,但“大數(shù)據(jù)”時代的降臨看起來已是無可逆轉(zhuǎn)。數(shù)據(jù)已經(jīng)坐到了駕駛員的位置上,它就在那里,有用而且寶貴,甚至還很時尚。
資深數(shù)據(jù)分析師稱,長期以來,朋友們一談到他們的工作就會變得厭煩,但現(xiàn)在突然變得好奇起來。這些分析師們認為,《點球成金》是促成這一變化的原因之一,但實際原因遠非如此簡單。哥倫比亞大學(xué)統(tǒng)計學(xué)家兼政治科學(xué)家安德魯-格爾曼(Andrew Gelman)稱:“文化已經(jīng)發(fā)生了改變。現(xiàn)在人們的想法是,數(shù)字和統(tǒng)計學(xué)是有趣的,是一種很酷的東西。”(金良/編譯)