“大數據”早已是個大眾耳熟能詳的概念,但在它的研究者看來,“大數據時代”其實剛剛開始。將大數據概念帶入中國人視野的信息專家、《大數據》《數據之巔》的作者涂子沛,近日出任阿里巴巴副總裁,主導數據新商業模式的研究與應用實踐,身在大數據現場的他,將為澎湃新聞撰寫一系列他對大數據前沿話題的思考。本文是第一篇。
2007年,微軟的工程師阿爾卡斯(Blaise Agueray Arcas)有過一個創舉,他利用Flickr網站上的照片重建了一座虛擬的巴黎圣母院大教堂,通過點擊,人們可以在網上從不同的角度感受這座教堂,甚至可以放大、細賞其建筑外墻上的一個具體部位,而這些照片,卻是成千上萬普通人拍攝的,阿爾卡斯在演講中說,這是“從每個人那里得到數據——從人類對地球的集體視覺記憶中得到數據——然后把它們聯結在一起”。
阿爾卡斯的創舉并不是孤例。2015年10月8日,世界多地出現月全食,全球無數臺手機對準天空的月亮,隨著咔咔聲響,成千上萬張照片奔涌到云上。這些照片從不同的地點、不同的角度記錄了同一個物體,天文研究者已經認識到,如果整合起來,其對研究工作的意義可能比一臺超級天文望遠鏡還要重大。
這兩個例子中的照片,可謂異曲同工。人們之所以拍照,是為了娛樂、分享。但這些照片被整合起來之后,我們很容易發現,它們產生了新的效用。這些效用,遠遠超出了拍照人最初的目的。這種現象,我稱之為“數據的外部性”。
“外部性”并不是一個新的概念,經濟學家在這個領域的研究,已經有上百年的歷史。他們發現,一個普通個體為了自身利益而做出的“利己行為”,也可能讓其他人或者整個社會受益,并且受益者無須為此支付費用。
我借用這個概念,想指出的是,數據的作用完全可能超出其最初收集者的想象、也完全可能超越其最初信息系統設計的目的,即同一組數據可以在不同的維度上產生不同的價值和效用,如果我們能不斷發現、開拓新的使用維度,數據的能量和價值就將層層放大。
研究數據的外部性,對我們正在邁進的新經濟、數據經濟具有非常重要的意義。
阿里巴巴之所以能夠不斷成長、擴張,其中的一個重要原因,就是用好了“數據外部性“。由于擁有淘寶、天貓、支付寶、B2B等電商平臺,阿里巴巴積聚了大量的商家交易和支付數據。阿里巴巴收集這些數據,一開始僅僅是為了完成網上交易的流水記錄。
2010年開始,阿里巴巴逐漸意識到了這筆記錄的潛在價值,現任阿里云總裁胡曉明先生率隊開始研究如何利用這些數據,判斷商家的資信,從而為其發放貸款。這就是“阿里小貸”的發源,2014年,胡曉明總結說,阿里小貸已經為70多萬小微企業提供了貸款,其單筆信貸的成本為2.3元、客戶3分鐘獲貸、不良率低于1%,這些指標都遠遠低于傳統的銀行。
阿里小貸是中國互聯網金融領域開拓性的標本項目,也是日后阿里巴巴擴張、拆分出一個新的集團——螞蟻金服的重要基礎,分家不分“數”,螞蟻金服集團的諸多業務,還必須依賴于阿里集團的數據。在這個成功的基礎上,今天的阿里巴巴進而提出“一切數據都要業務化”,就是要把所有已經擁有的數據都用起來,挖掘其外部性,讓他們產生新的商業價值。這當然是一個大數據公司應該具備的商業使命。
類似的例子國外也有。Kabbage是一家成立于2008年的網絡貸款公司,其運作機理和阿里小貸類似,為了評估貸款人的信用,Kabbage不僅高效地整合了eBay、Amazon等電子交易平臺上的數據,還分析這些企業在物流公司如UPS的配送數據、在PayPal、Square、QuickBook等財務系統的賬面流水,以及在社交平臺Facebook 、Twitter上與客戶互動的數據。就挖掘數據的外部性而言,Kabbage比阿里小貸做得更廣、更好,其中的原因,是因為美國社會對數據的所有權、使用權、收入權和轉讓權有更為清晰的界定,數據共享、交易的機制更為成熟。
如果把這兩家公司和傳統的銀行進行對比,我們就更能發現數據外部性之于大數據的關鍵意義。
傳統的銀行要給一家企業貸款,必須針對這項貸款申請去訪談調查、收集數據,而被調查的企業在提出貸款申請之前,已經有所準備,他們可能采取相應的措施迎合、糊弄銀行的調查,也就是說,這個過程是“先有目的、后有數據”,可能因為既定的目的,數據在收集的過程中遭遇扭曲;而阿里小貸所利用的流水數據,其最初收集的目的是記錄交易過程,完全和貸款申請無關,其數據遭到扭曲的可能性幾乎為零。
也就是說,數據外部性是“先有數據,再應用于不同的場景和目的”,數據的可信度因此更高。
除了推動經濟發展,數據外部性還可以應用到社會管理領域。2014年8月24日,舊金山地區發生了6.0級地震,次日,可穿戴式設備運營商Jawbone發布了其數據分析。
數據表明,在距離震中較近的地區,有93%的手環用戶在地震發生之時3:20分被驚醒,其中45%在地震之后就沒有再睡著,驚醒用戶的比例隨著距離震源的遠近而呈現清晰的規律。可穿戴式設備收集數據的原始目的是為了監測、改善個體的健康情況,但這些數據加總到一起,新的效用產生了,社會學家可以用它們掌握一個地區的人是否集體在失眠、焦慮,甚至一個晚上總共翻了多少次身,從而可以更好地解釋人際互動乃至社會分層機制,交通部門可以解釋為什么第二天交通事故增多,保險公司可以利用這些數據制定更加個性化的保單價格……這些前所未有的可能性,都是數據外部性帶來的。
隨著傳感器和智能手機的普及,數據還在大規模的爆炸,人體的生理活動、自然環境的狀態、工廠的機器運行、城市的生活將被廣泛的記錄,未來的每一組數據,都具備各種外部性的潛在價值。挖掘利用這種外部性,將給全世界的科學研究、經濟發展和社會治理帶來巨大的機遇。當然,要注意的是,數據外部性也有正、負之分,負的外部性可能會危及國家安全、侵犯公民隱私。這又說明,要用好數據的外部性,我們還亟須建章立制。