關于大數據,我有幾點看法:第一,由于大數據剛剛熱起來,所以不必著急下結論。當年IT剛剛發展時,研究增長問題的權威羅伯特·索洛(Robert Solow)教授提出了一個“索洛悖論”:“我們到處都看得見計算機,就是在生產率統計方面卻看不見。”直到過了15年,到2002年時,他才公開承認說:“我現在發現IT可能對生產率是有貢獻的。”對大數據的研究,可能也需要一個很長的時間才能確認價值所在。
第二,可能性不等于可行性。現在有種觀點:“到底是大數據還是大忽悠?什么都講是大數據。”其實是說現在講的或者設想的都是“可能性”而不是“可行性”。“可行性”要到什么時間?現在還看不出來。它需要合理的制度安排,還需要企業、公司不斷地進行商業實踐、不斷試錯,以及科研工作者對大數據分析技術的不斷改進。
第三,目前的研究主要還是提問階段,而不是解決問題。當然,如果能提出好的問題,這也算是一個研究的好成果。
最后,本文盡量多擺事實、少講道理;多提供一點素材,少提供一點觀點。
一、 大數據的產生、內涵及爭議
首先,大數據何來?實際上大數據一直存在,存在于不同的地方。比如每個人都包涵著很多數據:身高、體重等等,包括觀點、思想。但是過去沒有互聯網,所以這些數據很難得到應用。數據分析在很早就存在。春秋時孫臏就曾用對方營地做灶的數量來判斷對方軍隊的數量,從而指導打仗。不過,當時這樣的數據非常少,有這個利用能力的人才會成為時代的智者。
然而,現在的情況不太一樣了。互聯網應用以來,從2005年開始,數據在不斷地增長,到2010年以后基本上是一個指數增長的過程,到2013年時已經超過4個ZB,每年的增長率超過50%。這就是一個從量變到質變的過程。
之前為什么不說大數據呢?這是個相對的概念,到某一天它的增長速度突然特別快的時候,“大”的概念就蹦出來了。所以它其實不是一個嚴格的學術概念,只是因為在量變的過程中大家感覺到這種質變,或者感覺它里面有價值。
主要的數據來源
主要的數據來源,總的來講有兩個方面:
第一,物的數據。
其中比較有代表性的,就是由傳感器組成的物聯網,這個概念是IBM(162.24, 0.80, 0.50%)在2009年提出來的一種商業模式,當時叫“智慧地球”。就是把傳感器裝到不同的物體上面,然后展現它的各種數據,比如溫度、濕度、壓力等等。物聯網這幾年的增長速度比較快,能達到20%-30%的增長速度,物的數據在不斷地增加。
第二,人的數據。
其中最典型的是移動互聯網的發展。近年來移動互聯網占整個互聯網流量的比例越來越高,移動端尤其是用戶自己發送數據的比例大大提高了,這也是大數據非常重要的一個來源。通過這些移動端的數據,就可以判斷一個人的職業、興趣、品質或者其每時每刻的位置,就是說,靠這些數據能很精確地找到每個人的各種情況。
數據為什么會突然大量增加?一是IT成本下降,此外,跟這兩年云計算使用率的上升有很大的關系。從亞馬遜 彈性云存儲的文件量增長情況可見,從2006年到2013年增加的量是非常顯著的,到2013年二季度時已經有2萬億數量文件存儲在彈性云上。
那么,云計算為什么會降低IT成本?基于我們之前一年的實踐研究數據可知,首先,從需求方來看,過去購買一些硬件包括服務器、電腦等等,成本比較昂貴。但是云計算系統把IT資源集中起來后,以租用的方式來使用,就比買它的價格便宜很多。從供給的角度來看,當把所有的IT資源集中起來以后,會有非常明顯的規模經濟,因為同時運營很多臺服務器(當然這是基于技術),其成本會顯著下降。
這里還有一個范圍經濟的概念:當把IT資源集中起來以后,不單有規模經濟,還經營了多種的資源。比如說,搜索可能需要占很多CPU的計算資源,但是磁盤資源可能沒那么多;電子郵件可能相反。當它集中運用的時候,可以同時得到這兩種效率。所以,這也是云計算對IT成本下降的一個貢獻。
大數據四“V”
關于大數據的定義,現在談得最多的就是所謂的四個“V”,也有五個、六個“V”之說。IDC(互聯網數據中心)歸結的四個“V”中,第一個就是它的實際規模。從早先的KB,到TB,一直到后來的PB、EB,數據的量在不斷地增加,這是一個表面的現象。
第二個“V”是多樣的數據類型,尤其是里面包涵了大量的非結構化的數據。什么是非結構化的數據?比如在網上發一條微信,這句話本身沒法拿來做統計或計量分析,但是可以在里面提取結構化數據進行分析。這樣的數據反而占數據量很重要的一部分。
第三個“V”講的是價值,有兩點:一個是價值大,大數據帶來各種可能性;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。在互聯網上抓取的1GB的大數據,里面有用的可能只有千分之一、萬分之一,或者百萬分之一,所以,挖掘和分析比原來更加困難。
第四個“V”就是動態數據的快速處理。在這方面云計算的貢獻比較大,這里比較核心的,也是大數據將來能不能從“可能”到“可行”轉變的兩個要素,即:非結構化和低密度。這兩者其實互相相關,如果技術上能解決怎么分析非結構化數據、怎么從低密度價值里面提取數據的價值,那么大數據的應用可能就會有一個飛躍的增長。所以,我覺得非結構化和低密度可能是大數據的核心東西。
那么大數據是什么呢?如果管中窺豹,從點上去看它,首先,大數據的“大”肯定是一個相對的概念,它不是一個絕對的概念。另外,它更不是一個學術性的概念,而且這里面需要關注的就是非結構化的數據可能占大數據的主要部分,尤其是來自于網民的交互式的數據可能是未來大數據的主體之一。
從分析方法來看,過去得到數據或者統計的方法是抽樣,然后利用概率論和隨機過程等數學的方法來推理,從而達到目的,推測得出全部數據。現在有這種可能性,如果成本降得比較低的話,就可以獲得全部的數據。
對大數據的質疑
當然,對大數據也有非常多的質疑。首先,有人提出“大數據陷阱”。數據是不是越多越好?實際上,對任何企業或個體來說,數據肯定不是越多越好,肯定有一個最優的數據量,因為要分析大量的數據,方法是不是可能?分析成本有多高?這個大量的數據包含的價值有多大?所以,對每一個企業都有一個最優的數據量,就是從拿到的數據范圍里面獲得的價值和為了獲得這些價值而付出的分析成本,它們兩個接近相等的時候,可能就是最優數據量。
再就是,MIT的凱特·克勞福德(Kate Crawford)教授提出“大數據中存在偏見和盲區”:數據在生成或采集的過程中并不都是平等的,大數據集存在“信號問題”,即某些民眾和社區被忽略或未得到充分體現。這個比較典型,比如說,國內現在有6億多網民,有時候不能用6億的數據去判斷13億人的狀態,因為這個過程不是靠抽樣得到的。
第三個問題就是“泄露個人隱私成為日益嚴重的擔憂”。在我們不知情時,數據就被人拿走了,這是很可怕的事。
二、 大數據應用的潛在經濟影響
如果從宏觀或者立體的角度看,人類整個經濟發展的過程其實就是不斷地把一些不可利用的資源變成可利用的資源的過程。這個過程一般就是技術的一個個大突破,當然每一次技術突破都伴隨著不斷的、大量的投資過程,并將其轉化成價值。
比如2008年的金融危機,一開始大家都關注金融的問題,后來很多經濟學家提出,這可能是過去的IT技術的經濟效應不斷耗盡,而新的技術還沒有出來所造成的現象——當技術處在一個不給力的階段的時候,金融就發生問題。實際上很多發達國家在2008年以后也是寄希望于一套新技術來擺脫實體經濟的衰落和危機,大數據包括云計算、新能源都是被他們寄予厚望的幾個關鍵技術之一。
下一代通用目的技術?
1995年時,通用目的技術的概念被提出,其特征就是它在許許多多的部門都具有廣泛而且普遍深入使用的潛力和技術活力,區別于一般的專用技術,它的影響非常廣,甚至一項通用目的技術的發展和進步往往會引發全面的生產率的收益。
到2005年時,加拿大的Lipsey教授出了一本書,總結了人類歷史發展過程中經歷的24種通用目的技術——從青銅冶煉,到鉆木取火,一直到2000年左右的互聯網信息技術。所以,如果從增長的視角來觀察大數據的話,一個核心的問題就是:大數據會不會成為大家期待的下一代的通用目的技術?如果是的話,它可能會帶來比較顯著的經濟增長效應。
目前,大家都在期待著通用目的技術,但是真正在市場里摸爬滾打的風險投資家們,他們顯然還沒有明確地認為哪一項技術能夠成為代替互聯網的下一代通用目的技術。
在2004年左右時,有人提出了“BT會代替IT”的觀點,講了很多生物技術的可能性,但它最終沒有轉化為能夠看得到的“可行性”——到現在為止,它也沒有真正實現對IT的替代。包括2008年以后的新能源或者云計算、大數據,它們都沒有真正出現一個讓投資熱高漲的階段。所以,現在我們還沒有明顯地看到下一代通用目的技術是什么,只是有很多的設想,包括今天對大數據可能也只是一種設想、一種期望。
產業發展前景
從大數據本身的情況來看,是不是具備一些通用目的技術的特征?麥肯錫研究院根據其模型做出一些具體的預測:大數據可以為美國的醫療服務業帶來3000億美元的潛在增加值,對歐洲的公共管理每年有2500億歐元的潛在價值,為位置服務產業帶來6000億美元的潛在年收入。同時,零售商充分利用大數據可實現運營利潤增長60%——這是一個非常可觀的數字,因為大數據現在對制造業的利潤平均可能不到5%。另外,制造業充分利用大數據可降低整個成本的50%。
上面是宏觀地看,現在提供一個微觀的案例。德國小貸公司Kreditech不需要客戶提供信用證明,比如資產等,只是通過訪問用戶的一些電子商務數據(在中國就是淘寶、eBay的數據)、社交數據(比如Facebook)來了解你的電子商務購物行為、手機的使用情況以及位置數據等,然后用這些數據來側面分析客戶信用度。這個貸款過程非常快,用模型來判斷,只需幾秒鐘,放貸只要15分鐘。當然,它只提供小額貸款,目前這些國家的高額貸款主要還是大銀行在做,它們有傳統優勢,但是大銀行關注不到的一些地方,就由小貸公司提供服務。Kreditech提供的貸款額度最高為500歐元。從效率上來看,這已經是一個很好的嘗試了。這樣的公司現在美國、英國比較多。
在中國,比如,新的互聯網企業、新的龍頭企業BAT,當初2000年互聯網泡沫的時候,講的是搜狐、新浪、網易這樣的企業,現在阿里管它們叫“互聯網1.0”。現在BAT都是掌握了大量數據的企業。其中百度有最大的網頁搜索數據,阿里巴巴(滾動資訊)有最大的電商數據,騰訊掌握著最大的社交數據。所以,這不是一個偶然的現象。
為什么這樣的企業會成為引領現代互聯網產業發展的企業?很可能跟大數據的價值有內在的關系。舉一個小例子:打車軟件深度發展就是基于位置的服務,在每個點上可以看到周圍有哪些車,甚至車的位置也可以知道。反過來也一樣,司機可以看到每個乘客的距離有多遠。這種數據如果在這個行業有很深應用的話,甚至可能會對用戶的購車行為產生影響。
在中國,工信部下屬的賽迪做過一個關于投資的預測:對大數據的投資從2012年到2015年大概每年增長100%左右,這個速度甚至超過國外的速度。
對波動的沖擊效應
宏觀經濟學兩個基本的問題:一個是增長,一個是波動。前面講的是一個經濟增長的視角,其實從經濟波動和政府干預的視角來看,大數據也會帶來一些沖擊效應。
這里要提出一個問題,大數據的發展能否真正改善供需平衡?因為短期的經濟周期性的波動的危害也是比較大的,其核心就是供需不平衡。大數據對此會不會有貢獻?舉兩個例子:一個是淘寶搞的“訂單農業”。它通過網上的數據平臺去獲得需要的信息,然后再按照訂單來組織、安排生產。另外一個例子是制造業。2013年海爾同阿里合作,叫“家電定制”,先由阿里來收集消費者對海爾產品的需求情況,然后再組織生產,生產周期大概1個-2個月。當時這個活動的效果也不錯。
當然,不能由這兩個案例就推而廣之說大數據能解決供需平衡的問題。如果收集全國所有的數據,恐怕量比較大,而且也比較困難。但是,至少從這個角度來看,我們看到這種可能性,值得思考。
再就是對政府干預合理性的影響。為什么政府需要干預?因為市場失靈了。為什么市場會失靈?比如在二手車市場上,供方和需方的信息是不對稱的,賣車的人擁有比買車的人更多的信息。在這種情況下,如果消費者真的按照市場均衡的價格去買二手車的話,買到的只能是劣等車,好車是買不到的,這就是“劣幣驅逐良幣”的現象。從這個例子可以看出市場是有可能失靈的,所以需要政府在某些方面給予干預。但是在大數據的條件下來看這個問題的話,如果一個二手車的買家在合理的制度安排下,比如可以到保險公司去查它的數據,就知道它修了幾次,出了幾次險,到4S店去看就知道它每次出險修的是什么地方。這樣買家就可能知道二手車的全部信息,這樣會不會對清除這種現象有很大的改善?
講這個故事就是說,經濟學的一些傳統的分析范式也好,一些傳統觀點也好,甚至有一些結論,很可能在大數據的條件下會發生很大變化,比如政府干預的必要性是不是比以前更加不必要了。這都是需要研究的問題。
三、 大數據對社會治理的可能影響
十八屆三中全會講到:“全面深化改革的總目標是完善和發展中國特色社會主義制度,推進國家治理體系和治理能力現代化。”“國家治理體系”和“治理能力”到底指的是什么或者如何推進?大數據對這個問題應該是可以有貢獻的。
比如,在許多西方國家,通過選舉這套代議制度來把民意反映到政府的層次,而國內除了人民代表大會制度外,更多是領導通過調研的方式來體察民意。這實際上是一種抽樣的性質,去看一些個案,但個案容易在實踐中出現虛假現象,甚至國務院領導都曾被地方作假所蒙蔽。所以,這種體制下怎么去感知民意?現在互聯網至少匯聚了6億網民的一些數據,在一定程度上體現了大數據的“全樣本”特征,有一個很好的技術基礎。
第二個案例是“犯罪預警”。有些地方的司法部門已經建立了一個大數據分析中心,通過分析互聯網中,比如商業方面的一些業務數據,包括來自于傳感器的傳感數據、一些郵件、互聯網花費單、銀行賬戶等等,將各類結構化的、非結構化的數據集中到大數據中心來,然后通過線索識別、指紋抽取等一系列手段進行分析,從而達到預警。
再比如,美國洛杉磯警察局總結認為,利用大數據的分析軟件,成功地將轄區里的盜竊犯罪降低了33%,暴力犯罪降低了21%,財產類犯罪降低了12%。其方法很簡單,就是用模型把洛杉磯區域內即將發生犯罪的特定語句挑出來,比如人們談論的話:“出去啊”“看球啊”“喝酒啊”等等,通常會與犯罪相關的語言。這就是非結構化的數據,因為它跟犯罪沒有直接的關系,是通過經驗挑出這些語言,然后作為預防犯罪的一些敏感詞。
這也可能是對社會治理的一個應用,至于怎么去用還需要探索。
還有城市管理方面的一個案例。SpotHero是美國一家手機應用公司,客戶開車到一個地方去時,周圍有幾個停車場,每個停車場有多少個停車位,包括每個停車位的價格是多少,通過這些數據去判斷最適合自己停車的地方。
除了人的數據以外,傳感數據的應用也有廣闊空間。比如說物的數據,我聽到過一個例子,就是有個城市里有很多休閑的地方,每個地方都有座椅,如果在座椅上安裝一個溫度傳感器的話,大概就能知道每天哪個公共設置的座椅溫度最高,溫度高說明它利用率高,也可以知道哪些椅子長時間沒有人坐。就是說,完全可以通過傳感器的數據來安排之后的公共基礎設施,使其達到一個最優的狀態,通過這種方式來不斷地優化一個城市的治理。
四、 大數據應用的制度需求和政府的作用
從經濟學的角度看,一個很核心的問題是如何界定數據的產權?有很多人把大數據比喻成石油,一種新的資產。但是,這種產權和財產權應該有很大區別。我覺得,產權的界定是大數據交易和商業化的前提。經濟學家科斯曾經講過產權界定的重要性,如果產權沒有進行界定的話,可能交易就沒有效率。
這里講一個美國金融貸款公司的案例,它主要給一些小微企業貸款,貸款額度比德國的Kreditech公司要大一些。它貸款的前提是去聯邦快遞(UPS)查詢企業的快遞記錄,但UPS需要企業的授權同意;另外,即使企業同意,UPS也可以拒絕金融貸款公司的要求,后者還需要付錢給UPS。小微企業也可以直接找UPS拿到自己數據,因為它有這個權利,但金融貸款公司可能質疑數據的真實性。因此,這些企業可以尋求UPS的數據認證,然后再將其交給貸款公司。這樣,UPS可以同時向小微企業和金融貸款公司收取費用。
立法界定產權
對大數據來講,如果要利用起來,核心在于如何界定數據產權。但是,這個產權不是天經地義,應該從經濟效率或者社會學的角度出發來界定它,就像專利、像工業產權一樣。就是說,應該怎么有效率,然后怎么去界定產權。
我覺得,至少需要三個層次的立法:比如剛才講的數據的商業運用應該是什么邊界?個人隱私保護應該在什么邊界?政府數據的公開應該在什么邊界?這樣,大家運用起來才能得心應手。一個是會有更多的可用數據,另外也能減少更多的顧慮,目前基本上還是一個比較混亂的狀態。
另外,還有一些其他的制度需求。首先,還是需要公平競爭的環境,比如對金融行業使用大數據的前景是非常好的,但現在也存在很多的市場準入門檻,使銀行僅靠存貸差就可以過好日子。出租車也是一個案例。所以,國內如果應用大數據的話,這會是一個很大的問題。
第二,數據安全或者信息安全的問題。
關于這點甚至提得更高,說“數據主權比產權還高”,包括一些安全預警與審查機制,以及數據存儲的地域限制。歐洲搞云計算時就提出了一個原則:歐洲的一些關鍵數據不能夠放在美國的云計算中心。再比如對國家數據的外泄要立法等。
第三,行業性立法。
這方面美國已經做了一些。在中國的醫療行業,實際上在大數據出現之前,病歷在醫院已經電子化了,但是不同醫院之間仍然不能夠共享,所以這也是一個體制問題。如果能通過行業性立法,把這些能夠利用的大數據都放在一個平臺上,那情況就大不一樣了。包括教育方面,也有很多體制問題需要解決。
政府的作用
最后,簡單說一下政府的作用。
首先,國外政府在做什么?比如2012年美國政府推出“大數據行動計劃”,已經炒得很熱。主要是在研究和應用上投了很多錢。
第二,數據開放。奧巴馬2013年簽署法令,要求所有新增政府數據都必須以電腦文件方式向公眾開放。白宮頒布了開放數據政策,要求政府部門列出所有可公開的數據清單。如果不可公開的話,也要作出說明。主要是列出這些數據,及時向公眾開放。
第三,政府采購。云計算時,聯邦政府還任命了一個首席技術官,專門推進聯邦政府和部門的云計算應用。現在數據服務可能也是這樣。第四,制定法規。這不僅是中國的問題,美國也有醫療、教育、個人隱私等方面的問題,也需要制定法規。在歐洲,有關個人隱私的法律很多,但還有很多的工作要做。
在中國,首先領導層比較關注。2013年9月,中央政治局在中關村進行開放學習,百度CEO李彥宏現場講解了大數據。部委層面也有很多。2013年11月19日,國家統計局與百度、阿里等11家公司簽訂協議,共同建設“國家統計局大數據合作平臺”。因為阿里公布的數據基本上是所有平臺上所有小企業數據的集合,所以它對小企業的感知比統計局要強得多。這種合作也是有好處的。
在法規方面,去年9月,工信部頒布了《電信和互聯網用戶個人信息保護規定》。這個規定是個起步,和國外的法律體系相比還有很大差距,還需要繼續努力。
最后,就是資金支持。自2012年以來,科技部、發改委、工信部等部委在研發、探索和產業化專項上,陸續支持了一批大數據項目。對這種新的技術,云計算也好,大數據也好,地方政府往往還是走在中央政府之前。現在基本上是“多點開花”的狀態,陜西有“大數據科學園區”,廣東有“大數據戰略工作方案”,上海有“大數據研發三年行動計劃”,山東有“產業聯盟”,遼寧也在搞。在中關村,還有“大數據產業聯盟”。
五、 關于大數據的建議
第一,不必急于出臺所謂的戰略性規劃和設立產業專項資金。
因為國內的IT企業也好,地方政府也好,已經意識到大數據產業的發展前景,現在熱情非常大。在這種情況下,以國家規劃和專項資金等方式進行鼓勵,有可能扭曲正常的市場行為,甚至催生泡沫。
在云計算發展的過程中,這已經非常明顯。很多地方搞云計算搞成了云地產。在這種情況下,我覺得云計算產業可能已經有了過剩的苗頭,不希望大數據也出現同樣的問題。
第二,怎么合理改造、建設和布局好IT基礎設施?
對大數據來講,有兩個方面:一個是互聯網帶寬,這沒問題;另外一個,其實云計算本身就是大數據的一個基礎設施,本身就是處理動態的海量數據的。如果沒有這樣一個系統,數據是不可能大規模存儲的,也不可能大規模快速計算。很多傳統數據中心及舊服務器資源,可以通過建立虛擬數據中心或進行就近合并等方式進行改造利用。
另外,一些新建的大規模的數據中心,如何通過統籌,合理布局,能夠真正地讓云計算實現降低IT成本的效果,而不是相反。除云計算以外,主要就是加快“寬帶普及提速工程”的推進速度。這個日本和韓國做得比較好。
第三,如何推動隱私保護和公共機構信息公開等立法。2012年全國人大常委會通過了《關于加強網絡信息保護的決定》,工信部也有保護個人信息的新規。但是還有很多的工作要做,如何繼續完善個人隱私保護立法還是有很大的問題。
再者,對互聯網數據商業化應用范圍如何界定?數據濫用應承擔哪些責任?目前都還沒有有法可依的東西。然后就是政府信息公開的程度。最后就是哪些數據可以向境外流動或允許境外企業開發利用,也需要有一些相應的法律規定。
最后,資助大數據基礎技術研究,包括人才培養。現在搞大數據分析或者大數據應用,人才很缺乏,這種情況不光是國內存在。
作者為國務院發展研究中心技術經濟研究部第二研究室主任,本文為作者在洪范法律與經濟研究所舉辦的學術研討會上的發言