關(guān)于大數(shù)據(jù),我有幾點(diǎn)看法:第一,由于大數(shù)據(jù)剛剛熱起來,所以不必著急下結(jié)論。當(dāng)年IT剛剛發(fā)展時,研究增長問題的權(quán)威羅伯特·索洛(Robert Solow)教授提出了一個“索洛悖論”:“我們到處都看得見計(jì)算機(jī),就是在生產(chǎn)率統(tǒng)計(jì)方面卻看不見。”直到過了15年,到2002年時,他才公開承認(rèn)說:“我現(xiàn)在發(fā)現(xiàn)IT可能對生產(chǎn)率是有貢獻(xiàn)的。”對大數(shù)據(jù)的研究,可能也需要一個很長的時間才能確認(rèn)價值所在。
第二,可能性不等于可行性。現(xiàn)在有種觀點(diǎn):“到底是大數(shù)據(jù)還是大忽悠?什么都講是大數(shù)據(jù)。”其實(shí)是說現(xiàn)在講的或者設(shè)想的都是“可能性”而不是“可行性”。“可行性”要到什么時間?現(xiàn)在還看不出來。它需要合理的制度安排,還需要企業(yè)、公司不斷地進(jìn)行商業(yè)實(shí)踐、不斷試錯,以及科研工作者對大數(shù)據(jù)分析技術(shù)的不斷改進(jìn)。
第三,目前的研究主要還是提問階段,而不是解決問題。當(dāng)然,如果能提出好的問題,這也算是一個研究的好成果。
最后,本文盡量多擺事實(shí)、少講道理;多提供一點(diǎn)素材,少提供一點(diǎn)觀點(diǎn)。
一、大數(shù)據(jù)的產(chǎn)生、內(nèi)涵及爭議
首先,大數(shù)據(jù)何來?實(shí)際上大數(shù)據(jù)一直存在,存在于不同的地方。比如每個人都包涵著很多數(shù)據(jù):身高、體重等等,包括觀點(diǎn)、思想。但是過去沒有互聯(lián)網(wǎng),所以這些數(shù)據(jù)很難得到應(yīng)用。數(shù)據(jù)分析在很早就存在。春秋時孫臏就曾用對方營地做灶的數(shù)量來判斷對方軍隊(duì)的數(shù)量,從而指導(dǎo)打仗。不過,當(dāng)時這樣的數(shù)據(jù)非常少,有這個利用能力的人才會成為時代的智者。
然而,現(xiàn)在的情況不太一樣了。互聯(lián)網(wǎng)應(yīng)用以來,從2005年開始,數(shù)據(jù)在不斷地增長,到2010年以后基本上是一個指數(shù)增長的過程,到2013年時已經(jīng)超過4個ZB,每年的增長率超過50%。這就是一個從量變到質(zhì)變的過程。
之前為什么不說大數(shù)據(jù)呢?這是個相對的概念,到某一天它的增長速度突然特別快的時候,“大”的概念就蹦出來了。所以它其實(shí)不是一個嚴(yán)格的學(xué)術(shù)概念,只是因?yàn)樵诹孔兊倪^程中大家感覺到這種質(zhì)變,或者感覺它里面有價值。
主要的數(shù)據(jù)來源
主要的數(shù)據(jù)來源,總的來講有兩個方面:
第一,物的數(shù)據(jù)。
其中比較有代表性的,就是由傳感器組成的物聯(lián)網(wǎng),這個概念是IBM在2009年提出來的一種商業(yè)模式,當(dāng)時叫“智慧地球”。就是把傳感器裝到不同的物體上面,然后展現(xiàn)它的各種數(shù)據(jù),比如溫度、濕度、壓力等等。物聯(lián)網(wǎng)這幾年的增長速度比較快,能達(dá)到20%-30%的增長速度,物的數(shù)據(jù)在不斷地增加。
第二,人的數(shù)據(jù)。
其中最典型的是移動互聯(lián)網(wǎng)的發(fā)展。近年來移動互聯(lián)網(wǎng)占整個互聯(lián)網(wǎng)流量的比例越來越高,移動端尤其是用戶自己發(fā)送數(shù)據(jù)的比例大大提高了,這也是大數(shù)據(jù)非常重要的一個來源。通過這些移動端的數(shù)據(jù),就可以判斷一個人的職業(yè)、興趣、品質(zhì)或者其每時每刻的位置,就是說,靠這些數(shù)據(jù)能很精確地找到每個人的各種情況。
數(shù)據(jù)為什么會突然大量增加?一是IT成本下降,此外,跟這兩年云計(jì)算使用率的上升有很大的關(guān)系。從亞馬遜(313.62, 6.56, 2.14%)彈性云存儲的文件量增長情況可見,從2006年到2013年增加的量是非常顯著的,到2013年二季度時已經(jīng)有2萬億數(shù)量文件存儲在彈性云上。
那么,云計(jì)算為什么會降低IT成本?基于我們之前一年的實(shí)踐研究數(shù)據(jù)可知,首先,從需求方來看,過去購買一些硬件包括服務(wù)器、電腦等等,成本比較昂貴。但是云計(jì)算系統(tǒng)把IT資源集中起來后,以租用的方式來使用,就比買它的價格便宜很多。從供給的角度來看,當(dāng)把所有的IT資源集中起來以后,會有非常明顯的規(guī)模經(jīng)濟(jì),因?yàn)橥瑫r運(yùn)營很多臺服務(wù)器(當(dāng)然這是基于技術(shù)),其成本會顯著下降。
這里還有一個范圍經(jīng)濟(jì)的概念:當(dāng)把IT資源集中起來以后,不單有規(guī)模經(jīng)濟(jì),還經(jīng)營了多種的資源。比如說,搜索可能需要占很多CPU的計(jì)算資源,但是磁盤資源可能沒那么多;電子郵件可能相反。當(dāng)它集中運(yùn)用的時候,可以同時得到這兩種效率。所以,這也是云計(jì)算對IT成本下降的一個貢獻(xiàn)。
大數(shù)據(jù)四“V”
關(guān)于大數(shù)據(jù)的定義,現(xiàn)在談得最多的就是所謂的四個“V”,也有五個、六個“V”之說。IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)歸結(jié)的四個“V”中,第一個就是它的實(shí)際規(guī)模。從早先的KB,到TB,一直到后來的PB、EB,數(shù)據(jù)的量在不斷地增加,這是一個表面的現(xiàn)象。
第二個“V”是多樣的數(shù)據(jù)類型,尤其是里面包涵了大量的非結(jié)構(gòu)化的數(shù)據(jù)。什么是非結(jié)構(gòu)化的數(shù)據(jù)?比如在網(wǎng)上發(fā)一條微信,這句話本身沒法拿來做統(tǒng)計(jì)或計(jì)量分析,但是可以在里面提取結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。這樣的數(shù)據(jù)反而占數(shù)據(jù)量很重要的一部分。
第三個“V”講的是價值,有兩點(diǎn):一個是價值大,大數(shù)據(jù)帶來各種可能性;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。在互聯(lián)網(wǎng)上抓取的1GB的大數(shù)據(jù),里面有用的可能只有千分之一、萬分之一,或者百萬分之一,所以,挖掘和分析比原來更加困難。
第四個“V”就是動態(tài)數(shù)據(jù)的快速處理。在這方面云計(jì)算的貢獻(xiàn)比較大,這里比較核心的,也是大數(shù)據(jù)將來能不能從“可能”到“可行”轉(zhuǎn)變的兩個要素,即:非結(jié)構(gòu)化和低密度。這兩者其實(shí)互相相關(guān),如果技術(shù)上能解決怎么分析非結(jié)構(gòu)化數(shù)據(jù)、怎么從低密度價值里面提取數(shù)據(jù)的價值,那么大數(shù)據(jù)的應(yīng)用可能就會有一個飛躍的增長。所以,我覺得非結(jié)構(gòu)化和低密度可能是大數(shù)據(jù)的核心東西。
那么大數(shù)據(jù)是什么呢?如果管中窺豹,從點(diǎn)上去看它,首先,大數(shù)據(jù)的“大”肯定是一個相對的概念,它不是一個絕對的概念。另外,它更不是一個學(xué)術(shù)性的概念,而且這里面需要關(guān)注的就是非結(jié)構(gòu)化的數(shù)據(jù)可能占大數(shù)據(jù)的主要部分,尤其是來自于網(wǎng)民的交互式的數(shù)據(jù)可能是未來大數(shù)據(jù)的主體之一。
從分析方法來看,過去得到數(shù)據(jù)或者統(tǒng)計(jì)的方法是抽樣,然后利用概率論和隨機(jī)過程等數(shù)學(xué)的方法來推理,從而達(dá)到目的,推測得出全部數(shù)據(jù)。現(xiàn)在有這種可能性,如果成本降得比較低的話,就可以獲得全部的數(shù)據(jù)。
對大數(shù)據(jù)的質(zhì)疑
當(dāng)然,對大數(shù)據(jù)也有非常多的質(zhì)疑。首先,有人提出“大數(shù)據(jù)陷阱”。數(shù)據(jù)是不是越多越好?實(shí)際上,對任何企業(yè)或個體來說,數(shù)據(jù)肯定不是越多越好,肯定有一個最優(yōu)的數(shù)據(jù)量,因?yàn)橐治龃罅康臄?shù)據(jù),方法是不是可能?分析成本有多高?這個大量的數(shù)據(jù)包含的價值有多大?所以,對每一個企業(yè)都有一個最優(yōu)的數(shù)據(jù)量,就是從拿到的數(shù)據(jù)范圍里面獲得的價值和為了獲得這些價值而付出的分析成本,它們兩個接近相等的時候,可能就是最優(yōu)數(shù)據(jù)量。
再就是,MIT的凱特·克勞福德(Kate Crawford)教授提出“大數(shù)據(jù)中存在偏見和盲區(qū)”:數(shù)據(jù)在生成或采集的過程中并不都是平等的,大數(shù)據(jù)集存在“信號問題”,即某些民眾和社區(qū)被忽略或未得到充分體現(xiàn)。這個比較典型,比如說,國內(nèi)現(xiàn)在有6億多網(wǎng)民,有時候不能用6億的數(shù)據(jù)去判斷13億人的狀態(tài),因?yàn)檫@個過程不是靠抽樣得到的。
第三個問題就是“泄露個人隱私成為日益嚴(yán)重的擔(dān)憂”。在我們不知情時,數(shù)據(jù)就被人拿走了,這是很可怕的事。
二、大數(shù)據(jù)應(yīng)用的潛在經(jīng)濟(jì)影響
如果從宏觀或者立體的角度看,人類整個經(jīng)濟(jì)發(fā)展的過程其實(shí)就是不斷地把一些不可利用的資源變成可利用的資源的過程。這個過程一般就是技術(shù)的一個個大突破,當(dāng)然每一次技術(shù)突破都伴隨著不斷的、大量的投資過程,并將其轉(zhuǎn)化成價值。
比如2008年的金融危機(jī),一開始大家都關(guān)注金融的問題,后來很多經(jīng)濟(jì)學(xué)家提出,這可能是過去的IT技術(shù)的經(jīng)濟(jì)效應(yīng)不斷耗盡,而新的技術(shù)還沒有出來所造成的現(xiàn)象——當(dāng)技術(shù)處在一個不給力的階段的時候,金融就發(fā)生問題。實(shí)際上很多發(fā)達(dá)國家在2008年以后也是寄希望于一套新技術(shù)來擺脫實(shí)體經(jīng)濟(jì)的衰落和危機(jī),大數(shù)據(jù)包括云計(jì)算、新能源都是被他們寄予厚望的幾個關(guān)鍵技術(shù)之一。
下一代通用目的技術(shù)?
1995年時,通用目的技術(shù)的概念被提出,其特征就是它在許許多多的部門都具有廣泛而且普遍深入使用的潛力和技術(shù)活力,區(qū)別于一般的專用技術(shù),它的影響非常廣,甚至一項(xiàng)通用目的技術(shù)的發(fā)展和進(jìn)步往往會引發(fā)全面的生產(chǎn)率的收益。
到2005年時,加拿大的Lipsey教授出了一本書,總結(jié)了人類歷史發(fā)展過程中經(jīng)歷的24種通用目的技術(shù)——從青銅冶煉,到鉆木取火,一直到2000年左右的互聯(lián)網(wǎng)信息技術(shù)。所以,如果從增長的視角來觀察大數(shù)據(jù)的話,一個核心的問題就是:大數(shù)據(jù)會不會成為大家期待的下一代的通用目的技術(shù)?如果是的話,它可能會帶來比較顯著的經(jīng)濟(jì)增長效應(yīng)。
目前,大家都在期待著通用目的技術(shù),但是真正在市場里摸爬滾打的風(fēng)險(xiǎn)投資家們,他們顯然還沒有明確地認(rèn)為哪一項(xiàng)技術(shù)能夠成為代替互聯(lián)網(wǎng)的下一代通用目的技術(shù)。
在2004年左右時,有人提出了“BT會代替IT”的觀點(diǎn),講了很多生物技術(shù)的可能性,但它最終沒有轉(zhuǎn)化為能夠看得到的“可行性”——到現(xiàn)在為止,它也沒有真正實(shí)現(xiàn)對IT的替代。包括2008年以后的新能源或者云計(jì)算、大數(shù)據(jù),它們都沒有真正出現(xiàn)一個讓投資熱高漲的階段。所以,現(xiàn)在我們還沒有明顯地看到下一代通用目的技術(shù)是什么,只是有很多的設(shè)想,包括今天對大數(shù)據(jù)可能也只是一種設(shè)想、一種期望。
產(chǎn)業(yè)發(fā)展前景
從大數(shù)據(jù)本身的情況來看,是不是具備一些通用目的技術(shù)的特征?麥肯錫研究院根據(jù)其模型做出一些具體的預(yù)測:大數(shù)據(jù)可以為美國的醫(yī)療服務(wù)業(yè)帶來3000億美元的潛在增加值,對歐洲的公共管理每年有2500億歐元的潛在價值,為位置服務(wù)產(chǎn)業(yè)帶來6000億美元的潛在年收入。同時,零售商充分利用大數(shù)據(jù)可實(shí)現(xiàn)運(yùn)營利潤增長60%——這是一個非常可觀的數(shù)字,因?yàn)榇髷?shù)據(jù)現(xiàn)在對制造業(yè)的利潤平均可能不到5%。另外,制造業(yè)充分利用大數(shù)據(jù)可降低整個成本的50%。
上面是宏觀地看,現(xiàn)在提供一個微觀的案例。德國小貸公司Kreditech不需要客戶提供信用證明,比如資產(chǎn)等,只是通過訪問用戶的一些電子商務(wù)數(shù)據(jù)(在中國就是淘寶、eBay的數(shù)據(jù))、社交數(shù)據(jù)(比如Facebook)來了解你的電子商務(wù)購物行為、手機(jī)的使用情況以及位置數(shù)據(jù)等,然后用這些數(shù)據(jù)來側(cè)面分析客戶信用度。這個貸款過程非常快,用模型來判斷,只需幾秒鐘,放貸只要15分鐘。當(dāng)然,它只提供小額貸款,目前這些國家的高額貸款主要還是大銀行在做,它們有傳統(tǒng)優(yōu)勢,但是大銀行關(guān)注不到的一些地方,就由小貸公司提供服務(wù)。Kreditech提供的貸款額度最高為500歐元。從效率上來看,這已經(jīng)是一個很好的嘗試了。這樣的公司現(xiàn)在美國、英國比較多。
在中國,比如,新的互聯(lián)網(wǎng)企業(yè)、新的龍頭企業(yè)BAT,當(dāng)初2000年互聯(lián)網(wǎng)泡沫的時候,講的是搜狐、新浪、網(wǎng)易這樣的企業(yè),現(xiàn)在阿里管它們叫“互聯(lián)網(wǎng)1.0”。現(xiàn)在BAT都是掌握了大量數(shù)據(jù)的企業(yè)。其中百度有最大的網(wǎng)頁搜索數(shù)據(jù),阿里巴巴有最大的電商數(shù)據(jù),騰訊掌握著最大的社交數(shù)據(jù)。所以,這不是一個偶然的現(xiàn)象。
為什么這樣的企業(yè)會成為引領(lǐng)現(xiàn)代互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展的企業(yè)?很可能跟大數(shù)據(jù)的價值有內(nèi)在的關(guān)系。舉一個小例子:打車軟件深度發(fā)展就是基于位置的服務(wù),在每個點(diǎn)上可以看到周圍有哪些車,甚至車的位置也可以知道。反過來也一樣,司機(jī)可以看到每個乘客的距離有多遠(yuǎn)。這種數(shù)據(jù)如果在這個行業(yè)有很深應(yīng)用的話,甚至可能會對用戶的購車行為產(chǎn)生影響。
在中國,工信部下屬的賽迪做過一個關(guān)于投資的預(yù)測:對大數(shù)據(jù)的投資從2012年到2015年大概每年增長100%左右,這個速度甚至超過國外的速度。
對波動的沖擊效應(yīng)
宏觀經(jīng)濟(jì)學(xué)兩個基本的問題:一個是增長,一個是波動。前面講的是一個經(jīng)濟(jì)增長的視角,其實(shí)從經(jīng)濟(jì)波動和政府干預(yù)的視角來看,大數(shù)據(jù)也會帶來一些沖擊效應(yīng)。
這里要提出一個問題,大數(shù)據(jù)的發(fā)展能否真正改善供需平衡?因?yàn)槎唐诘慕?jīng)濟(jì)周期性的波動的危害也是比較大的,其核心就是供需不平衡。大數(shù)據(jù)對此會不會有貢獻(xiàn)?舉兩個例子:一個是淘寶搞的“訂單農(nóng)業(yè)”。它通過網(wǎng)上的數(shù)據(jù)平臺去獲得需要的信息,然后再按照訂單來組織、安排生產(chǎn)。另外一個例子是制造業(yè)。2013年海爾同阿里合作,叫“家電定制”,先由阿里來收集消費(fèi)者對海爾產(chǎn)品的需求情況,然后再組織生產(chǎn),生產(chǎn)周期大概1個-2個月。當(dāng)時這個活動的效果也不錯。
當(dāng)然,不能由這兩個案例就推而廣之說大數(shù)據(jù)能解決供需平衡的問題。如果收集全國所有的數(shù)據(jù),恐怕量比較大,而且也比較困難。但是,至少從這個角度來看,我們看到這種可能性,值得思考。
再就是對政府干預(yù)合理性的影響。為什么政府需要干預(yù)?因?yàn)槭袌鍪ъ`了。為什么市場會失靈?比如在二手車市場上,供方和需方的信息是不對稱的,賣車的人擁有比買車的人更多的信息。在這種情況下,如果消費(fèi)者真的按照市場均衡的價格去買二手車的話,買到的只能是劣等車,好車是買不到的,這就是“劣幣驅(qū)逐良幣”的現(xiàn)象。從這個例子可以看出市場是有可能失靈的,所以需要政府在某些方面給予干預(yù)。但是在大數(shù)據(jù)的條件下來看這個問題的話,如果一個二手車的買家在合理的制度安排下,比如可以到保險(xiǎn)公司去查它的數(shù)據(jù),就知道它修了幾次,出了幾次險(xiǎn),到4S店去看就知道它每次出險(xiǎn)修的是什么地方。這樣買家就可能知道二手車的全部信息,這樣會不會對清除這種現(xiàn)象有很大的改善?
講這個故事就是說,經(jīng)濟(jì)學(xué)的一些傳統(tǒng)的分析范式也好,一些傳統(tǒng)觀點(diǎn)也好,甚至有一些結(jié)論,很可能在大數(shù)據(jù)的條件下會發(fā)生很大變化,比如政府干預(yù)的必要性是不是比以前更加不必要了。這都是需要研究的問題。
三、大數(shù)據(jù)對社會治理的可能影響
十八屆三中全會講到:“全面深化改革的總目標(biāo)是完善和發(fā)展中國特色社會主義制度,推進(jìn)國家治理體系和治理能力現(xiàn)代化。”“國家治理體系”和“治理能力”到底指的是什么或者如何推進(jìn)?大數(shù)據(jù)對這個問題應(yīng)該是可以有貢獻(xiàn)的。
比如,在許多西方國家,通過選舉這套代議制度來把民意反映到政府的層次,而國內(nèi)除了人民代表大會制度外,更多是領(lǐng)導(dǎo)通過調(diào)研的方式來體察民意。這實(shí)際上是一種抽樣的性質(zhì),去看一些個案,但個案容易在實(shí)踐中出現(xiàn)虛假現(xiàn)象,甚至國務(wù)院領(lǐng)導(dǎo)都曾被地方作假所蒙蔽。所以,這種體制下怎么去感知民意?現(xiàn)在互聯(lián)網(wǎng)至少匯聚了6億網(wǎng)民的一些數(shù)據(jù),在一定程度上體現(xiàn)了大數(shù)據(jù)的“全樣本”特征,有一個很好的技術(shù)基礎(chǔ)。
第二個案例是“犯罪預(yù)警”。有些地方的司法部門已經(jīng)建立了一個大數(shù)據(jù)分析中心,通過分析互聯(lián)網(wǎng)中,比如商業(yè)方面的一些業(yè)務(wù)數(shù)據(jù),包括來自于傳感器的傳感數(shù)據(jù)、一些郵件、互聯(lián)網(wǎng)花費(fèi)單、銀行賬戶等等,將各類結(jié)構(gòu)化的、非結(jié)構(gòu)化的數(shù)據(jù)集中到大數(shù)據(jù)中心來,然后通過線索識別、指紋抽取等一系列手段進(jìn)行分析,從而達(dá)到預(yù)警。
再比如,美國洛杉磯警察局總結(jié)認(rèn)為,利用大數(shù)據(jù)的分析軟件,成功地將轄區(qū)里的盜竊犯罪降低了33%,暴力犯罪降低了21%,財(cái)產(chǎn)類犯罪降低了12%。其方法很簡單,就是用模型把洛杉磯區(qū)域內(nèi)即將發(fā)生犯罪的特定語句挑出來,比如人們談?wù)摰脑挘?ldquo;出去啊”“看球啊”“喝酒啊”等等,通常會與犯罪相關(guān)的語言。這就是非結(jié)構(gòu)化的數(shù)據(jù),因?yàn)樗缸餂]有直接的關(guān)系,是通過經(jīng)驗(yàn)挑出這些語言,然后作為預(yù)防犯罪的一些敏感詞。
這也可能是對社會治理的一個應(yīng)用,至于怎么去用還需要探索。
還有城市管理方面的一個案例。SpotHero是美國一家手機(jī)應(yīng)用公司,客戶開車到一個地方去時,周圍有幾個停車場,每個停車場有多少個停車位,包括每個停車位的價格是多少,通過這些數(shù)據(jù)去判斷最適合自己停車的地方。
除了人的數(shù)據(jù)以外,傳感數(shù)據(jù)的應(yīng)用也有廣闊空間。比如說物的數(shù)據(jù),我聽到過一個例子,就是有個城市里有很多休閑的地方,每個地方都有座椅,如果在座椅上安裝一個溫度傳感器的話,大概就能知道每天哪個公共設(shè)置的座椅溫度最高,溫度高說明它利用率高,也可以知道哪些椅子長時間沒有人坐。就是說,完全可以通過傳感器的數(shù)據(jù)來安排之后的公共基礎(chǔ)設(shè)施,使其達(dá)到一個最優(yōu)的狀態(tài),通過這種方式來不斷地優(yōu)化一個城市的治理。
四、大數(shù)據(jù)應(yīng)用的制度需求
和政府的作用
從經(jīng)濟(jì)學(xué)的角度看,一個很核心的問題是如何界定數(shù)據(jù)的產(chǎn)權(quán)?有很多人把大數(shù)據(jù)比喻成石油,一種新的資產(chǎn)。但是,這種產(chǎn)權(quán)和財(cái)產(chǎn)權(quán)應(yīng)該有很大區(qū)別。我覺得,產(chǎn)權(quán)的界定是大數(shù)據(jù)交易和商業(yè)化的前提。經(jīng)濟(jì)學(xué)家科斯曾經(jīng)講過產(chǎn)權(quán)界定的重要性,如果產(chǎn)權(quán)沒有進(jìn)行界定的話,可能交易就沒有效率。
這里講一個美國金融貸款公司的案例,它主要給一些小微企業(yè)貸款,貸款額度比德國的Kreditech公司要大一些。它貸款的前提是去聯(lián)邦快遞(UPS)查詢企業(yè)的快遞記錄,但UPS需要企業(yè)的授權(quán)同意;另外,即使企業(yè)同意,UPS也可以拒絕金融貸款公司的要求,后者還需要付錢給UPS。小微企業(yè)也可以直接找UPS拿到自己數(shù)據(jù),因?yàn)樗羞@個權(quán)利,但金融貸款公司可能質(zhì)疑數(shù)據(jù)的真實(shí)性。因此,這些企業(yè)可以尋求UPS的數(shù)據(jù)認(rèn)證,然后再將其交給貸款公司。這樣,UPS可以同時向小微企業(yè)和金融貸款公司收取費(fèi)用。
立法界定產(chǎn)權(quán)
對大數(shù)據(jù)來講,如果要利用起來,核心在于如何界定數(shù)據(jù)產(chǎn)權(quán)。但是,這個產(chǎn)權(quán)不是天經(jīng)地義,應(yīng)該從經(jīng)濟(jì)效率或者社會學(xué)的角度出發(fā)來界定它,就像專利、像工業(yè)產(chǎn)權(quán)一樣。就是說,應(yīng)該怎么有效率,然后怎么去界定產(chǎn)權(quán)。
我覺得,至少需要三個層次的立法:比如剛才講的數(shù)據(jù)的商業(yè)運(yùn)用應(yīng)該是什么邊界?個人隱私保護(hù)應(yīng)該在什么邊界?政府?dāng)?shù)據(jù)的公開應(yīng)該在什么邊界?這樣,大家運(yùn)用起來才能得心應(yīng)手。一個是會有更多的可用數(shù)據(jù),另外也能減少更多的顧慮,目前基本上還是一個比較混亂的狀態(tài)。
另外,還有一些其他的制度需求。首先,還是需要公平競爭的環(huán)境,比如對金融行業(yè)使用大數(shù)據(jù)的前景是非常好的,但現(xiàn)在也存在很多的市場準(zhǔn)入門檻,使銀行僅靠存貸差就可以過好日子。出租車也是一個案例。所以,國內(nèi)如果應(yīng)用大數(shù)據(jù)的話,這會是一個很大的問題。
第二,數(shù)據(jù)安全或者信息安全的問題。
關(guān)于這點(diǎn)甚至提得更高,說“數(shù)據(jù)主權(quán)比產(chǎn)權(quán)還高”,包括一些安全預(yù)警與審查機(jī)制,以及數(shù)據(jù)存儲的地域限制。歐洲搞云計(jì)算時就提出了一個原則:歐洲的一些關(guān)鍵數(shù)據(jù)不能夠放在美國的云計(jì)算中心。再比如對國家數(shù)據(jù)的外泄要立法等。
第三,行業(yè)性立法。
這方面美國已經(jīng)做了一些。在中國的醫(yī)療行業(yè),實(shí)際上在大數(shù)據(jù)出現(xiàn)之前,病歷在醫(yī)院已經(jīng)電子化了,但是不同醫(yī)院之間仍然不能夠共享,所以這也是一個體制問題。如果能通過行業(yè)性立法,把這些能夠利用的大數(shù)據(jù)都放在一個平臺上,那情況就大不一樣了。包括教育方面,也有很多體制問題需要解決。
政府的作用
最后,簡單說一下政府的作用。
首先,國外政府在做什么?比如2012年美國政府推出“大數(shù)據(jù)行動計(jì)劃”,已經(jīng)炒得很熱。主要是在研究和應(yīng)用上投了很多錢。
第二,數(shù)據(jù)開放。奧巴馬2013年簽署法令,要求所有新增政府?dāng)?shù)據(jù)都必須以電腦文件方式向公眾開放。白宮頒布了開放數(shù)據(jù)政策,要求政府部門列出所有可公開的數(shù)據(jù)清單。如果不可公開的話,也要作出說明。主要是列出這些數(shù)據(jù),及時向公眾開放。
第三,政府采購。云計(jì)算時,聯(lián)邦政府還任命了一個首席技術(shù)官,專門推進(jìn)聯(lián)邦政府和部門的云計(jì)算應(yīng)用。現(xiàn)在數(shù)據(jù)服務(wù)可能也是這樣。第四,制定法規(guī)。這不僅是中國的問題,美國也有醫(yī)療、教育、個人隱私等方面的問題,也需要制定法規(guī)。在歐洲,有關(guān)個人隱私的法律很多,但還有很多的工作要做。
在中國,首先領(lǐng)導(dǎo)層比較關(guān)注。2013年9月,中央政治局在中關(guān)村進(jìn)行開放學(xué)習(xí),百度CEO李彥宏現(xiàn)場講解了大數(shù)據(jù)。部委層面也有很多。2013年11月19日,國家統(tǒng)計(jì)局與百度、阿里等11家公司簽訂協(xié)議,共同建設(shè)“國家統(tǒng)計(jì)局大數(shù)據(jù)合作平臺”。因?yàn)榘⒗锕嫉臄?shù)據(jù)基本上是所有平臺上所有小企業(yè)數(shù)據(jù)的集合,所以它對小企業(yè)的感知比統(tǒng)計(jì)局要強(qiáng)得多。這種合作也是有好處的。
在法規(guī)方面,去年9月,工信部頒布了《電信和互聯(lián)網(wǎng)用戶個人信息保護(hù)規(guī)定》。這個規(guī)定是個起步,和國外的法律體系相比還有很大差距,還需要繼續(xù)努力。
最后,就是資金支持。自2012年以來,科技部、發(fā)改委、工信部等部委在研發(fā)、探索和產(chǎn)業(yè)化專項(xiàng)上,陸續(xù)支持了一批大數(shù)據(jù)項(xiàng)目。對這種新的技術(shù),云計(jì)算也好,大數(shù)據(jù)也好,地方政府往往還是走在中央政府之前。現(xiàn)在基本上是“多點(diǎn)開花”的狀態(tài),陜西有“大數(shù)據(jù)科學(xué)園區(qū)”,廣東有“大數(shù)據(jù)戰(zhàn)略工作方案”,上海有“大數(shù)據(jù)研發(fā)三年行動計(jì)劃”,山東有“產(chǎn)業(yè)聯(lián)盟”,遼寧也在搞。在中關(guān)村,還有“大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟”。
五、關(guān)于大數(shù)據(jù)的建議
第一,不必急于出臺所謂的戰(zhàn)略性規(guī)劃和設(shè)立產(chǎn)業(yè)專項(xiàng)資金。
因?yàn)閲鴥?nèi)的IT企業(yè)也好,地方政府也好,已經(jīng)意識到大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展前景,現(xiàn)在熱情非常大。在這種情況下,以國家規(guī)劃和專項(xiàng)資金等方式進(jìn)行鼓勵,有可能扭曲正常的市場行為,甚至催生泡沫。
在云計(jì)算發(fā)展的過程中,這已經(jīng)非常明顯。很多地方搞云計(jì)算搞成了云地產(chǎn)。在這種情況下,我覺得云計(jì)算產(chǎn)業(yè)可能已經(jīng)有了過剩的苗頭,不希望大數(shù)據(jù)也出現(xiàn)同樣的問題。
第二,怎么合理改造、建設(shè)和布局好IT基礎(chǔ)設(shè)施?
對大數(shù)據(jù)來講,有兩個方面:一個是互聯(lián)網(wǎng)帶寬,這沒問題;另外一個,其實(shí)云計(jì)算本身就是大數(shù)據(jù)的一個基礎(chǔ)設(shè)施,本身就是處理動態(tài)的海量數(shù)據(jù)的。如果沒有這樣一個系統(tǒng),數(shù)據(jù)是不可能大規(guī)模存儲的,也不可能大規(guī)模快速計(jì)算。很多傳統(tǒng)數(shù)據(jù)中心及舊服務(wù)器資源,可以通過建立虛擬數(shù)據(jù)中心或進(jìn)行就近合并等方式進(jìn)行改造利用。
另外,一些新建的大規(guī)模的數(shù)據(jù)中心,如何通過統(tǒng)籌,合理布局,能夠真正地讓云計(jì)算實(shí)現(xiàn)降低IT成本的效果,而不是相反。除云計(jì)算以外,主要就是加快“寬帶普及提速工程”的推進(jìn)速度。這個日本和韓國做得比較好。
第三,如何推動隱私保護(hù)和公共機(jī)構(gòu)信息公開等立法。2012年全國人大常委會通過了《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》,工信部也有保護(hù)個人信息的新規(guī)。但是還有很多的工作要做,如何繼續(xù)完善個人隱私保護(hù)立法還是有很大的問題。
再者,對互聯(lián)網(wǎng)數(shù)據(jù)商業(yè)化應(yīng)用范圍如何界定?數(shù)據(jù)濫用應(yīng)承擔(dān)哪些責(zé)任?目前都還沒有有法可依的東西。然后就是政府信息公開的程度。最后就是哪些數(shù)據(jù)可以向境外流動或允許境外企業(yè)開發(fā)利用,也需要有一些相應(yīng)的法律規(guī)定。
最后,資助大數(shù)據(jù)基礎(chǔ)技術(shù)研究,包括人才培養(yǎng)。現(xiàn)在搞大數(shù)據(jù)分析或者大數(shù)據(jù)應(yīng)用,人才很缺乏,這種情況不光是國內(nèi)存在。
作者為國務(wù)院發(fā)展研究中心技術(shù)經(jīng)濟(jì)研究部第二研究室主任,本文為作者在洪范法律與經(jīng)濟(jì)研究所舉辦的學(xué)術(shù)研討會上的發(fā)言