一個新興產業發展到一定階段,就很自然地會呼喚規則和標準。大數據亦不例外。
“一開始大家都想制定標準,但隨著研究深入,我們發現,大數據產業距離較系統的標準出現,應該還有很長一段距離。”12月3日,工信部電信研究院互聯網中心主任何寶宏在接受21世紀經濟報道記者采訪時表示。
何寶宏認為,打個比方來說,大數據處于原始社會階段:沒有數據貿易,沒有通用的數據交易規則、交易平臺、定價標準,甚至也沒有數據的描述語言?,F在剛剛出現最基礎的“以物易物”,也就是兩家公司最基礎的、無公開規則的“點對點”數據交換。
“還在找原始共識”
《21世紀》:大數據標準制定一直是業界關注的問題,你能否介紹下目前大數據標準的進展情況?
何寶宏:標準,其實是由很多被廣為認可的規范、共識形成的。大數據,還處于找共識的階段,而且還是在找最原始的一些基本共識。
最初大家對大數據的概念都很模糊,可以說沒有任何共識。大約兩年前,企業大數據形成了第一個共識:數據是一種資產。這應該算是大數據在規范中邁出的第一步。而資產的價值在于流通,接下來,大家意識到:數據要發揮更大價值就必須流通、跨界,形成然后數據貿易。然而,貿易基于市場需求,貿易需要規則的支撐。
在探索大數據標準的時候,我們不得不一步步退到最基礎、原始的狀態去考慮。
最先被提出來的問題是:大數據的商業模式不清楚,沒辦法明確市場。然后是大數據無法定價,數據所有權不清楚,在討論這個問題的時候,大家又發現:原來企業與企業之間都沒有通用的數據描述方法。你描述自己的數據,別人聽不懂這個數據有什么價值,別人講自己的數據需求,你也不知道對應的是哪些數據。
比如同樣是對一個人身份的描述數據,A企業的描述辦法與B企業就可能完全不同。如果銀行、運營商、電商同時提供同一個用戶的數據,但這個用戶的金融數據、電信消費行為數據、互聯網消費數據等,可能根本就無法匹配,也就談不上交換。
所以,我們只能再退回去,尋找數據、需求描述的通用語。每次深入研究,大家就后退一步,當然是為了更好地前進一步??梢哉f,整個標準的研究過程,是一個扎扎實實的后退、尋找最原始東西的過程,從而不斷前進的過程。
《21世紀》:如果把現在這種原始狀態定義為一個階段,在這個階段應該形成的標準是什么?或者說計劃取得哪些成果?
何寶宏:現在的大數據有點像原始社會的“以物易物”階段,大多發生在企業的點對點交易,都是把數據進行統計性的加工處理,然后互換,數據現在還沒有形成產品,也沒有出現穩定的交易形態和定價模式。
企業需要想辦法去描述自己有什么數據,需要什么數據,就像“我有一頭牛”、“我需要一只羊”。但現實是,很可能你描述的“牛”別人根本不知道是什么。通過企業點對點的交易,我們希望能找到“通用語”,企業之間也就是數據、需求的表述方法。
然后建立一個交流平臺,大家都在這個平臺上發布自己有什么數據,描述這些數據的價值是什么,未必交易,就像是資產的公示。同樣,這個平臺上,企業也可以發布自己對數據的需求。
至于定價和交易規則,都應該是這個平臺建立之后的事。在這些基礎上,不斷豐富不同領域、不同行業、不同商品屬性的共識。
應建設數據交流平臺
《21世紀》:目前企業愿意在這個平臺上展示自己的數據么?可能一些企業更想尋找需求,而非展示自己的數據,都想保密。
何寶宏:發布需求,也需要先尋找通用語,也需要先建立平臺。
無論企業如何探索自己的商業模式,有一點是大家都認同的:大數據市場,必須先形成規范。這是開展標準的基礎,我們會在這個基礎之上,形成更多企業、行業、更多領域的共識。
《21世紀》:目前企業之間的數據交換細節是否清楚?有哪些做得比較好的案例?
何寶宏:交換都是私下進行的,我們也不了解細節,但形成了哪些共識,這個是可以知道的。
做得比較好的是廣告聯盟。因為互聯網生存的基礎就是廣告,很多年前就開始進行交換數據,有目的性地做了一些數據交換的工作,但也只是特定目的數據的交換,只適用于廣告這個行業。當然,交換的不是原始數據,而是統計和處理后的。
《21世紀》:國外諸如芝加哥等城市建設了詳盡的政府數據開放平臺。國內做得怎么樣?政府數據開放是否更容易形成規范?
何寶宏:企業數據屬于市場資源,是商業活動中產生的,最后也必然要形成交易。但政府數據屬于公眾資源,是納稅人的資源,應該開放,而且是免費向全社會開放。
國內的很多政府部門的不少數據都是開放的,不過目前開放的效率不是很高。我們正在推動一些政府部門打造高效的數據開放平臺,規范數據開放的工具、格式,方便機器可讀,方便用戶使用。
政府數據開放之后,也有利于大數據產業的研究,進而推動企業數據市場的標準、法律法規的完善。
“賣原始數據”是一錘子買賣
《21世紀》:現在的數據交換會涉及到用戶隱私泄露么?
何寶宏:不會。企業都只會把原始數據加工處理,不會讓對方看到用戶原始信息。能夠交易的是統計的結果,肯定不是原始數據,這也算是一種共識了。
《21世紀》:企業都強調把保護用戶隱私放在首位,但怎樣在用戶面前更有說服力?
何寶宏:其實,你應該換個角度來想。如果你手里有一些很值錢的數據,你愿意直接賣掉這些數據么?肯定會先處理的吧,原始數據只能賣一次。但把數據留著自己手里,只交易統計結果,這樣原始數據就能持續產生價值。用戶原始數據,肯定是企業的核心,沒有哪個企業會做“賣原始數據”這種一錘子買賣。
從利益角度來講,用戶不用擔心,大企業會想方設法保護自己的核心價值和聲譽的。
《21世紀》:目前有沒有關于用戶隱私的法律、法規?大數據時代是否需要重新考慮這個問題?
何寶宏:2013年通過了《電信和互聯網用戶個人信息保護規定》。這里規定了用戶個人信息的范疇,包括姓名、出生日期、身份證件號碼、住址、電話號碼、賬號和密碼,以及使用服務的時間、地點等信息。并且規定了信息收集規范、安全保障措施、監督檢查、以及法律責任。
不過,應該說該規定還不太適應大數據的發展需求,可能需要完善、調整。比如,目前規定的焦點是信息采集,規定哪些數據涉及隱私不許采集,什么情況下不允許采集,限制企業采集用戶的電話號碼等個人信息,并沒有規范數據的使用方式。但在大數據時代,只關注信息采集是不夠的。因為你不知道企業拿這些數據干什么。
現在的規定通過幾十個限制條款,限制企業泄露用戶的隱私數據。但是,隨著大數據發展,用戶隱私環境會越來越復雜、多樣,描述一個人可能有上千個維度,立法能把這上千個維度都禁止了么?你禁止了100個,通過另外900個仍然可以精確描出用戶畫像。
如果把所有的維度都禁止了,那最后允許采集的數據會越來越少,企業也就沒有資產了,更談不上大數據市場了。限制數據的采集,最終也會限制大數據的發展,限制使用目的是關鍵。
《21世紀》:有沒有什么調整的方案?
何寶宏:其實,大數據時代,隱私已經成為一個相對的概念。
用戶訪問互聯網時,每天都會留下大量用戶隱私。應該說目前行業內對大數據隱私的研究都還十分表面,跟行業需求是脫節的。世界經濟論壇以前提過一個說法,或許更可行:應該允許信息的采集,但要嚴格用戶信息的存儲安全、使用規范。
《21世紀》:是不是國外的標準規范會更成熟一些?比如歐美國家?
何寶宏:確切來說,歐洲沒有數據交易市場,歐洲的大數據發展很慢。
事實上,歐洲在計算機時代之前就已經有隱私立法,后來還設立了嚴格的數據保護法。這些立法最早肯定也是源于市場需求,但大數據時代,立法并沒能與時代一同發展,反而滯后于市場需求,嚴重限制了歐洲的大數據發展。
從另一個角度也可以說,在大數據時代,我們的機會非常大。