是否有可能把處在不同企業、不同服務上的“孤島”數據進行整合,建立一個數據交換平臺,同時做好個人信息的保護,使數據實現正常化?
這對公司、個人,甚至對于整個社會來說,都是有益的。但對于商業的實體來說,大數據現在已經成為其資產的一部分,分享數據可能意味著會喪失其競爭優勢
法治周末記者 蔡長春
拿出一支筆,在我國版圖上以黑龍江省的黑河、云南省的騰沖為兩點畫一條線,線的右側只占國土面積的36%,卻居住著占96%的人口—這就是我國著名人口地理學家胡煥庸在1935年發現的“黑河—騰沖線”,也叫胡煥庸線,在我國地理學以及人口學上,具有重大意義。
“這就是80年前的大數據。”7月25日,在由騰訊互聯網與社會研究院舉辦的“大數據連接的未來”高峰論壇上,騰訊公司即通產品部副總經理冼業成展示了一張我國QQ同時在線人數活躍度圖,與“黑河—騰沖線”圖作對比,結果顯示,兩張圖驚人相似。
冼業成由此進一步表示,通過對大數據的采集與挖掘,可以滿足政府、企業與個人的多方面需求,如通過大數據的預測功能為其決策提供一定參考等。
規模并非唯一判斷依據
在維基百科中,大數據被定義為:所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息;百度百科的詞條則表述為:大數據,或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。
中國人民大學信息學院副院長文繼榮教授表示,維基和百度百科里對大數據的定義基本集中在“大”的概念,但并沒有揭示更深刻的問題。
“大數據首先是一種進行判斷和預測的能力。”文繼榮解釋,其前提在掌握這種海量數據收集存儲和處理的技術基礎上,隨之產生了能判斷或預測的新能力。
“其實所謂大數據并沒有一個絕對的數量,不能說100個T的數量是不是大數據。大數據主要跟它所應用的問題規模大小有關系。”文繼榮解釋,“也就是說要把數據用在某一個問題上,這個問題的規模尤其是樣本空間大小,會決定這些數據足不足夠大。”
文繼榮表示:“如果某一數據能充分覆蓋問題的樣本空間,它對于這個問題就是大數據。因為各種可能出現的情況都有相應數據進行覆蓋,這樣的數據就足夠大了。”
既要講規模
又要講質量
與會專家提醒,如今在研究大數據過程中出現了一種現象:很多人往往認為數據大了即可,可是卻忽略了一個問題,即數據的質量。如果拿著一堆質量不可靠的數據就去做一些所謂的統計分析,結果是很危險的。
“傳統上要做很多統計分析的時候,我們特別強調數據抽樣的無偏性、隨機性。可是今天大家用大數據的時候好像就忘記了這點,覺得只要我收集了很多數據簡單統計一下,因為我是大數據,我是全樣本,就不用去管數據的質量,這無疑是非常危險的一個趨勢。”文繼榮認為。
牛津大學互聯網研究院研究員王寧就在論壇上提醒,要考慮大數據可能帶來的兩大風險:一是對數據的誤讀,二是數據所存在的偏差問題。
普元數據產品總監王軒此前也在接受媒體采訪時表示,有的企業是基于數據分析作出了一些營銷的趨勢性結論,但如果數據本身是錯的,分析出來的結論未必有用。
在業內更是曾有過這樣一種說法:如果數據準確度在60%,作出來的事一定會被用戶罵;如果數據準確度在80%左右,用戶會說“還不錯”;只有數據準確度達到90%,用戶才會覺得真牛。
“信息孤島”
亟待打破
騰訊公司社交網絡事業群總裁、騰訊公司高級執行副總裁湯道生還在論壇上提出了“信息孤島”的問題。
湯道生認為,如今大家使用到的數據,大多是由不同的企業、不同的服務搜集到的,也就是說都是在孤島上捕捉的,而與此相悖的是大數據一個很重要的性質—可擴展性,而當下大數據的發展,也使得可擴展性顯得愈發重要。
“處在信息的孤島上,每一家公司可能都有自己的云,而要把這些處在不同孤島上的數據進行整合,去創建一個更加綜合的情景來從中受益,這里還有很多的挑戰。”湯道生表示。
湯道生說,自己一直在思考的問題是:是否有可能把這些處在不同孤島上的數據進行整合,建立一個數據交換平臺,同時做好個人信息的保護,使數據實現正常化。
“這對公司、個人,甚至對于整個社會來說,都是有益的。但我深知其中的困難,因為對于商業的實體來說,大數據現在已經成為其資產的一部分,分享數據可能意味著會喪失其競爭優勢。”湯道生說。
“大數據發展的一大瓶頸就是產業鏈各個環節的競合平衡,比如物聯網和智慧城市,這些概念想要落地完全離不開大數據,但要實現這樣的宏觀概念,其實并不取決于某一個企業甚至任何一個行業,而需要整個社會資源跨行業的整合以及平衡。”騰訊互聯網與社會研究院產業經濟中心主任孟昭莉博士認為。
孟昭莉建議,需要有一個跨行業的數據共享池,這樣的池子最好是能夠由政府這樣非常中立的第三方來作為引領者,同時也有各個行業的領軍企業來參與。
“這必然會導致一些既有競爭又有合作伙伴關系的企業會共同卷入這個生態圈,此時最為關鍵的就是合理管理機制的設置,讓貢獻較多的企業能夠拿到一定回饋,而貢獻較少的企業則可以考慮提供一些有償服務。”孟昭莉表示。
數據安全問題
不容忽視
在大數據爆炸的時代,企業可以通過大數據業務的開展為自身商業決策提供依據,但也伴隨著數據安全性的考驗,即如何保證自身以及用戶數據的安全隱私,已經成了大數據發展的首要議題。
騰訊公司云平臺部總經理陳磊表示,騰訊曾經對90個要求用戶用信用卡或銀行卡去做支付的電商網站和微信公共賬號做過安全掃描分析檢查,發現超過60個都或多或少存在安全問題,其中20多個的問題甚至非常嚴重,存在包括盜取用戶的身份、惡意去替用戶消費等行為。
陳磊還半開玩笑地講:“所以今天我住酒店的時候,如果酒店的工作人員讓我把信用卡留下,我是非常焦慮的,因為今天我們面臨的互聯網產品里的安全問題非常多。”
“要做好大數據的服務,我們首先要解決的就是信息安全的問題。特別是對騰訊而言,首先發生的挑戰就是安全的挑戰。”陳磊表示。
據冼業成介紹,如今騰訊QQ用戶每天都在產生著大量的數據,如用戶每天產生的QQ消息有155億條,騰訊公司每天為了處理這些數據就要新增存儲200T。
那么,面對海量的數據信息,騰訊又是如何承擔數據“保安”角色的呢?
據陳磊透露,騰訊有一整套完備的安全防護措施,從運營商的網絡出發就有一個很強的防護,后面還通過技術手段去加固用戶服務器,包括外部應用的防火墻等,幫助用戶解決安全問題。
然而,不泄露用戶數據是一方面,另一方面,像QQ、微信這樣的聊天工具,每天都會產生大量涉及用戶隱私的信息,騰訊是否會將其也列入大數據開發的范疇,并給用戶隱私帶來侵害呢?
陳磊在接受法治周末記者專訪時表示:“騰訊不會用聊天記錄、不會用微云里面儲存的內容,只會對用戶主動分享出來的內容進行分析。”
“但即使是對這種分享內容也會進行分級,比如用戶在私密圈子里分享的信息,騰訊會在不能追溯到用戶本人的方式下、去除敏感信息部分然后再來使用。”陳磊強調。