大數據并不是簡單地買幾臺服務器把數據存下來,而是要將大數據與實際接軌,突出工具化、服務化和實用化,讓大數據能解決具體問題。
新媒體在運用大數據過程中,一個非常關鍵的問題是隱私保護。在使用大數據過程中保護個人隱私,需要司法機關發布有效的法律判例,對侵犯隱私行為形成輿論壓力;同時要加強大數據隱私保護研究
7月9日,金磚國家領導人第七次會晤在俄羅斯烏法舉行。
當天,人民日報全媒體平臺“烹”出一張圖解:《金磚國家大數據》。
這并非新媒體與大數據的第一次結合。
前不久由中國社會科學院發布的《中國新媒體發展報告(2015)》稱,中國新媒體已超越“跨行業”,初步呈現“全產業”發展新趨勢。移動化、大數據化和智能化的新媒體已成為具備高強滲透度的產業基因,可深度融合于經濟產業各領域之中。
專注研究新媒體與數據新聞的清華大學新聞與傳播學院教授沈陽認為,當前,大數據在新媒體中應用廣泛,貫穿于新媒體發展的各個方面。
大數據運用廣泛
人民日報全媒體平臺發布的《金磚國家大數據》,只是近期新媒體運用大數據的一個例子。
早在大數據這一概念進入公眾視野不久,便有媒體將大數據運用于新聞報道之中。
2014年春運期間,互聯網上就出現了一張可以呈現國內春節人口遷徙實況的地圖,這張盡顯中國春運遷徙實景的圖片更是登上央視《新聞聯播》進行權威盤點。自從春運開始,這張地圖多次被電視、報紙等媒體引用,成為用數據解讀春運狀況的一個樣本。據稱,這是國內首個運用大數據播報國內春節人口遷徙實況的地圖。
相較于電視、報紙等傳統媒體,新媒體對大數據的運用更加頻繁,作為新媒體代表之一的“澎湃新聞”便是如此:今年2月,“澎湃新聞”出品了《大數據告訴你,梅西的右腳現在有多恐怖》;3月,《落馬老虎大數據:除“軍虎”外,69人共花兩千多年入省部級》“走”下生產線。
在沈陽看來,將大數據應用于報道內容,只是新媒體運用大數據的一個方面。
在與《法制日報》記者交談過程中,沈陽列出了新媒體“遇上”大數據的多個“場景”:在做新媒體功能研發時,哪些要素需要增強、哪些需要減弱,可以運用大數據分析進行修正;在策劃選題時,可以通過大數據分析篩選出哪些話題關注度高、最熱門;在內容推送過程中,可以利用大數據對用戶興趣進行分析并梳理出來;新聞發出后,受眾有哪些評論、轉發多少、分享情況,這些都可以通過大數據獲得結果;即便是在廣告投放環節,也可以通過大數據分析、預判廣告與用戶是否匹配、廣告對新媒體品牌價值是否會有影響。
“大數據貫穿于新媒體的各個方面。”沈陽說。
“完美”并非絕對
盡管大數據很重要、很管用,但沈陽很早就發現,“大數據,沒有看起來那么美”。
“數據真實性是一個不可回避的問題。目前,水軍、僵尸粉、刷閱讀量等情況都有存在,這在一定程度上給數據提供了虛假成分。”沈陽說,不過,從宏觀上講,可以控制這些虛假成分。
如何控制“水分”?沈陽舉例說,在統計微博粉絲時,可以將范圍縮小至帶V的粉絲,因為帶V粉絲造假成本高;如果要更精準的數據,可以進一步縮小范圍,如近期活躍的帶V粉絲。“當然,這樣篩選數據會面臨高成本的問題”。
沈陽在早期的研究中還關注到大數據的另外兩個問題:樣本代表性和相關性誤差。
沈陽認為,我們不可能搜集到全數據,而與大數據相關的形容詞往往是大規模、精準、細化,在調用如此“完美”的數據時,如何注意情景和樣本的適用性是一個問題。正如網絡民意與現實民意的討論,微博不代表網絡,網絡不代表社會,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖論。在選樣、測量、誤差校正不盡如人意時,好數據將劣化,大數據將虛化?!?/p>
相關性誤差,則更偏向于技術。沈陽認為,在要素構成簡單的情景中,可以利用大數據,基于一定算法和模型對變量元素進行相關性分析。然而,在復雜系統中,僅有相關性解釋還不夠,易走偏。比如一個明顯不對的結論:一個城市的網頁數越高,其網絡形象就越好。雖然數據統計證實了網頁數和網絡形象存在一般的正相關,但忽略了負面事件帶來的網頁量爆發等,因此結論也是不科學的。相關性要真正體現在數據之間、數據與真實事件影射的現象之間、真實事件的客觀聯系上。
“大數據并不是簡單地買幾臺服務器把數據存下來,而是要將大數據與實際接軌,突出工具化、服務化和實用化,讓大數據能解決具體問題。”沈陽說。
隱私保護日益突出
基于多年研究大數據的心得,沈陽認為,新媒體在運用大數據過程中,一個非常關鍵的問題是,隱私保護。“目前,隱私保護問題越來越突出”。
此前,《法制日報》記者在參加一次論壇時,工信部相關部門一名負責人曾表達這樣的觀點:大數據時代到來后,隨著互聯網技術及其應用的發展,大數據、云計算技術方式的使用,個人信息的價值不斷被挖掘、被使用,但是安全保護是一個很大的問題。
工信部相關部門這名負責人認為,大數據時代的個人信息安全面臨三大問題。
“一個問題是數據未經授權被搜集,這種情況發生得比較多。”工信部相關部門這名負責人說,第二個問題是超出范圍使用。所謂超范圍使用,是指企業通過一定的所謂合法的形式拿到個人信息,但是拿到以后使用信息的目的、用途以及范圍,并非信息權利主體所熟知。這種情況包括,當互聯網對一些數據信息進行更進一步或者深層挖掘時,這種挖掘在一定程度上有可能侵犯了權利主體的權益。因為互聯網企業之前可能告訴權利主體,獲取信息是基于特定的目的或者在特定范圍內使用,但是進一步挖掘就有可能觸犯了約定。第三個問題是數據保存。曾有網絡社區存儲的幾千萬用戶信息被黑客拿到后轉賣給第三家,最后造成信息濫用。
在新媒體廣泛使用、深度挖掘大數據的時代,如何保護公民隱私?
工信部相關部門這名負責人提出了一個觀點:信息保護人人有責。
“在信息安全保護方面,很重要的一點在于,權利人自身要加強保護意識。”工信部相關部門這名負責人說,現在,不管是要求政府部門監管,還是要求司法機關動起來,一個重要前提是人人保護信息,這樣才可能使信息保護問題得到根本解決,否則只靠公權力機關單方面去做是沒有用的。當然,在提倡人人保護信息的同時,執法保護也是一個很重要的方面。
在沈陽看來,在使用大數據過程中保護個人隱私,一方面需要司法機關發布有效的法律判例,對侵犯隱私行為形成輿論壓力;另一方面要加強大數據隱私保護研究。