一個大規模生產、分享和應用數據的時代正在開啟。在互聯網的世界中,人類每天在社交網絡、電子商務與移動通信等平臺上產生的數據要以“PB”來計數。大數據正在影響人類生活的方方面面。“大數據時代的經濟學、政治學、社會學和許多科學門類都會發生巨大甚至是本質上的變化和發展,進而影響人類的價值體系、知識體系和生活方式。”①在這樣的浪潮之下,新聞業也不可避免地受到沖擊。數據新聞,又稱數據驅動新聞,是新聞機構應對大數據技術沖擊的應對之策。英國的 《衛報》、德國的Zeit Online等新聞媒體紛紛建立了專業的數據新聞機構。但是,目前新聞業的數字化進程僅僅停留在淺層的“如何將新聞報道數字化的呈現”,并沒有進行深度的數字化變革。②大數據技術對于新聞業的影響絕不僅僅是呈現方式的不同,新聞從業者必須在思維上加以積極轉變。
順勢而為:大數據時代的弄潮兒
全新的鏡頭:樣本=總體
在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣。③在模擬數據時代,由于信息的匱乏和信息流通的受限,我們在進行調查研究時多采用抽樣分析的方法,過去我們將這當成了理所當然的限制,但是高性能數字技術的出現讓我們意識到,這其實是一種人為的限制。大數據思維的第一點,就是要分析與某種事物相關的所有數據,而不是分析少量樣本。從這一點來看,新聞機構利用數據分析刻畫出所要調查的事件的“輪廓”,大數據給予我們觀察世界的“全新的鏡頭”。
谷歌公司通過分析整個美國幾十億條互聯網檢索記錄,進行流感趨勢的預測。因為分析的是整個數據庫,在微觀層面上分析的準確性大大提高,甚至能夠根據這個數據分析,預測出某個特定城市的流感狀況,而不只是一個州或是整個國家的情況。大數據時代的調查記者必須轉變過去依賴抽樣調查的思維,學會“樣本=總體”的思維。“樣本=總體”是指我們能對數據進行深度研究,不會遺漏微觀細節的信息,全數據的模式讓我們擁有對某些特定子類別進行進一步研究的能力。
財新網的數據可視化實驗室在《周永康的人與財》中,運用大數據技術搜集和處理與周永康相關的人和事,使與周家腐敗案相關聯的人事關系、資金往來、股權交易清晰呈現出來。從報道技巧上說,它不是對報道對象的抽樣分析,而且“全樣本”分析,清晰地展現了所要調查事件的“輪廓”,增強了新聞報道的背景深度。
新的工作重心:在混雜中建構新聞
大數據時代,隨著互聯網的廣泛覆蓋,數字通信網絡及智能手機、便攜式電腦等數字產品的普及,大眾可以方便、快捷、低成本地參與新聞的生產和傳播,使新聞媒體對于重要事件的優先接近權和傳播壟斷權被草根新聞傳播打破。新聞業再也不是專業媒體公司和職業記者自上而下的“廣播”過程,而越來越成為一種受眾、編輯、記者等一起互動的“網播”過程。胡泳認為,傳統媒體的運作方式是“過濾,然后發布”,而自媒體的運作方式是“發布,然后過濾”,因此“未來人人都可以是記者”。④丹?吉爾默說:“我們的讀者已經不必等著報紙和雜志為他們做好的半生不熟的新聞產品,他們完全可以自己下廚房。”⑤那么,在這樣一個時代,難道新聞“廚師們”真的會失業嗎?新聞記者的工作重心又將擺在何處?
大數據技術給我們提供了答案。在大數據時代,新聞從業者的工作重心,從搶先報道新聞熱點轉向為大眾解釋事件發展的內在邏輯。大數據時代產生了大量的“非結構化的數據”,如網民在社交媒體上分享的文字、圖片、視頻等。大量“非結構化的數據”會造成混亂,但是其中也潛藏著具有新聞價值的數據。新聞從業者必須具備從海量的數據中找出真正有價值數據的能力,將公眾從虛假信息、流言和信息過載的痛苦中解救出來。
以2013年4月15日的波士頓爆炸案為例,波士頓爆炸案是大數據時代美國本土遭遇的第一次恐怖襲擊。從規模上看,波士頓爆炸案與“9?11”事件相差很遠, 兩枚高壓鍋炸彈爆炸導致3人死亡、約264人受傷。有了發達的社交媒體,襲擊信息的傳播速度讓我們震驚:1分鐘后,一位目擊者就在Twitter上發布了爆炸現場的照片,之后,社交媒體上就炸開了鍋。#波士頓馬拉松#迅速成為Twitter上的熱門話題標簽。根據皮尤研究中心的報告,在18~29歲的人群當中,超過一半(56%)通過社交網站得到關于爆炸案的信息。⑥災難事件在數字世界的傳播速度非常之快,與之相隨的還有流言和各種未經證實的信息。在爆炸案中,用手機拍攝的照片、視頻以及公眾在社交網站上發布的事故描述等等給新聞帶來了新鮮、生動的消息來源,但這些非結構化的數據也造成了混亂,可能誤導事故的調查。在Twitter上一些虛假信息流傳甚廣:炸彈是四枚不是兩枚;有人說是基地組織干的,也有人說是右翼極端分子;一位之前失蹤的印美混血學生被錯認成兇手……從中可以看出,大數據時代,數據傳播的混亂包括兩個方面:一是隨著數據的增加,錯誤率也會相應增加;二是指數據格式的不一致,包括圖片、文字、視頻等等。如果要減少混亂,則必須降低錯誤率,并且在數據處理之前仔細地清洗數據。因而,新聞工作者要想在混亂中建構新聞并非易事。
目前的數據獲取主要有三種方式:對社交媒體內容、搜索引擎、用戶數據進行深度挖掘;或是通過調查、眾包、網絡觀察等方式收集、調查數據;從政府、企業、社會機構等等發布的公開數據中獲取有用信息。波士頓爆炸案中,新聞機構采用了眾包(crowd-sourcing)的方式。眾包(crowd-sourcing)是一種利用集體智慧的信息處理方式,將傳統上由某個中心點完成的任務分發到各處完成。⑦4月18日,在爆炸案的新聞發布會上,FBI公布了截自監控錄像的兩名嫌疑人照片,尋求公眾幫助搜捕。社交新聞網站Reddit.com上用戶整理了數以千計的照片,在仔細分析后,將自己推測的嫌疑人發布到自己的賬號上。一些報紙如《紐約郵報》在其網站首頁上轉載了一張有兩名身份不明者的照片,命名為“帶包的人”,后來發現這并不是嫌疑人的照片。甚至CNN和美聯社等等主流媒體為了追逐報道的時效性也犯了錯。
經過眾包搜索的信息,混雜了許多的錯誤數據,基本上是信息碎片的集合。新聞工作者有必要對數據進行清洗,驗證數據的客觀性和真實性。NBC 《今天》(Today)節目的執行制片人Don Nash說:“社會化媒體時代,許多報道來自非常不同的消息源。對此,必須非常小心。與其冒著誤報的風險爭第一時間發稿,不如確保真實準確。”⑧為了報道一個完整、準確的新聞故事,新聞編輯室需要將來自眾包的混雜信息核實、組織、整合,理出邏輯清晰的新聞脈絡,從喧囂的“噪音”中傳遞有價值的聲音。
獲取并整理數據的另外一個方式是,將社交媒體、搜索引擎中的內容與政府、企業等發布的公開數據進行對比分析,尋找關聯性。2011年8月,英國《衛報》搜集了Twitter上與騷亂相關的257萬條信息,將這些數據與法庭審理騷亂案件資料及政府公布的關于社會經濟狀況的統計資料相結合,揭示了騷亂與貧窮之間的關聯性,幫助輿論界糾正了之前的錯誤觀念,一定程度上影響了政府的公共政策,成為從“非結構化數據”中找尋有價值新聞的成功典范。
可視化手段:激發公眾議題參與
傳統新聞大多數由對事實的描述或引用當事人話語構成,但是采用統計的方法分析數據并生產新聞的手段在新聞界并不是新鮮事物。上個世紀70、80年代的精確新聞,90年代中期的計算機輔助報道都試圖用統計量化的方式生產新聞,發展到了21世紀,隨著網絡數據庫的發展,數據新聞應運而生。數據新聞包括數據收集、數據處理和數據呈現三部分。運用可視化技術,將新聞由靜態的文字、圖片變為動態的、互動性更強的信息圖表,屬于數據呈現的部分。數據呈現的部分直接與受眾接觸,向公眾展現數據與社會、數據與個人的復雜關系,以客觀、易于理解的報道方式激發公眾對公共議題的關注和參與。
信息圖表是數據可視化的手段之一,表面上只是一種呈現方式,但信息圖表的意義并不僅僅在于呈現。信息圖表的選題策劃、數據搜集以及數據呈現的過程,就是一個發現和深化新聞的過程。⑨搜狐的“數字之道”、網易的“數讀”等欄目采用信息圖的模式,試圖用數據向受眾傳達信息,但是這些信息圖僅僅只是將文本變成圖像呈現,符合“讀圖”時代的閱讀趨勢,但是就新聞價值層面來說,并沒有實現新聞的發現和深化。
英國伯明翰城市大學教授布拉德肖提出了數據新聞的“雙金字塔結構”(見F圖),這是在傳統新聞的“倒金字塔結構”發展而來。數據被編輯、清理、情境化、合并,經由傳播連接,通過視覺化和敘事,實現社交化、人性化、個性化和應用化。布拉德肖強調的是,數據新聞通過可視化手段,形成動態的新聞故事,之后在社交平臺發布,實現社交化。讀者在社交平臺參與、分享這些故事,與自身經歷結合,對于新聞作品加以應用,數據新聞實現了個性化和人性化。“數據可視化不僅僅是停留在簡單地表達時事,陳述故事,還需要交互與更新,成為真正的數據驅動新聞,而不僅僅是數據表達新聞。”⑩英國《金融時報》與BBC合作,定期公布他們的預算互動圖,普通民眾可以在其中找到與自己切身相關的預算內容并加以反饋,這些反饋的新聞信息又自發地形成聚合,信息圖表的內容得到了延展和深化,這些信息圖表也就不再是冷冰冰的數據,而是有溫度、有互動、有反饋的新聞作品。
看上去很美:如何面對大數據陷阱
看似“客觀”的數據
傳統的抽樣分析是模擬數據時代的產物,在研究時很多偏見和誤差無法避免,這種偏見既包括研究者設計實驗和問卷時的偏差,也包括被測試人員由于了解自己作為被測試的角色而產生的不同于日常心理和行為而產生的偏差。相比較而言,大數據由于擁有足夠數量和全覆蓋范圍的原始數據,而顯得“客觀”得多。但是大數據時代的數據真的有那么可靠嗎?
讓我們考察一下數據產生的整個過程。數據的收集、處理和呈現都是人為的結果。麗莎?吉特曼認為:“數據從來都不可能是原始存在的,因為它不是自然的產物,而是依照一個人的傾向和價值觀念被構建出來的。”目前的三種主要數據獲取方式都可能在一定程度上被價值取向左右:用社交媒體、搜索引擎上的數據進行調查分析社會事件,應當注意到,當前社交媒體的用戶主要是高收入的年輕群體,并不能代表整個社會群體的意見;通過眾包、網絡觀察的方式搜集數據,公眾在參與提供數據時很難不帶有自己的價值判斷;政府、社會機構、企業等組織在公開數據時可能會隱藏對自身不利、有損自身形象的數據,這些數據可能根本沒有被收錄進公開的數據庫中。
由此看來,數據并不是絕對客觀的,用來解釋數據的統計模型和挖掘技術也并非是天然中立的。因此,新聞從業者需要對挖掘的數據保持懷疑的態度,在拿到元數據之后,再進行數據處理,決定數據如何呈現的時候多問自己幾個為什么,不能被看似“客觀”的數據蒙蔽了雙眼。
壞數據
數據本身是中立的,那如何認定,何為好數據,何為壞數據?壞數據是站在數據使用者的角度上來說的。搜集的數據幫助人們更好地理解事件經過,有利于決策的就是好數據;相反,造成可視化枯燥,信息冗余的數據就是壞數據。
還有一種情況是,數據的處理被剝離了數據產生的時空背景。數據本身雖然看似與時空背景毫無關系,但是現實生活中人類的決策并不是在真空中做出的。“人類的決策不是離散的事件,而是鑲嵌在時間序列和背景之中,正像Big Data-Context=Bad Data一樣,大數據被抽離了社會語境后就是壞數據。”
那新聞工作者如何分辨好數據與壞數據?在制作數據新聞之前,問題意識很重要。新聞工作者在搜集數據之前就要以問題為導向,在數據處理和數據呈現的一系列過程中都要帶著問題意識。1948年,拉斯韋爾提出傳播過程有5個基本構成要素,即誰(who)、說了什么(says what)、通過什么渠道(in which channel)、對誰說(to whom)、取得了什么效果(with what effect)。在數據搜集的開始,新聞工作者也應該問自己這5個問題,即弄清數據由誰收集、何時收集、為何收集、如何收集、有何意義。有了明確的問題意識,將數據置于特定的時空背景,新聞工作者才可以理順數據之間的邏輯關系,才不會在數據搜集階段就喪失焦點或者錯失了有趣、特別的報道角度。
“收集數據有時就像收集垃圾,收集之前你就應該想好要怎么處理。”技術不能代替人的常識和判斷,弄清數據由誰收集、何時收集、為何收集、如何收集、有何意義仍然十分必要。在數據處理階段,新聞界也有必要建立一套對數據編輯處理的準則。《數據新聞手冊》是新聞業界與學術界共同推出的有關數據新聞實踐的手冊,其中包含了對于進行數據新聞操作的建議以及對數據新聞未來趨勢的預測。但是目前對于數據編輯處理的準則仍然是個空白,相信隨著數據新聞實踐的進一步發展,這套編輯準則也將在未來被建立起來。
你侵犯隱私了嗎?
新聞從業者利用大數據技術進行網絡輿情研究,每一個數據的背后都是一個個體的行為。這種精準化的社會測量方式,將每個個體的行為都記錄下來,大規模的隱私泄露就變得更加輕易。用李彪的話來說,“通過大數據研究,就像透過透明的玻璃魚缸觀察魚群游動的行為乃至其中每一條魚的表情活動。”
大數據時代,信息傳播的碎片化使得個人信息遍布社交網絡、搜索引擎當中,數據和個人信息的獲取難度大大降低。新聞工作者在獲取數據時如何避免侵犯個人的網絡隱私權成為一個無法避免的問題。
一方面,大部分的隱私是由用戶主動泄露的。雖然大部分的數據來自用戶主動的信息披露行為,但是并不代表他不存在隱私擔憂心理。社交網絡用戶在使用社交媒體時的確擔憂其隱私問題,但是這種擔憂并不會影響到其披露個人信息的行為,這是著名的“隱私悖論”。另一方面,由于在大數據時代,數據具有永久性的特征。作為數字數據的創造者和使用者,公眾對遺忘過去的企圖與永久存儲數據的渴望也存在著天然的矛盾。我們的世界數字化程度越高,我們的隱私就愈加無所遁形。
2010年,美國康涅狄格州的羅琳?馬丁的家被警察突擊檢查,并發現有毒品,她和兩個成年兒子被逮捕。在她同意接受防吸毒課程之后,案件被撤銷并且官方檔案記錄也隨之消除。但是,由于網上檔案庫中流傳的《母子面臨毒品犯罪指控》之類的文章,導致她無法找到完全能勝任的工作。歐洲法院在2014年做出判決,個人有權利要求搜索引擎移除附有其個人信息的鏈接,如果該信息是“不準確、不充分、不相關或過分”的話。這就是有關大數據時代“被遺忘權”的判決。
新聞工作者在使用大數據技術時遭遇的問題在于:一方面,當數據量越來越大,算法越來越優化之時,侵害隱私權的成本大大降低;另一方面,獲得隱私權主體(指用戶)知情同意的成本卻又大幅增加。而且基于大數據而形成的媒介受眾市場,由于數據的貢獻者太多,要取得所謂的知情同意十分困難。新聞工作者在使用數據時如何避免侵犯受眾的網絡隱私權依然是一個亟待解決的問題。
余論
大數據不僅僅是一個時髦術語,它將逐漸成為現代社會基礎設施的一部分,就像公路、鐵路、港口、水電和通信網絡一樣不可或缺。美國消費電子協會(CEA)首席經濟學家肖恩?杜布拉瓦茨認為我們正處在第二個“數字十年”當中。1998年第一臺高清電視被售出,開啟了第一個“數字十年”。在第二個“數字十年”,世界將會完全數字化。“數字科技不僅僅是改變我們之前做過的事以及做事的方式,它會徹底改變文化的結構,重新定義社會規范。”新聞業也必然被大數據技術徹底顛覆。過去新聞工作者的工作重心在于尋找熱點事件,發生事件之后,記者便會趕去現場,采訪當事人,了解事故的來龍去脈,數據在當時只是為了輔助報道。在大數據時代,數據將成為報道的基礎。
在數據的基礎上進行新聞報道,迫切需要新聞從業者轉變思維,從過去的描述事件現狀、搶先報道熱點轉向解釋新聞、向大眾闡釋事件發生的內在邏輯。在某種程度上說,這是“陳述方式”的改變。新算法的出現讓我們擁有了處理視頻、圖像甚至聲音在內的海量信息的能力。更多的算法和信息可以幫助新聞從業者從數據中提取價值,通過更先進的成像程序,我們還可以更形象地呈現新聞報道,例如用信息圖表對數據進行形象化轉述。
大數據時代,新聞從業者的思維變革將導致未來新聞業務方向上的調整。當新聞報道重心轉向“解釋新聞”,即向大眾闡釋事件發生的內在邏輯,趨勢預測性新聞和數據挖掘的深度報道數量必定會大大增加。同時,數據收集、處理和呈現對于新聞從業者的素質和能力要求也必然會隨之提高。未來新聞界與科技界的跨界合作一定會增強,例如Five Thirty Eight的創始人納特?希爾福的團隊中就包含了記者、多媒體專家、量化分析師和數據庫拓展專員等專業人才。利用與外部的合作,新聞從業者可以處理更復雜的新聞課題。但是,如果將數據收集、處理的權力都交予技術領域,技術領域的價值觀和新聞媒體的理念表達可能會存在沖突,如何平衡這種沖突也值得學界進一步思考。這些都意味著大數據帶來的不僅有機會,還有挑戰。大數據時代也存在更多的風險和制約。趨勢無法更改,無論是否愿意,新聞從業者必須擁抱這個時代。
(作者林凌系華東政法大學人文學院教授、博士生導師;任孚婷系華東政法大學研究生院研究生)
注釋:
① ③維克托·邁爾-舍恩伯格、肯尼思?庫克耶著,盛楊燕、周濤譯:《大數據時代:生活、工作與思維的大變革》,浙江人民出版社2013年版。
②方師師:《深度數字化已經開啟——2014美國新聞媒體報告》,《新聞記者》2014年第9期。
④胡泳:《眾生喧嘩:網絡時代的個人表達與公共討論》,廣西師范大學出版社2013年版,第20頁。
⑤Gillmor,Dan, “Here Comes ‘We Media’ ”,Columbia Journalism Review, Jan. -Feb. ,2003[6],p20
⑥Laura Petrecca, “After Bombings, Social Media Informs(and Misinforms),” USA Today, April 23,2013,http://www.usatoday.com/story/news/2013/04/23/social-media-boston-marathon-bombing/2106701
⑦劉兆明:《社會化媒體時代的突發事件新聞傳播圖景——波士頓爆炸案的傳播分析與啟示》,《新聞記者》2013年第6期。
⑧David Freedlander,“NBC, Today Show Get Boston Marathon Bombing CoverageRight”,http://www.thedailybeast.com/articles/2013/04/20/nbc-today-show-get-boston-marathon-bombing-coverage-right.html。
⑨彭蘭:《“信息是美的”:大數據時代信息圖表的價值及運用》,《新聞記者》2013年第6期。
⑩梁延:《大數據視野下“數據新聞”的發展現狀、趨勢及其困境》,《東南傳播》2014年第11期。
徐端:《大數據戰略》新世紀出版社2014 年版,第 59 頁。
李彪:《大數據視域下社會輿情研究的新境界》,《編輯之友》2013年第6期。
轉引自[美]肖恩?杜布拉瓦茨:《數字命運:新數據時代如何顛覆我們的工作、生活和溝通方式》,電子工業出版社2015年版,第3頁。
“Factsheet on the ‘Right to Be Forgotten’ Ruling(C-131/12),” European Commission, http://ec.europa.eu/justice/data-protection/files/factsheets/factsheet_data_protection_en.pdf.
徐敬宏、張為杰、李玲:《西方新聞傳播學關于社交網絡中隱私侵權問題的研究現狀》,《國際新聞界》2014年第10期。
[美]肖恩?杜布拉瓦茨:《數字命運:新數據時代如何顛覆我們的工作、生活和溝通方式》,電子工業出版社2015年版,第5頁。