中文字幕精品一区影音先锋,国产免费久久精品久久久,国产三级一区二区

大數據新聞生產的實踐與反思

責任編輯：editor006

作者：周勇趙璇

2016-09-30 20:07:42

摘自：《新聞與寫作》

內容提要：近年來，隨著媒介技術的發展，大數據思維和方式正全面介入從內容采集到制作、分發的新聞生產全流程，給傳統新聞業態帶來了豐富而充滿活力的變革。關鍵詞：核查;算法;應用;新聞生產;分發;視頻;推薦;機器人;無人機;

標題注釋：本文是國家社科基金重點項目“基于大數據的視聽傳播效果研究”(項目批準號：14AXW008)的階段性成果。

如今，人們所掌握的數據量相比從前來說已經是天文數字，無論是巨大的數據采集量，還是新聞報道文字為主的表達形式，抑或個性化生產的可能性，大數據新聞都從根本上改變了新聞生產的思路與流程。①大數據思維和方式正全面介入從內容采集到制作、分發的新聞生產全過程。

一、新聞內容采集

1.選題價值的精準判斷

傳統的新聞選題主要是頭腦風暴和任務分派的結果，而將大數據引入選題決策環節則使其更為客觀、更有效率，真正讓用戶參與到新聞生產流程中。過去受眾反饋渠道有限，受眾分析也是以傳統的抽樣調查為主，樣本量有限，而且獲得數據的成本高、周期長，難以快速全面地反映受眾市場，這樣的數據調查也很難成為日常性的工作來支持新聞生產決策。而在大數據技術的支持下，參與調查或分析的用戶量動輒以百萬計，通過網絡到達目標用戶回收調查結果、或者直接從網絡抓取熱門搜索和輿情，較高的效率和較低的成本使編輯在日常工作中就可以做到迅速發掘熱點并完成選題。以騰訊《事實說》為例，制作團隊基于騰訊新聞調查入口，同時自制多個H5社交產品，通過了解用戶近期的關注點，來針對性地選擇議題、策劃內容。再如，紐約時報每天要推送300篇文章，此前編輯需要花大量的時間閱讀來判斷和篩選出可能符合用戶需求的內容。而基于大數據和機器學習的工具Blossom則把人力從大量的工作中解放出來。大數據在發現選題、判斷輿論趨勢以及發現用戶感興趣的內容上，往往比有經驗的編輯更為有效和精準。

2.信息來源的多樣化

傳統媒體時代，新聞信息主要靠記者采訪、調查獲得，而大數據時代，新聞信息的采集者已經從專業記者向普通人轉變，甚至從人向機器轉變。

(1)眾包②：專業記者向普通人的轉變

眾包服務使得新聞來源從專業記者向普通人發生了轉變，過去由記者調查收集分析信息的任務被轉移到用戶身上，而記者完成的是內容的再聚合，在這一過程中，新聞生產中的傳播者和接收者的角色都被重構。英國衛報的數據博客中有許多報道都是通過眾包搜集信息的。比如在調查國會議員開銷時，由于文件數量眾多，多達45萬個，但時間有限，于是衛報決定向讀者開放項目，讓讀者幫忙翻看資料，尋找數據中的異常，來發現有報道價值的故事。當記者面臨大量的文件、統計數字或者報告需要核查時，采用眾包的方式就成為了一個非常明智的選擇，它可以高效地幫助調查記者完成任務、降低成本、節約時間。但目前這種資料搜集與信息核實的眾包服務在新聞領域還沒有被頻繁地應用，同時眾包的公眾平臺與媒體之間還難以真正理解彼此的需要和責任邊界，因而合作并不像想象的來得那么容易。

(2)傳感器與無人機：人向機器的轉變

傳感器和無人機應用于新聞生產領域，意味著信息采集者開始由人向工具轉變。傳感器在新聞生產中的作用主要在于生產或收集數據。它為數據新聞打開了新局面，提供了大量的數據來源。記者可以利用實時數據制作實時更新的動態圖表，或者基于數據做預測性分析。此外，傳感器還開辟了許多過去由于數據不易獲得而難以報道的領域。當然它也有一些弊端，比如數據的質量可能會受到很多方面的影響，設備質量不過關、缺乏統一標準或者被人為篡改等。無人機可以看作傳感器的一種，是對人們視覺感官的延伸。無人機攜帶攝像機從高空傳回影像數據，記者將這些數據應用到新聞報道中。其他的傳感器更多的是數據上的直接回傳，而無人機則提供更為直觀的影像。在視聽信息生產領域，眾包、直播、VR等前沿應用可以相互結合，比如，無人機與眾包的結合。以Twitter為例，其用戶可以利用推文，對無人機的飛行方向、區域等進行遙控，同時快速獲取所拍攝內容，并上傳到社交網絡上，并且還可以用無人機來進行遠程采訪。

3.信息可信度的驗證

大數據在驗證信息可信度上可以為記者提供很多幫助，其主要方法在于將信息與數據庫進行比對，從矛盾或者不合邏輯之處驗證信息的真偽。在新聞領域，目前此類應用主要有兩種：一種是工具式的，比如谷歌搜索；另一種則是專題和節目式的，定期推出專題確認近期內重要的或影響較大的信息的真偽，以及指導記者進行識別謠言。

(1)核查工具

在這個“有圖有真相”的讀圖時代，圖片卻未必是真實的，由此，一系列幫助人們核查圖片真實性的工具應運而生。比如，圖片反向搜索引擎為記者們提供了一個搜索圖片源頭的最簡單也最重要的路徑。人們可以通過Google的圖片反向搜索功能和TinEye這樣的工具將圖片與數據庫進行比對，來核查其以前是否在網上出現過。對于視頻信息，目前還沒有可供反向搜索的成熟工具，但也有一些變通的方法可以進行核查。比如，YouTube Data Viewer是一個可以對YouTube上視頻進行核查的網站，輸入視頻的鏈接，可以獲得視頻ID、上傳日期和時間，還會給出一些視頻截圖，用戶可以直接對截圖進行反向圖片搜索，從而來搜索視頻的源頭。Jeffrey's Image Metadata Viewer網站則可以幫助用戶獲得數碼相機拍攝照片時在照片中植入的文件信息，比如拍攝時間、照相機型號、快門速度、曝光時長、GPS數據等，甚至包括在Google街景地圖上標出拍攝者面朝的方向。這些信息可以更好地幫助記者確認信源照片的真偽。

(2)核查專題(節目)

2011年，美國華盛頓郵報的一名編輯在參加一位政客的小型集會時，發現其和許多政客一樣一直在誤導聽眾，但是參與者似乎都沒有意識到自己被誤導了。為了解決這個問題，并為公眾及時提供他們需要的信息，華盛頓郵報啟動了名為Truth Teller的實時新聞核查項目。這個項目旨在盡可能實時地核查政客們發表的演講，主要采取以下步驟：首先從演講視頻中抽取出音頻，然后將音頻轉換為文本，再將文本放入數據庫中進行比對，并對事實進行核查。類似Truth Teller的項目還有哥倫比亞大學數字新聞中心開發的數字信源核實平臺Emergement，該平臺將自己定義為實時的謠言粉碎機，除了關注政治領域外，還針對熱門的事件進行核查，找出所有能搜集到的來源和最原始的出處，并列出在各來源中被分享的次數，最終打上True(真)、False(假)、Unverified(未核實)的標簽。而由麻省理工大學和卡塔爾計算研究所聯合研發的眾包核查服務和危機信息平臺Verily則主要是在危機發生時通過眾包的方式讓網友快速核查信息。比如當尼泊爾發生地震時，上面會出現一些類似“救援是否已經抵達多拉卡？”這種與災情相關的提問，知情網友可以回答，“是”與“否”的回答人數也都呈現在問題下供其他人參考。③

二、新聞內容制作

無論是寫作方式，還是呈現形式，抑或感覺體驗，大數據對新聞內容制作環節的改變也是全方位的。

1.自動化寫作：機器人新聞

機器人新聞是指通過計算機程序將一些數據融入結構化的語言，從而生成新聞報道或者個性化的文章。目前其主要應用領域是財經和體育兩大類，因為機器人新聞寫作的方式主要是先創造好模板，然后通過計算機程序獲取數據后將其填入相關空格里。財經和體育等方面的信息比較程式化，自然成為機器人新聞率先介入的領域。Automated Insight與Narrative Science是開發這類機器人的主要技術企業。據統計，Automated Insight有超過3億個模板可以供不同的新聞使用，它們在2013年就產生了3億條新聞，比其他所有媒體加起來的還要多。但在目前條件下，機器人新聞寫作依然有極大的局限性。比如，程序生成的新聞模板痕跡比較嚴重，且語法生硬；人類豐富的情感，程式化的機器人難以習得和模擬；最重要的一點，機器人新聞難以寫出深度內容，想要挖掘數據背后更深刻的關系，除了數據作為基礎，還需要人工深入的采訪調查。

2.可視化呈現：數據新聞

數據與新聞的結合起源于20世紀中期在美國出現的計算機輔助報道(CAR)，20世紀60年代興起了精確新聞學。大數據時代下，數據資源豐富，可供挖掘的方向和領域也更多，數據新聞再次成為關注的焦點。計算機輔助報道和精確新聞中，數據主要是信息源，多以支持觀點和判斷的論據出現，而大數據背景下的數據新聞中，數據成為新聞的本體，過去以文字為中心的新聞敘事方式被改變。不僅如此，為了順應“讀圖時代”的受眾需求，數據的可視化已逐漸成為目前數據新聞報道中不可或缺的重要環節。成立于2012年的Ouartz，這是一家關注全球最新經濟資訊的數字化新聞機構，主要為移動端的平板和手機而設計。除了重要的新聞事件報道之外，Quartz經常會做一些大數據的可視化新聞。社交媒體是數據的富礦，因而相繼出現了很多專門針對各類社交媒體的數據進行分析的網站和工具。有一些是幫助社交媒體用戶了解自己賬戶情況的，也有一些針對大范圍的數據分析與可視化呈現。針對Twitter的分析工具尤其多，如TweepsMap就是一個非常適合用戶分析和可視化自己Twitter網絡的工具，Twitonomy則是一個更為詳細的分析用戶Twitter博文的工具。

可視化為我們提供了直觀的數據分析結果，便于理解和想象復雜的數據結構，不同的數據結構適用于不同的可視化表達方式，于是有公司開發了類似化學元素周期表的“可視化法周期表”，為人們做可視化提供了參考模板。這一周期表中列出了100種信息表達的可視化方法，鼠標懸停在每一種方法上都可以看到具體示例。

3.沉浸式體驗：虛擬現實和增強現實

目前新聞傳播領域對于VR(虛擬現實)技術的使用主要在深度報道、突發報道和媒介事件三個方面。如，美國紐約時報2015年推出了手機應用NYT VR，并為訂閱者郵寄發放了超過100萬個谷歌紙盒式VR眼鏡。美聯社也屬于較早探索虛擬現實報道的媒體。2015年8月，美聯社與RYOT合作了《尋找家園》(Seeking Home)項目，描述法國加來難民營的生活。為了進一步發展沉浸式新聞，美聯社完全自主的VR360頻道已經上線，目前該頻道已經上傳了9部虛擬現實和360°全景視頻作品。在深度報道中的應用比較成熟以后，突發報道和重大媒介事件直播成為目前VR重要的應用對象，國內目前關于VR的應用主要集中在這一領域。比如，深圳滑坡事故發生之后，新華社聯合全景視頻制作公司，樂視聯合財新傳媒的VR團隊在第一時間奔赴救援現場，錄制了救援工作的全景視頻。

三、新聞內容分發

新聞內容的分發本質在于“信息與人”的匹配。用戶時間有限，除了自己感興趣的話題，要在海量信息中甄別有用或潛在感興趣的內容很難，因而用戶主動獲取的信息只能是非常小的一部分。而移動互聯網的發展使得推送越來越便利，大數據算法使得推送的內容越來越精準。目前，基于大數據的新聞內容分發產品已經非常多，但仍存在一定的差異。這一市場仍然處于初期，究竟哪種模式更有優勢、更符合用戶的需求還有待時間的檢驗。總體而言，目前的新聞內容分發產品根據算法的使用程度呈梯度分布：一是仰賴于與內容生產方合作或者編輯選擇；二是人工與算法相結合的推薦方式；三是幾乎完全依據算法推薦。(如圖1)

　　圖1 新聞內容分發：從人工編輯到算法的階梯化產品分布示意圖

1.人工推薦為主

以人工推薦為主的新聞聚合產品，主要仰賴于與內容生產方合作，比較典型的產品有Facebook旗下的Instant Articles和Notify，還有Snapchat旗下的新聞聚合產品Discover。Facebook先期推出了一款插件Instant Articles，它允許新聞站點直接把文章發布到Facebook上，為用戶提供更好的文章閱讀體驗。Notify則是Facebook稍晚推出的一款獨立的APP。用戶可以在Notify上訂閱各大新聞機構的內容，而且訂閱可以精準到某個網站的某個專題。Notify還會根據用戶在Facebook上的信息來推薦內容，用戶就可以經此隨時發現和添加新的站點。Discover是Snapchat(一款“閱后即焚”的照片分享應用)旗下的新聞聚合產品。比起Facebook，Snapchat更注重入駐媒體的質量，所有媒體在Snapchat上發布的內容都是為這個平臺量身定做的。以上幾款內容聚合分發的產品，其內容主要還是來自各大新聞內容生產機構，通過編輯的選擇和把關完成，用到大數據算法的部分相對較少。

2.“人工+算法”

蘋果公司2015年9月推出了新聞聚合應用Apple News，該應用同樣聚集了全球多家主流媒體，如紐約時報、路透社、彭博、CNN等。它與上述Notify等產品最大的不同在于，采用“人工+算法”的方式為讀者推薦新聞。它具有機器學習功能，可以通過記錄用戶搜索過的內容來為其推薦相同主題的信息。國產的信息聚合應用工具“即刻”則泛化了新聞的概念，所提供的內容整合不只是新聞，而是互聯網上所有形態的信息。用戶自主選擇訂閱的不是某新聞網站下的某個專題，而是基于興趣的信息“點”，比如“豆瓣8.0分以上的新電影”“最新國內融資事件”“熱門日劇同款穿搭”等等。該產品通過大量機器抓取與人工編輯相結合，把互聯網上的優質內容篩選出來，更為精準地推送給用戶。

3.完全基于算法和機器學習技術

幾乎完全基于算法的內容聚合產品大致可以分為兩種：一種是數據主要來自用戶對產品的使用，如Google News、今日頭條和鳳凰旗下的一點資訊；另一種則是依托于產品背后的大型社交媒體平臺的行為數據。基于算法的個性化推薦雖然已成為大勢所趨，但關于個性化的爭議和反思一直存在。不論是基于用戶行為數據，還是基于社交媒體數據，大數據并不等于全數據，人們興趣、行為和需求之間的關系受到太多因素的影響，選取哪些因素進入算法會直接影響推薦的結果，而且算法本身也不成熟，推薦的精準性有待商榷。更為嚴重的則是這種方式所導致的“回聲室效應”④。根據個性化算法的推薦，人們接收到的信息都是自己感興趣的和與自己類似的觀點，“人們的視野會越來越窄，接觸到多元化信息的機會也越來越少”⑤。

四、結語：對于大數據新聞生產應用的反思

大數據已經開始在新聞生產中大規模應用，但其本身存在一些先天性的缺陷和后天不足，值得警惕與反思。

1.數據的合法性

在新聞生產中，大數據在各個環節都扮演了重要的角色，其與隱私相關的最重要環節是個性化推送部分。當企業使用用戶在各個平臺上的行為數據來為用戶提供更具個性化的推送時，用戶所有的隱私都可能暴露無遺。在隱私權和個性化之間永遠需要一個平衡。要想達到平衡需要多方的努力：技術上，發展加密技術；道德上，要求行業自律；法律法規上，在收集、存儲和分析數據的軟件中附上工程師們編寫隱私政策的要求，并且加強政府監管。

2.數據的代表性

除了冗余數據太多、價值密度低外，大數據樣本的代表性也值得商榷。大樣本并不是全樣本，甚至在絕大部分領域，它都不可能是全樣本。來自于物理世界的科學數據和來自于人類社會活動的行為與關系數據，二者的產生和收集都存在很大的局限性，特別是社會生活中存在的“沉默的大多數”會大大影響到相關數據的全面。在新聞生產過程中使用大數據時，需要對所使用的數據保持審慎的態度，不能因為是大數據就籠統地認為它比傳統的隨機抽樣調查更具代表性。

3.數據會說謊

人們通常認為數據真實客觀，是不會說謊的，但事實可能正相反。大數據從來源上說就未必是真實的，互聯網本身就充斥著大量的虛假信息——虛假的個人信息、購買的粉絲、雇人刷單的交易等等，我們不得不接受大數據里的這種虛假，這是網絡本身的特性決定的。另一種虛假則相對容易避免，它主要是源于對于數據的處理、解讀和呈現，對統計現象只看結果不重解釋，很可能導致錯誤結論。

4.數據的解釋性和預測性

大數據的解釋力并不強，它只能說明相關關系，而無法表明因果關系。這恰恰與新聞的內在邏輯相悖，新聞傾向于得出結論，即由什么原因才引發這樣的結果。新聞生產在應用大數據時需要規避這一矛盾，通過人工調查、采訪、分析等手段完成自身的邏輯鏈條，從相關推進到因果。不僅如此，輕信大數據的預測也有一定的風險。這是個不確定的世界，有許多決定性的影響因素都無法納入模型之內，過分依賴大數據及其預測模型是危險的。大數據依托的是已經存在的數據，是基于存量(過去)的；但新聞是向前走的，是基于變量(未來)的。兩者存在邏輯上的差異。

實踐與反思