互聯網帶來了繼文字發明、古登堡印刷術、電報之后的第四次傳播革命,也帶來了繼蒸汽機的發明和電力的廣泛應用之后的第三次工業革命,已經成為整個社會的底層架構和標配。大數據作為互聯網的一個重要方面,必將對傳媒業帶來革命性變化,這就要求傳媒業從業人員具備大數據思維,充分利用大數據技術來幫助自身實現跨越式發展。
一、信息的開放與云計算帶來了大數據
首先,傳播革命使得信息數量呈指數級增加。在文字發明之前,人類的傳播只能通過口口相傳,信息量極其有限,公元前4000年楔形文字出現之后,使得傳播可以突破時間限制而實現代際傳播,通過把信息記錄在龜甲、樹葉、泥土等介質上,信息的數量開始大幅度增加。但是由于技術的制約,信息只能通過抄書人來進行記錄和傳播,導致信息的數量和傳播范圍都受到很大的制約。1450年,古登堡印刷術的發明使得傳播突破了范圍限制,傳播開始從精英們的“權力”轉變為普羅大眾的“權利”,此后的50年間,大約有800萬本書被印刷,比之前所有的手抄本還多。此后的電報技術的發明,使得傳播突破地區和時間限制,信息的數量也快速增加。而1989年,當萬維網出現之后,實現了即時、便捷、海量和互動的傳播,人人在接受信息的同時都可能成為自媒體,信息數量極速增加。根據ZDNET的數據顯示,2013年中國產生的數據總量超過0.8ZB,2倍于2012年,相當于2009年全球的數據總量。
其次,摩爾定律使得大數據成為可能。摩爾定律以英特爾創始人之一的戈登?摩爾命名,該定律認為,同一個面積集成電路上可容納的晶體管數量,一到兩年將增加一倍。即計算機硬件的處理速度和存儲能力一到兩年將提升一倍。從1965年摩爾定律提出以來,硬件技術的發展基本符合摩爾定律,尤其是當存儲器的性能提高的同時,硬盤價格以更快的速度下降,即大約每9個月存儲容量的價格就下降一半,1955年每兆字節存儲量需要6000多美元,而到2010年,這個價格下降到不足1美分。硬件性能的快速增加和單位存儲成本的大幅度下降,一方面使得數據處理速度更快、更方便,云計算技術被開發出來;另一方面,數據處理更為便宜,使得海量的數據積累成為可能,這兩方面原因使得大數據具有了可能性。
第三,政府數據公開助推大數據發展。數據分為政府數據和企業數據,并且政府數據在數據中居于關鍵性地位,大數據要真正發揮作用,政府的信息必須公開。美國等西方發達國家大力推進數據開放運動,并于2011年9月20日,美國等8個國家在紐約發起“開放政府聯盟”,以向本國社會開放更多的信息。目前,該聯盟已經有50多個會員,30多個國家建立了公共數據的開放網站。2012 年3 月,奧巴馬政府公布“大數據研發計劃”,以提高和改進人們從海量、復雜的數據中獲取知識的能力,發展收集、儲存、保留、管理、分析和共享海量數據所需要的核心技術,大數據成為全世界關注的焦點。
因此,可以看出,互聯網技術的發展與政府信息的公開是大數據發展的前提,而云計算則是大數據的基礎。
二、大數據面面觀
首先,何為大數據。大數據是指服務于決策,需要新型數據處理模式才能對其內容進行采集、存儲、管理和分析的海量、高增長率和多樣化的信息資產。大數據絕不僅僅是指規模大,其定義包括如下四層含義:一是大數據的目的是服務于決策,能夠提升決策能力;二是現有的處理模式不能有效處理大數據;三是大數據是一種信息資產,而不僅僅是一堆數據和成本,所謂信息資產是指其能夠為政府和企業帶來未來經濟利益的信息資源;四是大數據比海量數據更為復雜,海量數據包括結構化和半結構化的交易數據,而大數據除此以外還包括非結構化數據和交互數據。
其次,大數據具有在線性、海量性、全體性、非結構化、實時性等特點。一是在線性,即大數據是永遠在線的,能夠隨時被調用的;二是海量性,即大數據規模巨大,當前通常指10TB規模以上的數據量;三是全體性,即大數據采取的是全體思維,而不是樣本思維;四是非結構化,即大數據的種類繁多,不僅包括傳統的關系數據,而且包括以網頁、視頻、音頻、e-mail、文檔等形式存在的未加工的、半結構化的和非結構化的數據;五是實時性,即大數據能夠實時反應。例如,在Google搜索框輸入一個關鍵詞,能夠瞬間呈現。
第三,大數據代表著新的思想和思維。大數據既能處理“因果關系”又能處理“相關關系”,即不僅能夠回答“為什么”又能回答“是什么”。在小數據時代,只能通過抽樣調查的方式來回答“為什么”,而大數據則能通過全樣本的方式來回答“是什么”,即發現相關關系,這能夠幫助我們更好地認識和了解世界。
第四,大數據的關鍵在于智能化,即能利用有效的工具對數據進行有效的挖掘和專業化處理,進而通過“加工”實現數據的“增值”,進而實現盈利。目前,所用的方法主要有數據挖掘和對比分析,主流的相關技術主要有MapReduce(一種編程模型)和Hadoop(一個分布式系統基礎架構)為代表的非關系數據分析技術。
第五,大數據分析相對于傳統辦法具有顯著的優勢。一是大數據能夠實現分析的高度智能化,即一方面實現信息收集和分析的智能化,另一方面實現數據與用戶需求的有效匹配;二是大數據分析改變之前的市場調研和數據分析相對滯后的模式和方式,能夠及時、迅速地進行分析;三是由于可以大量使用技術手段,其成本相對較低。
第六,大數據的實施依賴于數據的可獲得度、模型是否科學和觀點的提煉。其一,在數據的可獲得度方面,目前在國內,大數據的發展受制于一些政府信息的公開性不夠,很多數據難以獲得,導致難以實現真正的大數據挖掘和分析;其二,在模型建構方面,模型的科學性直接決定著數據分析的質量,這就要求有高超的建模水平;其三,在觀點提煉方面,為決策提供依據的基于數據挖掘的獨到、高質量的觀點,高度依賴于高質量的數據解釋,這就體現了行業專家的價值。
第七,大數據與云計算有機深度融合。由于大數據需要處理大量的非結構化數據,為云計算大規模和分布式的計算能力提供了廣闊的應用空間,云計算已經實現了數據分析即服務,二者相伴而生。此外,當未來基于數據的語義網取代基于網頁的互聯網時,大數據必將成為我們獲取信息的主流。
三、大數據給傳統媒體業帶來的機遇與挑戰
1.大數據帶來巨大機遇
首先,大數據顛覆傳媒業。當前,我們已經進入大數據時代,主要標志就是已經從內容稀缺時代轉變為信息過載時代,這對傳媒業帶來了革命性影響。一是信息量指數式增長。相關研究表明,從2007年到2013年,人類存儲的數據量從300艾字節快速增加到1.2澤字節,增長了數倍,而其中非數字數據只占不到2%。二是信息內容更加豐富。除了傳統媒體生產的原創內容之外,一方面由于博客、微博、微信等很多自媒體平臺的出現,大量的、高質量的自媒體內容層出不窮;另一方面由于互聯網的海量空間使得以往不可能獲得版面的生活服務類信息可以傳遞給用戶,而且對于廣大用戶來講,這些資訊比新聞的用戶黏度更高。因此,新聞和內容的稀缺性進一步被稀釋,其價值也必然被降低,也越來越難以收費。三是基于大數據的互聯網媒體正在快速顛覆傳媒業舊格局。一方面,在廣告市場方面。根據國家工商總局的數據,2013年,所有媒體的發布費用為2144.13億元,其中電視為1101.10億元,同比下滑2.75%;報社為504.70億元,同比下滑9.17%。可以看出,我國互聯網廣告已經成為僅次于廣電的第二大廣告市場,而2014年會超過廣電,成為我國第一大廣告行業。并且由于互聯網依然保持著40%左右的增長速度,而傳統媒體卻呈現下滑趨勢,可以預測在未來5年內,互聯網廣告會占據絕大多數媒體發布費用。另一方面,互聯網媒體正在大量分流傳統媒體的用戶和人才。
其次,基于大數據的產業融合加速進展。以大數據為代表的互聯網技術打破了既有產業之間的界線,把之前界線分明的產業融合在一起,形成新的產業藍海。傳媒業也在互聯網技術的推動下,不斷和其他產業融合成新的產業。一是傳媒業與 通信業以及IT業融合成新的信息服務業。未來新的信息服務業潛力巨大,根據國務院正式發布的《關于促進信息消費擴大內需的若干意見》:到2015年,信息消費規模將超過3.2萬億元,年均增長20%以上;帶動相關行業新增產出超過1.2萬億元。其中基于互聯網的新型信息消費規模達到2.4萬億元,年均增長30%以上;基于電子商務、云計算等信息平臺的消費快速增長,電子商務交易額超過18萬億元,網絡零售交易額突破3萬億元。從中可以看出,大數據必然是信息服務業的基礎。二是傳統零售業和IT業融合成電子商務業。三是傳統金融業和IT業融合成互聯網金融業。
第三,基于大數據的互聯網生態系統快速形成。隨著傳媒業競爭程度日益的加劇,傳媒業競爭的關鍵也從以前的“內容”、“產品”、“平臺”上升為“商業生態系統”。一是未來商業生態系統將是競爭的主體,阿里巴巴的生態系統由信用體系、金融體系、社會化大物流體系、小企業工作平臺和大數據系統所組成。需要著重說明的是,在生態系統競爭層面,未來傳媒平臺僅僅是生態系統的一個標配,雖然起著關鍵作用,但是已經不是收入的主體。而且內容、產品、平臺到生態系統是一個逐級向上發展的關系,后者包括前者又是前者的升級版和高級版,后者又在不斷地顛覆或替代前者。二是生態系統時代運作的關鍵點是“商業生態系統”,其優勢在于自組織、自強化和涌現等。例如,在自強化方面,由于阿里巴巴能夠精準地掌握商戶的商業信息,其在為商戶提供貸款時,就具有很強的風控能力,而風控能力是金融業最為關鍵的能力,因此,阿里巴巴就能夠更好地為在其平臺上運作的商戶提供金融服務。
2.大數據為傳統媒體業帶來重大挑戰
首先,出現了信息的過度充裕和滿足于用戶個性化、定制化需求的信息的極度匱乏之間的突出矛盾,每個人都像生活在信息的汪洋大海中,但又找不到有效信息的信息乞丐一樣。傳統媒體在各種新的傳播媒介和方式上不斷探索,通過手機報、網絡媒體和客戶端、官方微博等方式,積極進入各種渠道和終端,但是一直不能解決至關重要的盈利模式問題,而根本問題是缺乏基于大數據的技術平臺,其提供的內容難以有效匹配給用戶。
其次,傳統媒體的大數據能力弱。一是我國的大部分傳統媒體還依然是小、散、弱的現狀,導致很難形成大型的高質量的信息平臺。二是由于同質化等原因,導致信息大量重復,也給信息的篩選和提煉帶來了很多困難。三是大數據分析 高度依賴于用戶規模和技術,而這些都是傳統媒體的短板,當前最大的數據分析公司是谷歌、Facebook、阿里巴巴以及騰訊等具有高科技技術的互聯網公司。
四、傳統媒體大數據轉型的實踐與誤區
1.傳統媒體的大數據實踐
首先,通過大數據分析及時抓取傳統媒體用戶的相關閱讀等信息,提高用戶體驗。當前,無論是平媒還是廣電媒體,相較于互聯網媒體,用戶體驗都是其短板,而大數據分析可以通過分析用戶的關注點、需求等數據,來更好地滿足用戶的需求,進而提升其用戶體驗。例如,金融時報開通免費專區供注冊的讀者閱讀,金融時報獲得了大量的讀者信息,通過大數據分析讀者的需求,為其提供個性化的信息,就能實現用戶的付費閱讀,目前,金融時報的訂閱收入已占全部收入的一半以上。
其次,積極進行新聞數據化嘗試。當前,用戶對可視化的數據更為感興趣和關注,這就要求傳統媒體更好地實現數據可視化,傳統媒體的一些重要報道越來越重視信息的可視化。
第三,利用大數據技術開發輿情管理的相關產品。當前,我國正處于社會轉型期,各種矛盾突顯,輿情也處于多發期,因此,在這種時代大背景下,輿情管理的需求量很大,傳統媒體因為具有較強的新聞挖掘能力和傳播能力,可以利用大數據分析手段發力輿情管理業務。
2.傳統媒體的大數據實踐誤區重重
首先,依然秉持“內容為王”理念。大數據時代,單純的內容已經難以形成商業閉環,只有利用大數據技術實現信息與用戶個性化、定制化的需求才能實現商業閉環,也才能實現商業價值,這就要求從“內容為王”理念轉變為“信息服務為王”。但是從傳統媒體的實踐來看,主流觀念依然是“內容為王”,導致對互聯網理念和技術不夠重視,大數據平臺更是難以實現。
其次,誤把數字化當成數據化。當前,很多傳統媒體在進行大數據轉型時,對數據化的認識較為膚淺,認為只要把傳統內容轉換成數字化內容就實現了數據化,在實踐中就是僅僅通過電子版、互聯網網站實現內容的在線化呈現。大數據的本質是建立起不同數據之間的內在聯系和建立起用戶和信息之間的聯系,通過數據挖掘和分析,找出不同事物之間的相關關系,進而實現商業價值。由于傳統媒體當前做的僅僅是數字化,其實踐僅僅完成了素材建設部分,距離真正的數據化還有很遠的距離。
第三,誤把新聞可視化當成數據化。當前,很多傳統媒體在做新聞時,經常借助可視化工具,使得新聞更為直觀、更生動、更可讀,取得了不錯的效果,但是大多數可視化新聞僅僅追求新聞的美觀,而并沒有充分體現數據之間的本質邏輯關系,既不能有效地促進用戶思考,更不能有效呈現其目的。
五、大數據與傳媒業的有機融合:信息智能匹配
在大數據技術的推動下,我們已經進入信息智能時代,這就要求傳媒業和大數據進行有機融合,實現信息智能匹配。
首先,打造信息智能匹配平臺。要真正滿足用戶個性化、定制化的信息需求,就必須通過數據挖掘和分析技術,在不斷優化用戶信息需求的基礎上,實現信息和用戶需求的智能化匹配。這就要求做好如下工作:一是打造巨型的云信息服務平臺,在該平臺上,云集著各式各樣的信息,既有文字的,又有音頻和視頻的,并能實現信息的分類篩選、摘編和深度加工;二是打造大型的大數據平臺,在該平臺上能夠通過數據挖掘和分析等方式,實現對讀者和受眾個性化需求的準確定位和把握;三是能夠通過技術手段低成本地實現信息和受眾個性化、定制化的需求之間實現智能化匹配,并能通過各種支付手段,實現智能化信息的收費。例如,亞馬遜通過自己研發的被業界稱之為“鬼打墻式的推薦”的精準推薦系統每秒賣出的商品達72.9件,這種精準推薦系統就是跟蹤客戶的所有消費習慣,不斷進行優化。Google和百度利用搜索和篩選手段在一定程度上實現了讀者的主動信息需求,而亞馬遜等利用推薦手段也在一定程度上滿足了讀者的被動信息需求,而基于巨型平臺的社會引擎將能夠實現精準信息和讀者需求的智能匹配。
其次,信息智能匹配能夠實現信息收費。一是信息智能匹配包括了內容和信息、數據分析和挖掘平臺以及用戶,形成了完備的信息服務商業閉環,信息收費的條件已經具備。二是能夠為用戶節省大量的信息搜索時間。在信息過載時代,每個用戶每天即使花費3個小時的時間也難以搜尋到基本滿足自己需求的高質量信息,而信息智能匹配則能給用戶提供個性化、定制化的信息,使得用戶僅僅需要0.5—1小時的時間就能掌握大部分重要信息,這樣每天就能為每個用戶最少節省兩個小時的時間。按照當前的平均工資水平,2個小時的時間成本為50元左右,則一個月就為1500元左右,如果有4億用戶愿意每月向信息智能服務付費100元,則一年信息智能服務業的規模就為4800億元。因此,只有實現了信息智能匹配,內容收費的良好愿望才能實現,而這必須以大數據為基礎。
第三,信息智能匹配平臺同時提供多種服務。在基于大數據平臺的平臺上,除了信息智能匹配服務之外,還同時提供精準廣告服務、電子商務服務、輿情服務等。在精準廣告服務方面,數據分析和挖掘平臺可以在精準掌握每個用戶消費偏好的基礎上,實現廣告主的營銷信息和用戶需求的智能匹配,達到更好的廣告效果,真正達到精準營銷的目的,百度正在通過自己的大數據計劃強化自身的領先優勢。在電子商務方面,可以通過對生活服務類信息需求的分析,找出用戶對商品的有效需求,引導用戶直接下單,阿里巴巴居于絕對領先地位,根據其上市招股說明書數據,2013年其旗下公司的交易額總計2400億美元,比亞馬遜和EBAY交易額的總和還要多。在輿情服務方面,政府可以利用大數據平臺及時發現民眾訴求并及時回應,以提升政府的治理能力。
第四,大數據能夠更好地實現“OTO”。“OTO”作為線上資源和線下資源的有機結合和互動,是傳媒業運作的核心模式。傳統的“OTO”模式能夠實現線上資源向線下資源的傳導,但是卻難以實現線下資源向線上資源的傳導,雖然二者有結合但難以及時互動;而基于大數據的現代的“OTO”模式則能夠完全實現線上資源和線下資源的有機互動,能夠更好地發揮該模式的威力。
第五,打通產業之間的界線,實現跨界融合發展。大數據用戶平臺提供了多個產業協同發展的基礎,用戶數據能夠為多個產業、多個企業共同使用,這就極大地助力跨界發展,例如,阿里巴巴在大數據用戶平臺的推動下,橫跨電子商務業、傳媒業、物流業、金融業等多個行業。
當然我們也必須清醒地認識到,雖然大數據是傳媒業融合的利器,但是由于一些傳統媒體缺乏技術能力和多秉持“內容為王”的理念,這也導致其向大數據的轉型困難重重。