精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù)時(shí)代傳播研究中語料庫分析方法的價(jià)值

責(zé)任編輯:editor007 |來源:企業(yè)網(wǎng)D1Net  2014-12-08 17:50:41 本文摘自:人民網(wǎng)

在新聞傳播學(xué)視野之下,大數(shù)據(jù)的分析思維正在對(duì)我們的研究形成沖擊,比如新聞業(yè)務(wù)將實(shí)現(xiàn)一些方向性調(diào) 整,趨勢(shì)預(yù)測(cè)性新聞和數(shù)據(jù)驅(qū)動(dòng)型深度報(bào)道分量增加。對(duì) 于輿情研究來說,問卷發(fā)放和小組訪談等傳統(tǒng)的民意調(diào)查 方法,已經(jīng)不能滿足基于社交媒體平臺(tái)的海量信息處理要 求。新聞傳播學(xué)領(lǐng)域的研究面臨一個(gè)共同問題,即文本分 析方法的創(chuàng)新。基于大數(shù)據(jù)的分析思維,文本也是一種有巨大潛在價(jià)值的數(shù)據(jù)。但是傳統(tǒng)的文本分析手段拘泥于有 限的樣本數(shù)量和定性研究的窠臼,無法滿足大數(shù)據(jù)時(shí)代對(duì) 內(nèi)容挖掘上廣度和深度的要求。在這種情況下,來源于應(yīng) 用語言學(xué)領(lǐng)域的語料庫分析方法的介入,能夠使結(jié)構(gòu)化文 本數(shù)據(jù)庫的構(gòu)建成為可能。再結(jié)合語言學(xué)、修辭學(xué)領(lǐng)域的內(nèi)容分析手段,能為我們從研究范式到研究方法、工具上都提供一些新思路。

一、大數(shù)據(jù)時(shí)代對(duì)新聞傳播學(xué)研究范式提出的新課題

(一)新聞實(shí)踐領(lǐng)域

隨著社交媒體的應(yīng)用和智能手機(jī)的普及,人人都可以是事件的目擊者和發(fā)布者,傳統(tǒng)媒體新聞報(bào)道在原創(chuàng)性和獨(dú)家性方面的優(yōu)勢(shì)已不復(fù)存在。大眾傳媒作為社會(huì) 的記錄者與傳播者的傳統(tǒng)定位及面向所有受眾的粗放式 信息傳播方式,已越來越不能滿足受眾對(duì)于精準(zhǔn)信息和 定制內(nèi)容的需求。

大數(shù)據(jù)時(shí)代,最重要的是數(shù)據(jù)的開放性,其被壟斷的可能性很小,公共云、公共數(shù)據(jù)庫到處存在。媒體既要生產(chǎn)自己的數(shù)據(jù),更要會(huì)用、用好公共數(shù)據(jù)。這些公 共數(shù)據(jù)不僅包括數(shù)字信息,也包括大量文本內(nèi)容。要使 用這些公共內(nèi)容,就需要有對(duì)海量信息的整合能力以及 對(duì)潛在信息價(jià)值的挖掘能力,并需用可視化工具把結(jié)果 精準(zhǔn)地呈現(xiàn)出來。

二)輿情研究領(lǐng)域

在研究視角上,傳統(tǒng)的輿情研究大都局限于比較表 層化的話語研究和事件研究,沒有深入挖掘公眾的思想、 行為和情感方面豐富的內(nèi)涵和規(guī)律性信息。而且受傳統(tǒng)的 調(diào)查、訪談方法自身的局限性影響,很難進(jìn)行受眾心理圖譜、行為圖譜和社會(huì)關(guān)系圖譜這樣復(fù)雜的語義關(guān)系的繪制和分析。

在研究時(shí)距上,目前的輿情研究以共時(shí)性研究為主, 歷時(shí)性研究缺乏。但是,輿情熱點(diǎn)的變化具有年輪效應(yīng),只有橫向的共時(shí)性分析是不夠充分的,沒有對(duì)公眾輿論的歷時(shí)性演變和輿情發(fā)生機(jī)制的縱向研究,我們?cè)谡J(rèn)識(shí)和行 動(dòng)上的方位感就會(huì)不夠客觀和真實(shí)。

在采集方法上,現(xiàn)有的輿情監(jiān)測(cè)和分析軟件的同質(zhì)化程度較高,采集的文本大多是基于互聯(lián)網(wǎng)社交媒體, 分析結(jié)果的呈現(xiàn)方式也比較相似。在炫目的可視化圖景 背后,沒有對(duì)文本數(shù)據(jù)的深度分析,而這種深度分析要 基于對(duì)大量文本的內(nèi)容挖掘和整合,這就需要經(jīng)過結(jié)構(gòu)化處理的文本數(shù)據(jù)庫來支持。輿情話語的表達(dá)亂象紛 繁,真?zhèn)尾⒋妫刃枰⌒偷幕A(chǔ)文本數(shù)據(jù)庫來深度挖 掘某類熱點(diǎn)專題,也需要大型合成文本數(shù)據(jù)庫對(duì)輿論走向和趨勢(shì)進(jìn)行宏觀把握。

(三)傳播學(xué)學(xué)術(shù)研究領(lǐng)域

傳統(tǒng)的傳播學(xué)文本分析,主要以框架分析、符號(hào)分 析等定性分析方法為主,但這兩種分析主要集中于意識(shí)形 態(tài)、修辭方式等方面,不夠客觀。而文本內(nèi)容,特別是輿 論研究的文本內(nèi)容,有零散化、碎片化的特征,在拉斯韋 爾的5W里面, say what(文本內(nèi)容研究)的問題常常被 人忽略。雖然有一些專門的詞頻統(tǒng)計(jì)分析軟件,可以完成 對(duì)高頻詞和低頻詞的統(tǒng)計(jì)分析,但在語義深度挖掘方面仍 然有待開發(fā)。我們需要找到一種常規(guī)的工具,可以把學(xué)術(shù) 文本進(jìn)行結(jié)構(gòu)化方法上的整合,通過把文本分類、合并, 提取常用關(guān)鍵詞和核心詞,按研究主題分門別類地進(jìn)行儲(chǔ)存,為對(duì)比研究、專題研究等領(lǐng)域提供更加嚴(yán)謹(jǐn)和結(jié)構(gòu)化的文本數(shù)據(jù)庫支持。

二、語料庫分析:體現(xiàn)大數(shù)據(jù)思維的研究方法

語料庫屬于應(yīng)用語言學(xué)的范疇,是指按照一定的語言學(xué)原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù) 語言運(yùn)用文本或話語片段而建成的、具有一定容量的大 型電子文本庫。該方法在國外已有三十年以上的研究歷 史,如今也擁有較為成熟的語料庫構(gòu)建與檢索工具,比如 Wordsmith、AntConc等。國內(nèi)語料庫的研究亦開展近二十 年時(shí)間,研究范疇基本被劃分為詞匯、語法、語篇、語用 和文體研究等五個(gè)方面。利用語料庫作為研究工具,可以 從微觀層面對(duì)新聞傳播學(xué)領(lǐng)域的文本內(nèi)容進(jìn)行研究。在語言學(xué)領(lǐng)域,語料庫的研究方法已日趨成熟,只不過尚未走進(jìn)新聞傳播學(xué)的視野,這是因?yàn)樾侣剛鞑W(xué)在文本內(nèi)容分析方面欠缺新的方法,需要語料庫這類研究方法的介入。

三、語料庫研究方法的應(yīng)用領(lǐng)域

(一)在新聞實(shí)踐領(lǐng)域的應(yīng)用

1.史料檢索語料庫。即把新聞報(bào)道的原創(chuàng)內(nèi)容和歷史資料數(shù)據(jù)化,變成媒體的核心資產(chǎn)。在新聞傳播渠道 日益扁平化的今天,建立一個(gè)受眾易于發(fā)現(xiàn)和易于使用 的史料數(shù)據(jù)庫,是報(bào)紙生存下去的核心競(jìng)爭(zhēng)力之一。另 外還可以采集一些外部數(shù)據(jù)來作為語料庫的擴(kuò)充部分, 如通過合作、購買、交換、抓取等方式來獲取來自其他 媒體的內(nèi)容和來自互聯(lián)網(wǎng)平臺(tái)用戶創(chuàng)造的內(nèi)容,并完善 語料庫的資料存儲(chǔ)、檢索查詢和版權(quán)管理,為進(jìn)一步轉(zhuǎn) 化利用打好基礎(chǔ)。

2.政府公開信息語料庫。彭博社亞洲區(qū)新聞資訊主 編Lee Miller指出:數(shù)據(jù)驅(qū)動(dòng)型報(bào)道中的數(shù)據(jù)都可以并且應(yīng) 該從公開信息渠道中獲得。所謂的信源和數(shù)據(jù),并不一定 要像“維基解密”或斯諾登那樣從秘密渠道獲取,而是應(yīng) 該從公開信息中挖掘。這些信源包括政府機(jī)構(gòu)網(wǎng)站中日常 發(fā)布的政策信息和每年重大會(huì)議的政府工作報(bào)告;大眾媒 體官方網(wǎng)站上的報(bào)道和專題;官方媒體的新媒體移動(dòng)終端 發(fā)布的內(nèi)容等等。根據(jù)政治、經(jīng)濟(jì)、教育、公共衛(wèi)生等不 同主題,建立可供隨時(shí)檢索的公開信息語料庫,能夠?yàn)槊?體報(bào)道節(jié)約大量搜尋數(shù)據(jù)和素材的人力和物力。

3.“數(shù)據(jù)博客”語料庫。在基于社交網(wǎng)絡(luò)平臺(tái)的節(jié) 點(diǎn)式傳播基礎(chǔ)上,來自草根階層或者是專業(yè)領(lǐng)域人士的博 客、微博的內(nèi)容和數(shù)據(jù),也能成為新聞線索的來源和報(bào)道 內(nèi)容的基礎(chǔ)。因此,我們可以采集那些比較有影響力的博 客或微博的內(nèi)容,通過初步的結(jié)構(gòu)化處理,轉(zhuǎn)換成隨時(shí)可 供查詢和檢索的民間信息語料庫,供數(shù)據(jù)驅(qū)動(dòng)型的新聞報(bào)道作為參考,也可以作為普通讀者查詢的數(shù)據(jù)庫。

(二)在輿情研究領(lǐng)域的應(yīng)用

通過建立動(dòng)態(tài)輿情監(jiān)測(cè)語料庫,提供可供檢索的關(guān) 鍵詞數(shù)據(jù)庫,結(jié)合修辭學(xué)、語言學(xué)的分析方法,分析輿論 話語表達(dá)、公眾社會(huì)關(guān)系、群體心理特征等。首先按照一 定的規(guī)則和專題對(duì)收集的輿情文本內(nèi)容進(jìn)行分類和標(biāo)注, 然后是文本合并和關(guān)鍵詞提取。在語料處理方面要注意兩 點(diǎn):一是小型基礎(chǔ)語料庫的支撐和建設(shè),大數(shù)據(jù)庫作為信息母體,需要若干小型數(shù)據(jù)庫作為檢索源;二是中心度和 關(guān)聯(lián)度結(jié)構(gòu)化的算法,大數(shù)據(jù)庫作為一種非結(jié)構(gòu)化的數(shù) 據(jù),需要進(jìn)行一些結(jié)構(gòu)化的解讀和梳理,這就需要相關(guān)的 數(shù)據(jù)結(jié)構(gòu)化算法,這種算法可稱之為數(shù)據(jù)模型。

1.輿情熱詞語料庫。輿情熱詞語料庫主要服務(wù)于輿 情監(jiān)測(cè),解決重大和突發(fā)事件中引爆點(diǎn)和關(guān)聯(lián)度的關(guān)系。 我們可以通過關(guān)注熱點(diǎn)內(nèi)容,搜集熱點(diǎn)事件的語料,建立 輿情熱詞數(shù)據(jù)庫,找出引發(fā)輿情關(guān)注的引爆詞。并結(jié)合語 詞情感分析、修辭分析手段,來劃分引爆詞的中心度級(jí)別 和關(guān)聯(lián)度級(jí)別,在此基礎(chǔ)上設(shè)計(jì)熱詞發(fā)現(xiàn)模型,達(dá)到輿情 預(yù)警和預(yù)測(cè)的目的。

首先我們根據(jù)研究規(guī)模來選取一定數(shù)量的樣本,然后 用語料庫構(gòu)建工具對(duì)選定文本進(jìn)行標(biāo)注和結(jié)構(gòu)化處理, 對(duì)輿情關(guān)鍵詞進(jìn)行再次統(tǒng)計(jì)并生成核心主題詞表數(shù)據(jù) 庫,從中找出輿情引爆詞。需要特別指出一點(diǎn),核心主 題詞不一定是詞頻最高的那個(gè)詞,而是輿情敏感度,也 就是熱度最高的詞,即輿論的中心詞。中心詞是輿論的 引爆點(diǎn),實(shí)現(xiàn)了引導(dǎo)公眾把輿論由說變成做的過程,同 時(shí)也是關(guān)聯(lián)度最高的詞,從最大限度上關(guān)聯(lián)其他的主題 詞并形成語義網(wǎng)絡(luò)。

關(guān)于輿情熱詞的分析,有兩個(gè)關(guān)鍵點(diǎn):引爆點(diǎn)和關(guān)聯(lián) 點(diǎn)。由引爆點(diǎn)可以導(dǎo)出對(duì)引爆詞的挖掘;由關(guān)聯(lián)點(diǎn)可以導(dǎo) 出對(duì)連接詞的發(fā)現(xiàn);引爆詞具有意見領(lǐng)袖的作用,迅速擴(kuò) 大熱詞的影響力并號(hào)召公眾付之行動(dòng);關(guān)聯(lián)詞具有搬運(yùn)工 的作用,能夠連接各種關(guān)系詞,形成主題詞網(wǎng)絡(luò)。基于引 爆詞的挖掘和連接詞的發(fā)現(xiàn),輿情熱詞分析可以劃分出兩 個(gè)維度:中心度分析和關(guān)聯(lián)度分析,進(jìn)而設(shè)定中心度指標(biāo) 和關(guān)聯(lián)度指標(biāo),并設(shè)計(jì)指標(biāo)體系的計(jì)算公式,形成具有引 爆性質(zhì)的熱詞理論模型。這樣就可以輿情監(jiān)測(cè),隨著熱詞 強(qiáng)度的提高,熱詞的范圍是不是在擴(kuò)大,社會(huì)的緊張度又 如何,進(jìn)而往前預(yù)推,達(dá)到預(yù)警的目的。

2.意見領(lǐng)袖修辭特征詞語料庫。在一些官方傳統(tǒng)媒 體失語或報(bào)道不及時(shí)的情況下,網(wǎng)民習(xí)慣于打開網(wǎng)絡(luò)意見 領(lǐng)袖的博客或追逐微博上的只言片語,從他們那里尋找解 讀、剖析和批判。意見領(lǐng)袖的觀點(diǎn)、意見情緒能為受眾所 接收,能引起受眾的共鳴,會(huì)產(chǎn)生巨大的輿論影響,這與 他們個(gè)人的話語表達(dá)風(fēng)格、對(duì)某個(gè)領(lǐng)域的專業(yè)知識(shí)和對(duì)某 類問題的把握能力密不可分。因此,通過對(duì)意見領(lǐng)袖的觀 點(diǎn)、態(tài)度關(guān)鍵主題詞等內(nèi)容的提取,可以從中總結(jié)某個(gè)或 某類意見領(lǐng)袖的修辭特點(diǎn)及個(gè)人特征,形成一定的辨識(shí)度 依據(jù);進(jìn)而還可以從中尋找具有心理喚起度和社會(huì)動(dòng)員能 力的詞,為輿論引導(dǎo)提供來自民間輿論場(chǎng)的參照。

3.傳播學(xué)學(xué)術(shù)主題詞語料庫。在傳播學(xué)內(nèi)容研究 領(lǐng)域,可以嘗試用語料庫來完成對(duì)常規(guī)5W領(lǐng)域的深化研 究,尤其是引向微觀層面。越是細(xì)小的不易覺察的,越是 人們忽視的,也越是研究者值得進(jìn)軍的領(lǐng)域,而微觀的研 究恰恰能夠揭示很多深度的東西。所以傳播學(xué)主題詞語料 庫可以做的,恰恰是把非結(jié)構(gòu)化的文本數(shù)據(jù)結(jié)構(gòu)化,根據(jù) 研究主題設(shè)定結(jié)構(gòu)化的方向、結(jié)構(gòu)化的坐標(biāo)、結(jié)構(gòu)化的指 標(biāo),來完成研究的目標(biāo)。比如傳播史方面的研究,我們可 以找到一個(gè)時(shí)間節(jié)點(diǎn),搜集與這一節(jié)點(diǎn)同步的史實(shí)資料, 然后把文本進(jìn)行整合、分詞、標(biāo)注,提取與這一歷史節(jié)點(diǎn) 關(guān)聯(lián)的年份詞、學(xué)者名稱、學(xué)術(shù)觀點(diǎn)、專門術(shù)語,構(gòu)建主 題詞語料庫,繪制這一時(shí)期的主題詞學(xué)術(shù)地圖。

4.受眾特征關(guān)鍵詞語料庫。利用微博進(jìn)行廣告?zhèn)?播,有著天然的精準(zhǔn)投放優(yōu)勢(shì)。我們可以利用語料庫來分 析挖掘受眾群體特征,繪制不同目標(biāo)群體的心理圖譜、行 為圖譜和社會(huì)圖譜,從而實(shí)現(xiàn)對(duì)目標(biāo)接觸點(diǎn)的精準(zhǔn)把握, 找到受眾的需求交叉點(diǎn)。這種語料庫分析的應(yīng)用原理來自 于特征聚類,以此為依據(jù),來向具有相似心理需求的受眾 推送受本群體認(rèn)可的資訊和產(chǎn)品廣告,從而達(dá)到對(duì)品牌接 觸點(diǎn)和受眾需求交叉點(diǎn)的精準(zhǔn)把握。

四、語料庫分析在傳播學(xué)研究方法論上的創(chuàng)新點(diǎn)

工具性的研究方法,要和研究?jī)?nèi)容的屬性相匹配;要 把主觀感覺的內(nèi)容變成可靠結(jié)論,從而挖掘出研究對(duì)象的 潛在價(jià)值。語料庫的分析方法,符合大數(shù)據(jù)的思維邏輯, 通過對(duì)海量文本數(shù)據(jù)的處理,可以對(duì)文本內(nèi)容進(jìn)行深入挖 掘,而不僅僅局限于表層研究或定性分析。以微觀偏中觀 的修辭手段和語義分析的研究為基礎(chǔ),通過語料庫這種結(jié) 構(gòu)化的文本數(shù)據(jù)來開展量化研究,這在國內(nèi)外新聞傳播學(xué)界都屬新鮮待開發(fā)的領(lǐng)域。 語料庫的研究,本質(zhì)上也是一種跨學(xué)科的研究,綜合了語言學(xué)、修辭學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)各學(xué)科的知識(shí)。 當(dāng)前國內(nèi)外大型語料庫的建設(shè)都具有動(dòng)態(tài)性的特點(diǎn),即語 料會(huì)定期更新,基于它可以豐富傳播學(xué)量化研究的方法, 發(fā)現(xiàn)關(guān)鍵詞和主題詞的歷史性演變,從而尋找其中的年輪 效應(yīng),為學(xué)術(shù)文本和實(shí)踐領(lǐng)域的研究提供縱向的和歷時(shí)性 的參照物和坐標(biāo)系。

關(guān)鍵字:語料庫數(shù)據(jù)結(jié)構(gòu)化大數(shù)據(jù)

本文摘自:人民網(wǎng)

x 大數(shù)據(jù)時(shí)代傳播研究中語料庫分析方法的價(jià)值 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù)時(shí)代傳播研究中語料庫分析方法的價(jià)值

責(zé)任編輯:editor007 |來源:企業(yè)網(wǎng)D1Net  2014-12-08 17:50:41 本文摘自:人民網(wǎng)

在新聞傳播學(xué)視野之下,大數(shù)據(jù)的分析思維正在對(duì)我們的研究形成沖擊,比如新聞業(yè)務(wù)將實(shí)現(xiàn)一些方向性調(diào) 整,趨勢(shì)預(yù)測(cè)性新聞和數(shù)據(jù)驅(qū)動(dòng)型深度報(bào)道分量增加。對(duì) 于輿情研究來說,問卷發(fā)放和小組訪談等傳統(tǒng)的民意調(diào)查 方法,已經(jīng)不能滿足基于社交媒體平臺(tái)的海量信息處理要 求。新聞傳播學(xué)領(lǐng)域的研究面臨一個(gè)共同問題,即文本分 析方法的創(chuàng)新。基于大數(shù)據(jù)的分析思維,文本也是一種有巨大潛在價(jià)值的數(shù)據(jù)。但是傳統(tǒng)的文本分析手段拘泥于有 限的樣本數(shù)量和定性研究的窠臼,無法滿足大數(shù)據(jù)時(shí)代對(duì) 內(nèi)容挖掘上廣度和深度的要求。在這種情況下,來源于應(yīng) 用語言學(xué)領(lǐng)域的語料庫分析方法的介入,能夠使結(jié)構(gòu)化文 本數(shù)據(jù)庫的構(gòu)建成為可能。再結(jié)合語言學(xué)、修辭學(xué)領(lǐng)域的內(nèi)容分析手段,能為我們從研究范式到研究方法、工具上都提供一些新思路。

一、大數(shù)據(jù)時(shí)代對(duì)新聞傳播學(xué)研究范式提出的新課題

(一)新聞實(shí)踐領(lǐng)域

隨著社交媒體的應(yīng)用和智能手機(jī)的普及,人人都可以是事件的目擊者和發(fā)布者,傳統(tǒng)媒體新聞報(bào)道在原創(chuàng)性和獨(dú)家性方面的優(yōu)勢(shì)已不復(fù)存在。大眾傳媒作為社會(huì) 的記錄者與傳播者的傳統(tǒng)定位及面向所有受眾的粗放式 信息傳播方式,已越來越不能滿足受眾對(duì)于精準(zhǔn)信息和 定制內(nèi)容的需求。

大數(shù)據(jù)時(shí)代,最重要的是數(shù)據(jù)的開放性,其被壟斷的可能性很小,公共云、公共數(shù)據(jù)庫到處存在。媒體既要生產(chǎn)自己的數(shù)據(jù),更要會(huì)用、用好公共數(shù)據(jù)。這些公 共數(shù)據(jù)不僅包括數(shù)字信息,也包括大量文本內(nèi)容。要使 用這些公共內(nèi)容,就需要有對(duì)海量信息的整合能力以及 對(duì)潛在信息價(jià)值的挖掘能力,并需用可視化工具把結(jié)果 精準(zhǔn)地呈現(xiàn)出來。

二)輿情研究領(lǐng)域

在研究視角上,傳統(tǒng)的輿情研究大都局限于比較表 層化的話語研究和事件研究,沒有深入挖掘公眾的思想、 行為和情感方面豐富的內(nèi)涵和規(guī)律性信息。而且受傳統(tǒng)的 調(diào)查、訪談方法自身的局限性影響,很難進(jìn)行受眾心理圖譜、行為圖譜和社會(huì)關(guān)系圖譜這樣復(fù)雜的語義關(guān)系的繪制和分析。

在研究時(shí)距上,目前的輿情研究以共時(shí)性研究為主, 歷時(shí)性研究缺乏。但是,輿情熱點(diǎn)的變化具有年輪效應(yīng),只有橫向的共時(shí)性分析是不夠充分的,沒有對(duì)公眾輿論的歷時(shí)性演變和輿情發(fā)生機(jī)制的縱向研究,我們?cè)谡J(rèn)識(shí)和行 動(dòng)上的方位感就會(huì)不夠客觀和真實(shí)。

在采集方法上,現(xiàn)有的輿情監(jiān)測(cè)和分析軟件的同質(zhì)化程度較高,采集的文本大多是基于互聯(lián)網(wǎng)社交媒體, 分析結(jié)果的呈現(xiàn)方式也比較相似。在炫目的可視化圖景 背后,沒有對(duì)文本數(shù)據(jù)的深度分析,而這種深度分析要 基于對(duì)大量文本的內(nèi)容挖掘和整合,這就需要經(jīng)過結(jié)構(gòu)化處理的文本數(shù)據(jù)庫來支持。輿情話語的表達(dá)亂象紛 繁,真?zhèn)尾⒋妫刃枰⌒偷幕A(chǔ)文本數(shù)據(jù)庫來深度挖 掘某類熱點(diǎn)專題,也需要大型合成文本數(shù)據(jù)庫對(duì)輿論走向和趨勢(shì)進(jìn)行宏觀把握。

(三)傳播學(xué)學(xué)術(shù)研究領(lǐng)域

傳統(tǒng)的傳播學(xué)文本分析,主要以框架分析、符號(hào)分 析等定性分析方法為主,但這兩種分析主要集中于意識(shí)形 態(tài)、修辭方式等方面,不夠客觀。而文本內(nèi)容,特別是輿 論研究的文本內(nèi)容,有零散化、碎片化的特征,在拉斯韋 爾的5W里面, say what(文本內(nèi)容研究)的問題常常被 人忽略。雖然有一些專門的詞頻統(tǒng)計(jì)分析軟件,可以完成 對(duì)高頻詞和低頻詞的統(tǒng)計(jì)分析,但在語義深度挖掘方面仍 然有待開發(fā)。我們需要找到一種常規(guī)的工具,可以把學(xué)術(shù) 文本進(jìn)行結(jié)構(gòu)化方法上的整合,通過把文本分類、合并, 提取常用關(guān)鍵詞和核心詞,按研究主題分門別類地進(jìn)行儲(chǔ)存,為對(duì)比研究、專題研究等領(lǐng)域提供更加嚴(yán)謹(jǐn)和結(jié)構(gòu)化的文本數(shù)據(jù)庫支持。

二、語料庫分析:體現(xiàn)大數(shù)據(jù)思維的研究方法

語料庫屬于應(yīng)用語言學(xué)的范疇,是指按照一定的語言學(xué)原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù) 語言運(yùn)用文本或話語片段而建成的、具有一定容量的大 型電子文本庫。該方法在國外已有三十年以上的研究歷 史,如今也擁有較為成熟的語料庫構(gòu)建與檢索工具,比如 Wordsmith、AntConc等。國內(nèi)語料庫的研究亦開展近二十 年時(shí)間,研究范疇基本被劃分為詞匯、語法、語篇、語用 和文體研究等五個(gè)方面。利用語料庫作為研究工具,可以 從微觀層面對(duì)新聞傳播學(xué)領(lǐng)域的文本內(nèi)容進(jìn)行研究。在語言學(xué)領(lǐng)域,語料庫的研究方法已日趨成熟,只不過尚未走進(jìn)新聞傳播學(xué)的視野,這是因?yàn)樾侣剛鞑W(xué)在文本內(nèi)容分析方面欠缺新的方法,需要語料庫這類研究方法的介入。

三、語料庫研究方法的應(yīng)用領(lǐng)域

(一)在新聞實(shí)踐領(lǐng)域的應(yīng)用

1.史料檢索語料庫。即把新聞報(bào)道的原創(chuàng)內(nèi)容和歷史資料數(shù)據(jù)化,變成媒體的核心資產(chǎn)。在新聞傳播渠道 日益扁平化的今天,建立一個(gè)受眾易于發(fā)現(xiàn)和易于使用 的史料數(shù)據(jù)庫,是報(bào)紙生存下去的核心競(jìng)爭(zhēng)力之一。另 外還可以采集一些外部數(shù)據(jù)來作為語料庫的擴(kuò)充部分, 如通過合作、購買、交換、抓取等方式來獲取來自其他 媒體的內(nèi)容和來自互聯(lián)網(wǎng)平臺(tái)用戶創(chuàng)造的內(nèi)容,并完善 語料庫的資料存儲(chǔ)、檢索查詢和版權(quán)管理,為進(jìn)一步轉(zhuǎn) 化利用打好基礎(chǔ)。

2.政府公開信息語料庫。彭博社亞洲區(qū)新聞資訊主 編Lee Miller指出:數(shù)據(jù)驅(qū)動(dòng)型報(bào)道中的數(shù)據(jù)都可以并且應(yīng) 該從公開信息渠道中獲得。所謂的信源和數(shù)據(jù),并不一定 要像“維基解密”或斯諾登那樣從秘密渠道獲取,而是應(yīng) 該從公開信息中挖掘。這些信源包括政府機(jī)構(gòu)網(wǎng)站中日常 發(fā)布的政策信息和每年重大會(huì)議的政府工作報(bào)告;大眾媒 體官方網(wǎng)站上的報(bào)道和專題;官方媒體的新媒體移動(dòng)終端 發(fā)布的內(nèi)容等等。根據(jù)政治、經(jīng)濟(jì)、教育、公共衛(wèi)生等不 同主題,建立可供隨時(shí)檢索的公開信息語料庫,能夠?yàn)槊?體報(bào)道節(jié)約大量搜尋數(shù)據(jù)和素材的人力和物力。

3.“數(shù)據(jù)博客”語料庫。在基于社交網(wǎng)絡(luò)平臺(tái)的節(jié) 點(diǎn)式傳播基礎(chǔ)上,來自草根階層或者是專業(yè)領(lǐng)域人士的博 客、微博的內(nèi)容和數(shù)據(jù),也能成為新聞線索的來源和報(bào)道 內(nèi)容的基礎(chǔ)。因此,我們可以采集那些比較有影響力的博 客或微博的內(nèi)容,通過初步的結(jié)構(gòu)化處理,轉(zhuǎn)換成隨時(shí)可 供查詢和檢索的民間信息語料庫,供數(shù)據(jù)驅(qū)動(dòng)型的新聞報(bào)道作為參考,也可以作為普通讀者查詢的數(shù)據(jù)庫。

(二)在輿情研究領(lǐng)域的應(yīng)用

通過建立動(dòng)態(tài)輿情監(jiān)測(cè)語料庫,提供可供檢索的關(guān) 鍵詞數(shù)據(jù)庫,結(jié)合修辭學(xué)、語言學(xué)的分析方法,分析輿論 話語表達(dá)、公眾社會(huì)關(guān)系、群體心理特征等。首先按照一 定的規(guī)則和專題對(duì)收集的輿情文本內(nèi)容進(jìn)行分類和標(biāo)注, 然后是文本合并和關(guān)鍵詞提取。在語料處理方面要注意兩 點(diǎn):一是小型基礎(chǔ)語料庫的支撐和建設(shè),大數(shù)據(jù)庫作為信息母體,需要若干小型數(shù)據(jù)庫作為檢索源;二是中心度和 關(guān)聯(lián)度結(jié)構(gòu)化的算法,大數(shù)據(jù)庫作為一種非結(jié)構(gòu)化的數(shù) 據(jù),需要進(jìn)行一些結(jié)構(gòu)化的解讀和梳理,這就需要相關(guān)的 數(shù)據(jù)結(jié)構(gòu)化算法,這種算法可稱之為數(shù)據(jù)模型。

1.輿情熱詞語料庫。輿情熱詞語料庫主要服務(wù)于輿 情監(jiān)測(cè),解決重大和突發(fā)事件中引爆點(diǎn)和關(guān)聯(lián)度的關(guān)系。 我們可以通過關(guān)注熱點(diǎn)內(nèi)容,搜集熱點(diǎn)事件的語料,建立 輿情熱詞數(shù)據(jù)庫,找出引發(fā)輿情關(guān)注的引爆詞。并結(jié)合語 詞情感分析、修辭分析手段,來劃分引爆詞的中心度級(jí)別 和關(guān)聯(lián)度級(jí)別,在此基礎(chǔ)上設(shè)計(jì)熱詞發(fā)現(xiàn)模型,達(dá)到輿情 預(yù)警和預(yù)測(cè)的目的。

首先我們根據(jù)研究規(guī)模來選取一定數(shù)量的樣本,然后 用語料庫構(gòu)建工具對(duì)選定文本進(jìn)行標(biāo)注和結(jié)構(gòu)化處理, 對(duì)輿情關(guān)鍵詞進(jìn)行再次統(tǒng)計(jì)并生成核心主題詞表數(shù)據(jù) 庫,從中找出輿情引爆詞。需要特別指出一點(diǎn),核心主 題詞不一定是詞頻最高的那個(gè)詞,而是輿情敏感度,也 就是熱度最高的詞,即輿論的中心詞。中心詞是輿論的 引爆點(diǎn),實(shí)現(xiàn)了引導(dǎo)公眾把輿論由說變成做的過程,同 時(shí)也是關(guān)聯(lián)度最高的詞,從最大限度上關(guān)聯(lián)其他的主題 詞并形成語義網(wǎng)絡(luò)。

關(guān)于輿情熱詞的分析,有兩個(gè)關(guān)鍵點(diǎn):引爆點(diǎn)和關(guān)聯(lián) 點(diǎn)。由引爆點(diǎn)可以導(dǎo)出對(duì)引爆詞的挖掘;由關(guān)聯(lián)點(diǎn)可以導(dǎo) 出對(duì)連接詞的發(fā)現(xiàn);引爆詞具有意見領(lǐng)袖的作用,迅速擴(kuò) 大熱詞的影響力并號(hào)召公眾付之行動(dòng);關(guān)聯(lián)詞具有搬運(yùn)工 的作用,能夠連接各種關(guān)系詞,形成主題詞網(wǎng)絡(luò)。基于引 爆詞的挖掘和連接詞的發(fā)現(xiàn),輿情熱詞分析可以劃分出兩 個(gè)維度:中心度分析和關(guān)聯(lián)度分析,進(jìn)而設(shè)定中心度指標(biāo) 和關(guān)聯(lián)度指標(biāo),并設(shè)計(jì)指標(biāo)體系的計(jì)算公式,形成具有引 爆性質(zhì)的熱詞理論模型。這樣就可以輿情監(jiān)測(cè),隨著熱詞 強(qiáng)度的提高,熱詞的范圍是不是在擴(kuò)大,社會(huì)的緊張度又 如何,進(jìn)而往前預(yù)推,達(dá)到預(yù)警的目的。

2.意見領(lǐng)袖修辭特征詞語料庫。在一些官方傳統(tǒng)媒 體失語或報(bào)道不及時(shí)的情況下,網(wǎng)民習(xí)慣于打開網(wǎng)絡(luò)意見 領(lǐng)袖的博客或追逐微博上的只言片語,從他們那里尋找解 讀、剖析和批判。意見領(lǐng)袖的觀點(diǎn)、意見情緒能為受眾所 接收,能引起受眾的共鳴,會(huì)產(chǎn)生巨大的輿論影響,這與 他們個(gè)人的話語表達(dá)風(fēng)格、對(duì)某個(gè)領(lǐng)域的專業(yè)知識(shí)和對(duì)某 類問題的把握能力密不可分。因此,通過對(duì)意見領(lǐng)袖的觀 點(diǎn)、態(tài)度關(guān)鍵主題詞等內(nèi)容的提取,可以從中總結(jié)某個(gè)或 某類意見領(lǐng)袖的修辭特點(diǎn)及個(gè)人特征,形成一定的辨識(shí)度 依據(jù);進(jìn)而還可以從中尋找具有心理喚起度和社會(huì)動(dòng)員能 力的詞,為輿論引導(dǎo)提供來自民間輿論場(chǎng)的參照。

3.傳播學(xué)學(xué)術(shù)主題詞語料庫。在傳播學(xué)內(nèi)容研究 領(lǐng)域,可以嘗試用語料庫來完成對(duì)常規(guī)5W領(lǐng)域的深化研 究,尤其是引向微觀層面。越是細(xì)小的不易覺察的,越是 人們忽視的,也越是研究者值得進(jìn)軍的領(lǐng)域,而微觀的研 究恰恰能夠揭示很多深度的東西。所以傳播學(xué)主題詞語料 庫可以做的,恰恰是把非結(jié)構(gòu)化的文本數(shù)據(jù)結(jié)構(gòu)化,根據(jù) 研究主題設(shè)定結(jié)構(gòu)化的方向、結(jié)構(gòu)化的坐標(biāo)、結(jié)構(gòu)化的指 標(biāo),來完成研究的目標(biāo)。比如傳播史方面的研究,我們可 以找到一個(gè)時(shí)間節(jié)點(diǎn),搜集與這一節(jié)點(diǎn)同步的史實(shí)資料, 然后把文本進(jìn)行整合、分詞、標(biāo)注,提取與這一歷史節(jié)點(diǎn) 關(guān)聯(lián)的年份詞、學(xué)者名稱、學(xué)術(shù)觀點(diǎn)、專門術(shù)語,構(gòu)建主 題詞語料庫,繪制這一時(shí)期的主題詞學(xué)術(shù)地圖。

4.受眾特征關(guān)鍵詞語料庫。利用微博進(jìn)行廣告?zhèn)?播,有著天然的精準(zhǔn)投放優(yōu)勢(shì)。我們可以利用語料庫來分 析挖掘受眾群體特征,繪制不同目標(biāo)群體的心理圖譜、行 為圖譜和社會(huì)圖譜,從而實(shí)現(xiàn)對(duì)目標(biāo)接觸點(diǎn)的精準(zhǔn)把握, 找到受眾的需求交叉點(diǎn)。這種語料庫分析的應(yīng)用原理來自 于特征聚類,以此為依據(jù),來向具有相似心理需求的受眾 推送受本群體認(rèn)可的資訊和產(chǎn)品廣告,從而達(dá)到對(duì)品牌接 觸點(diǎn)和受眾需求交叉點(diǎn)的精準(zhǔn)把握。

四、語料庫分析在傳播學(xué)研究方法論上的創(chuàng)新點(diǎn)

工具性的研究方法,要和研究?jī)?nèi)容的屬性相匹配;要 把主觀感覺的內(nèi)容變成可靠結(jié)論,從而挖掘出研究對(duì)象的 潛在價(jià)值。語料庫的分析方法,符合大數(shù)據(jù)的思維邏輯, 通過對(duì)海量文本數(shù)據(jù)的處理,可以對(duì)文本內(nèi)容進(jìn)行深入挖 掘,而不僅僅局限于表層研究或定性分析。以微觀偏中觀 的修辭手段和語義分析的研究為基礎(chǔ),通過語料庫這種結(jié) 構(gòu)化的文本數(shù)據(jù)來開展量化研究,這在國內(nèi)外新聞傳播學(xué)界都屬新鮮待開發(fā)的領(lǐng)域。 語料庫的研究,本質(zhì)上也是一種跨學(xué)科的研究,綜合了語言學(xué)、修辭學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)各學(xué)科的知識(shí)。 當(dāng)前國內(nèi)外大型語料庫的建設(shè)都具有動(dòng)態(tài)性的特點(diǎn),即語 料會(huì)定期更新,基于它可以豐富傳播學(xué)量化研究的方法, 發(fā)現(xiàn)關(guān)鍵詞和主題詞的歷史性演變,從而尋找其中的年輪 效應(yīng),為學(xué)術(shù)文本和實(shí)踐領(lǐng)域的研究提供縱向的和歷時(shí)性 的參照物和坐標(biāo)系。

關(guān)鍵字:語料庫數(shù)據(jù)結(jié)構(gòu)化大數(shù)據(jù)

本文摘自:人民網(wǎng)

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 庐江县| 满洲里市| 鹿邑县| 葫芦岛市| 隆子县| 永康市| 志丹县| 南通市| 石棉县| 青铜峡市| 牙克石市| 伊金霍洛旗| 志丹县| 云南省| 抚远县| 岳普湖县| 咸阳市| 浙江省| 大关县| 右玉县| 烟台市| 麻栗坡县| 五大连池市| 新闻| 五台县| 突泉县| 林甸县| 方城县| 赣州市| 鹰潭市| 浙江省| 台南县| 岑巩县| 扶沟县| 土默特左旗| 银川市| 临安市| 余江县| 万宁市| 双柏县| 伊宁市|