選戰(zhàn)又要到了,很多關(guān)於用大數(shù)據(jù)預(yù)測人們投票模式的說法及報(bào)導(dǎo)又跑出來了,聽起來很炫,但真的是這樣嗎?
先讓我們來看看維基百科上關(guān)於大數(shù)據(jù)的定義:
大數(shù)據(jù)(英語:Big data或Megadata),或稱巨量資料、海量資料、大資料,指的是所涉及的資料量規(guī)模巨大到無法透過人工,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為人類所能解讀的資訊。在總資料量相同的情況下,與個(gè)別分析獨(dú)立的小型資料集(data set)相比,將各個(gè)小型資料集合并後進(jìn)行分析可得出許多額外的資訊和資料關(guān)聯(lián)性,可用來察覺商業(yè)趨勢、判定研究品質(zhì)、避免疾病擴(kuò)散、打擊犯罪或測定即時(shí)交通路況等;這樣的用途正是大型資料集盛行的原因。
的確,大數(shù)據(jù)在很多可以輕易確認(rèn)的結(jié)果(有沒有犯罪,有沒有消費(fèi))逆推之下,是可以分析出趨勢來的。譬如說如果當(dāng)局愿意公布犯罪時(shí)間、犯罪件數(shù)、犯罪種類,套上地圖位置,就可以得出所謂的犯罪熱點(diǎn),甚至是分析出對民眾來講何時(shí)在機(jī)率上比較有可能安全的在那個(gè)區(qū)域行走而不會遭遇到危險(xiǎn)。
但是,若是要用在模糊的搜尋行為上,目前的大數(shù)據(jù)的工具就不夠先進(jìn)了。原因很簡單,所謂的搜尋其實(shí)只是一種對某某事物感到好奇的行為,但這個(gè)好奇所代表的是正面或是負(fù)面,或者代表支持或是反對,除非有人開發(fā)出跟人腦一樣的分辨軟體,否則根本無法判斷。我曾經(jīng)參加過某個(gè)公司的專案(相信現(xiàn)在還是很多公司這樣做),他的媒體分析就是把每天報(bào)導(dǎo)的媒體剪報(bào)拿下來,一張一張計(jì)算,有時(shí)加上媒體加權(quán)、版面加權(quán),最後用工讀生人眼閱讀之後,判別這篇報(bào)導(dǎo)整體到底是正面還是負(fù)面,替這個(gè)報(bào)導(dǎo)加上一個(gè)正負(fù)號,最後把整個(gè)月的數(shù)據(jù)統(tǒng)計(jì)出來加總,就得出一篇報(bào)告。
是的,你沒看錯(cuò),是工讀生。但即使是工讀生,所做的也比當(dāng)時(shí)的電腦,和現(xiàn)在的電腦要好。因?yàn)檎Z意分析就是這麼困難:爸爸這麼有錢,「好好喔~~~~」、這麼努力能夠獲得大家照顧,「真是太好了~~~~」。不要說是電腦了,就算是人類,在沒有看前後文的狀況之下,你能夠只從「」內(nèi)的文字看出正面或是負(fù)面,酸人或是稱贊嗎?
所以這篇報(bào)導(dǎo)顯然完全沒有搞懂大數(shù)據(jù)的真正概念(或者是它有別的想法哈哈)「據(jù)香港中評智庫大數(shù)據(jù)中心日前完成的大數(shù)據(jù)分析,在一定時(shí)間里,洪秀柱的媒體聲量達(dá)54%,領(lǐng)先蔡英文8個(gè)百分點(diǎn)之多。在自媒體(指如BBS、部落客等個(gè)人媒體)部分,洪秀柱的網(wǎng)民提及度達(dá)55.6%,比蔡英文高出11.2個(gè)百分點(diǎn)。而自媒體中的意見領(lǐng)袖對蔡英文及洪秀柱的提及度相差較大,洪秀柱的提及率為91.7%,遠(yuǎn)高於蔡英文的50%。」
也就是這原始文章的引用者(我查過中評智庫的原文并不是這樣寫的)天真的以為美國大亨川普(Donald Trump)在發(fā)表了墨西哥人都是強(qiáng)暴犯小偷之後,引起舉國譁然,各意見領(lǐng)袖爭相批評嘲笑諷刺,這是一種媒體聲量和自媒體的領(lǐng)先?川普的謀士會跳出來說真是太好了,這樣我們最近領(lǐng)先希拉蕊非常多,遠(yuǎn)高於她50%?
簡單下個(gè)結(jié)論就是,并非用大數(shù)據(jù)三個(gè)字包裝的就是正確,就是領(lǐng)先,數(shù)據(jù)是中立的,要怎麼扭曲是你家的事,但是拿來對自己加油打氣,小心打氣過頭搞不清楚真正的狀況了啊!