在「云端」科技之后,近年「大數據(Big Data)」發展成一個震天價響的口號,各行各業對于投入大數據應用的研究開發是躍躍欲試,不愿意放棄任何一條可能開挖到金礦的山路,即便只是一條溪徑,各產業也愿意卷起衣褲放手一搏,只為了發現有黃金比喻的數據數據。
數據的搜集是利用在網絡上爬行并截取所需要的數據,這是條漫漫長路。過去的數據結構較簡易、呈現的方式大致上以HTML或是Server-side Scripts為主,因此過去在進行數據搜集作業時,是較為容易的;現今多利用Flash、AJAX等工具進行網站的建置,數據的結構也愈趨復雜,相對的也提升了搜集數據的困難度。
為進行搜集數據,首先必須先因應不同的網站而寫出不同的爬文程式,而任何的程式語言都可以作為爬文程式撰寫的工具。元智大學大數據中心的社群媒體數據分析研究團隊í表示,善用程式語言或是Open Source的函式庫(Library)可以提升程式撰寫的效率。然而,在進行程式語言的挑選時,爬行難易度以及爬行結果剖析準確度就為工具選擇的首要考量因素;再者,即考量程式語言的函式庫、套件(Package)等的多元性;最后,個人的喜好當然也是工具選擇的重要考量之一。
社群媒體數據分析研究團隊表示,目前團隊使用的工具之一是Python,而選擇Python的塬因是因為Python提供較為便利的程式撰寫環境,并且提供專門針對支援爬蟲程式的套件;以上,相對于其它的程式語言而言,Python最大的優點即是實用性高、彈性大,面對不同的網站可以迅速的進行反應。一體兩面地,有優點固然有其缺點,Python在處理速度方面,相對于JAVA而言,是略遜一籌的;但該團隊表示,以當前的研究分析目的而言,這并不影響團隊在進行數據搜集、處理的速度。現在,我們生活于一個資訊大爆炸的時代,搜尋引擎龍頭Google或其他營利或非營利團體皆會使用爬蟲程式進行網站數據的搜集;而社群媒體分析研究團隊表示,在使用爬蟲程式進行爬蟲時,必須要特別注意的即是「禮貌」,使用者必須注意爬行頻率是否適當,如果爬行頻率過高,除了可能造成網站的困擾,爬蟲程式亦可能遭到網站封鎖。因此,爬行頻率也可謂為該領域的網絡禮儀。
圖2:促銷活動討論度分析。
圖3:品牌關鍵字強度分析。
現在許多使用者在購買產品前會先從網絡上搜集數據、藉由網民在各評論網站或社群網站上所分享的資訊或評價來決定購買意愿;現下社群網站當道,無一企業不重視網絡社群口碑的影響力,并著手展開創新的商業模式;然而,為更精確的掌握客戶的想法和需求,企業藉由海量數據進行大數據分析,無形的口碑也神奇的被量化了。目前社群媒體分析研究團隊是與國內某知名汽車廠商合作,主要已經完成Mobile01、Facebook以及PPT等網站的爬蟲程式,再利用潛藏語意分析(latent semantic analysis)與獨立成份分析(independent component analysis)的自動偵測技術,為繁雜的評論進行情感標簽。
就此合作案例而言,該團隊藉由數據的搜集、探勘并進行大數據分析以得出品牌的強、弱、危、機;而汽車廠商亦藉由該團隊所提出的分析和消費者產生了連結、互動,也因此更了解社群世界對各汽車品牌的觀感,并運用分析結果制訂出更有效的策略方案,在這波新興的社群經濟下,勢必會為企業以及消費者締造出雙贏的未來。
社群媒體數據分析研究團隊的研究特色在于透過發展數據分析核心技術,減少人力的負擔。主要成果í如下:
避免傳統文件情感分類需要人工準備大量訓練數據的人力耗損。
提出使用Semi-supervised learning的DA-SC技術來完成,僅需準備少量(14個) domain-independent opinion lexicons,便可達到與傳統做法的分類效能 (請參閱圖5)。
圖5:A domain-adapted sentiment classification approach。
自動找出「情感標簽」的技術
傳統單獨使用Latent Semantic Analysis僅能找出latent features,單獨使用Independent Component Analysis僅能找出independent features。本研究發展出結合兩者的作法(請參閱圖6),不但能找出latent features,也能降低feature overlap。此外,本研究也發展出透過visualization選取features的工具(請參閱圖7)。
圖6:A hybrid approach of LSA and ICA sentiment classification approach。
圖7:Visualized Feature Selection Tool。
新的Social Network Analysis metric來偵測網拍詐欺用戶
傳統用于偵測網拍詐欺用戶的Social Network Analysis metric如k-core與center weight常無法同時達到好的precision 與recall。本研究透過分析與詐欺用戶交易之用戶的特性,提出neighbor diversity來改善precision 與recall。
綜觀而言,大數據和社群是密不可分,目前行動上網的普及率以及社群網站的熱門程度是以正向趨勢在延燒著;同時,拜社群網站所賜,民眾也愈能快速、便利的將自己的意見表達在網絡上,無形的豐富了「數據」。
圖8:社群媒體傾向分析。
「Big Data」也就因應而生。社群媒體分析研究團隊表示,Google Trends利用分析「網站流量」、「關鍵字」對使用者的「搜尋」來預測人類未來的活動趨勢,而Google Flu Trends就是一個非常知名的應用,從搜尋的關鍵字去預測流感的發生,簡而言之,當大家都開始討論同一件事情時,就表示著有一件事即將爆發。而就應用面來看,從數據擷取時就必須網羅組織內、外部數據;所謂的組織內數據是以有意的形式去進行搜集并控管;而組織外數據即是我們俗稱的社群數據。該團隊表示,若僅以由公司內部所搜集到的數據進行分析,其周延性及準確性是有所欠缺的;就現今普羅大眾而言,大多數使用者皆是以社群網站作為發表言論、想法的主要管道,然而,這些社群數據主要即是用來突破過去的局限,讓企業更能全面性掌握消費者的心聲以利提供后續更優質的服務以及準確地提升產品品質。
原文鏈接:http://www.thebigdata.cn/JieJueFangAn/13939.html