2013年是中國大數據“元年”,這一年中國產生的數據總量超過8億TB,與2012年相比增長了100%。預計到2020 年,中國新產生的數據總量將達到2013年的10倍,超過85億TB。各行各業都在思考如何從大數據中獲取價值。
互聯網的發展為數據收集創造了平臺,并不斷擴大數據收集的范圍和規模。而社交平臺的發展則讓每個人都有機會成為發聲者,企業有更多方式和渠道獲得每個個體的反饋并提升反饋速度。在新互聯網時代,大數據正在改變著人們的日常生活。在本屆世界杯上,大數據分析技術不光幫助德國隊取得了冠軍,在賽事報道上,社交、移動和大數據技術也正在帶來無限的可能性。
過去,傳統媒體主要以單向的方式傳播信息,例如通過電視轉播世界杯比賽,通過報紙報道比賽進展,發表足球評論等。而隨著社交和移動技術的發展,每一位普通球迷都可以利用互聯網和社交媒體,以自己獨特的角度對一場比賽進行記錄。調查發現,在社交媒體上,大多數人和在真實世界里完全不一樣,在現實生活中很多人反而會隱藏一些方面,在社交媒體上的展現更接近真實自我。這一切變化,讓人與人、人與媒體之間的溝通與連接也隨之改變。
在2014年世界杯上,騰訊首先突破,通過與IBM合作,利用社交媒體數據分析系統對網絡上球迷熱議話題、球迷性格進行分析,利用大數據分析技術改變傳統的報道方式。
大數據技術讀懂球迷心聲
我們日常生活中產生的數據,20%是結構化的數據,例如企業通過內部IT系統收集的信息或者通過機器和傳感器收集的數據,而在數據資源中高達80%是非結構化數據,例如電子郵件、圖像、音頻、視頻以及社交平臺上的信息等。傳統的大數據分析面對的是如何管理、調配海量數據的問題,而與傳統的結構化數據相比,非結構化的社交數據是人產生的,這其中不僅包括成文的句子,還包括網絡用語、表情,甚至錯別字等。例如,在社交平臺上,球迷對于一個球星的態度不會是明確的喜歡或者厭惡,而會以各種各樣不同的方式表達出來,其真正的態度究竟是支持還是否定,是需要IBM通過分析給出結論的。如何讓機器理解大量的人類語言背后隱藏的情感?將大量的非結構化數據轉換為結構化數據是社交大數據分析面臨的首要難題,這不僅需要IT技術的支持,也需要心理學、語義分析等知識和技術的綜合運用。
為深度挖掘社交平臺上形式豐富的非結構化信息,提取有指導意義的洞察,IBM構建了Blue Pulse系統,利用機器自學習方法和自然語言分析技術,傾聽網民“心聲”。
- 命名實體識別:在處理非結構化數據時,不管球迷通過任何設備錄入信息,都有一些文字沒有標點符號,不同的短語在中文里有著不同的含義,需要IBM利用技術把人名、球隊名等識別出來,以便進一步的分析。
- 話題檢測:該技術幫助識別網友討論的話題。
- 語義情感分析:在理解球迷討論的話題后,利用該技術可以判斷球迷的立場是支持還是否定,從而獲得球迷情感上的傾向。
- 網絡關系抽取:社交平臺上聚集了眾多球迷,討論各種類型的話題,利用網絡關系抽取技術,對出球迷集中討論的眾多話題進行綜合分析,IBM將話題間真正有價值、有分析意義的內容關聯出來。
在以上四大核心技術的基礎上,通過對社交數據進行分析,IBM還能夠對球迷的性格進行繪制,例如,通過分析阿根廷隊梅西的粉絲,IBM挖掘到了他們之間共有的特點。首先,大多數梅西的球迷都是宅男;第二,他們的性格相對內向;第三,他們都多少帶有一點悲觀主義。利用這些發現,騰訊在相關賽事的報道上通過風格和內容的調整,使報道更豐富,更加貼近讀者。
SoftLayer為大數據提供強大支持
在分析工作的背后,海量的數據是得出精準洞察的基礎。根據體育賽事特點,所有數據會以比賽時間為聚集點,爆炸性的涌現。這需要一個高度穩定,并極具擴展性的基礎架構平臺來支撐。這次,IBM將Blue Pulse社交大數據分析平臺放到了剛剛開放開始提供給對外服務的IBM SoftLayer香港數據中心的公有云平臺上。數據量的不確定性對計算資源的彈性要求很高,能夠快速部署的云計算才能給予最好的支持。因此,大數據往往和云計算自然而然的連在一起。數據量激增時,SoftLayer云計算平臺快速部署服務器,調配更多的計算資源和存儲設備來支持系統正常運行。在數據量降低時,可以通過釋放計算資源,節約成本。
IBM大數據分析技術與體育賽事的合作才剛剛開始,在其他行業,IBM很早就開始進行多方面的嘗試。例如幫助快消企業快速了解市場對產品的反饋,通過快速評估為市場策略調整提供依據。和以往的市場調查相比,社交大數據分析反饋更快,更為靈活。目前,IBM已經幫助領先的快消企業傾聽社交媒體的聲音,獲得產品、服務、競爭對手和市場方面的反饋,更好的實現與消費者的互動,真正為產品生產、設計、包裝等各部門提供實際有效的建議。未來IBM社交大數據分析技術也將開發出更多針對行業領域的應用,幫助企業和行業更好的從大數據中獲取價值。