什么是「大數據」(Big data)?研究機構 Gartner 給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據是數據分析的前沿技術。從各種類型的數據中,快速獲得有價值信息的能力,就是大數據技術,這也正是促使大數據技術具備走向眾多企業的潛力。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理,通過「加工」實現數據的「增值」。
近 10 年來,政府和企業在世界范圍內收集了大量互聯網用戶的數據,不僅僅是姓名和數字,而是一連串數據---大數據。國際數據公司 (International Data Corporation) 最近預測大數據行業復合年增長率將達到 26.4%,在 2018 年達到 415 億美元。這意味著越來越多的企業和組織將花費巨資研究分析大數據并獲得有價值的信息。負責美國宇航局在加州帕薩迪納市的噴氣推進實驗室大數據的 Chris Mattmann 表示,NASA 總共管理著幾百 PB 容量的數據,幾乎達到 1EB。
1 EB(Exabyte,艾可薩字節或艾字節) 是多少容量?這意味著 10 億 GB,像這樣:1000000000 GB。
這些巨大的數據擴散的速度如此之快以至于傳統的數據技術跟不上它們的節奏。TNS 市場研究公司 (Taylor Nelson Sofres)亞太地區首席執行官 Chris Riquier 告訴我大數據對市場研究有非常大的影響。Riquier 表示,市場研究是建立在調研和問卷調查之上的。他講道,在過去,調研的過程或花費數周的時間,最終用呈現的數據來分析企業規模和相關信息,通過整合社交媒體數據、搜索數據以及其他形式的大數據來做成報告,而現在我們有機會來「重新思考研究是如何完成的。」Riquier 表示,由于大數據,我們對「市場和決策力的反應已經發生了很大的變化。」
在今天的數字世界里,大數據通過跨行業、政府、科學、公共健康和學術界來發現相關性。在過去,從信息里的海洋里獲得有用的數據信息對大多數人來說一直是可望而不可即的事情。直到去年,哈佛雜志在 2014 年刊登的一篇文章,標題為「為什么大數據是一樁大買賣?」(Why「Big Data」is a Big Deal),文中表示通過改進的統計和計算方法, 包括關聯數據集、可視化數據以及創建「大算法」等這些關鍵的創新,能使我們快速處理這些數據并為我們所用。從物理學家到文天學家,他們長期與大數據打交道,數據科學家和社會學家通過結合定量與定性的方法來從大數據中獲得有用的信息。實際上,大數據正在創造一個新領域,哈佛大學工程與應用科學學院為此開設數據科學碩士學位。
在《大數據-一場改變我們生活、工作和思考的革命》一書中,Viktor Mayer-Schonberger 和 Kenneth Cukier 談到企業是如何改變方式來做出決策---基于對大數據的分析。例如,谷歌通過其收集的大數據來預測預測禽流感的散布,其反應速度比美國疾病控制中心還要迅速。
據華爾街日報最近的一篇文章,加拿大銀行使用由開源軟件開發商 Apache 開發的 Hadoop 來儲存和處理大數據,并能識別洗錢和欺詐等犯罪行為。
大數據之于普通人
哈佛、NASA、谷歌和 Apache 利用大數據的分析能力在世界范圍內帶來先進的技術,但就像我之前提到的,這并不意味著科學家們能很快從大數據中受益。讓我們來看一看一些企業和公司在收集和管理大數據的幾個方面。
其中大數據最主要的一個用途就是在市場中的搜索引擎優化(SEO)。公司和企業能利用搜索引擎公司如谷歌和必應提供的工具,結合不同的社交媒體數據,收集有用的信息來進行網絡營銷。咨詢公司 Hall Analysis 的研究員 Joe Hall 主要研究搜索引擎優化和大數據,他表示有兩種方法能使用大數據來處理搜索引擎優化。
他說:「第一種是處理與大數據集有關聯的業務。在大多數情況下這意昧著大品牌和大企業能獲得非常多的數據。」Hall 引用一個例子,一個客戶有 1600 萬個反向鏈接,或者從其他網站鏈接指向客戶的網站。這些鏈接對谷歌和其他搜索引擎來說是一個非常重要的排名因素。他解釋說,數據集的大小需要像模式分析那樣有強大的處理各種任務的能力,并在這種水準下為反向鏈接分析改變規則。
Hall 表示,第二種方法是公司能利用大數據使搜索引擎優化變得更具態勢感知能力。這表明使用相關性研究能更好了解排名因素以及用戶點擊率、排名結果頁面等用戶行為分析。這兩種分析類型都需要大數據分析來達到最終的目的,并能有效幫助 SEO 專家開闊一個「更大的局面」。
另一方面是大數據在商業活動中能獲得用戶的忠誠度。舉個例子,比如我是一個創業公司的創始人,在我成功運作公司的第一年后,公司業績蒸蒸日上,于是我給自己放個大假,去夏威夷度假。但在機場安檢的時候,檢票員告知我由于我的箱子超重,我需要付額外的費用。但是檢票員可能不知道,作為一個成功創業公司的創始人和 CEO,我和我的員工將會在全世界各大城市奔波,為航空公司貢獻更多的里程。如果航空公司使用大數據整合來自信用卡公司、社交媒體源、博客、酒店等相關信息,他們會可能取消這樣的額外收費還能獲得一個忠誠的客戶。
無論是大公司的 CEO 或是研究癌癥的醫生,或是一個淘寶店老板,使用大數據分析都將會為他們帶來有價值的信息。當我們進入到這樣一個時代:基于大數據分析來作出決策,這將不可避免地改變我們思考世界的方式。
今天這一代人出生在數字化時代。而下一代人將進入大數據時代。