我們所做的任何一件事都會(將會)留下一條可追蹤的數字軌跡(或稱數據),而這條軌跡能夠被我們或他人利用和分析,這便是大數據存在的前提。
坦白地講,我并不喜歡“大數據(Big Data)”這個詞,聽起來太過技術化,又有些空洞,但大數據的威力卻是我們無論如何都無法忽視的,并將深刻地影響我們每個人的生活。
我們所做的任何一件事都會(將會)留下一條可追蹤的數字軌跡(或稱數據),而這條軌跡能夠被我們或他人利用和分析,這便是大數據存在的前提。通過捕獲和分析大數據,我們能夠在短短幾分鐘內解密人類的DNA,找到治愈癌癥的良藥,精確預測人類行為,于無聲中挫敗恐怖襲擊,進行精準營銷,預防流行性疾病的發生等。當然,正如多數新生事物一樣,大數據也具有兩面性,既能造福于全人類,也能帶來災難性的后果。
大數據的應用與我們抓取分析當下產生的數據的能力息息相關。若能全面利用這些龐雜的數據,我們便可以理解周圍的世界,以及存在于其中的萬事萬物。你可能質疑:這些內容有什么新鮮的嗎?一些公司和機構不是一直在抓取和分析數據嗎?的確如此,但有兩個因素正發生著質的變化,這也是“大數據”之所以成為大數據的根本原因:
我們生成的新數據的體量變得空前龐大——我將其稱之為世界的“數據化”。
我們分析大量數據,處理多種復雜數據的能力在近年來獲得了突飛猛進的發展。
世界的全面數據化
所有活動和行為(人類行為或其他行為)都將會留下可追蹤的數字軌跡(這一想法讓人瞬間感到后背發涼,有種深深的不安):
人與人之間的信息交流越來越多地留下數字記錄:我們的郵件存儲在公司的系統中,我們在社交媒體的狀態更新被備份存檔,我們的通話被轉換成數據信息保存起來。
我們參加的活動正越來越多地被數據歸檔:在數據化的世界里,我們所做的任何事情幾乎都會留下一條數字尾巴。例如,瀏覽器會記錄我們的搜索和訪問歷史,網站會記錄我們的每一次鼠標點擊行為,以及我們何時購買了哪種商品和服務,分享了哪張圖片和文章,對哪則笑話或視頻點了贊。當我們閱讀電子書,聽音樂時,設備會記錄我們所閱讀的書籍,所聽的音樂,以及相應的頻次,除了收集這些信息,廠商甚至還會將其共享。當我們使用信用卡或儲蓄卡進行支付轉賬時,這些信息也會被記錄下來。
現在,絕大多數照片和視頻的拍攝和存儲都是數字化的。想想世界上每天數以百萬小時計的監控錄像你就會發現這個世界有多么的可怕。此外,我們更加依賴用手機和數碼相機拍攝視頻和照片,這也就直接導致了Youtube每分鐘上傳的視頻時長多大100小時,而Facebook上每分鐘上傳的照片多達20萬張。
智能設備和各類傳感器正在變得無孔不入,何時產生了大量的數據:智能手機跟蹤監測我們的位置和移動的速度,研究人員在海洋中投放傳感器監測溫度和洋流,汽車內有傳感器監控我們的駕駛行為,貨物的包裝上也配置了傳感器,用以監測貨物在供應鏈中的運輸狀態。智能手表、Google Glass以及電子計步器都在記錄和收集數據。越來越多的設備開始接入互聯網,從而進行數據的收集和共享。智能電視和各類電視盒子能夠跟蹤監測你正在觀看的節目,觀看的時長,甚至監測電視前坐了幾個觀眾。
讀到這里,你可能已經大致明白什么是大數據了。而對于呈指數級增長的數據量,Google的CEO施密特給出了形象具體的說明:“從人類文明的產生到2003年,人類產生的總的數據量為50億GB,而現在,人類兩天便能夠產生這么多的數據??此外,數據的生產速度還在不斷加快。”
由此可見,人類所產生的數據量已非常人所能想象。另外一件發生變革的事情是,人類已有足夠的技術能力分析信息多種復雜的數據,如通話記錄,視頻和照片信息,以及聊天記錄。這也就是人們常說的“大數據”的4V:
Volume-數據體量巨大。
Velocity-數據的產生和傳輸速速極快(信用卡詐騙交易的監測便是一個很好的例證:銀行等機構實時監測數以百萬計的交易信息,并辨別其中的非常規交易)。
Variety-數據類型繁多(金融數據、網絡日志、音頻、視頻、圖片、傳感數據、地理位置信息等等)。
Veracity-數據的真實性,價值密度低如,連續不間斷視頻監控過程中,可能有用的數據僅僅有一兩秒)。
人類當前所擁有的數據量遠多于任何時代,數據的形式也愈發復雜多樣,傳播速度更快,數據的質量和價值也是參差不齊——這又將對我們的世界產生怎樣的影響?好在,人類已經開發出了相應的工具,將大體量的數據分解成更小的數據組,從而運用計算機集群去分析和處理。下面是一些大數據分析的應用案例:
FBI正在通過社交網絡、攝像探頭、通話和短信記錄追蹤監控罪犯,并預測下一次恐怖襲擊。
大型超市則將顧客的購物卡數據和社交網絡信息相關聯,進而監測和改變用戶的購物模式。例如,零售商可以通過檢測女性的購物模式,輕易地推測出她是否懷孕,從而能夠有針對性地推銷嬰幼兒用品。
Facebook則通過面部識別技術,將你上傳的照片和其他人的進行比對,辨別出哪些人可能是你的朋友。
政客們通過對社交媒體的數據進行分析,確定自己需要在哪些地區加強宣傳拉票力度,以贏得下次選舉。
通過對棒球和足球比賽視頻和傳感器數據的分析,改進訓練方式和技術,提高運動員的成績。例如,你可以購買一個內置多達200個傳感器的棒球,之后你便能夠好的詳細的反饋數據,告訴你該如何提高比賽成績。
像Lady Gaga等歌手通過收集用戶的音樂偏好和播放列表,從而確定演唱會的演唱曲目和演唱順序。
Google的無人駕駛汽車正是通過實時收集大量的傳感器和攝像頭數據,確保汽車的行駛安全。
我們手機的GPS信息,包括位置和移動速度則被用來實時監測交通狀況。
一些公司則通過監測Facebook和Twitter的用戶狀態更新數據,對其進行情感性分析,進而評估和預測產品銷量和品牌價值。
醫院的兒科收治了大量的早產兒和嬰幼兒患者,這便會產生與之相關的實時數據信息。通過對這些數據進行分析,辨識其中的模式和動態,我們能夠在患兒表現出任何癥狀前的24小時確定感染情況,及早采取預防和救治措施。
繞不開的隱私問題
在討論大數據時,如果對隱私問題只字不提,那么便是在掩耳盜鈴,自欺欺人。對于零售商、信用卡公司、搜索服務提供商、郵件或社交媒體公司在用戶隱私數據的使用上,人們已經進行了多方探討。此外,隨著棱鏡門的發酵和傳播,人們對于大數據愈發謹慎,關于隱私問題的討論甚囂塵上。這仍然是一個問題,縈繞在每個人的心頭,就像大數據一樣,無處不在,卻又仿佛無所在。我們在享受大數據所帶來的便利的同時,亦須承受其副作用,或許可以用一句流行語來概括:痛并快樂著。