前幾天我因為社交網站得以和一個老朋友重新取得聯系,星期天時他從費城趕到挪威來,就為了約我給他解答一個問題,我想這個問題對他來說一定很重要。他問:“Jane,你說你是做大數據分析的,那大數據到底是什么呢?”
他是一個IT人,了解關于電腦的大部分知識,但是因為有太多人在嘗試定義 大數據的概念 ,以致于很多人都徹底地被弄暈了。
我朋友并不是唯一一個被弄混的人。根據最新的Garter大數據產業網絡播報,整整有15%的受訪者仍然把“了解大數據是什么”視作他們的前三大挑戰之一。
而最讓我感興趣的一個數據是,在那些已經投資大數據項目的公司中,仍有9%的受訪者在理解大數據這個問題上還有困難。他們投資的到底是什么呢?皇帝的新衣嗎?
考慮到各位的困難,我寫下這篇假設的問答,試著解答各位關于大數據的那些想問又不敢問的問題:
Q:大數據只代表那些量很大的數據嗎?
A:雖然從名字上看是這樣,但是實際上我們用“大數據”來形容因為某種原因無法適應傳統數據庫軟件工具的數據,而這些軟件工具在過去的數十年間一直被用于分析和商業智能。舉個例子,大數據也許無法完全適應關系型數據庫(例如圖像的像素數據),或者需要經過特別的處理才能和其他數據共同使用(例如從機器設備獲得的時間序列數據)。
Q: 我們在油氣行業不是一直都在用大數據嗎?
A:是的!地震探測和歷史學家儲存的傳感器數據就是兩個很好的例子。早期,由于這些數據量很大而難以處理,在典型的數據庫工具中表現并不出色,所以我們就將它限制在了預定義的工作流和應用單元當中。結果是我們不知不覺地限制了自己尋求關鍵業務問題的準確答案的能力。現在的大數據運動都是為了實現以全新的方式去應用這些棘手的、對運營提出了挑戰的數據,從而獲取更多問題的答案。
Q: 當前的大數據運動究竟在做什么呢?
A:都是為了實現所有數據的自由支配——不管它是圖像、視頻、音頻、自然語言文本、機器可讀文本、傳感器數據還是平常的數據庫中的老式關系型數據,不管數據量是兆字節還是兆兆字節,不管信息來源是實時的快照還是不斷流入的數據流。
Q: 但是要怎么實現呢?關鍵是這些數據很難管理啊
A:相比“傳統的”數據而言,我們可以采取各種不同的IT解決方案來管理并查詢這些數據。我們可以從Yahoo、Google、eBay等互聯網企業身上學到很多,他們都是新型工具和技術的領導者。他們每天用到的數據和油氣行業一直以來賣力管理的數據非常相似。
他們每天都要檢查兆兆字節的網絡服務器日志,加深對客戶交互的理解;還對社交媒體內容應用了自然語言處理和情感傾向分析;物聯網的發展帶入了更多FitBit 和蘋果智能手表這樣的“可穿戴設備”,所以傳感器數據也是他們的重點關注之一。
Q: 我們為什么要做大數據?
A:為什么不呢?我們都知道,油氣行業的風險非常高,因為一次油氣開采的花費可以高達70億美元,所以必須根據數據進行商業決策,不能憑直覺拍腦袋。
在交通運輸行業中,傳感器數據(一種大數據的來源)可以檢測引擎行為,并且可以結合引擎性能和引擎或車輛的主數據,例如修理歷史、服務和利用歷史等數據(在大數據出現之前他們擁有的所有數據來源),方便運營商準確預測引擎故障的時間。對于火車、航空、快遞公司而言,這意味著他們可以組織故障車輛進行預防性維護,而不是坐以待斃,讓車輛在路上發生故障,使旅客、運貨發生滯留。
套用到生產作業中,如果我們可以很好地結合傳感器數據與維修記錄、地下地質、表面狀況(如天氣)等信息,就能夠改善技術維護計劃、物流和供應鏈,顯著降低成本并避免非計劃內的關井停產。
在我看來這絕對是一個好的商業決策。