如果你仍對如何處理大數據以及如何更好的利用它心存疑惑,不用感到孤單,因為即便是從事國家安全和醫療健康數據分析工作的人們也還在尋找答案。
“我從來沒明白過大數據這個詞,”上周美國聯邦政府的Tony Scott在大數據峰會上如是說,“是形容數據的胖瘦還是只是形容數據之多?不過它能很好的描述了在數據科學或數據分析領域的工作。”
大數據峰會小組成員之一的Hoot Thompson,舉出一個大數據的完美例證。
Thompson表示,他的團隊有30PB的磁盤存儲和40PB的磁帶存儲與超級計算機相連。他還表示NCCS僅2014年一年的存儲購買量就有20PB,雖然他指出這在歷年的數據當中屬于偏高的。
這家機構通過模型預測氣候已經長達50年了。單獨的一個模型就能創造3-4PB的數據量。
“我們并非數據的消費者,” Thompson說,“我們正在努力將數據展示出來以便其他機構作出決策。我們的所有數據都是共享的。”
Thompson談到,他是一個開源愛好者。他在運行一個Gluster并已經持續兩年了,他還計劃實施一個基于OpenStack的存儲云。
數據分析是大數據的關鍵,它并非只涉及氣候變化的研究。大數據峰會的另外一個小組成員,健康科學家Suzanna Petanceska介紹了他團隊的項目,通過研究來自上千人的腦數據做阿茲海默癥的防治。那不僅需要將數據存儲起來,還要找出這中間的重要信息。
Scott表示總共有三組人能夠有效地進行篩選和分析數據。“你需要一些善于理出事情框架的人。”
“第二組人擅長于應用和數據操作。他們清晰的知道執行步驟。那么第三組人是由能夠解釋數據的人構成。這就是我所喜愛的不同個人技的團隊多樣性。”