前段時間網絡上最火的當屬柴靜的霧霾調查,近年來肆虐大江南北的霧霾引起了很多人對環保、對生活的思考。從主觀意識角度而言,個人少開一天車,企業降低污染排放,林區多種樹、少砍伐,政府建立相關告警和管理制度都會或多或少為環境出力。但要想真正的治理霧霾,必須制度化、法律化。什么情況下,工廠需要暫時停工,什么情況下,要減少木材的砍伐,并不能僅憑感覺,這樣做未免任性。我們需要的是數據說話。
大數據對于環保功不可沒
談起數據這個話題,又涉及到了另外一個熱詞,那就是“大數據”。很多企業和政府部門已經搞了多年的信息化,并且認識到了數據是企業的生命力。隨著多年的發展,企業的數據已經足夠“大”,“大數據分析”這個詞也便有了實際意義。淘寶和京東等電商網站的商品推薦,大型超市將啤酒和紙尿褲放在一起的貨品擺放只是大數據的初級應用。在環保領域,大數據分析也已經深入其中。
我們國家環境保護部的官方網上2014年曾摘引過顧偉偉大數據與環保的相關文章。在云計算和互聯網的推動下,環境相關數據林林總總,通過相關環保應用,從這些數據中發現具有規律性、科學性和有價值的環境信息,建立環境數據中心,才能為環境部門的日常管理與科學研究做出貢獻。
對于環保而言,大數據能幫什么忙呢?預測性分析應該是大數據的重要貢獻,也就是從大數據中挖掘出獨有特點,通過建立評估和預測預報模型,預測未來發展趨勢。其次,是精準鎖定,實現對污染企業的有效鎖定。在污染源的生命周期過程中,每個節點所需要的每一類數據,都可以進行搜集分析,形成基于污染源管理的數據資源分布可視圖。這就如同電子地圖一般,哪里有問題,輕輕一點便知曉。另外,還可以通過采集社交信息數據、公眾互動數據來提升環保部門對公眾的服務能力,為公眾提供更多便利。
大數據在環保方面的應用已經不僅僅處于理論論證階段。2014年4月,IEEE Spectrum Alert上發表過一篇文章,詳細介紹了一個將大數據用于環境保護的案例。簡而言之就是開發了一個森林映射工具,當大片森林被砍伐、被破壞時,對監視者發出聲響警告。當森林中一顆樹倒了,不但有一聲響,而且,計算機發出一個警告給研究人員和環境政策制定者。
這件事聽起來輕松但做起來不易,要從雜亂無章的特殊格式的衛星數據里找到那塊特定的森林,從圖像上識別剛倒塌的那顆樹,又要實時地送給相關人士以警告,技術難點很多。從數據采集、數據集中、數據存儲,再到數據分析和數據傳輸,每一步需要的都是高科技支持。
存儲:做大數據分析的最佳支持者
談到數據分析,無論是數據庫采集、數據分析運算都離不開存儲。這是數據存儲在的場所,就像一個數據池子,要從中撈取合適的數據進行計算分析,最終得出結論。
而說到存儲對大數據的支持,傳統的數據存儲手段還是頗有障礙的。我們不妨到企業的數據中心中看看。經歷了多年的發展,無論是何種類型的企業,包括環境保護中各個環節的相關單位,都會有一個難題,那就是數據分散和數據孤島問題。由于組織內部信息化進程并不是同步的,各個部門又根據自身特點,有特定的應用。一個組織內部有五六套系統,各有自己的存儲,不足為奇。
大數據分析要實現的第一步就是將這些數據集中起來,從相關聯的數據中找到規律。此時我們面臨的難題是數據遷移和異構存儲問題。而解決辦法則是最近幾年談的最多的“軟件定義存儲”。從2013年EMC發布ViPR大力推廣軟件定義存儲概念到2015年初IBM推出IBM Spectrum揭開軟件定義存儲2.0時代,軟件定義存儲已經受到國內外用戶的廣泛關注。調研機構中橋國際針對軟件定義存儲市場需求的調研數據顯示,軟件定義存儲將快速成為用戶評估新存儲采購的重要考核指標之一。究其原因,企業用戶需要解決當前面臨的異構存儲難題。
中橋調研分析師表示,中國用戶希望的軟件定義存儲,不僅要能夠跨異構存儲資源,也要能跨各種云資源實現集中統一管理;不僅能提高異構存儲資源的使用管理效率,也能最大限度提高混合云演進過程中的業務連續性;不僅支撐x86 技術,也能將小型機融入軟件定義存儲平臺。軟件定義存儲的真正價值是讓用戶能根據工作負載需求,動態配置資源、智能監控性能、流線型在線升級擴展、細粒度化資源優化,降低存儲配置、管理和運維難度,優化存儲生命周期的使用效率。
簡而言之,用戶希望通過軟件定義存儲繼續發揮各時期采購存儲的價值,同時實現數據的自由遷移。IBM在今年2月發布最新的軟件定義存儲平臺時表示,“其IBM Spectrum Storage和Spectrum Accelerate整合了IBM SVC成熟的互操作和跨平臺能力及XIV的智能、易管理(Zero-tuning)和企業級功能,同時整合了SoftLayer云資源和服務管理平臺。”
在實現了數據大集中之后,接下來便是大數據分析了。大數據分析一般分為“離線處理”和“實時處理”兩種模式,像上文提到的森林映射工具,顯然采用實時處理更有利于在第一時間獲得分析結果并發出響應。根據摩爾定律,處理器和內存的性能每18個月就會翻番。與多核處理器、虛擬化及不斷增長的網絡速度相比,存儲性能顯然是拖了后腿。要在最快的時間將最準確的數據傳給CPU,實現高IOPS,全閃存陣列是絕佳的選擇。另外,在數據倉庫的應用中,80%的訪問都集中在數據倉庫中20%的數據。如果將這頻繁訪問的20%的數據置于全閃存陣列中,就能夠解決很多問題。在存儲架構加入新的全閃存陣列后,也可以通過軟件定義存儲進行統一管理。
結語
環保是一個融合了政策、科技、管理為一體的話題,IT永遠是環保最有利的支持體系。為了擺脫霧霾,重獲藍天,不但每個公民要身體力行,還需要精確的數據分析為法律法規做支撐。存儲,作為大數據分析的后援團隊,更需要不斷升級,以高性能、軟件定義等特性為數據高效管理作保證,為穹頂之下的藍天貢獻一份力量。