国产在线拍揄自揄视精品不卡,亚洲精品免费在线视频,免费国产调教视频在线观看

大數據如何改善我們周圍的生存環境

責任編輯：editor005

作者：薛梁

2016-03-14 14:19:40

摘自：linuxeden

在正式講環境大數據之前，我們來講一個和身邊有關的案例。數據可視化就更復雜了，這里面最主要的一個可視化類型就是把數據變成圖形來展現，而且讓人們更容易的接受這些圖片。

在正式講環境大數據之前，我們來講一個和身邊有關的案例。大多數去過星巴克喝咖啡的人都會有這樣一個疑惑，“為什么星巴克室內溫度比室外溫度低呢?”甚至有人開始抱怨說室內溫度太低，但是這也不會帶來什么改變。因為在冷的環境下，顧客肯定會傾向于買熱咖啡，而且是大杯的熱咖啡。像溫度、水分、聲音這些東西跟我們平時生活息息相關，包括購買意愿實際上跟我們周圍環境都是直接相關的。

環境數據的特性

前段時間參加了100offer組織的大數據技術沙龍，參講嘉賓都是來自知名互聯網科技界的技術牛人，但是給我影響最深的還是佳格大數據CTO張弓講的大數據在環境改善方面所做的一些努力，如何通過數據分析來確定一定范圍內氣候的變化，以及接下來大數據在環境技術方面還需要做那些完善。

張弓說，環境兩個字解開了說就是環我之境，周圍的環境才是我們所研究的數據核心。所謂環境大數據就是指氣象、溫度、濕度，包括道路圖、建筑圖、污染問題，也包括資源性的數據。這些數據有一個特點，具有時空場。

大家現在都講大數據，大數據就是最核心的三維，人們通過IT技術獲得更多的數據。大約15年前，我們就開始通過接觸環境數據來做天氣預報，因為這是一個處在前端、即時性要求非常高的預報，所以數據的模擬處理都是按照秒級來計算的。所以說數據量是非常大的，包括各種衛星圖像所提供的點上數據、面上數據，但是主要以圖像或圖像流為主。在現在看來，那就是海量數據。

衛星影像到全球原油儲量

這里再列舉一張Skybox拍攝的儲油罐的照片，從這一張照片上能獲得哪些有價值的數據呢?當然是可以從中獲悉儲油海港的大小，運輸量的大小。

大數據

這些數據都是從儲油罐的陰影來計算的，通過太陽高度角和陰影長度來計算儲油罐的油量，基本上利用這樣的方法能將全球80%以上的原油儲量計算出來，而且是完全不可阻止的。這就是黑科技的用途。

衛星影像到全球原油儲量2

大數據就是技術型企業的根本，對數據的分析精度決定了數據的價值大小，張弓說他們以前分析數據的尺度非常粗糙。簡單的說，對時間的衡量是以年或月做單位的，這種數據分析的商業價值就會比較低，更多作為策略性使用。

環境數據：大數據時代前的海量數據

現在的原始數據是非常大的，比如一張從衛星里發送出來的圖片，是一種描述地面的時空數據，數據量非常大。另外一類是模型數據，對模型進行分析。因為時空是連續的，所以用于模型分析的方法相對較為復雜，例如從內蒙古刮過來的沙塵暴會到它的下風口北京，屬于連續時空性動作，很難用數據來描述。十幾年前基于數學算法，針對時空圖像數據利用MPI+Fortran來處理海量數據，還創造出HDF和NetCDF這些類似于現在Spark或Hadoop的工具。

環境數據：大數據時代前的海量數據

眾所周知，數據最核心的部分就是具有極強的時空連續性，這里就涉及到數據獲取和數據融合的問題，因為不同的數據源，不同的數據類型、不同的數據格式，導致每一個時空上面顆粒分辨率是不同的，如何把250米*250米的數據和一個30米*40米的數據進行比較，這里就涉及到比較復雜的時空尺度融合問題。從數據結構上考慮，如果時空數據本身是連續的，可能更便于計算，它的分析工具的內核也是基于Spark為主。

數據可視化就更復雜了，這里面最主要的一個可視化類型就是把數據變成圖形來展現，而且讓人們更容易的接受這些圖片。

數據分析是針對圖像數據化過程的核心內容，就相當于一個分析可視化的過程，從而獲得我想要的數據，這是比較困難的。所以這里就用到了能夠進行圖像識別和模式識別的機器學習和深度學習的概念。比如說如何用不同的顏色把田地里不同作物表示出來，哪怕是作物的方向也要識別出來的話。這里就要分析紋理的朝向和密度。第一步先做深度學習，原始分辨率是半米乘半米，深度學習要有足夠的層數，然后對圖像進行處理，建立一些窗口，比如建立3乘3、5乘5、9乘9窗口，下圖是用了208個方塊做出來的深度神經網絡結果，識別度超過人眼。這樣做的結果就是能夠很清晰的知道莊稼的長勢如何，如何根據這些數據來安排接下來的土地利用情況，最大化土地利用率。

地塊的自動識別和劃分

　　霧霾預測

這里可以來談談之前在網上傳播很廣的霧霾預警圖——佳格“霾圖”。這是基于環境大數據，對大氣污染進行實時監測預警的工具。“霾圖”用地圖的形式實時展現我國任一地區的大氣污染數據，并預測未來五天的空氣質量。其實時數據目前每小時更新一次，空間精度為五公里。用大數據直面霧霾這塊“硬骨頭”，不僅需要充分準確的數據源、優秀的數據處理，還需要合適的可視化能力。

霧霾預測

對于采集到的大量數據，需要進行整合處理才能用來生成霾圖。霾圖的數據算法主要包含兩個任務：

數據同化和實時展示任務。獲得的衛星數據主要分兩種，一種是時間分辨率高的數據，一種是空間分辨率高的數據。這需要把兩種數據進行融合;同時衛星并不會直接給出PM2.5的測量數據，而是一類光學指標，其中包括大氣氣溶膠光學厚度(aerosol optical depth)。利用基于不同城市自主研發的算法將這個變量計算出準確的PM2.5濃度值，并在“霾圖”上實時展示。

預測任務。目前國內空氣質量預測主要有兩種傳統方法：第一種是根據大氣物理化學(污染物的沉降，運輸和擴散以及二次氣溶膠反應)的經典算法跟污染物排放清單的集合對未來大氣情況進行推測;第二種是基于數理統計模型方法。比如拿到過去十年的數據，通過對時間序列的季節性，趨勢性進行分析來做預測，輔以人工判斷。這兩種方法主要使用的都是地面監測點提供的數據，并沒有用到衛星數據。同時國內排放清單數據存在時效性弱的弊端，并且地面監測點分布不均且數據容易受到人為因素的影響。這樣所得到的預測結果存在著極大的偏差和局限，準確度較低。

相比這兩種傳統方法，佳格“霾圖”所開發的預測方法和模型具有自己的特點：首先，佳格做預測的數據是更精確均勻的衛星數據。其次，佳格運用模型最優化方法，綜合考慮多種國際上最先進的氣候預測模型，通過算法選出動態的最合適的預測模型，用于預測未來五天內的空氣質量情況。

張弓在最后的演講中也提到，大數據的潛力還沒有被完全挖掘出來，這需要時間和不斷的嘗試才能發揮它最大的價值，更好的改善我們的日常生活環境。

數據同化光學厚度