久久久精品一区二区三区,国产亚洲综合久久,免费观看成人久久网免费观看

科學研究與大數據概念的濫用

責任編輯：editor006

2014-10-11 14:27:31

摘自：36大數據

微軟研究院的《第四范式：數據密集型的科學研究》，將人類的科學研究從實驗型科學研究、理論型科學研究和模擬計算型科學研究三個范式的定義之后，推出了第四個范式，即數據密集型的科學研究。

突如一夜春風來,千樹萬樹梨花開。2012年興起的“大數據”潮流，讓“data”這個IT圈子里面的名詞一下風靡各個行業。可以說，沒有任何一個IT界的術語能夠受到如此之大的關注和使用。除了傳統IT界以及和IT圈子相關的行業以外，各種如餐飲業、房地產業、金融業等都迫不及待的宣布了自己的”大數據“戰略。

所以，大數據的風潮不可避免的刮進了科學研究領域。

就在這種全民熱炒的時代，還是有一群科技工作者保持著冷靜的。大數據這個名詞雖然是科學研究界最早提出來的，但是真正被推廣和使用的，都是在互聯網領域，特別是對于大數據的公認的那些個V不管是最早的3V還是4V，到現在的11V，無一不是與互聯網所產生的數據洪流的特性相匹配的，科學研究界真的需要這些嗎？

首先，大數據從概念上講究數據的“快”，這里的快可以是產生快、傳播快、變化快、處理速度快等。但是在科學研究領域，很多數據的并沒有這么多快的概念。比如在地理信息相關的很多領域，如土地利用、土壤變化、行政區劃等信息中，多年不變，或者變化很少是很常見的現象。

其次，關于維度的問題。大數據有一種思想，就是去收集更多的數據，不管這個數據是否目前能夠用得上，是否是我們目前所關注的信息，只要有可能，就去收集，不怕全不怕多，就怕沒有（很多時候，很多公司和研究者，都進入一種為了數據而數據的走火入魔的狀態）。特別是NoSQL這種數據思想的流行，讓很多研究者高呼“媽媽再也不用擔心我的數據存儲范式了……”。但是，我們知道在科學領域，首先要定義的就是你的科學研究目標，目標必須要界定清晰，那么你的數據結構一開始就要設計得符合你的研究目標，這樣才能有目的性的開展工作，如果不預先進行詳細界定和設計，在研究的過程中就會導致目標的弱化以至于迷失。

還有關于數據價值的問題。互聯網的數據可用“得來全不費工夫”來形容，特別是我們常用來舉例的推特、谷歌、臉書這樣的互聯網行業。但是科學研究的每一份數據都得來不易，無論是從實驗中獲取，還是實地考察采樣，每一份數據后面都可能有極其高昂的人力和時間成本。

獲取更多的數據，是一個理想的狀態，但是如果每一份數據都有很大的成本，要想在科學研究領域達到互聯網領域那種數據量，是一個幾乎無法完成的任務。

當然，《大數據時代》的思想來看，大數據的大并不是單純的數量龐大的概念，還包含有完整性分析的概念。

在科研領域，獲取完全的數據，進行分析也是一個理想狀態。就從地理信息領域來看，采樣點以點方式存在，根據地理信息要素的概念，點要素只有（X,Y）的性質，只表示位置，不能表示大小，所以不管怎么進行采集，也無法鋪滿整個研究區域。所以各種以樣本來估算整體的算法，在地理信息領域才如此重要，包括空間抽樣、地統計分析等。

大數據是一種思想，但是在使用的過程中不能犯教條主義，不是數據量才加大數據，也不是符合各種V才叫大數據，我們需要在真正理解的情況下，去應用。正如小平同志說的：黑貓白貓，抓住老鼠，才是好貓！

谷歌 NoSQL 大數據