精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據不止是統計數據那么簡單!

責任編輯:editor005 |來源:企業網D1Net  2016-09-21 14:54:10 本文摘自:大數據觀察

統計無時不在,從結繩記事到今天的大數據,統計作為人們認識客觀世界的工具,也在不斷創新,統計學作為一門系統研究數據的學科,在不斷豐富與完善。大數據時代來臨,統計如何應對新的挑戰與機遇?我們回顧歷史,不忘初心,以開放的態度、創新的精神和不懈的努力,繼續前進,讓統計在大數據的舞臺上,發揮更大的作用。

大數據

普遍的定義認為,統計學是關于數據的科學,研究如何收集數據,并科學地推斷總體特征。普查作為最古老的數據收集方法,已經有數千年的歷史,據記載,2200多年前的西漢時期,中國開展了第一次人口普查。17世紀中葉,統計學誕生,并在18、19世紀不斷發展,特別是與研究不確定性的概率論的結合,產生了現代意義上的統計學:數理統計學。1895年提出抽樣調查方法并在后來30多年完善后,作為一種更及時、更經濟的數據收集方法,被廣泛應用于經濟、社會、科學等各個領域。可以說,20世紀期間,傳統的普查與新產生的抽樣調查,作為兩大數據收集方法體系,共同應用于對社會經濟發展的測量,發揮了重要作用。

21世紀大數據的出現,各種來源、各種形式的電子化數據的大爆發,靜態的、定時的傳統數據收集方法,面臨新的、動態的、組合的大數據的挑戰和機遇,統計思維和數據收集方法也將不斷創新。從統計學誕生的300多年的歷程看,統計學發展的歷史就是統計思維和統計方法不斷創新的歷史,這種創新是圍繞著關于數據的兩大核心問題展開的:如何收集數據和如何分析數據。本文通過回顧重要階段性的幾個片斷,思考統計創新是如何發生的,重點談大數據與統計的關系,以及會帶來的新變化。

計數:統計的萌芽

在世界著名的科普著作《從一到無窮大》一書開頭,講述了一個發生在原始部落里的故事:兩個匈牙利貴族決定做一次關于數的游戲——誰說出了最大的數誰就贏,第一個貴族說出了他能想到的最大的數“3”,第二個貴族苦思冥想后,表示認輸了,他想象不出比3更大的數。這個故事的真假無從考證,但可以說明在人們公認的以“結繩記事”為計數開始之前,數的大小概念已經產生。但由于還不能“計數”,甚至還不能將數的概念與10個指頭相對應(這在今天相當于2歲孩子的水平),否則,第二個貴族會毫不猶豫地伸出雙手說出10。

計數是從結繩記事開始的,當然也可以用其他如石頭、木棍、貝殼等,或者在地上、壁上劃痕線等方式。這些是在文字發明之前,人們使用的記事和計數的方法。人類最早的統計實際上是一種計數活動,這在《易系辭下》中有所記載,古代印加人也存有記載;從上古時代,就已經開始使用結繩的方法,“事大,大結其繩,事小,小結其繩,之多少,隨物眾寡”,也即根據事件的性質、規模或其數量的不同系不同的繩結,這種方法古老原始,卻有效,對于古代人來說,這些大大小小的繩結、多多少少的劃痕是他們回憶過去的唯一線索。隨著生產活動、戰爭等的規模越來越大,結繩記事已經不能記事了,要么沒有那么多繩,要么是對那些繩結的意義的解釋(也就是今天的元數據的概念)需要更多的想象和更復雜的繩結,原始部落的首領們可以看到養了多少牛羊,甚至可以平均分配給每一個人,卻無法記錄下來。

有了文字后,計數才真正成為一種工具,反映客觀經濟活動及其數量關系。實際上,計數作為一種工具被人們接受后,原始的“普查”就誕生了,有多少人口,有多少土地,有多少俘虜,通過計數與匯總就可以心中有數。據考古發現,公元前3000年前,兩漢流域就已經有了這樣的數據和匯總計算的符號。當然,這與其說是“普查”,更應該說是“計數”,但其產生的意義是非常重大的,就像恩格斯說的,“為了計數,不僅要有可以計數的對象,還要有一種在考察對象時,撇開對象的其他一切特性而僅僅考慮到數字的能力”,這也就是抽象的數字的概念,實物的多少與數的對應關系的確立,并建立了運算規則,為統計學的誕生與發展奠定了基礎,這也是統計的萌芽,充分表明了客觀世界就是一個“數及數的關系的和諧系統”。

數的游戲:概率計算

關于數的游戲自古就有,而這些游戲主要就是賭博:不確定性帶來的收益。不管是抽簽、還是投擲錢幣、擲骰子、斗紙牌,各種不同形式的以“不確定性”為基礎的賭博,實際上都是“數”的游戲,這當然也開始引起了學者們的注意和研究。到了15世紀的歐洲,賭博游戲非常流行。最早研究賭博問題的是1477年出版的意大利詩人但丁的《神曲》一書的注釋本,描述了投擲三顆骰子可能出現的各種點數問題。

從16世紀中葉開始,學者們開始研究賭博中的概率問題。意大利人加爾達偌(1501-1576)是一位數學家,也是一個精明的賭徒,他寫的《機會游戲》一書,是在他去世近100年后才出版的。他計算了投擲2顆或者3顆骰子時,究竟有多少種可能性得出投擲的骰子面朝上的數字之和為某一數(比如10),這在當時對排列組合所知甚微的情況下,是非常難得的。意大利天文學家伽利略(1564-1642)研究了同樣的問題,并寫了一篇論文給出了圓滿的解答,算出了所有點數的可能性,如在投擲三顆骰子時,出現的數字之和為9和10,各有6種不同的組合法。這個問題在今天是一個很簡單的排列組合問題,但在當時,誰掌握了這一秘密,誰就可能成為更精明的賭徒。

到了17世紀中葉,兩位法國大數學家帕斯卡(1923-1662)、費馬(1601-1665)開始研究丟骰子賭博中的規律性問題。他們利用通信,幾經研究,解決了著名的“得點問題”(也稱“分賭術”問題),通過對這個問題的研究,早期概率的計算從簡單計數進入了比較精確的計算階段,這也被認為是概率論的起源。從此,更多的學者們開始研究概率及計算問題,從研究賭博開始的古典概率,在不確定性的科學研究上,逐步建立了一套科學完整的體系:概率論。

統計學的誕生:讓數據說話

統計學誕生的大背景是在15世紀,由于歐洲地中海沿岸商品經濟的發展以及思想、技術的進步,從中世紀封建社會內部產生的資本主義及發展。資本主義商品經濟的產生和發展,人們對數據的認識不僅僅是賭博游戲,而是對事物規律性的認識。之前,往往是滿足“計數”的需要,記錄歷史,回答“干了什么”,而資本主義商品經濟的發展則要滿足“生產”的需要了,不僅要記錄歷史,還要預測未來,回答“要干什么”。除此之外,還有一些原因也促進了統計學的誕生:如為了商業的冒險行為,包括商業投機和航海商業,保險業的興起等。

統計學的誕生及發展使人們對數據規律性的認識上了一個大臺階。作為統計學的起端,幾乎同時發生了兩個劃時代的重大事件:一是格朗特(1620-1674)1662年發表的《關于死亡公報的自然和政治觀察》(簡稱《觀察》),二是威廉·配第(1623-1687)1667年發表的《政治算術》。這兩部著作都被認為是統計學的鼻祖,他們各自研究的重點不同,后來的學者們往往站在不同的角度進行評價。

《觀察》利用英國倫敦每周公布的死亡人數及相關人口資料,分析了60多年中居民死亡原因及與人口變動的關系,用了大量表格、演算,提出了人口男女性別的大數法則,編制了人口統計分析壽命表及人口推算方法等,這在今天看來,是統計工作的基礎環節——統計匯總與描述性分析,但在當時,確是開創性地利用公布的有限數據,分析推斷了倫敦人口的總體分布與特征。

威廉·配第的《政治算術》崇尚讓數據說話,依據數據分析更廣泛的社會、經濟問題(不局限于人口分析),而不只是依靠思辨或空洞的推演,正如他自己所說:“與只使用比較級和最高級的詞語以及單純作思維論證相反,我采用數字、重量和尺度等術語來闡述我的觀點。”他的兒子把該書獻給國王時說:“書中論述了凡是政府事務以及有關君主榮譽、百姓幸福和國家昌盛的事項,都可以用算術的一般法則證實。這種方法,就是用一種普通的科學原理解釋錯綜復雜的世界。”可以說,《政治算術》是把培根的實證科學思想和方法,通過數據的分析,運用到了廣泛的社會經濟領域。

威廉·配第對統計的貢獻還在于強調典型調查作用,在數據分析中更多地使用分組法、平均數、相對數、統計推斷等,他還先見地提出計算整個國家的國民收入與國民財富,并對英國國民收入進行詳細估算。有了統計學帶來的數據分析方法,就有了后來的經濟學、社會學等,亞當斯密的《國富論》是1776年發表的,比《政治算術》晚了100多年。19世紀末20世紀初開始建立起來的數理統計理論和抽樣調查方法的推廣應用,更是廣泛應用于自然科學、經濟學和社會科學等。

“統計時代”:

雜亂無章數據背后的規律

19世紀初上半葉,統計學逐漸取代“國勢學”、“政治算術”,作為近代文化發達的標志之一,就是統計開始大量于社會經濟自然科學各個方面并形成了統計發展史的高潮,后來被稱之為“統計時代”、“統計狂熱時代”,一切讓數據說話成為一種理念、一種時尚,就像今天誰不說大數據,誰就落伍了一樣。

這個時代的中心人物是比利時統計學家、數學家、天文學家凱特勒(1796-1874)。他的主要貢獻有:一是系統提出統計規律性研究,認為統計學不僅要記述各國的國情,研究社會現象的靜態,而且要研究社會生活的動態,從而觀察社會發展的規律。他提出要探索在紛繁雜亂的大量偶然性現象的背后所隱藏的必然規律。二是促進了統計學與概率論的結合,使統計學進入新的發展階段——現代統計學階段。在此之前,研究國家社會經濟現象的統計學與研究賭博起來的概率論是風馬牛不相及的兩個學科,要說清楚他們的結合,還必須先說說一條最重要的曲線:正態分布曲線。

這條曲線很好看,又好用,從天文觀察到人體測量,在自然界中無處不在,在當時作為誤差分析的有力武器達到了登峰造極的地步,使得人們在雜亂無章的數據背后,能夠發現秩序和規律性。凱特勒在19世紀30年代主持建立比利時統計局后,發現以往被人們認為雜亂無章的、毫無規律可循的社會現象,也如同自然界一樣具有規律性。他收集了大量關于人體測量的數據,開創性地提出用正態曲線擬合方法判斷人體測量數據的同質性問題,隨后應用于各種數據分析,為正態曲線的應用拓展了廣闊的統計平臺,也導致后來涌現了社會統計學、生物統計學、農業實驗學、經濟統計學等統計流派。統計學發展百花齊放,數據的天空次序井然。

這個時代另一個顯著的特點是政府官方統計的建立與發展,其主要原因除了統計科學的不斷完善外,還因為隨著社會經濟發展,各國政府、民間機構對統計數據有大量需求。

凱特勒的另一個貢獻是推動了國際統計組織合作。由于大量的統計機構的建立,民間研究團體的涌現,各種被利用的數據增多,統計學家們面臨一些共同的問題,包括統計的標準、個體的界定、數據的質量等基本問題,也包括統計資料的交流、統計理論和方法的推廣與傳播等,都需要各國統計學家的共同研究。在凱特勒等的努力下,1851年在倫敦成立了第一個國際統計組織——國際統計大會,1853年主持召開了第一次會議。這是國際統計學會(ISI)的前身,1887年,ISI在羅馬召開了第一次會議,自1938年起,每兩年召開一次,后來改名為世界統計大會(WSC)。到目前已召開了60屆,對統計學的發展和推動各國統計工作發揮了很大的作用

大數據:新資源、新機會

大數據是人類自身產生的一種新的“自然”資源,與支撐傳統經濟發展的自然資源,如土地、石油、煤、水等不同,這種人造“自然”資源越用越多,越用越便宜,越用越有價值,以知識、創新、ICT、IT、DT為主要特征的新經濟的發展更多是依靠這種新資源。可以說,21世紀的競爭是數據的競爭,誰擁有了大數據,誰就占領了制高點,誰就擁有洞見的能力,誰就能引領未來。

與傳統統計學研究的數據比,大數據有幾個特點:一是數據量大。按有關機構測算,全球數據量每兩年翻一番。這還不是主要問題,因為摩爾定理表明,數據處理能力每18個月就可以翻一番。二是數據類型多。數據不僅僅是數字,包括了結構化數據、半結構化數據和非結構化數據,特別是互聯網和通訊技術的迅速發展,電子商務和社交網絡的廣泛應用,網絡日志、音頻、視頻、圖片、地理空間位置、網上交易等成為新的數據形式。三是數據上云。大數據已經無法用傳統的存儲、計算方式來處理,數據上云意味著,可以通過網絡,依托于云計算的分布式處理、分布式數據庫、云存儲和虛擬化等技術,對海量數據進行整合、挖掘,從技術上看,大數據與云計算就像一對孿生兄弟或者一枚硬幣的正反面一樣密不可分。

除了上述三個特點外,一般認為大數據還有兩個特點:速度和價值。一般將數據量(Volume)、數據類型(Variety)、速度(Velocity)和價值(Value)稱為“4V”,刻畫了大數據的基本特征。

哈佛大學里·金教授說:“大數據是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商業還是政府,所有領域都將開始這種進程。”今天,我們進入了信息社會,面臨著大數據時代的來臨,云計算、物聯網、移動終端及可穿戴設備高度發達與融合,不管你是誰、不管你愿意不愿意,都要與數據打交道,要么在生產數據,要么在接收數據,不管身在何處,你已經被“大數據”了。從日常生活到國家宏觀調控,我們面臨的都將是各種數據。如何在各種各樣的數據中進行深入的分析和挖掘,發現這些數據當中隱藏的更深刻的規律和現象,就能更好地服務于政府決策和社會各方面的需求,大數據的真正價值就體現在這里。

國際上很多組織和國家,特別是發達國家,都已經把大數據的開發應用提高到戰略的高度來研究。聯合國《大數據促發展:挑戰與機遇》(2012)認為:“大數據像納米技術和量子計算一樣帶來了根本性的變革,將會塑造21世紀。”世界經濟論壇發布的《大數據、大影響:國際發展的新動向》稱:“大數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。”維克托在《大數據時代—生活、工作與思維的大變革》中說:“大數據時代將帶來思維變革、商業變革和管理變革,隨著大數據在商業等領域嶄露頭角,一場為發掘和利用數據價值的競賽正在全球上演,人類將面臨根本性的時代變革。”

大數據時代,我國優勢明顯。第一,從政策層面,我國已經出臺并實施了《促進大數據發展行動綱要》和《中國制造2025》。第二,我國是世界第一人口大國,第二大經濟體,有1500多萬個法人單位,1800多萬個產業活動單位,還有大量其他經濟主體不斷涌現。人口和經濟規模決定了我國是一個數據資源大國。第三,我國是一個網絡大國,截至2016年6月,中國互聯網普及率達到51.7%,網民規模達7.1億,手機網民規模達6.56億,一大批互聯網企業、大數據企業正在改變著傳統的生產生活方式。第四,大數據時代與我國經濟發展新常態正處在一個歷史的交匯口,提質增效、轉型升級為加快大數據的應用提供了機遇,同時,以大數據開發為基礎的一大批產業將形成新的經濟增長點,推動新經濟的發展,實現動能轉換。

大數據催生統計創新

普查和抽樣調查是傳統的兩大數據收集方法。普查不需要統計學方法進行推斷估計,因為通過普查,已經取得了所有個體數據和總體的實際分布,這也是為什么人類開始懂得計數就開始進行普查。抽樣調查是利用抽樣理論解決如何科學設計樣本,取得樣本個體數據,并科學地推斷總體分布及特征。無論是普查還是抽樣調查,其核心問題之一是要取得準確的“個體數據”。但在大數據時代,一切皆可量化,一切皆可記錄,如何利用更全面、更及時、更經濟的網絡電子化數據,以及通過對這些數據使用新的分析及挖掘技術,產生新的見解和認識,是我們面臨的重大機遇。

大數據和統計思維與方法等有明顯的不同,主要表現在以下八個方面:

一是“問題驅動”與“數據驅動”。收集數據是開展統計分析的前提,傳統的普查或抽樣調查是先確定普查或調查目的,然后再根據目的相應要求和經費確定普查或調查的方法和樣本量的大小。也就是說,傳統統計方法設計是針對研究問題而收集數據,提出假設,再進行統計檢驗和推斷。這種用有限數據驗證先驗假定,通常是基于分布理論,以一定的概率為保證,其邏輯關系是“分布理論-概率保證-總體推斷”。而大數據強調的是全體數據,總體特征一般不再需要根據分布理論進行推斷。不僅如此,還可以根據全面數據和實際分布來判斷其中出現某類情況的可能性有多大,其邏輯關系變成了“實際分布-總體特征-概率判斷”,也即概率不再是事先預設,而是基于實際分布得出的判斷。在大數據時代,由于有足夠的數據,足夠的變量,可以采用人工智能等來進行數據挖掘和知識發現,廣泛開展各種探索性研究,其結論與發現是通過數據分析獲得的,也就是數據驅動,用數據決策和用數據創新。

二是“我問你答”與“我取你有”。統計報表、調查問卷是目前全世界開展普查、調查收集數據的主要載體。這種方式是通過結構化的報表將被調查對象的行為轉化為可用的數據,這種方式的根本特征“我問你答”,需要被調查者高度配合,包括對問題的正確理解和如實回答填報,否則,數據質量難以保證。但在“大數據”時代,數據來源于信息技術記錄下的原始數據,這些數據的參與僅僅依賴于測量方法(如企業生產記錄、大量行政記錄、GPS定位測量、超市收銀管理系統、ETC電子收費系統),充分利用電子記錄大數據為政府統計所用,采用“我取你有”的方式,取得更及時、真實的原始數據,由專業統計人員根據統計制度計算統計指標數據,也減少了統計調查和報表整理的中間環節,數據質量將會大大提高。

三是“因果聯系”與“相關分析”。傳統統計主要通過建立模型探求變量之間的因果關系,并基于模型對因變量進行預測,即預先假定事物之間存在某種因果關系,然后在此假定的基礎上構建模型并驗證假定存在的因果關系。存在的問題往往是,變量間的因果關系具有時效性,存在“此一時,彼一時”的情況,是在特殊條件和前提假定下的關系,結論的時效性與適用性較為有限。而相關關系具有更加普遍和本質的內涵,有因果關系必有相關關系,有相關關系未必有因果關系。在大數據背景下,數據分析不再探求特定條件下確定性很強的因果關系,而是更加關注普遍意義的相關關系。從超大量數據中發現各種真實存在的相關關系,更加直觀、更貼近個體、更容易被理解和接受,可以發現事物發展潛在的規律,具有一定的“智能性”,某種程度上超越了傳統統計研究的因果關系,因此,相關分析是大數據時代的重要工作。

四是“樣本抽選”與“總體描述”。以統計推斷為主要特征的現代統計學研究主要內容是不斷改進樣本抽樣方法和參數設計,從而對總體的特征進行描述。囿于數據收集以及客觀條件的限制,總是希望通過盡可能少的樣本來了解總體。在這種背景下,產生了各式各樣的抽樣調查技術和參數估計方法。在分層情況下,樣本的數量往往不能有效地減少。大數據時代,樣本就是被記錄的所有數據,從這個意義上講,樣本就是總體。通過對所有與事物相關的數據進行分析,既有利于了解總體,又有利于了解局部細微。總的來講,傳統的統計抽樣調查方法存在的不足可以在大數據時代得到改進。大數定律告訴我們,隨著樣本數量的增加,樣本平均數越來越接近總體,而大數據已經描述了總體信息。

五是“數據煙囪”與“數據平臺”。長期以來,我國政府統計是以部門為中心展開的,相互隔離形成了行業垂直的信息化體系,在地方上形成了條塊分割的“信息孤島”,形成一個個“數據煙囪”,數據標準不統一,數據指標不規范,數據平臺重復建設。大數據特別是與之相關聯云計算,為信息整合提供了新的契機,有助于建立政府信息共享數據平臺,提高政府行為的透明度,有效提高政府的公信力,以大數據助推政府決策科學化。大數據的應用將改變政府統計部門的工作模式,整合現有的分散于各職能部門中的“行政記錄”,完善多種信息來源的數據采集制度,實現工商、質監、勞動、人社等部門的數據注冊、查詢、共享和交換,在一個數據平臺(包括標準、指標、數據庫等),能夠揭示傳統技術方式難以展現的關聯關系,為有效處理復雜社會問題提供新的手段,有助于建立現代化的政府統計調查體系,最大限度地發掘這些數據資源的價值,提高政府統計部門的生產力,建立“用數據說話、用數據決策、用數據管理、用數據創新”的管理體制機制,提升政府治理能力。

六是“以小見大”與“以大見小”。統計學是關于數據的科學,統計是研究結構化“小數據”,其優勢在于“以小見大”,通過設計抽取個體樣本數據進而分析推斷總體特征。大數據的優勢在于“以大見小”,通過對各種來源各種結構數據(特別是各種電子網絡數據)實時進行整合、量化、關聯、識別等,發現其個體特征,進而對總體進行任意細分的描述。

七是“記錄歷史”與“預測未來”。德國統計學家斯勒茲曾說過:“統計是動態的歷史,歷史是靜態的統計。”這是在300多年前說的,也揭示了統計的基本功能,那就是記錄歷史。這當然是非常重要的,也是預測的基礎。統計預測就是利用歷史數據建模、外推進行預測,這里包含了一個假定的前提,就是未來的發展趨勢是按照歷史數據呈現的規律變化的,或者在對未來可能的選擇,改變參數進行人為的調整。這種預測方法和思路,對于今天快速變化發展的社會經濟狀況,特別是很多不可預測的突發事件的影響,顯然是不適應的。技術與創新成為時代的主題,新產業、新業態、新模式等新經濟層出不窮,未來的經濟發展不能完全用歷史的模式來描述,這也要求有新的預測方法。大數據時代,各種傳感器和網絡設施遍布社會的各個角落,而這些數據是實時的、動態的,具有“零延遲”、即時性等特點,采用智能計算、實時計算等方法,極大地提高了數據的時效性和預測質量。特別是,隨著電子商務、互聯網金融、社交網絡等的飛速發展,互聯網已經成為人們生產生活不可或缺的重要場所。人們在互聯網上購物、交流、搜索、瀏覽的各種行為所產生的數據量越來越大。這些數據記錄人們搜索內容、搜索頻率以及位置等信息,反映了人們社會經濟活動、心理活動、情感取向、個體需求、興趣關注等,未來的變化趨勢,體現在今天人們的行為中。

八是“歸納推斷”與“演繹推理”。統計研究的任務就是為了發現新的知識,歸納法則是發現新知識的基本方法。因此,歸納推斷法成為最主要的統計研究方法,使得我們能夠從足夠多的個體信息中歸納出關于總體的特征。對于大數據,依然要從中去發現新的知識,依然要通過具體的個體信息去歸納出一般的總體特征,因此歸納法依然是大數據分析的主要方法。大數據是一個信息寶庫,僅僅重視一般特征的歸納與概括是不夠的,還需要分析研究子類信息乃至個體信息,以及某些特殊的、異常的信息——或許它(們)代表著一種新生事物或未來的發展方向,還需要通過已掌握的分布特征和相關知識與經驗去推理分析其他更多、更具體的規律,去發現更深層次的關聯關系,去對某些結論做出判斷,這就需要運用演繹推理法。演繹法可以充分利用已有的知識去認識更具體、細小的特征,形成更多有用的結論。只要歸納法與演繹法結合得好,就既可以從大數據的偶然性中發現必然性,又可以利用全面數據的必然性去觀察偶然性、認識偶然性、甚至利用偶然性,從而提高駕馭事物發展的能力。

新的起點

用數據說話,已經成為現代社會的基本理念。中國古代的管仲說過:“不明于計數而欲舉大事,猶無舟楫而欲經于水險也。”著名經濟學家馬寅初曾說:“學者們不能離開統計而究學,政治家不能離開統計而施政,事業家不能離開統計而執業。”美國管理學家、統計學家戴明說:“除了上帝,任何人都必須用數據來說話。”印度統計學家C.R.RAO表示:“理性來講,人們的行為過程就是統計。”這些都說明了統計的重要性。

大數據時代為統計提供了大舞臺,統計將為大數據添上翅膀。大數據時代的來臨,帶來新的機遇。我們要真正站在同一起跑線上了,以開放的態度、創新的勇氣、不懈的努力抓住歷史賦予的機會。古代結繩計數能夠記錄下的數據與今天海量存儲器記錄下的數據本質上是一樣的,不同的是,古代人知道他們養了多少牛羊、知道每人分多少,但記錄不下來;而今天,我們可以記錄一切,但傳統處理分析能力還不能完全知道這些海量數據中蘊含的規律和見解,這是統計的新戰場,也是統計人要努力探尋的新領域。

關鍵字:數據平臺凱特勒傳統統計

本文摘自:大數據觀察

x 大數據不止是統計數據那么簡單! 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據不止是統計數據那么簡單!

責任編輯:editor005 |來源:企業網D1Net  2016-09-21 14:54:10 本文摘自:大數據觀察

統計無時不在,從結繩記事到今天的大數據,統計作為人們認識客觀世界的工具,也在不斷創新,統計學作為一門系統研究數據的學科,在不斷豐富與完善。大數據時代來臨,統計如何應對新的挑戰與機遇?我們回顧歷史,不忘初心,以開放的態度、創新的精神和不懈的努力,繼續前進,讓統計在大數據的舞臺上,發揮更大的作用。

大數據

普遍的定義認為,統計學是關于數據的科學,研究如何收集數據,并科學地推斷總體特征。普查作為最古老的數據收集方法,已經有數千年的歷史,據記載,2200多年前的西漢時期,中國開展了第一次人口普查。17世紀中葉,統計學誕生,并在18、19世紀不斷發展,特別是與研究不確定性的概率論的結合,產生了現代意義上的統計學:數理統計學。1895年提出抽樣調查方法并在后來30多年完善后,作為一種更及時、更經濟的數據收集方法,被廣泛應用于經濟、社會、科學等各個領域。可以說,20世紀期間,傳統的普查與新產生的抽樣調查,作為兩大數據收集方法體系,共同應用于對社會經濟發展的測量,發揮了重要作用。

21世紀大數據的出現,各種來源、各種形式的電子化數據的大爆發,靜態的、定時的傳統數據收集方法,面臨新的、動態的、組合的大數據的挑戰和機遇,統計思維和數據收集方法也將不斷創新。從統計學誕生的300多年的歷程看,統計學發展的歷史就是統計思維和統計方法不斷創新的歷史,這種創新是圍繞著關于數據的兩大核心問題展開的:如何收集數據和如何分析數據。本文通過回顧重要階段性的幾個片斷,思考統計創新是如何發生的,重點談大數據與統計的關系,以及會帶來的新變化。

計數:統計的萌芽

在世界著名的科普著作《從一到無窮大》一書開頭,講述了一個發生在原始部落里的故事:兩個匈牙利貴族決定做一次關于數的游戲——誰說出了最大的數誰就贏,第一個貴族說出了他能想到的最大的數“3”,第二個貴族苦思冥想后,表示認輸了,他想象不出比3更大的數。這個故事的真假無從考證,但可以說明在人們公認的以“結繩記事”為計數開始之前,數的大小概念已經產生。但由于還不能“計數”,甚至還不能將數的概念與10個指頭相對應(這在今天相當于2歲孩子的水平),否則,第二個貴族會毫不猶豫地伸出雙手說出10。

計數是從結繩記事開始的,當然也可以用其他如石頭、木棍、貝殼等,或者在地上、壁上劃痕線等方式。這些是在文字發明之前,人們使用的記事和計數的方法。人類最早的統計實際上是一種計數活動,這在《易系辭下》中有所記載,古代印加人也存有記載;從上古時代,就已經開始使用結繩的方法,“事大,大結其繩,事小,小結其繩,之多少,隨物眾寡”,也即根據事件的性質、規模或其數量的不同系不同的繩結,這種方法古老原始,卻有效,對于古代人來說,這些大大小小的繩結、多多少少的劃痕是他們回憶過去的唯一線索。隨著生產活動、戰爭等的規模越來越大,結繩記事已經不能記事了,要么沒有那么多繩,要么是對那些繩結的意義的解釋(也就是今天的元數據的概念)需要更多的想象和更復雜的繩結,原始部落的首領們可以看到養了多少牛羊,甚至可以平均分配給每一個人,卻無法記錄下來。

有了文字后,計數才真正成為一種工具,反映客觀經濟活動及其數量關系。實際上,計數作為一種工具被人們接受后,原始的“普查”就誕生了,有多少人口,有多少土地,有多少俘虜,通過計數與匯總就可以心中有數。據考古發現,公元前3000年前,兩漢流域就已經有了這樣的數據和匯總計算的符號。當然,這與其說是“普查”,更應該說是“計數”,但其產生的意義是非常重大的,就像恩格斯說的,“為了計數,不僅要有可以計數的對象,還要有一種在考察對象時,撇開對象的其他一切特性而僅僅考慮到數字的能力”,這也就是抽象的數字的概念,實物的多少與數的對應關系的確立,并建立了運算規則,為統計學的誕生與發展奠定了基礎,這也是統計的萌芽,充分表明了客觀世界就是一個“數及數的關系的和諧系統”。

數的游戲:概率計算

關于數的游戲自古就有,而這些游戲主要就是賭博:不確定性帶來的收益。不管是抽簽、還是投擲錢幣、擲骰子、斗紙牌,各種不同形式的以“不確定性”為基礎的賭博,實際上都是“數”的游戲,這當然也開始引起了學者們的注意和研究。到了15世紀的歐洲,賭博游戲非常流行。最早研究賭博問題的是1477年出版的意大利詩人但丁的《神曲》一書的注釋本,描述了投擲三顆骰子可能出現的各種點數問題。

從16世紀中葉開始,學者們開始研究賭博中的概率問題。意大利人加爾達偌(1501-1576)是一位數學家,也是一個精明的賭徒,他寫的《機會游戲》一書,是在他去世近100年后才出版的。他計算了投擲2顆或者3顆骰子時,究竟有多少種可能性得出投擲的骰子面朝上的數字之和為某一數(比如10),這在當時對排列組合所知甚微的情況下,是非常難得的。意大利天文學家伽利略(1564-1642)研究了同樣的問題,并寫了一篇論文給出了圓滿的解答,算出了所有點數的可能性,如在投擲三顆骰子時,出現的數字之和為9和10,各有6種不同的組合法。這個問題在今天是一個很簡單的排列組合問題,但在當時,誰掌握了這一秘密,誰就可能成為更精明的賭徒。

到了17世紀中葉,兩位法國大數學家帕斯卡(1923-1662)、費馬(1601-1665)開始研究丟骰子賭博中的規律性問題。他們利用通信,幾經研究,解決了著名的“得點問題”(也稱“分賭術”問題),通過對這個問題的研究,早期概率的計算從簡單計數進入了比較精確的計算階段,這也被認為是概率論的起源。從此,更多的學者們開始研究概率及計算問題,從研究賭博開始的古典概率,在不確定性的科學研究上,逐步建立了一套科學完整的體系:概率論。

統計學的誕生:讓數據說話

統計學誕生的大背景是在15世紀,由于歐洲地中海沿岸商品經濟的發展以及思想、技術的進步,從中世紀封建社會內部產生的資本主義及發展。資本主義商品經濟的產生和發展,人們對數據的認識不僅僅是賭博游戲,而是對事物規律性的認識。之前,往往是滿足“計數”的需要,記錄歷史,回答“干了什么”,而資本主義商品經濟的發展則要滿足“生產”的需要了,不僅要記錄歷史,還要預測未來,回答“要干什么”。除此之外,還有一些原因也促進了統計學的誕生:如為了商業的冒險行為,包括商業投機和航海商業,保險業的興起等。

統計學的誕生及發展使人們對數據規律性的認識上了一個大臺階。作為統計學的起端,幾乎同時發生了兩個劃時代的重大事件:一是格朗特(1620-1674)1662年發表的《關于死亡公報的自然和政治觀察》(簡稱《觀察》),二是威廉·配第(1623-1687)1667年發表的《政治算術》。這兩部著作都被認為是統計學的鼻祖,他們各自研究的重點不同,后來的學者們往往站在不同的角度進行評價。

《觀察》利用英國倫敦每周公布的死亡人數及相關人口資料,分析了60多年中居民死亡原因及與人口變動的關系,用了大量表格、演算,提出了人口男女性別的大數法則,編制了人口統計分析壽命表及人口推算方法等,這在今天看來,是統計工作的基礎環節——統計匯總與描述性分析,但在當時,確是開創性地利用公布的有限數據,分析推斷了倫敦人口的總體分布與特征。

威廉·配第的《政治算術》崇尚讓數據說話,依據數據分析更廣泛的社會、經濟問題(不局限于人口分析),而不只是依靠思辨或空洞的推演,正如他自己所說:“與只使用比較級和最高級的詞語以及單純作思維論證相反,我采用數字、重量和尺度等術語來闡述我的觀點。”他的兒子把該書獻給國王時說:“書中論述了凡是政府事務以及有關君主榮譽、百姓幸福和國家昌盛的事項,都可以用算術的一般法則證實。這種方法,就是用一種普通的科學原理解釋錯綜復雜的世界。”可以說,《政治算術》是把培根的實證科學思想和方法,通過數據的分析,運用到了廣泛的社會經濟領域。

威廉·配第對統計的貢獻還在于強調典型調查作用,在數據分析中更多地使用分組法、平均數、相對數、統計推斷等,他還先見地提出計算整個國家的國民收入與國民財富,并對英國國民收入進行詳細估算。有了統計學帶來的數據分析方法,就有了后來的經濟學、社會學等,亞當斯密的《國富論》是1776年發表的,比《政治算術》晚了100多年。19世紀末20世紀初開始建立起來的數理統計理論和抽樣調查方法的推廣應用,更是廣泛應用于自然科學、經濟學和社會科學等。

“統計時代”:

雜亂無章數據背后的規律

19世紀初上半葉,統計學逐漸取代“國勢學”、“政治算術”,作為近代文化發達的標志之一,就是統計開始大量于社會經濟自然科學各個方面并形成了統計發展史的高潮,后來被稱之為“統計時代”、“統計狂熱時代”,一切讓數據說話成為一種理念、一種時尚,就像今天誰不說大數據,誰就落伍了一樣。

這個時代的中心人物是比利時統計學家、數學家、天文學家凱特勒(1796-1874)。他的主要貢獻有:一是系統提出統計規律性研究,認為統計學不僅要記述各國的國情,研究社會現象的靜態,而且要研究社會生活的動態,從而觀察社會發展的規律。他提出要探索在紛繁雜亂的大量偶然性現象的背后所隱藏的必然規律。二是促進了統計學與概率論的結合,使統計學進入新的發展階段——現代統計學階段。在此之前,研究國家社會經濟現象的統計學與研究賭博起來的概率論是風馬牛不相及的兩個學科,要說清楚他們的結合,還必須先說說一條最重要的曲線:正態分布曲線。

這條曲線很好看,又好用,從天文觀察到人體測量,在自然界中無處不在,在當時作為誤差分析的有力武器達到了登峰造極的地步,使得人們在雜亂無章的數據背后,能夠發現秩序和規律性。凱特勒在19世紀30年代主持建立比利時統計局后,發現以往被人們認為雜亂無章的、毫無規律可循的社會現象,也如同自然界一樣具有規律性。他收集了大量關于人體測量的數據,開創性地提出用正態曲線擬合方法判斷人體測量數據的同質性問題,隨后應用于各種數據分析,為正態曲線的應用拓展了廣闊的統計平臺,也導致后來涌現了社會統計學、生物統計學、農業實驗學、經濟統計學等統計流派。統計學發展百花齊放,數據的天空次序井然。

這個時代另一個顯著的特點是政府官方統計的建立與發展,其主要原因除了統計科學的不斷完善外,還因為隨著社會經濟發展,各國政府、民間機構對統計數據有大量需求。

凱特勒的另一個貢獻是推動了國際統計組織合作。由于大量的統計機構的建立,民間研究團體的涌現,各種被利用的數據增多,統計學家們面臨一些共同的問題,包括統計的標準、個體的界定、數據的質量等基本問題,也包括統計資料的交流、統計理論和方法的推廣與傳播等,都需要各國統計學家的共同研究。在凱特勒等的努力下,1851年在倫敦成立了第一個國際統計組織——國際統計大會,1853年主持召開了第一次會議。這是國際統計學會(ISI)的前身,1887年,ISI在羅馬召開了第一次會議,自1938年起,每兩年召開一次,后來改名為世界統計大會(WSC)。到目前已召開了60屆,對統計學的發展和推動各國統計工作發揮了很大的作用

大數據:新資源、新機會

大數據是人類自身產生的一種新的“自然”資源,與支撐傳統經濟發展的自然資源,如土地、石油、煤、水等不同,這種人造“自然”資源越用越多,越用越便宜,越用越有價值,以知識、創新、ICT、IT、DT為主要特征的新經濟的發展更多是依靠這種新資源。可以說,21世紀的競爭是數據的競爭,誰擁有了大數據,誰就占領了制高點,誰就擁有洞見的能力,誰就能引領未來。

與傳統統計學研究的數據比,大數據有幾個特點:一是數據量大。按有關機構測算,全球數據量每兩年翻一番。這還不是主要問題,因為摩爾定理表明,數據處理能力每18個月就可以翻一番。二是數據類型多。數據不僅僅是數字,包括了結構化數據、半結構化數據和非結構化數據,特別是互聯網和通訊技術的迅速發展,電子商務和社交網絡的廣泛應用,網絡日志、音頻、視頻、圖片、地理空間位置、網上交易等成為新的數據形式。三是數據上云。大數據已經無法用傳統的存儲、計算方式來處理,數據上云意味著,可以通過網絡,依托于云計算的分布式處理、分布式數據庫、云存儲和虛擬化等技術,對海量數據進行整合、挖掘,從技術上看,大數據與云計算就像一對孿生兄弟或者一枚硬幣的正反面一樣密不可分。

除了上述三個特點外,一般認為大數據還有兩個特點:速度和價值。一般將數據量(Volume)、數據類型(Variety)、速度(Velocity)和價值(Value)稱為“4V”,刻畫了大數據的基本特征。

哈佛大學里·金教授說:“大數據是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商業還是政府,所有領域都將開始這種進程。”今天,我們進入了信息社會,面臨著大數據時代的來臨,云計算、物聯網、移動終端及可穿戴設備高度發達與融合,不管你是誰、不管你愿意不愿意,都要與數據打交道,要么在生產數據,要么在接收數據,不管身在何處,你已經被“大數據”了。從日常生活到國家宏觀調控,我們面臨的都將是各種數據。如何在各種各樣的數據中進行深入的分析和挖掘,發現這些數據當中隱藏的更深刻的規律和現象,就能更好地服務于政府決策和社會各方面的需求,大數據的真正價值就體現在這里。

國際上很多組織和國家,特別是發達國家,都已經把大數據的開發應用提高到戰略的高度來研究。聯合國《大數據促發展:挑戰與機遇》(2012)認為:“大數據像納米技術和量子計算一樣帶來了根本性的變革,將會塑造21世紀。”世界經濟論壇發布的《大數據、大影響:國際發展的新動向》稱:“大數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。”維克托在《大數據時代—生活、工作與思維的大變革》中說:“大數據時代將帶來思維變革、商業變革和管理變革,隨著大數據在商業等領域嶄露頭角,一場為發掘和利用數據價值的競賽正在全球上演,人類將面臨根本性的時代變革。”

大數據時代,我國優勢明顯。第一,從政策層面,我國已經出臺并實施了《促進大數據發展行動綱要》和《中國制造2025》。第二,我國是世界第一人口大國,第二大經濟體,有1500多萬個法人單位,1800多萬個產業活動單位,還有大量其他經濟主體不斷涌現。人口和經濟規模決定了我國是一個數據資源大國。第三,我國是一個網絡大國,截至2016年6月,中國互聯網普及率達到51.7%,網民規模達7.1億,手機網民規模達6.56億,一大批互聯網企業、大數據企業正在改變著傳統的生產生活方式。第四,大數據時代與我國經濟發展新常態正處在一個歷史的交匯口,提質增效、轉型升級為加快大數據的應用提供了機遇,同時,以大數據開發為基礎的一大批產業將形成新的經濟增長點,推動新經濟的發展,實現動能轉換。

大數據催生統計創新

普查和抽樣調查是傳統的兩大數據收集方法。普查不需要統計學方法進行推斷估計,因為通過普查,已經取得了所有個體數據和總體的實際分布,這也是為什么人類開始懂得計數就開始進行普查。抽樣調查是利用抽樣理論解決如何科學設計樣本,取得樣本個體數據,并科學地推斷總體分布及特征。無論是普查還是抽樣調查,其核心問題之一是要取得準確的“個體數據”。但在大數據時代,一切皆可量化,一切皆可記錄,如何利用更全面、更及時、更經濟的網絡電子化數據,以及通過對這些數據使用新的分析及挖掘技術,產生新的見解和認識,是我們面臨的重大機遇。

大數據和統計思維與方法等有明顯的不同,主要表現在以下八個方面:

一是“問題驅動”與“數據驅動”。收集數據是開展統計分析的前提,傳統的普查或抽樣調查是先確定普查或調查目的,然后再根據目的相應要求和經費確定普查或調查的方法和樣本量的大小。也就是說,傳統統計方法設計是針對研究問題而收集數據,提出假設,再進行統計檢驗和推斷。這種用有限數據驗證先驗假定,通常是基于分布理論,以一定的概率為保證,其邏輯關系是“分布理論-概率保證-總體推斷”。而大數據強調的是全體數據,總體特征一般不再需要根據分布理論進行推斷。不僅如此,還可以根據全面數據和實際分布來判斷其中出現某類情況的可能性有多大,其邏輯關系變成了“實際分布-總體特征-概率判斷”,也即概率不再是事先預設,而是基于實際分布得出的判斷。在大數據時代,由于有足夠的數據,足夠的變量,可以采用人工智能等來進行數據挖掘和知識發現,廣泛開展各種探索性研究,其結論與發現是通過數據分析獲得的,也就是數據驅動,用數據決策和用數據創新。

二是“我問你答”與“我取你有”。統計報表、調查問卷是目前全世界開展普查、調查收集數據的主要載體。這種方式是通過結構化的報表將被調查對象的行為轉化為可用的數據,這種方式的根本特征“我問你答”,需要被調查者高度配合,包括對問題的正確理解和如實回答填報,否則,數據質量難以保證。但在“大數據”時代,數據來源于信息技術記錄下的原始數據,這些數據的參與僅僅依賴于測量方法(如企業生產記錄、大量行政記錄、GPS定位測量、超市收銀管理系統、ETC電子收費系統),充分利用電子記錄大數據為政府統計所用,采用“我取你有”的方式,取得更及時、真實的原始數據,由專業統計人員根據統計制度計算統計指標數據,也減少了統計調查和報表整理的中間環節,數據質量將會大大提高。

三是“因果聯系”與“相關分析”。傳統統計主要通過建立模型探求變量之間的因果關系,并基于模型對因變量進行預測,即預先假定事物之間存在某種因果關系,然后在此假定的基礎上構建模型并驗證假定存在的因果關系。存在的問題往往是,變量間的因果關系具有時效性,存在“此一時,彼一時”的情況,是在特殊條件和前提假定下的關系,結論的時效性與適用性較為有限。而相關關系具有更加普遍和本質的內涵,有因果關系必有相關關系,有相關關系未必有因果關系。在大數據背景下,數據分析不再探求特定條件下確定性很強的因果關系,而是更加關注普遍意義的相關關系。從超大量數據中發現各種真實存在的相關關系,更加直觀、更貼近個體、更容易被理解和接受,可以發現事物發展潛在的規律,具有一定的“智能性”,某種程度上超越了傳統統計研究的因果關系,因此,相關分析是大數據時代的重要工作。

四是“樣本抽選”與“總體描述”。以統計推斷為主要特征的現代統計學研究主要內容是不斷改進樣本抽樣方法和參數設計,從而對總體的特征進行描述。囿于數據收集以及客觀條件的限制,總是希望通過盡可能少的樣本來了解總體。在這種背景下,產生了各式各樣的抽樣調查技術和參數估計方法。在分層情況下,樣本的數量往往不能有效地減少。大數據時代,樣本就是被記錄的所有數據,從這個意義上講,樣本就是總體。通過對所有與事物相關的數據進行分析,既有利于了解總體,又有利于了解局部細微。總的來講,傳統的統計抽樣調查方法存在的不足可以在大數據時代得到改進。大數定律告訴我們,隨著樣本數量的增加,樣本平均數越來越接近總體,而大數據已經描述了總體信息。

五是“數據煙囪”與“數據平臺”。長期以來,我國政府統計是以部門為中心展開的,相互隔離形成了行業垂直的信息化體系,在地方上形成了條塊分割的“信息孤島”,形成一個個“數據煙囪”,數據標準不統一,數據指標不規范,數據平臺重復建設。大數據特別是與之相關聯云計算,為信息整合提供了新的契機,有助于建立政府信息共享數據平臺,提高政府行為的透明度,有效提高政府的公信力,以大數據助推政府決策科學化。大數據的應用將改變政府統計部門的工作模式,整合現有的分散于各職能部門中的“行政記錄”,完善多種信息來源的數據采集制度,實現工商、質監、勞動、人社等部門的數據注冊、查詢、共享和交換,在一個數據平臺(包括標準、指標、數據庫等),能夠揭示傳統技術方式難以展現的關聯關系,為有效處理復雜社會問題提供新的手段,有助于建立現代化的政府統計調查體系,最大限度地發掘這些數據資源的價值,提高政府統計部門的生產力,建立“用數據說話、用數據決策、用數據管理、用數據創新”的管理體制機制,提升政府治理能力。

六是“以小見大”與“以大見小”。統計學是關于數據的科學,統計是研究結構化“小數據”,其優勢在于“以小見大”,通過設計抽取個體樣本數據進而分析推斷總體特征。大數據的優勢在于“以大見小”,通過對各種來源各種結構數據(特別是各種電子網絡數據)實時進行整合、量化、關聯、識別等,發現其個體特征,進而對總體進行任意細分的描述。

七是“記錄歷史”與“預測未來”。德國統計學家斯勒茲曾說過:“統計是動態的歷史,歷史是靜態的統計。”這是在300多年前說的,也揭示了統計的基本功能,那就是記錄歷史。這當然是非常重要的,也是預測的基礎。統計預測就是利用歷史數據建模、外推進行預測,這里包含了一個假定的前提,就是未來的發展趨勢是按照歷史數據呈現的規律變化的,或者在對未來可能的選擇,改變參數進行人為的調整。這種預測方法和思路,對于今天快速變化發展的社會經濟狀況,特別是很多不可預測的突發事件的影響,顯然是不適應的。技術與創新成為時代的主題,新產業、新業態、新模式等新經濟層出不窮,未來的經濟發展不能完全用歷史的模式來描述,這也要求有新的預測方法。大數據時代,各種傳感器和網絡設施遍布社會的各個角落,而這些數據是實時的、動態的,具有“零延遲”、即時性等特點,采用智能計算、實時計算等方法,極大地提高了數據的時效性和預測質量。特別是,隨著電子商務、互聯網金融、社交網絡等的飛速發展,互聯網已經成為人們生產生活不可或缺的重要場所。人們在互聯網上購物、交流、搜索、瀏覽的各種行為所產生的數據量越來越大。這些數據記錄人們搜索內容、搜索頻率以及位置等信息,反映了人們社會經濟活動、心理活動、情感取向、個體需求、興趣關注等,未來的變化趨勢,體現在今天人們的行為中。

八是“歸納推斷”與“演繹推理”。統計研究的任務就是為了發現新的知識,歸納法則是發現新知識的基本方法。因此,歸納推斷法成為最主要的統計研究方法,使得我們能夠從足夠多的個體信息中歸納出關于總體的特征。對于大數據,依然要從中去發現新的知識,依然要通過具體的個體信息去歸納出一般的總體特征,因此歸納法依然是大數據分析的主要方法。大數據是一個信息寶庫,僅僅重視一般特征的歸納與概括是不夠的,還需要分析研究子類信息乃至個體信息,以及某些特殊的、異常的信息——或許它(們)代表著一種新生事物或未來的發展方向,還需要通過已掌握的分布特征和相關知識與經驗去推理分析其他更多、更具體的規律,去發現更深層次的關聯關系,去對某些結論做出判斷,這就需要運用演繹推理法。演繹法可以充分利用已有的知識去認識更具體、細小的特征,形成更多有用的結論。只要歸納法與演繹法結合得好,就既可以從大數據的偶然性中發現必然性,又可以利用全面數據的必然性去觀察偶然性、認識偶然性、甚至利用偶然性,從而提高駕馭事物發展的能力。

新的起點

用數據說話,已經成為現代社會的基本理念。中國古代的管仲說過:“不明于計數而欲舉大事,猶無舟楫而欲經于水險也。”著名經濟學家馬寅初曾說:“學者們不能離開統計而究學,政治家不能離開統計而施政,事業家不能離開統計而執業。”美國管理學家、統計學家戴明說:“除了上帝,任何人都必須用數據來說話。”印度統計學家C.R.RAO表示:“理性來講,人們的行為過程就是統計。”這些都說明了統計的重要性。

大數據時代為統計提供了大舞臺,統計將為大數據添上翅膀。大數據時代的來臨,帶來新的機遇。我們要真正站在同一起跑線上了,以開放的態度、創新的勇氣、不懈的努力抓住歷史賦予的機會。古代結繩計數能夠記錄下的數據與今天海量存儲器記錄下的數據本質上是一樣的,不同的是,古代人知道他們養了多少牛羊、知道每人分多少,但記錄不下來;而今天,我們可以記錄一切,但傳統處理分析能力還不能完全知道這些海量數據中蘊含的規律和見解,這是統計的新戰場,也是統計人要努力探尋的新領域。

關鍵字:數據平臺凱特勒傳統統計

本文摘自:大數據觀察

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 昭通市| 滨州市| 南涧| 邯郸县| 旌德县| 类乌齐县| 榕江县| 盐城市| 台江县| 宝坻区| 杭锦后旗| 敦化市| 卫辉市| 宣恩县| 武城县| 阳山县| 浮梁县| 永丰县| 姜堰市| 同德县| 乌恰县| 平江县| 赤峰市| 怀安县| 吉安县| 泸水县| 福海县| 柳林县| 泾阳县| 绥江县| 铜川市| 富平县| 华蓥市| 咸宁市| 上饶市| 灵台县| 建湖县| 班玛县| 左权县| 会昌县| 黄石市|