精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)數(shù)據(jù)分析 → 正文

大數(shù)據(jù)分析五步法:以新經(jīng)濟指數(shù)為例

責(zé)任編輯:editor006 |來源:企業(yè)網(wǎng)D1Net  2016-03-19 21:09:21 本文摘自:北大國發(fā)院BiMBA

當(dāng)下,大數(shù)據(jù)已經(jīng)上升到國家戰(zhàn)略。2016年3月17日出爐的《國民經(jīng)濟和社會發(fā)展十三五個五年計劃規(guī)劃綱要》提出,要“實施國家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實施促進大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新”。從“推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用”,到實現(xiàn)“助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新”的美好愿景,離不開可靠穩(wěn)健的大數(shù)據(jù)分析。

但是,對于什么是大數(shù)據(jù)分析、誰該使用大數(shù)據(jù)分析等關(guān)鍵問題,目前一些流行看法值得商榷。有業(yè)界人士提出,“每個從業(yè)人員都該考慮大數(shù)據(jù)分析”。更有看法認(rèn)為“大數(shù)據(jù)分析主要依靠機器學(xué)習(xí)和大規(guī)模計算”,其重點在大數(shù)據(jù)采集存儲和基本架構(gòu)等方面的技術(shù)、數(shù)據(jù)挖掘算法、可視化等方面,而很少探討如何根據(jù)數(shù)據(jù)建立符合中國現(xiàn)實的模型和產(chǎn)品、如何檢驗大數(shù)據(jù)分析效果等問題。

但是,對于什么是大數(shù)據(jù)分析、誰該使用大數(shù)據(jù)分析等關(guān)鍵問題,目前一些流行看法值得商榷。有業(yè)界人士提出,“每個從業(yè)人員都該考慮大數(shù)據(jù)分析”。更有看法認(rèn)為“大數(shù)據(jù)分析主要依靠機器學(xué)習(xí)和大規(guī)模計算”,其重點在大數(shù)據(jù)采集存儲和基本架構(gòu)等方面的技術(shù)、數(shù)據(jù)挖掘算法、可視化等方面,而很少探討如何根據(jù)數(shù)據(jù)建立符合中國現(xiàn)實的模型和產(chǎn)品、如何檢驗大數(shù)據(jù)分析效果等問題。

本文以財智BBD新經(jīng)濟指數(shù)的構(gòu)造過程為例,提出大數(shù)據(jù)分析的五步法,即問題識別、數(shù)據(jù)可行性論證、數(shù)據(jù)準(zhǔn)備、建立模型、評估結(jié)果。希望本文可以拋磚引玉,引發(fā)對大數(shù)據(jù)分析的適用性、可靠穩(wěn)健的大數(shù)據(jù)分析標(biāo)準(zhǔn)、如何健康發(fā)展大數(shù)據(jù)產(chǎn)業(yè)等問題更深入的探討。

(一) 問題識別

大數(shù)據(jù)分析的第一步是要清晰界定需要回答的問題。對問題的界定有兩個標(biāo)準(zhǔn),一是清晰、二是符合現(xiàn)實。構(gòu)造新經(jīng)濟指數(shù)的背景,是中國已經(jīng)進入資本回報率下降、勞動力萎縮、人口老齡化、外需疲軟的經(jīng)濟發(fā)展“新常態(tài)”。由于現(xiàn)有不少統(tǒng)計資料都刻畫了傳統(tǒng)行業(yè)的下滑與困境,僅從追蹤傳統(tǒng)行業(yè)的變遷的角度,就難以對中國經(jīng)濟的未來走勢保持樂觀。

但是中國經(jīng)濟發(fā)展并非沒有亮色。雖然勞動力人口出現(xiàn)萎縮,但中國的人力資本積累仍然在上升。根據(jù)筆者參與的教育部人力資本測算結(jié)果,過去30年我國人力資本的平均年增速為5.53%,而未來20年預(yù)計平均年增速不會低于這個速度。根據(jù)人社部資料,2015年就業(yè)形勢總體穩(wěn)定,年末城鎮(zhèn)登記失業(yè)率為4.05%。人力資本的快速積累,為創(chuàng)新型經(jīng)濟的發(fā)展提供了人力基礎(chǔ)。就業(yè)形勢沒有出現(xiàn)大的波動也表明,傳統(tǒng)經(jīng)濟的困境催生了新經(jīng)濟的出現(xiàn)和成長、減輕了經(jīng)濟轉(zhuǎn)型帶來的震蕩。

對于正在成長的新經(jīng)濟,公開數(shù)據(jù)只能提供零星的度量。如果統(tǒng)計資料只記錄了傳統(tǒng)經(jīng)濟的下滑卻不能反映代表中國未來經(jīng)濟增長點的新經(jīng)濟的變化,必然會對中國未來的經(jīng)濟走向,給出錯誤的畫面。因此,我們的目標(biāo)是填補上述空白,嘗試來刻畫、追蹤新經(jīng)濟在整個經(jīng)濟中的發(fā)展和變遷。

我們雖然無法直接度量新經(jīng)濟GDP,卻可以通過大數(shù)據(jù)來觀察經(jīng)濟生活中各生產(chǎn)要素的變化。這里界定的問題是“中國經(jīng)濟每一元錢的產(chǎn)出中,新經(jīng)濟占的比重是多少?”在沒有官方統(tǒng)計數(shù)據(jù)的情況下,可以通過大數(shù)據(jù)手段來度量新經(jīng)濟行業(yè)中技術(shù)、勞動力和資本等生產(chǎn)要素占全行業(yè)技術(shù)、勞動力和資本等生產(chǎn)要素的比重。這使得度量新經(jīng)濟的相對重要性成為可能。

由于尚無對新經(jīng)濟范疇的界定標(biāo)準(zhǔn),首先需要明確何為新經(jīng)濟。根據(jù)對于中國長期的觀察和對政策的理解,我們提出,新經(jīng)濟是更符合中國未來資源稟賦結(jié)構(gòu)的經(jīng)濟模式,具有以下三個特征:第一,高人力資本投入、高科技投入、輕資產(chǎn);第二,可持續(xù)的較快增長;第三,符合產(chǎn)業(yè)發(fā)展方向。

從新經(jīng)濟指數(shù)的例子可以看到,識別問題環(huán)節(jié)需要考慮到數(shù)據(jù)的可行性,更需要對中國相應(yīng)國情有較清晰的認(rèn)知。

(二) 數(shù)據(jù)可行性論證

論證現(xiàn)有數(shù)據(jù)是否足夠豐富、準(zhǔn)確,以致可以為問題提供答案,是大數(shù)據(jù)分析的第二步,項目是否可行取決于這步的結(jié)論。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的生成方式有本質(zhì)不同。傳統(tǒng)數(shù)據(jù)往往是在識別問題、根據(jù)問題設(shè)計問卷、之后展開調(diào)查獲得的數(shù)據(jù),而大數(shù)據(jù)卻是企業(yè)或者個體各類活動產(chǎn)生的附屬產(chǎn)品。作為附屬產(chǎn)品,大數(shù)據(jù)往往不是為了特定數(shù)據(jù)項目生成,也存在較高噪音。這就要求數(shù)據(jù)可行性論證過程需要仔細(xì)推敲,現(xiàn)有數(shù)據(jù)得出來的結(jié)論是否足夠可靠。由于大數(shù)據(jù)分析技術(shù)本質(zhì)屬于數(shù)據(jù)挖掘法,過度擬合問題往往是大數(shù)據(jù)分析的難點。過度擬合問題最主要的一個癥狀是難以外推,即在一個地區(qū)一個時期可以做出很好預(yù)測的模型,在另一個地區(qū)另一個時期卻表現(xiàn)很糟。

因此,在數(shù)據(jù)可行性論證主要涉及三個環(huán)節(jié)。第一,厘清項目需要的大數(shù)據(jù)、小數(shù)據(jù)和專業(yè)知識;第二,完成從抽象概念到具體指標(biāo)的落實;第三,考察數(shù)據(jù)的代表性。

對于新經(jīng)濟指數(shù)而言,數(shù)據(jù)的可行性論證要解決一下問題:第一,如果細(xì)化抽象標(biāo)準(zhǔn)?第二,可否利用大數(shù)據(jù)識別出屬于新經(jīng)濟的企業(yè)?第三,數(shù)據(jù)是否可以支撐對全國新經(jīng)濟狀況的度量?

1.大數(shù)據(jù)、小數(shù)據(jù)和專業(yè)判斷

構(gòu)造新經(jīng)濟指數(shù)需要大數(shù)據(jù)、小數(shù)據(jù)和中國經(jīng)濟的認(rèn)識和判斷,這三者缺一不可。例如,要確定“高人力資本投入、高科技投入、輕資產(chǎn)”的行業(yè),我們要用到2010年中國各行業(yè)投入產(chǎn)出表、第六次人口普查和2008年經(jīng)濟普查數(shù)據(jù);確定可持續(xù)的較快增長的行業(yè),需要用到工業(yè)普查數(shù)據(jù)和經(jīng)濟普查數(shù)據(jù);確認(rèn)是否符合產(chǎn)業(yè)發(fā)展方向,則需要從歷年產(chǎn)業(yè)政策計劃中查找相關(guān)信息,如2012年的《國務(wù)院關(guān)于加快培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的決定》和2015年的《中國制造2025》。再如,《2014美國新經(jīng)濟指數(shù)》(2014 State New Economy Index)報告指標(biāo)體系、硅谷指數(shù)(SiliconValley Index)等國際知名新經(jīng)濟和創(chuàng)新指數(shù)體系也為創(chuàng)建新經(jīng)濟指數(shù)提供了很好的參考。上述數(shù)據(jù)和資料都不屬于大數(shù)據(jù)范疇,卻是采用大數(shù)據(jù)分析結(jié)果的可信度的根基。

2.從抽象概念到具體指標(biāo)

論證數(shù)據(jù)可行性的重點是將抽象概念進一步細(xì)化到可以采用的數(shù)據(jù)條目,這往往需要依靠專業(yè)判斷和參考國內(nèi)外通行標(biāo)準(zhǔn)。首先要梳理哪些抽象概念需要被細(xì)化,然后考察獲取細(xì)化信息是否可行。每一個項目在執(zhí)行過程中都有其難點,因此需要在數(shù)據(jù)可行性論證環(huán)節(jié)更加明確對難點的處理策略。對新經(jīng)濟指數(shù)而言,需要細(xì)化的抽象概念有“高”、“可持續(xù)”、“較快”等標(biāo)準(zhǔn),執(zhí)行難點是如何識別新經(jīng)濟企業(yè)。

抽象標(biāo)準(zhǔn)的細(xì)化需要專業(yè)知識和對國內(nèi)外相關(guān)行情的認(rèn)知。對于度量“高”、“可持續(xù)”、“較快”,新經(jīng)濟指數(shù)選擇勞動者報酬與營業(yè)盈余之和占增加值之比超過70%、勞動力平均教育年限超過12年、研發(fā)經(jīng)費支出占主營業(yè)務(wù)收入的比重名列前茅、固定資產(chǎn)占總資產(chǎn)30%以下的行業(yè);持續(xù)五年增速在所有四位數(shù)代碼行業(yè)中排名前10%的行業(yè),等等。

識別新經(jīng)濟企業(yè)是數(shù)據(jù)論證的難點。雖然大數(shù)據(jù)挖掘技術(shù)可以獲取企業(yè)名稱等信息,但不少企業(yè)沒有四位數(shù)行業(yè)代碼,也就無法直接識別一家企業(yè)是否屬于新經(jīng)濟行業(yè)。我們的處理策略是根據(jù)既有企業(yè)名稱信息又有業(yè)務(wù)經(jīng)營范圍信息的企業(yè)樣本,從《統(tǒng)計用產(chǎn)品分類目錄》找到相關(guān)代碼,再從《國民經(jīng)濟行業(yè)分類》中找到行業(yè)代碼。在此基礎(chǔ)上建立模型,利用企業(yè)名稱的關(guān)鍵詞來預(yù)測其他企業(yè)所屬行業(yè)。

3.總體還是代表性樣本

大數(shù)據(jù)的代表性是論證數(shù)據(jù)可行性的必要步驟,在這部分需要明確,使用的數(shù)據(jù)是總體還是子樣本,如果是子樣本,數(shù)據(jù)的代表性如何。需要注意的是,一個項目采用的大數(shù)據(jù)是否是數(shù)據(jù)總體,很多時候取決于要解決的問題。例如,谷歌擁有所有用戶瀏覽的歷史記錄,如果用該數(shù)據(jù)分析谷歌用戶瀏覽習(xí)慣,那么該數(shù)據(jù)是總體;但如果要預(yù)測美國流感趨勢,那么總體就是所有美國人,而不是所有使用谷歌搜索流感信息的用戶。

在新經(jīng)濟指數(shù)構(gòu)造過程中,由于采用某些地區(qū)的詳細(xì)數(shù)據(jù)外推到全國其他地區(qū)容易遇到過度擬合問題,因此,數(shù)據(jù)的采集目標(biāo)是分項指標(biāo)在全國的總體。我們的十一項分項指標(biāo)中,有六項是相應(yīng)指標(biāo)在全國的總體;另外五項雖然不是總體,但也都達到總體的至少70%。一方面,未來數(shù)據(jù)采集技術(shù)的提升可以將另外五項指標(biāo)的收集也達到總體的程度。另外一方面,我們的模型采用的是相對指標(biāo)而不是絕對值,因此,即便一些指標(biāo)尚不是總體,我們也可以根據(jù)大數(shù)定理,相信在數(shù)據(jù)量足夠大的情況下,我們的數(shù)據(jù)計算出比例可以無限趨近于中國的真實狀況。

大數(shù)據(jù)分析中,識別問題和數(shù)據(jù)可行性論證往往不是一步完成的。比如,如果將問題識別為如何度量新經(jīng)濟GDP,就無法通過數(shù)據(jù)可行性論證。在考慮數(shù)據(jù)可得性的基礎(chǔ)上重新定義問題才可以增加對項目可行性的信心。在實際操作中,當(dāng)?shù)谝徊桨l(fā)生變化時,第二步數(shù)據(jù)可行性的論證重點也需調(diào)整。因此需要反復(fù)推敲這兩步,才能找到進入下一步的最佳契合點。

(三) 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備環(huán)節(jié)需要梳理分析所需每個條目的數(shù)據(jù),為下一步建立模型做好從充分預(yù)備。這種準(zhǔn)備可以分為數(shù)據(jù)的采集準(zhǔn)備和清洗整理準(zhǔn)備兩步。

1.數(shù)據(jù)的采集準(zhǔn)備

為大數(shù)據(jù)分析做數(shù)據(jù)采集準(zhǔn)備時,往往不能回避下列問題:項目的數(shù)據(jù)預(yù)算有多少?配備的人員設(shè)備是否足夠?項目預(yù)期數(shù)據(jù)采集的完成期限?項目打算用什么方法收集數(shù)據(jù)?哪些數(shù)據(jù)是可以通過自身努力來獲取,哪些數(shù)據(jù)需要通過購買獲得?哪些數(shù)據(jù)獲取中會存在時間和經(jīng)費上的不確定性?如果一些重要問題的答案是否定的或者含糊的,就可能需要重新回到數(shù)據(jù)可行性論證環(huán)節(jié)。這一點,對于希望用大數(shù)據(jù)分析做產(chǎn)品的小微企業(yè)、新創(chuàng)企業(yè)尤為重要。

新經(jīng)濟指數(shù)的數(shù)據(jù)收集主要依托BBD的大數(shù)據(jù)收集和整理能力。為計算新經(jīng)濟指數(shù),歷經(jīng)數(shù)月的預(yù)備,我們一共收集了5200余萬條招聘信息、270萬條新企業(yè)登記信息、376萬條招標(biāo)/投標(biāo)數(shù)據(jù)、2.8萬條風(fēng)險投資數(shù)據(jù)、5000余條三板上市數(shù)據(jù)、580萬條專利登記數(shù)據(jù)、30萬條專利轉(zhuǎn)移數(shù)據(jù),另外還包括用以計算城市人口流動信息的實時鐵路出票量數(shù)據(jù)、機場航班流量數(shù)據(jù)。由此產(chǎn)生的數(shù)據(jù)總量合計超過370G。

2.數(shù)據(jù)的清洗整理準(zhǔn)備

雖然數(shù)據(jù)清理包含不少常規(guī)處理,但是高質(zhì)量的數(shù)據(jù)清理工作需要數(shù)據(jù)準(zhǔn)備團隊時刻對項目目標(biāo)了然于胸。例如,我們希望根據(jù)網(wǎng)上的招聘信息計算出全國新增加的招聘需求,但簡單將所有招聘信息中的需求人數(shù)相加并不能滿足我們的要求。這是因為需要招聘企業(yè)常常會多次發(fā)布同樣一條信息,因此不去掉重復(fù)信息就會夸大人才需求。但是,有些企業(yè)隔段時間發(fā)布的相同的招聘信息確實是新的招聘需求,如果去掉所有的重復(fù)信息又會低估用工需求。這就要求在數(shù)據(jù)清理階段,對于去重的不同頻率作出嘗試。在新經(jīng)濟指數(shù)的制定中,我們嘗試了按月去重(即假定下一個月發(fā)布的同樣的招聘信息算作新招聘)和按年去重(即假定下一年發(fā)布同樣的招聘信息才算作新招聘信息)這樣不同的標(biāo)準(zhǔn),來考察對新經(jīng)濟指標(biāo)穩(wěn)健性的影響。我們發(fā)現(xiàn)由于使用比例指標(biāo),按月或者按年去重差異不大,因此最終采取按月去重的方式來整理招聘信息。

(四) 建立模型

大數(shù)據(jù)分析項目需要建立的模型可以分為兩類。對于這兩類模型,團隊都需要在設(shè)立模型、論證模型的可靠性方面下功夫。

1.專業(yè)領(lǐng)域模型

大數(shù)據(jù)產(chǎn)品對應(yīng)的項目可能有對應(yīng)的專業(yè)領(lǐng)域模型,例如信用風(fēng)險管理需要用到的違約概率(PD) 模型,違約損失率模型(LGD)模型;市場風(fēng)險管理要用到的VaR,sVaR模型等。數(shù)據(jù)團隊需要明確為何選擇某個專業(yè)領(lǐng)域的模型。

構(gòu)造新經(jīng)濟指數(shù)時,我們根據(jù)經(jīng)濟理論建立計算指數(shù)的模型。我們采用科布道格拉斯生產(chǎn)方程的形式,那么新經(jīng)濟占總經(jīng)濟產(chǎn)出的份額即:

其中K, H,A,L分別代表物質(zhì)資本、人力資本、技術(shù)水平和勞動力。w為各個要素投入的產(chǎn)出彈性,θ則代表各生產(chǎn)要素投入新經(jīng)濟的份額。這一模型為后面采用各比例計算新經(jīng)濟指數(shù)提供了模型框架。

其中K, H,A,L分別代表物質(zhì)資本、人力資本、技術(shù)水平和勞動力。w為各個要素投入的產(chǎn)出彈性,θ則代表各生產(chǎn)要素投入新經(jīng)濟的份額。這一模型為后面采用各比例計算新經(jīng)濟指數(shù)提供了模型框架。

2.數(shù)據(jù)分析模型

這類模型包含分析結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘算法模型;處理非結(jié)構(gòu)化數(shù)據(jù)的語義引擎;可視化策略等。流行觀點中的大數(shù)據(jù)分析主要集中在對第二類模型的討論上,因此本文從簡。

構(gòu)造新經(jīng)濟指數(shù)過程中,這類模型主要用于識別新經(jīng)濟企業(yè)。將所有企業(yè)分為新經(jīng)濟企業(yè)或者非新經(jīng)濟企業(yè)的任務(wù),首先要運用270萬家新企業(yè)作為訓(xùn)練數(shù)據(jù)來建立“企業(yè)名稱 -- 行業(yè)短語 -- 行業(yè)識別”模型。接著對所有企業(yè)的名稱進行分詞,應(yīng)用上面得到模型計算每個企業(yè)的行業(yè)概率。這里采用的主要是多元logit回歸模型。

建立模型時既需要強大運算能力,也需要專家的主觀判斷。例如,新經(jīng)濟指數(shù)中,各要素投入新經(jīng)濟的份額可以利用大數(shù)據(jù)收集得到,但產(chǎn)出彈性卻因無法觀測,需要一定的事先判斷。例如,2014年中國第三產(chǎn)業(yè)的勞動者報酬占增加值比重約為47.2%,考慮到新經(jīng)濟行業(yè)是“以高質(zhì)量勞動力為主要要素投入”的行業(yè),我們將勞動者投入彈性定為40%。又如,確定哪個短語—行業(yè)識別模型可靠時,新經(jīng)濟指數(shù)要求識別程序行業(yè)判斷準(zhǔn)確度達到95%左右。由于模型的建立和計算離不開專家的主觀判斷,為保證項目質(zhì)量,模型團隊報告結(jié)果時應(yīng)明確哪些信息是由算法決定的、哪些是由主觀判斷完成的。

(五) 評估結(jié)果

評估結(jié)果階段是要評估上述步驟得到的結(jié)果是否足夠嚴(yán)謹(jǐn)可靠,并確保數(shù)據(jù)分析結(jié)果能夠有利于決策。評估結(jié)果包括定量評估和定性評估兩部分。

1.定量評估

定量評估是需要關(guān)注主觀標(biāo)準(zhǔn)的可靠性。數(shù)據(jù)挖掘分析方法在計算上雖然依靠技術(shù),但不少關(guān)鍵節(jié)點依靠主觀標(biāo)準(zhǔn)。例如,決策樹在什么時候停、做聚類分析時事先要定幾類;訓(xùn)練樣本和檢驗樣本的大小關(guān)系等。對涉及主觀標(biāo)準(zhǔn)的各項指標(biāo),定量評估需要做穩(wěn)健性檢驗。例如,對于新經(jīng)濟指數(shù)而言,勞動、資本和技術(shù)的產(chǎn)出彈性的設(shè)定主要根據(jù)專家判斷,因此在構(gòu)造過程中,我們通過調(diào)整彈性值的方法來考察新經(jīng)濟指數(shù)的穩(wěn)健性。

2.定性評估

定性評估的重點是考察大數(shù)據(jù)分析的結(jié)果是否合理、方案是否可行。例如,新經(jīng)濟指數(shù)是否比較準(zhǔn)確地刻畫了中國新經(jīng)濟的比重的問題,就是對結(jié)果的定性評估要求。這需要政府、企業(yè)、學(xué)界各方在對新經(jīng)濟指數(shù)有一定了解之后才能確認(rèn)。因此新經(jīng)濟指數(shù)采用的策略是先試運行一段時間,檢查各種參數(shù)是否合理、計算是否準(zhǔn)確到位,再正式發(fā)布。

在評估其他采用大數(shù)據(jù)分析的結(jié)果時,由于定性評估往往需要一段時間之后才能完成,因此將大數(shù)據(jù)分析結(jié)果用于現(xiàn)實時,需要采取審慎步驟。例如企業(yè)希望依據(jù)大數(shù)據(jù)結(jié)論對生產(chǎn)策略做出調(diào)整,可以考慮漸進式方法從傳統(tǒng)生產(chǎn)模式逐漸調(diào)整到大數(shù)據(jù)產(chǎn)品建議的模式,以減少模型失誤帶來的損失。

結(jié)論

我國將實施國家大數(shù)據(jù)戰(zhàn)略,這對于大數(shù)據(jù)產(chǎn)業(yè)和對中國經(jīng)濟可持續(xù)增長,都是振奮人心的好消息。但是,由于大數(shù)據(jù)往往是一些經(jīng)濟活動的附帶產(chǎn)品,大數(shù)據(jù)分析產(chǎn)品是否可靠需要冷靜的頭腦和充分的論證。在大數(shù)據(jù)產(chǎn)業(yè)興起的時候,要防止過于迷信大數(shù)據(jù)和大數(shù)據(jù)相關(guān)技術(shù),卻忽視數(shù)據(jù)分析、忽略中國國情的傾向。本文以新經(jīng)濟指數(shù)為例,有如下主要觀察。

第一,大數(shù)據(jù)分析不只是機器學(xué)習(xí)和大規(guī)模運算,需要涉及問題識別、數(shù)據(jù)可行性論證、數(shù)據(jù)準(zhǔn)備、建立模型和評估結(jié)果五步。這個過程往往不是一步到位、需要在某些環(huán)節(jié)反復(fù)進行,才能最終獲得相對穩(wěn)定的分析結(jié)果。

第二,大數(shù)據(jù)分析并非適用于每個項目,只有通過了數(shù)據(jù)可行性論證的項目,才可考慮大數(shù)據(jù)分析。

第三,高質(zhì)量的大數(shù)據(jù)分析,需要有足夠的預(yù)算來涵蓋獲取大數(shù)據(jù)獲得、配備分析數(shù)據(jù)的人員和設(shè)備的相關(guān)費用。微小企業(yè)、創(chuàng)業(yè)企業(yè)在考慮大數(shù)據(jù)分析時需從費用角度對項目可行性作更多論證。

第四,大數(shù)據(jù)分析本身離不開小數(shù)據(jù)和專業(yè)判斷。高質(zhì)量的大數(shù)據(jù)分析需要既懂技術(shù)、又對相應(yīng)領(lǐng)域的問題有深刻認(rèn)知的跨界團隊的深度合作。

最后,對于大數(shù)據(jù)分析的結(jié)果,還需要交由決策相關(guān)人以及各方專家評估,給予一定的時間來確認(rèn)大數(shù)據(jù)分析有利于最終決策。

總結(jié)以上各點可以看到,在發(fā)展大數(shù)據(jù)產(chǎn)業(yè)時,不僅需要關(guān)注采集存儲、基本架構(gòu)、數(shù)據(jù)挖掘算法、可視化等方面的技術(shù),也需要對嚴(yán)謹(jǐn)可靠的大數(shù)據(jù)分析加大投入,促進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,最終實現(xiàn)助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新的愿景。

教授簡介

沈艷 | 大數(shù)據(jù)分析五步法:以新經(jīng)濟指數(shù)為例

沈艷北京大學(xué)國家發(fā)展研究院/中國經(jīng)濟研究中心教授。沈艷教授于2003年于美國南加州大學(xué)取得經(jīng)濟學(xué)博士學(xué)位,是Econometric Society 會員和American Economic Association會員。沈艷教授目前還擔(dān)任教育部北京大學(xué)人力資本與國家政策研究中心副主任,中國數(shù)量經(jīng)濟學(xué)會常任理事,沈艷教授曾獲北京大學(xué)優(yōu)秀班主任的獎勵。沈艷教授還擔(dān)任Journal of Econometrics ,China Economic Review,Economic Development and Cultural Change等刊物的匿名審稿人。

關(guān)鍵字:谷歌回歸模型違約概率

本文摘自:北大國發(fā)院BiMBA

x 大數(shù)據(jù)分析五步法:以新經(jīng)濟指數(shù)為例 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)數(shù)據(jù)分析 → 正文

大數(shù)據(jù)分析五步法:以新經(jīng)濟指數(shù)為例

責(zé)任編輯:editor006 |來源:企業(yè)網(wǎng)D1Net  2016-03-19 21:09:21 本文摘自:北大國發(fā)院BiMBA

當(dāng)下,大數(shù)據(jù)已經(jīng)上升到國家戰(zhàn)略。2016年3月17日出爐的《國民經(jīng)濟和社會發(fā)展十三五個五年計劃規(guī)劃綱要》提出,要“實施國家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實施促進大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新”。從“推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用”,到實現(xiàn)“助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新”的美好愿景,離不開可靠穩(wěn)健的大數(shù)據(jù)分析。

但是,對于什么是大數(shù)據(jù)分析、誰該使用大數(shù)據(jù)分析等關(guān)鍵問題,目前一些流行看法值得商榷。有業(yè)界人士提出,“每個從業(yè)人員都該考慮大數(shù)據(jù)分析”。更有看法認(rèn)為“大數(shù)據(jù)分析主要依靠機器學(xué)習(xí)和大規(guī)模計算”,其重點在大數(shù)據(jù)采集存儲和基本架構(gòu)等方面的技術(shù)、數(shù)據(jù)挖掘算法、可視化等方面,而很少探討如何根據(jù)數(shù)據(jù)建立符合中國現(xiàn)實的模型和產(chǎn)品、如何檢驗大數(shù)據(jù)分析效果等問題。

但是,對于什么是大數(shù)據(jù)分析、誰該使用大數(shù)據(jù)分析等關(guān)鍵問題,目前一些流行看法值得商榷。有業(yè)界人士提出,“每個從業(yè)人員都該考慮大數(shù)據(jù)分析”。更有看法認(rèn)為“大數(shù)據(jù)分析主要依靠機器學(xué)習(xí)和大規(guī)模計算”,其重點在大數(shù)據(jù)采集存儲和基本架構(gòu)等方面的技術(shù)、數(shù)據(jù)挖掘算法、可視化等方面,而很少探討如何根據(jù)數(shù)據(jù)建立符合中國現(xiàn)實的模型和產(chǎn)品、如何檢驗大數(shù)據(jù)分析效果等問題。

本文以財智BBD新經(jīng)濟指數(shù)的構(gòu)造過程為例,提出大數(shù)據(jù)分析的五步法,即問題識別、數(shù)據(jù)可行性論證、數(shù)據(jù)準(zhǔn)備、建立模型、評估結(jié)果。希望本文可以拋磚引玉,引發(fā)對大數(shù)據(jù)分析的適用性、可靠穩(wěn)健的大數(shù)據(jù)分析標(biāo)準(zhǔn)、如何健康發(fā)展大數(shù)據(jù)產(chǎn)業(yè)等問題更深入的探討。

(一) 問題識別

大數(shù)據(jù)分析的第一步是要清晰界定需要回答的問題。對問題的界定有兩個標(biāo)準(zhǔn),一是清晰、二是符合現(xiàn)實。構(gòu)造新經(jīng)濟指數(shù)的背景,是中國已經(jīng)進入資本回報率下降、勞動力萎縮、人口老齡化、外需疲軟的經(jīng)濟發(fā)展“新常態(tài)”。由于現(xiàn)有不少統(tǒng)計資料都刻畫了傳統(tǒng)行業(yè)的下滑與困境,僅從追蹤傳統(tǒng)行業(yè)的變遷的角度,就難以對中國經(jīng)濟的未來走勢保持樂觀。

但是中國經(jīng)濟發(fā)展并非沒有亮色。雖然勞動力人口出現(xiàn)萎縮,但中國的人力資本積累仍然在上升。根據(jù)筆者參與的教育部人力資本測算結(jié)果,過去30年我國人力資本的平均年增速為5.53%,而未來20年預(yù)計平均年增速不會低于這個速度。根據(jù)人社部資料,2015年就業(yè)形勢總體穩(wěn)定,年末城鎮(zhèn)登記失業(yè)率為4.05%。人力資本的快速積累,為創(chuàng)新型經(jīng)濟的發(fā)展提供了人力基礎(chǔ)。就業(yè)形勢沒有出現(xiàn)大的波動也表明,傳統(tǒng)經(jīng)濟的困境催生了新經(jīng)濟的出現(xiàn)和成長、減輕了經(jīng)濟轉(zhuǎn)型帶來的震蕩。

對于正在成長的新經(jīng)濟,公開數(shù)據(jù)只能提供零星的度量。如果統(tǒng)計資料只記錄了傳統(tǒng)經(jīng)濟的下滑卻不能反映代表中國未來經(jīng)濟增長點的新經(jīng)濟的變化,必然會對中國未來的經(jīng)濟走向,給出錯誤的畫面。因此,我們的目標(biāo)是填補上述空白,嘗試來刻畫、追蹤新經(jīng)濟在整個經(jīng)濟中的發(fā)展和變遷。

我們雖然無法直接度量新經(jīng)濟GDP,卻可以通過大數(shù)據(jù)來觀察經(jīng)濟生活中各生產(chǎn)要素的變化。這里界定的問題是“中國經(jīng)濟每一元錢的產(chǎn)出中,新經(jīng)濟占的比重是多少?”在沒有官方統(tǒng)計數(shù)據(jù)的情況下,可以通過大數(shù)據(jù)手段來度量新經(jīng)濟行業(yè)中技術(shù)、勞動力和資本等生產(chǎn)要素占全行業(yè)技術(shù)、勞動力和資本等生產(chǎn)要素的比重。這使得度量新經(jīng)濟的相對重要性成為可能。

由于尚無對新經(jīng)濟范疇的界定標(biāo)準(zhǔn),首先需要明確何為新經(jīng)濟。根據(jù)對于中國長期的觀察和對政策的理解,我們提出,新經(jīng)濟是更符合中國未來資源稟賦結(jié)構(gòu)的經(jīng)濟模式,具有以下三個特征:第一,高人力資本投入、高科技投入、輕資產(chǎn);第二,可持續(xù)的較快增長;第三,符合產(chǎn)業(yè)發(fā)展方向。

從新經(jīng)濟指數(shù)的例子可以看到,識別問題環(huán)節(jié)需要考慮到數(shù)據(jù)的可行性,更需要對中國相應(yīng)國情有較清晰的認(rèn)知。

(二) 數(shù)據(jù)可行性論證

論證現(xiàn)有數(shù)據(jù)是否足夠豐富、準(zhǔn)確,以致可以為問題提供答案,是大數(shù)據(jù)分析的第二步,項目是否可行取決于這步的結(jié)論。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的生成方式有本質(zhì)不同。傳統(tǒng)數(shù)據(jù)往往是在識別問題、根據(jù)問題設(shè)計問卷、之后展開調(diào)查獲得的數(shù)據(jù),而大數(shù)據(jù)卻是企業(yè)或者個體各類活動產(chǎn)生的附屬產(chǎn)品。作為附屬產(chǎn)品,大數(shù)據(jù)往往不是為了特定數(shù)據(jù)項目生成,也存在較高噪音。這就要求數(shù)據(jù)可行性論證過程需要仔細(xì)推敲,現(xiàn)有數(shù)據(jù)得出來的結(jié)論是否足夠可靠。由于大數(shù)據(jù)分析技術(shù)本質(zhì)屬于數(shù)據(jù)挖掘法,過度擬合問題往往是大數(shù)據(jù)分析的難點。過度擬合問題最主要的一個癥狀是難以外推,即在一個地區(qū)一個時期可以做出很好預(yù)測的模型,在另一個地區(qū)另一個時期卻表現(xiàn)很糟。

因此,在數(shù)據(jù)可行性論證主要涉及三個環(huán)節(jié)。第一,厘清項目需要的大數(shù)據(jù)、小數(shù)據(jù)和專業(yè)知識;第二,完成從抽象概念到具體指標(biāo)的落實;第三,考察數(shù)據(jù)的代表性。

對于新經(jīng)濟指數(shù)而言,數(shù)據(jù)的可行性論證要解決一下問題:第一,如果細(xì)化抽象標(biāo)準(zhǔn)?第二,可否利用大數(shù)據(jù)識別出屬于新經(jīng)濟的企業(yè)?第三,數(shù)據(jù)是否可以支撐對全國新經(jīng)濟狀況的度量?

1.大數(shù)據(jù)、小數(shù)據(jù)和專業(yè)判斷

構(gòu)造新經(jīng)濟指數(shù)需要大數(shù)據(jù)、小數(shù)據(jù)和中國經(jīng)濟的認(rèn)識和判斷,這三者缺一不可。例如,要確定“高人力資本投入、高科技投入、輕資產(chǎn)”的行業(yè),我們要用到2010年中國各行業(yè)投入產(chǎn)出表、第六次人口普查和2008年經(jīng)濟普查數(shù)據(jù);確定可持續(xù)的較快增長的行業(yè),需要用到工業(yè)普查數(shù)據(jù)和經(jīng)濟普查數(shù)據(jù);確認(rèn)是否符合產(chǎn)業(yè)發(fā)展方向,則需要從歷年產(chǎn)業(yè)政策計劃中查找相關(guān)信息,如2012年的《國務(wù)院關(guān)于加快培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的決定》和2015年的《中國制造2025》。再如,《2014美國新經(jīng)濟指數(shù)》(2014 State New Economy Index)報告指標(biāo)體系、硅谷指數(shù)(SiliconValley Index)等國際知名新經(jīng)濟和創(chuàng)新指數(shù)體系也為創(chuàng)建新經(jīng)濟指數(shù)提供了很好的參考。上述數(shù)據(jù)和資料都不屬于大數(shù)據(jù)范疇,卻是采用大數(shù)據(jù)分析結(jié)果的可信度的根基。

2.從抽象概念到具體指標(biāo)

論證數(shù)據(jù)可行性的重點是將抽象概念進一步細(xì)化到可以采用的數(shù)據(jù)條目,這往往需要依靠專業(yè)判斷和參考國內(nèi)外通行標(biāo)準(zhǔn)。首先要梳理哪些抽象概念需要被細(xì)化,然后考察獲取細(xì)化信息是否可行。每一個項目在執(zhí)行過程中都有其難點,因此需要在數(shù)據(jù)可行性論證環(huán)節(jié)更加明確對難點的處理策略。對新經(jīng)濟指數(shù)而言,需要細(xì)化的抽象概念有“高”、“可持續(xù)”、“較快”等標(biāo)準(zhǔn),執(zhí)行難點是如何識別新經(jīng)濟企業(yè)。

抽象標(biāo)準(zhǔn)的細(xì)化需要專業(yè)知識和對國內(nèi)外相關(guān)行情的認(rèn)知。對于度量“高”、“可持續(xù)”、“較快”,新經(jīng)濟指數(shù)選擇勞動者報酬與營業(yè)盈余之和占增加值之比超過70%、勞動力平均教育年限超過12年、研發(fā)經(jīng)費支出占主營業(yè)務(wù)收入的比重名列前茅、固定資產(chǎn)占總資產(chǎn)30%以下的行業(yè);持續(xù)五年增速在所有四位數(shù)代碼行業(yè)中排名前10%的行業(yè),等等。

識別新經(jīng)濟企業(yè)是數(shù)據(jù)論證的難點。雖然大數(shù)據(jù)挖掘技術(shù)可以獲取企業(yè)名稱等信息,但不少企業(yè)沒有四位數(shù)行業(yè)代碼,也就無法直接識別一家企業(yè)是否屬于新經(jīng)濟行業(yè)。我們的處理策略是根據(jù)既有企業(yè)名稱信息又有業(yè)務(wù)經(jīng)營范圍信息的企業(yè)樣本,從《統(tǒng)計用產(chǎn)品分類目錄》找到相關(guān)代碼,再從《國民經(jīng)濟行業(yè)分類》中找到行業(yè)代碼。在此基礎(chǔ)上建立模型,利用企業(yè)名稱的關(guān)鍵詞來預(yù)測其他企業(yè)所屬行業(yè)。

3.總體還是代表性樣本

大數(shù)據(jù)的代表性是論證數(shù)據(jù)可行性的必要步驟,在這部分需要明確,使用的數(shù)據(jù)是總體還是子樣本,如果是子樣本,數(shù)據(jù)的代表性如何。需要注意的是,一個項目采用的大數(shù)據(jù)是否是數(shù)據(jù)總體,很多時候取決于要解決的問題。例如,谷歌擁有所有用戶瀏覽的歷史記錄,如果用該數(shù)據(jù)分析谷歌用戶瀏覽習(xí)慣,那么該數(shù)據(jù)是總體;但如果要預(yù)測美國流感趨勢,那么總體就是所有美國人,而不是所有使用谷歌搜索流感信息的用戶。

在新經(jīng)濟指數(shù)構(gòu)造過程中,由于采用某些地區(qū)的詳細(xì)數(shù)據(jù)外推到全國其他地區(qū)容易遇到過度擬合問題,因此,數(shù)據(jù)的采集目標(biāo)是分項指標(biāo)在全國的總體。我們的十一項分項指標(biāo)中,有六項是相應(yīng)指標(biāo)在全國的總體;另外五項雖然不是總體,但也都達到總體的至少70%。一方面,未來數(shù)據(jù)采集技術(shù)的提升可以將另外五項指標(biāo)的收集也達到總體的程度。另外一方面,我們的模型采用的是相對指標(biāo)而不是絕對值,因此,即便一些指標(biāo)尚不是總體,我們也可以根據(jù)大數(shù)定理,相信在數(shù)據(jù)量足夠大的情況下,我們的數(shù)據(jù)計算出比例可以無限趨近于中國的真實狀況。

大數(shù)據(jù)分析中,識別問題和數(shù)據(jù)可行性論證往往不是一步完成的。比如,如果將問題識別為如何度量新經(jīng)濟GDP,就無法通過數(shù)據(jù)可行性論證。在考慮數(shù)據(jù)可得性的基礎(chǔ)上重新定義問題才可以增加對項目可行性的信心。在實際操作中,當(dāng)?shù)谝徊桨l(fā)生變化時,第二步數(shù)據(jù)可行性的論證重點也需調(diào)整。因此需要反復(fù)推敲這兩步,才能找到進入下一步的最佳契合點。

(三) 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備環(huán)節(jié)需要梳理分析所需每個條目的數(shù)據(jù),為下一步建立模型做好從充分預(yù)備。這種準(zhǔn)備可以分為數(shù)據(jù)的采集準(zhǔn)備和清洗整理準(zhǔn)備兩步。

1.數(shù)據(jù)的采集準(zhǔn)備

為大數(shù)據(jù)分析做數(shù)據(jù)采集準(zhǔn)備時,往往不能回避下列問題:項目的數(shù)據(jù)預(yù)算有多少?配備的人員設(shè)備是否足夠?項目預(yù)期數(shù)據(jù)采集的完成期限?項目打算用什么方法收集數(shù)據(jù)?哪些數(shù)據(jù)是可以通過自身努力來獲取,哪些數(shù)據(jù)需要通過購買獲得?哪些數(shù)據(jù)獲取中會存在時間和經(jīng)費上的不確定性?如果一些重要問題的答案是否定的或者含糊的,就可能需要重新回到數(shù)據(jù)可行性論證環(huán)節(jié)。這一點,對于希望用大數(shù)據(jù)分析做產(chǎn)品的小微企業(yè)、新創(chuàng)企業(yè)尤為重要。

新經(jīng)濟指數(shù)的數(shù)據(jù)收集主要依托BBD的大數(shù)據(jù)收集和整理能力。為計算新經(jīng)濟指數(shù),歷經(jīng)數(shù)月的預(yù)備,我們一共收集了5200余萬條招聘信息、270萬條新企業(yè)登記信息、376萬條招標(biāo)/投標(biāo)數(shù)據(jù)、2.8萬條風(fēng)險投資數(shù)據(jù)、5000余條三板上市數(shù)據(jù)、580萬條專利登記數(shù)據(jù)、30萬條專利轉(zhuǎn)移數(shù)據(jù),另外還包括用以計算城市人口流動信息的實時鐵路出票量數(shù)據(jù)、機場航班流量數(shù)據(jù)。由此產(chǎn)生的數(shù)據(jù)總量合計超過370G。

2.數(shù)據(jù)的清洗整理準(zhǔn)備

雖然數(shù)據(jù)清理包含不少常規(guī)處理,但是高質(zhì)量的數(shù)據(jù)清理工作需要數(shù)據(jù)準(zhǔn)備團隊時刻對項目目標(biāo)了然于胸。例如,我們希望根據(jù)網(wǎng)上的招聘信息計算出全國新增加的招聘需求,但簡單將所有招聘信息中的需求人數(shù)相加并不能滿足我們的要求。這是因為需要招聘企業(yè)常常會多次發(fā)布同樣一條信息,因此不去掉重復(fù)信息就會夸大人才需求。但是,有些企業(yè)隔段時間發(fā)布的相同的招聘信息確實是新的招聘需求,如果去掉所有的重復(fù)信息又會低估用工需求。這就要求在數(shù)據(jù)清理階段,對于去重的不同頻率作出嘗試。在新經(jīng)濟指數(shù)的制定中,我們嘗試了按月去重(即假定下一個月發(fā)布的同樣的招聘信息算作新招聘)和按年去重(即假定下一年發(fā)布同樣的招聘信息才算作新招聘信息)這樣不同的標(biāo)準(zhǔn),來考察對新經(jīng)濟指標(biāo)穩(wěn)健性的影響。我們發(fā)現(xiàn)由于使用比例指標(biāo),按月或者按年去重差異不大,因此最終采取按月去重的方式來整理招聘信息。

(四) 建立模型

大數(shù)據(jù)分析項目需要建立的模型可以分為兩類。對于這兩類模型,團隊都需要在設(shè)立模型、論證模型的可靠性方面下功夫。

1.專業(yè)領(lǐng)域模型

大數(shù)據(jù)產(chǎn)品對應(yīng)的項目可能有對應(yīng)的專業(yè)領(lǐng)域模型,例如信用風(fēng)險管理需要用到的違約概率(PD) 模型,違約損失率模型(LGD)模型;市場風(fēng)險管理要用到的VaR,sVaR模型等。數(shù)據(jù)團隊需要明確為何選擇某個專業(yè)領(lǐng)域的模型。

構(gòu)造新經(jīng)濟指數(shù)時,我們根據(jù)經(jīng)濟理論建立計算指數(shù)的模型。我們采用科布道格拉斯生產(chǎn)方程的形式,那么新經(jīng)濟占總經(jīng)濟產(chǎn)出的份額即:

其中K, H,A,L分別代表物質(zhì)資本、人力資本、技術(shù)水平和勞動力。w為各個要素投入的產(chǎn)出彈性,θ則代表各生產(chǎn)要素投入新經(jīng)濟的份額。這一模型為后面采用各比例計算新經(jīng)濟指數(shù)提供了模型框架。

其中K, H,A,L分別代表物質(zhì)資本、人力資本、技術(shù)水平和勞動力。w為各個要素投入的產(chǎn)出彈性,θ則代表各生產(chǎn)要素投入新經(jīng)濟的份額。這一模型為后面采用各比例計算新經(jīng)濟指數(shù)提供了模型框架。

2.數(shù)據(jù)分析模型

這類模型包含分析結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘算法模型;處理非結(jié)構(gòu)化數(shù)據(jù)的語義引擎;可視化策略等。流行觀點中的大數(shù)據(jù)分析主要集中在對第二類模型的討論上,因此本文從簡。

構(gòu)造新經(jīng)濟指數(shù)過程中,這類模型主要用于識別新經(jīng)濟企業(yè)。將所有企業(yè)分為新經(jīng)濟企業(yè)或者非新經(jīng)濟企業(yè)的任務(wù),首先要運用270萬家新企業(yè)作為訓(xùn)練數(shù)據(jù)來建立“企業(yè)名稱 -- 行業(yè)短語 -- 行業(yè)識別”模型。接著對所有企業(yè)的名稱進行分詞,應(yīng)用上面得到模型計算每個企業(yè)的行業(yè)概率。這里采用的主要是多元logit回歸模型。

建立模型時既需要強大運算能力,也需要專家的主觀判斷。例如,新經(jīng)濟指數(shù)中,各要素投入新經(jīng)濟的份額可以利用大數(shù)據(jù)收集得到,但產(chǎn)出彈性卻因無法觀測,需要一定的事先判斷。例如,2014年中國第三產(chǎn)業(yè)的勞動者報酬占增加值比重約為47.2%,考慮到新經(jīng)濟行業(yè)是“以高質(zhì)量勞動力為主要要素投入”的行業(yè),我們將勞動者投入彈性定為40%。又如,確定哪個短語—行業(yè)識別模型可靠時,新經(jīng)濟指數(shù)要求識別程序行業(yè)判斷準(zhǔn)確度達到95%左右。由于模型的建立和計算離不開專家的主觀判斷,為保證項目質(zhì)量,模型團隊報告結(jié)果時應(yīng)明確哪些信息是由算法決定的、哪些是由主觀判斷完成的。

(五) 評估結(jié)果

評估結(jié)果階段是要評估上述步驟得到的結(jié)果是否足夠嚴(yán)謹(jǐn)可靠,并確保數(shù)據(jù)分析結(jié)果能夠有利于決策。評估結(jié)果包括定量評估和定性評估兩部分。

1.定量評估

定量評估是需要關(guān)注主觀標(biāo)準(zhǔn)的可靠性。數(shù)據(jù)挖掘分析方法在計算上雖然依靠技術(shù),但不少關(guān)鍵節(jié)點依靠主觀標(biāo)準(zhǔn)。例如,決策樹在什么時候停、做聚類分析時事先要定幾類;訓(xùn)練樣本和檢驗樣本的大小關(guān)系等。對涉及主觀標(biāo)準(zhǔn)的各項指標(biāo),定量評估需要做穩(wěn)健性檢驗。例如,對于新經(jīng)濟指數(shù)而言,勞動、資本和技術(shù)的產(chǎn)出彈性的設(shè)定主要根據(jù)專家判斷,因此在構(gòu)造過程中,我們通過調(diào)整彈性值的方法來考察新經(jīng)濟指數(shù)的穩(wěn)健性。

2.定性評估

定性評估的重點是考察大數(shù)據(jù)分析的結(jié)果是否合理、方案是否可行。例如,新經(jīng)濟指數(shù)是否比較準(zhǔn)確地刻畫了中國新經(jīng)濟的比重的問題,就是對結(jié)果的定性評估要求。這需要政府、企業(yè)、學(xué)界各方在對新經(jīng)濟指數(shù)有一定了解之后才能確認(rèn)。因此新經(jīng)濟指數(shù)采用的策略是先試運行一段時間,檢查各種參數(shù)是否合理、計算是否準(zhǔn)確到位,再正式發(fā)布。

在評估其他采用大數(shù)據(jù)分析的結(jié)果時,由于定性評估往往需要一段時間之后才能完成,因此將大數(shù)據(jù)分析結(jié)果用于現(xiàn)實時,需要采取審慎步驟。例如企業(yè)希望依據(jù)大數(shù)據(jù)結(jié)論對生產(chǎn)策略做出調(diào)整,可以考慮漸進式方法從傳統(tǒng)生產(chǎn)模式逐漸調(diào)整到大數(shù)據(jù)產(chǎn)品建議的模式,以減少模型失誤帶來的損失。

結(jié)論

我國將實施國家大數(shù)據(jù)戰(zhàn)略,這對于大數(shù)據(jù)產(chǎn)業(yè)和對中國經(jīng)濟可持續(xù)增長,都是振奮人心的好消息。但是,由于大數(shù)據(jù)往往是一些經(jīng)濟活動的附帶產(chǎn)品,大數(shù)據(jù)分析產(chǎn)品是否可靠需要冷靜的頭腦和充分的論證。在大數(shù)據(jù)產(chǎn)業(yè)興起的時候,要防止過于迷信大數(shù)據(jù)和大數(shù)據(jù)相關(guān)技術(shù),卻忽視數(shù)據(jù)分析、忽略中國國情的傾向。本文以新經(jīng)濟指數(shù)為例,有如下主要觀察。

第一,大數(shù)據(jù)分析不只是機器學(xué)習(xí)和大規(guī)模運算,需要涉及問題識別、數(shù)據(jù)可行性論證、數(shù)據(jù)準(zhǔn)備、建立模型和評估結(jié)果五步。這個過程往往不是一步到位、需要在某些環(huán)節(jié)反復(fù)進行,才能最終獲得相對穩(wěn)定的分析結(jié)果。

第二,大數(shù)據(jù)分析并非適用于每個項目,只有通過了數(shù)據(jù)可行性論證的項目,才可考慮大數(shù)據(jù)分析。

第三,高質(zhì)量的大數(shù)據(jù)分析,需要有足夠的預(yù)算來涵蓋獲取大數(shù)據(jù)獲得、配備分析數(shù)據(jù)的人員和設(shè)備的相關(guān)費用。微小企業(yè)、創(chuàng)業(yè)企業(yè)在考慮大數(shù)據(jù)分析時需從費用角度對項目可行性作更多論證。

第四,大數(shù)據(jù)分析本身離不開小數(shù)據(jù)和專業(yè)判斷。高質(zhì)量的大數(shù)據(jù)分析需要既懂技術(shù)、又對相應(yīng)領(lǐng)域的問題有深刻認(rèn)知的跨界團隊的深度合作。

最后,對于大數(shù)據(jù)分析的結(jié)果,還需要交由決策相關(guān)人以及各方專家評估,給予一定的時間來確認(rèn)大數(shù)據(jù)分析有利于最終決策。

總結(jié)以上各點可以看到,在發(fā)展大數(shù)據(jù)產(chǎn)業(yè)時,不僅需要關(guān)注采集存儲、基本架構(gòu)、數(shù)據(jù)挖掘算法、可視化等方面的技術(shù),也需要對嚴(yán)謹(jǐn)可靠的大數(shù)據(jù)分析加大投入,促進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,最終實現(xiàn)助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新的愿景。

教授簡介

沈艷 | 大數(shù)據(jù)分析五步法:以新經(jīng)濟指數(shù)為例

沈艷北京大學(xué)國家發(fā)展研究院/中國經(jīng)濟研究中心教授。沈艷教授于2003年于美國南加州大學(xué)取得經(jīng)濟學(xué)博士學(xué)位,是Econometric Society 會員和American Economic Association會員。沈艷教授目前還擔(dān)任教育部北京大學(xué)人力資本與國家政策研究中心副主任,中國數(shù)量經(jīng)濟學(xué)會常任理事,沈艷教授曾獲北京大學(xué)優(yōu)秀班主任的獎勵。沈艷教授還擔(dān)任Journal of Econometrics ,China Economic Review,Economic Development and Cultural Change等刊物的匿名審稿人。

關(guān)鍵字:谷歌回歸模型違約概率

本文摘自:北大國發(fā)院BiMBA

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 山东| 治县。| 巨鹿县| 闸北区| 丰镇市| 玉屏| 邳州市| 壤塘县| 开封市| 浙江省| 项城市| 黄平县| 河南省| 观塘区| 阳春市| 丹江口市| 巴里| 常山县| 灵台县| 泉州市| 保靖县| 梓潼县| 镇远县| 定南县| 丽水市| 昌吉市| 贡觉县| 社旗县| 阿拉善左旗| 慈溪市| 巴塘县| 清苑县| 南城县| 大邑县| 连山| 饶阳县| 忻州市| 赤城县| 巴里| 金阳县| 饶平县|