秋天是收獲的季節(jié)。8月27日,國家統(tǒng)計局科研所10樓會議室里充溢著濃厚的學(xué)術(shù)氣息,“用統(tǒng)計模型感受大數(shù)據(jù)的魅力”為主題的第十期青年學(xué)術(shù)沙龍活動如期舉辦。即將代表局機關(guān)參加全國統(tǒng)計建模大賽的科研所代表隊的李偉、董倩和孫娜娜,向大家展示了她們的參賽論文——《基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測》。科研所所長潘璠,副所長石方川,副司長級干部孫學(xué)光、余根錢以及科研所青年同志近20人參加了本次活動。
創(chuàng)新思路 勇于實踐
三位青年同志的論文前不久剛剛代表科研所在國家統(tǒng)計局機關(guān)第五屆“青聯(lián)杯”統(tǒng)計建模比賽中獲得二等獎,為了拿出更好的作品參加今年9月份的全國統(tǒng)計建模大賽,三位同志對論文進行了修改與補充,使論文更加嚴(yán)謹(jǐn),論據(jù)更加完善。
李偉博士首先從研究背景和研究思路、理論分析框、變量和數(shù)據(jù)描述以及房地產(chǎn)價格預(yù)測模型等四方面對參賽論文作了詳細(xì)的介紹。她認(rèn)為網(wǎng)絡(luò)搜索數(shù)據(jù)通常代表經(jīng)濟主體的預(yù)期、預(yù)示著經(jīng)濟主體的下一步經(jīng)濟行為,對其研究分析能夠得出經(jīng)濟主體行為的趨勢與規(guī)律。利用網(wǎng)絡(luò)搜索數(shù)據(jù)對房地產(chǎn)價格走勢進行預(yù)測,將是一種非常有效的工具和方法。為了解決房地產(chǎn)價格的時效性問題,她們嘗試?yán)冒俣人阉鲾?shù)據(jù)預(yù)測新建住宅銷售價格指數(shù)和二手住宅銷售價格指數(shù)。由于網(wǎng)絡(luò)搜索數(shù)據(jù)可以實時獲取,可以把影響價格變化的即時因素帶入預(yù)測模型,這樣在每月月初就可以得到上月的新房和二手房價格指數(shù),彌補了傳統(tǒng)統(tǒng)計數(shù)據(jù)信息發(fā)布滯后的問題,同時該預(yù)測數(shù)據(jù)也可以作為傳統(tǒng)房地產(chǎn)價格統(tǒng)計數(shù)據(jù)的有益補充和參考。
董倩博士以北京市二手房和新房價格預(yù)測為例,向大家詳細(xì)介紹了預(yù)測模型的構(gòu)建過程。本次建模比賽中,她們創(chuàng)新性地將百度關(guān)鍵詞搜索指數(shù)數(shù)據(jù)與官方公布的城市月度二手房住宅和新建商品房住宅價格指數(shù)相結(jié)合,利用交叉驗證技術(shù)和線性回歸、回歸樹、隨機森林、Bagging、m-Boosting、支持向量機、神經(jīng)網(wǎng)絡(luò)和混合線性回歸等8種模型,分別對北京、上海、廣州、南京、沈陽、西安6個大中城市的二手房和新房價格指數(shù)進行了擬合和預(yù)測,擬合結(jié)果與官方統(tǒng)計數(shù)據(jù)非常相近。結(jié)果表明網(wǎng)絡(luò)搜索指數(shù)能夠反映出各大中城市二手房和新房價格指數(shù)的變動情況,以及城市間的差異。
孫娜娜從創(chuàng)新與展望兩個方面闡述了該論文的研究亮點:采用網(wǎng)絡(luò)搜索數(shù)據(jù)進行預(yù)測不但具有較好的預(yù)測效果,而且每個被預(yù)測的城市采用交叉驗證技術(shù)分別建立模型進行預(yù)測,并能夠通過比較選取自己預(yù)測效果最優(yōu)的模型。為了彌補月度網(wǎng)絡(luò)搜索數(shù)據(jù)過少的不足,論文采用3折交叉驗證技術(shù),保證了預(yù)測結(jié)果的精確性與可靠性。由于百度搜索指數(shù)每日實時更新,因此基于她們的預(yù)測模型在每月1日即可得到上月的二手住宅和新建住宅銷售價格指數(shù)的預(yù)測數(shù),比官方統(tǒng)計數(shù)據(jù)提前了兩周。隨著網(wǎng)絡(luò)搜索指數(shù)數(shù)據(jù)量的積累,模型預(yù)測精度將會越來越高。這一研究思路和方法可以進一步拓展到月度公布數(shù)據(jù)的其他官方統(tǒng)計領(lǐng)域。
互動熱烈 學(xué)術(shù)氣濃
圍繞建模論文,與會者展開了熱烈的討論。
潘璠所長對三位同志的報告給予了充分肯定,在科研所不生產(chǎn)也不掌握大數(shù)據(jù)的情況下,三位同志能夠發(fā)揮各自所長、團結(jié)協(xié)作、克服困難,將網(wǎng)絡(luò)搜索數(shù)據(jù)與我國房地產(chǎn)價格指數(shù)聯(lián)系起來,具有很強的創(chuàng)新性,在8月7日的局機關(guān)報告會上得到了馬建堂局長的高度評價,稱其“應(yīng)用性強,達(dá)到相當(dāng)高的水平”、應(yīng)該評“局長獎”。
副司長級干部余根錢認(rèn)為,三位青年同志的建模論文具有創(chuàng)新的學(xué)術(shù)價值,從應(yīng)用角度考慮需要通過實踐來檢驗?zāi)P偷念A(yù)測效果,在數(shù)據(jù)變動比較大的情況下如果能表現(xiàn)出很好的預(yù)測能力,以此來說明模型對宏觀經(jīng)濟的適用性。
經(jīng)濟統(tǒng)計研究室副主任姜澍認(rèn)為,搜索關(guān)鍵詞的選取是一個難點,需要考慮如何將人的搜索行為細(xì)化為具體的關(guān)鍵詞。
如何建立起搜索數(shù)據(jù)與房價變動的邏輯關(guān)系?何強博士提出了自己的疑問,并以當(dāng)前流行的“冰桶挑戰(zhàn)”為例說明它使參與者體會“漸凍”的感受,所以能夠提升社會對“漸凍人”的關(guān)注。
馮蕾博士建議,有必要在建模前對搜索數(shù)據(jù)與房價變動的邏輯關(guān)系作出說明,并準(zhǔn)確表述模型與政府統(tǒng)計數(shù)據(jù)的驗證關(guān)系。
原鵬飛博士提出,搜索關(guān)鍵詞與房價的變動可能表現(xiàn)出正向或反向的關(guān)系,如何確立這種關(guān)系是需要突出的重點。
施鳳丹博士認(rèn)為,需要尋求房價與搜索量的真實關(guān)系,使文章可以從理論上站得住腳,結(jié)論和展望部分的論述需要謹(jǐn)慎一些,實事求是。
陶然博士則認(rèn)為,文中采用數(shù)據(jù)挖掘模型在大數(shù)據(jù)背景下更多的是從人們搜索行為與房價的相關(guān)性去考慮挖掘信息,而不是從討論搜索行為與房價漲跌的因果關(guān)系去實現(xiàn)傳統(tǒng)的統(tǒng)計建模。
谷彬博士建議,從提高模型實踐應(yīng)用的角度可以考慮將模型的預(yù)測功能模塊化與規(guī)范化,能夠提高理論方法的實踐應(yīng)用性。
針對大家的疑問和建議,三位同志一一作了解答和討論,并表示此次沙龍活動對她們進一步完善模型、提高論文質(zhì)量很有幫助。
潘璠所長最后總結(jié)說,“此次活動,是青年學(xué)術(shù)沙龍活動開展以來,討論、溝通、互動最充分、最熱烈的一次。我們要的就是這樣一種學(xué)術(shù)氣氛。”他表示,今后科研所青年同志應(yīng)當(dāng)積極參加統(tǒng)計建模和其他各種活動,充分展現(xiàn)青年統(tǒng)計科研人員將統(tǒng)計理論與實踐結(jié)合的新風(fēng)貌。
在這收獲的季節(jié),通過第十期青年學(xué)術(shù)沙龍活動,相信在場的每個人都收獲了很多。