精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

城市大數(shù)據(jù)的生態(tài)模型及應(yīng)用

責(zé)任編輯:editor005

作者:鄧暉

2016-05-11 14:02:21

摘自:大數(shù)據(jù)期刊

中國(guó)經(jīng)過(guò)改革開(kāi)放以來(lái)30多年的發(fā)展,城市化步伐不斷加快,每年有1500萬(wàn)人口進(jìn)入城市,如圖1所示。數(shù)據(jù)消費(fèi)者的支付通過(guò)大數(shù)據(jù)交易商的分成平臺(tái),使得數(shù)據(jù)生產(chǎn)者也獲得相應(yīng)的回報(bào),這樣整個(gè)生態(tài)就能夠自生自長(zhǎng),實(shí)現(xiàn)良性循環(huán)。

大數(shù)據(jù)

  1 引言

中國(guó)經(jīng)過(guò)改革開(kāi)放以來(lái)30多年的發(fā)展,城市化步伐不斷加快,每年有1500萬(wàn)人口進(jìn)入城市,如圖1所示。到2025年,中國(guó)將會(huì)有近三分之二的人口居住在城市,已經(jīng)進(jìn)入了一個(gè)城市社會(huì)。與此同時(shí),城市人口的增加帶來(lái)的交通擁堵、環(huán)境污染、資源過(guò)度消耗、各類突發(fā)事件增加等社會(huì)矛盾日益突出,各種“城市通病”與日俱增,城市管理難度加大,這對(duì)城市管理者的管理能力和服務(wù)水平提出了考驗(yàn)。城市要保持可持續(xù)發(fā)展越來(lái)越受到各種因素的制約,需要轉(zhuǎn)變方式、調(diào)整結(jié)構(gòu)、適應(yīng)日益增長(zhǎng)的人民生活方式、不斷解決突發(fā)性事件等問(wèn)題。人們?cè)谔剿髦幸庾R(shí)到,智慧城市是醫(yī)治“城市病”的最佳良藥。

圖 1 2000-2015 年全國(guó)城鎮(zhèn)人口數(shù)情況

為了規(guī)范和推動(dòng)智慧城市的健康發(fā)展,住房和城鄉(xiāng)建設(shè)部于2012年12月5日正式發(fā)布了“關(guān)于開(kāi)展國(guó)家智慧城市試點(diǎn)工作的通知”,并印發(fā)了《國(guó)家智慧城市試點(diǎn)暫行管理辦法》和《國(guó)家智慧城市(區(qū)、鎮(zhèn))試點(diǎn)指標(biāo)體系(試行)》兩個(gè)文件,正式啟動(dòng)了全國(guó)智慧城市建設(shè)高潮。到2015年公布的第三批試點(diǎn)名單,共計(jì)289個(gè)大小城市加入了試點(diǎn)城市范圍,住房和城鄉(xiāng)建設(shè)部智慧城市試點(diǎn)城市分布情況見(jiàn)表1。

智慧城市試點(diǎn)

  表 1 住房和城鄉(xiāng)建設(shè)部智慧城市試點(diǎn)城市分布情況

在一輪接一輪的智慧城市建設(shè)過(guò)程中,大數(shù)據(jù)技術(shù)在城市建設(shè)的應(yīng)用逐漸成為智慧城市建設(shè)的熱點(diǎn)之一。2015年中興通訊股份有限公司(以下簡(jiǎn)稱中興通訊)把“以大數(shù)據(jù)應(yīng)用為中心”的智慧城市建設(shè)稱為“智慧城市2.0”,從而與之前“以建設(shè)業(yè)務(wù)系統(tǒng)為中心”的智慧城市建設(shè)區(qū)分開(kāi)。

2 城市大數(shù)據(jù)生態(tài)模型

2.1 城市大數(shù)據(jù)

在長(zhǎng)期的城市建設(shè)與運(yùn)營(yíng)過(guò)程中,政府積累了大量的數(shù)據(jù),如經(jīng)濟(jì)、民生、交通、旅游、醫(yī)療、安全等各行各業(yè)的數(shù)據(jù)。同時(shí)也積累了大量的業(yè)務(wù)系統(tǒng)。以重慶市為例,包括51個(gè)部門(mén),平均每個(gè)部門(mén)有5~6個(gè)系統(tǒng),整個(gè)政府有近300個(gè)系統(tǒng)在運(yùn)行,如圖2所示。

重慶系統(tǒng)建設(shè)

  圖 2 重慶市應(yīng)用系統(tǒng)按建設(shè)級(jí)別分類

這些系統(tǒng)包含的數(shù)據(jù)涉及了城市的方方面面,其中蘊(yùn)藏的價(jià)值亟需有效的手段進(jìn)行挖掘與發(fā)現(xiàn)。

與互聯(lián)網(wǎng)公司所擁有的大數(shù)據(jù)不同,城市大數(shù)據(jù)具有自身的特點(diǎn),見(jiàn)表2。

表 2 城市大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的對(duì)比

城市大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)雖然各有不同,但可以互相補(bǔ)充,從而共同發(fā)揮更大的經(jīng)濟(jì)效益和社會(huì)效益。

2.2 大數(shù)據(jù)生態(tài)

大數(shù)據(jù)的潛在經(jīng)濟(jì)價(jià)值催生了大數(shù)據(jù)的交易。自2015年4月15日全國(guó)首家大數(shù)據(jù)交易所——貴陽(yáng)大數(shù)據(jù)交易所正式掛牌交易起,先后有北京大數(shù)據(jù)交易所、上海大數(shù)據(jù)交易所、廣州大數(shù)據(jù)交易所、陜西大數(shù)據(jù)交易所和長(zhǎng)江大數(shù)據(jù)交易所等機(jī)構(gòu)啟動(dòng),圍繞大數(shù)據(jù)交易開(kāi)始形成一個(gè)生態(tài)系統(tǒng),如圖3所示。

大數(shù)據(jù)交易模型

  圖 3 大數(shù)據(jù)交易生態(tài)系統(tǒng)模型

圍繞這個(gè)生態(tài)系統(tǒng)最外圍的是工具廠商,這些廠商提供大數(shù)據(jù)采集、轉(zhuǎn)換、存儲(chǔ)、分析、可視化等技術(shù)手段。Google、Cloudera、Amazon等公司為大數(shù)據(jù)的技術(shù)推動(dòng)做出了巨大貢獻(xiàn),同時(shí)大量的開(kāi)源社區(qū)和產(chǎn)品逐漸成為大數(shù)據(jù)技術(shù)潮流的中堅(jiān)力量。

處于生態(tài)中心位置的是大數(shù)據(jù)交易商。數(shù)據(jù)生產(chǎn)者為大數(shù)據(jù)交易商提供初級(jí)數(shù)據(jù),后者通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化把初級(jí)數(shù)據(jù)轉(zhuǎn)換成高級(jí)數(shù)據(jù)存儲(chǔ)在基礎(chǔ)設(shè)施運(yùn)營(yíng)商處。基礎(chǔ)設(shè)施運(yùn)營(yíng)商通過(guò)提供存儲(chǔ)服務(wù)和計(jì)算服務(wù)獲得市場(chǎng)地位,并從中衍生出PaaS運(yùn)營(yíng)商來(lái)減輕大數(shù)據(jù)交易商對(duì)技術(shù)的需求。

數(shù)據(jù)挖掘者通過(guò)基礎(chǔ)設(shè)施運(yùn)營(yíng)商提供的計(jì)算服務(wù),結(jié)合領(lǐng)域知識(shí)對(duì)高級(jí)大數(shù)據(jù)進(jìn)行挖掘。獲得的有價(jià)值成果通過(guò)大數(shù)據(jù)交易商的交易平臺(tái)提供給數(shù)據(jù)消費(fèi)者。這樣吸引更多的數(shù)據(jù)消費(fèi)者源源不斷地加入交易平臺(tái),提出更多的問(wèn)題并支付獲得的滿意答案,由此衍生出大數(shù)據(jù)咨詢商來(lái)引導(dǎo)大數(shù)據(jù)消費(fèi)者更好地消費(fèi)。

數(shù)據(jù)消費(fèi)者的支付通過(guò)大數(shù)據(jù)交易商的分成平臺(tái),使得數(shù)據(jù)生產(chǎn)者也獲得相應(yīng)的回報(bào),這樣整個(gè)生態(tài)就能夠自生自長(zhǎng),實(shí)現(xiàn)良性循環(huán)。

在真實(shí)世界里,一個(gè)企業(yè)可能兼有這個(gè)生態(tài)中的一部分、一個(gè)或多個(gè)角色,或者只專注與某個(gè)細(xì)分領(lǐng)域,如“中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟”就活動(dòng)在“咨詢”這個(gè)細(xì)分領(lǐng)域。

從大數(shù)據(jù)交易生態(tài)系統(tǒng)也可以看出,有些領(lǐng)域如“數(shù)據(jù)標(biāo)準(zhǔn)化”,多數(shù)有識(shí)之士覺(jué)得很重要,但標(biāo)準(zhǔn)化并沒(méi)有先行發(fā)展起來(lái)。究其原因就在于標(biāo)準(zhǔn)化其實(shí)是一個(gè)局部問(wèn)題而非全局問(wèn)題。另外,這個(gè)產(chǎn)業(yè)模型讓數(shù)據(jù)本身不需要發(fā)生大規(guī)模移動(dòng)或復(fù)制,避免了數(shù)據(jù)安全、個(gè)人因素、產(chǎn)權(quán)歸屬、初級(jí)或高級(jí)數(shù)據(jù)定價(jià)等復(fù)雜的社會(huì)問(wèn)題和商業(yè)倫理問(wèn)題,為持續(xù)進(jìn)行交易提供理論依據(jù)。

2.3 政府與數(shù)據(jù)交易商

在大數(shù)據(jù)交易這個(gè)生態(tài)系統(tǒng)里形成初始的生態(tài)平衡是非常關(guān)鍵的。在全國(guó)此起彼伏的智慧城市建設(shè)以及交易所設(shè)立的浪潮中,政府有天然的優(yōu)勢(shì)來(lái)孵化數(shù)據(jù)交易商角色,具體原因如下。

(1)政府是最大的數(shù)據(jù)生成者

如前所述,城市大數(shù)據(jù)基本都在政府手中,另一小部分在黨政機(jī)關(guān)或事業(yè)單位手中。另外,隨著智慧城市系統(tǒng)的建設(shè),政府手中的大數(shù)據(jù)會(huì)越來(lái)越完善,越來(lái)越動(dòng)態(tài)。

(2)政府是最大的數(shù)據(jù)消費(fèi)者

我國(guó)的社會(huì)治理模式是“大政府、小社會(huì)”的模式,要求政府對(duì)國(guó)計(jì)民生方方面面做好保障與服務(wù)工作。這些工作的順利開(kāi)展都離開(kāi)不科學(xué)決策,離不開(kāi)數(shù)據(jù)的支撐。隨著大數(shù)據(jù)價(jià)值的不斷發(fā)現(xiàn),政府治理的效率也將不斷完善。

(3)政府是城市公共設(shè)施的提供者

政府也將持續(xù)為每個(gè)城市的健康運(yùn)行提供必要的基礎(chǔ)設(shè)施,如交通、水利、學(xué)校、醫(yī)院、水電煤氣等。而信息基礎(chǔ)設(shè)施正在成為城市越來(lái)越重要的基礎(chǔ)設(shè)施之一。到2013年上半年,全國(guó)共規(guī)劃建設(shè)數(shù)據(jù)中心255個(gè),已投入使用173個(gè),總用地約713.2萬(wàn)平方米,總機(jī)房面積約400萬(wàn)平方米。

可見(jiàn),在大數(shù)據(jù)生態(tài)的5個(gè)核心角色中,政府已經(jīng)身兼3個(gè)角色。

另一方面,社會(huì)資本在目前的產(chǎn)業(yè)環(huán)境下承擔(dān)大數(shù)據(jù)交易商角色仍有很多挑戰(zhàn)。

大數(shù)據(jù)交易的法律法規(guī)、信息安全標(biāo)準(zhǔn)等宏觀政策還不完善,導(dǎo)致各種市場(chǎng)主體對(duì)參與大數(shù)據(jù)交易持觀望態(tài)度。

大數(shù)據(jù)交易還沒(méi)有看得見(jiàn)的成熟的商用模式,能否在預(yù)期的投資周期里獲得投資合理回報(bào)是一個(gè)很大的問(wèn)題。

由于大數(shù)據(jù)交易對(duì)象的高度技術(shù)化,如何吸引大規(guī)模的用戶,認(rèn)同交易物有所值,需要強(qiáng)大的信用支撐來(lái)鼓勵(lì)各種用戶先行嘗試。

在大數(shù)據(jù)產(chǎn)業(yè)初期,通過(guò)政府投資,其他社會(huì)資本參與成立數(shù)據(jù)交易商是一個(gè)比較現(xiàn)實(shí)的選擇。政府可以在實(shí)踐過(guò)程中打通產(chǎn)業(yè)各個(gè)環(huán)節(jié),迅速完成法律法規(guī)建設(shè),通過(guò)PPP(public-private-partnership,公私合作)模式、政府采購(gòu)服務(wù)以及財(cái)政補(bǔ)貼的方式來(lái)為新興產(chǎn)業(yè)提供資本和信用保證。

3 實(shí)踐案例

中興通訊股份有限公司和銀川市政府共建智慧城市是大數(shù)據(jù)生態(tài)系統(tǒng)產(chǎn)業(yè)模型的一個(gè)實(shí)踐案例。其中,中興軟創(chuàng)科技股份有限公司作為數(shù)據(jù)挖掘者參與了銀川市城市大數(shù)據(jù)的合作開(kāi)發(fā);銀川市政府承擔(dān)數(shù)據(jù)提供者和數(shù)據(jù)消費(fèi)者的角色;銀川市與中興通訊合作組建的中興(銀川)智慧產(chǎn)業(yè)有限公司承擔(dān)了交易商和基礎(chǔ)設(shè)施運(yùn)營(yíng)商的角色。合作開(kāi)發(fā)過(guò)程主要圍繞“基礎(chǔ)設(shè)施、技術(shù)架構(gòu)、獲取數(shù)據(jù)、分析列表、分析人才、分析過(guò)程和決策應(yīng)用”7個(gè)方面展開(kāi)。

3.1 基礎(chǔ)設(shè)施

在目前的技術(shù)條件下,獲得城市大數(shù)據(jù)運(yùn)營(yíng)所需的基礎(chǔ)設(shè)施其技術(shù)困難不大。以銀川市為例,從動(dòng)土開(kāi)工到大數(shù)據(jù)中心投入使用,整個(gè)工期不到一年,總體成本對(duì)于一個(gè)城市而言不高。也可以采取租賃互聯(lián)網(wǎng)公司數(shù)據(jù)中心的方式,但考慮數(shù)據(jù)安全、運(yùn)維成本、區(qū)位優(yōu)勢(shì)等因素后,城市自建大數(shù)據(jù)中心仍然是主流選擇。

3.2 技術(shù)架構(gòu)

滿足城市大數(shù)據(jù)開(kāi)發(fā)需要的技術(shù)平臺(tái)也不難搭建。以筆者研究團(tuán)隊(duì)的經(jīng)驗(yàn),這個(gè)平臺(tái)應(yīng)該包括大數(shù)據(jù)采集器、數(shù)據(jù)中心、主數(shù)據(jù)管理、大數(shù)據(jù)分析器、大數(shù)據(jù)服務(wù)器、可視化服務(wù)器、大數(shù)據(jù)客戶端7個(gè)部分,技術(shù)才算是比較完整的,如圖4所示。

圖 4 滿足城市大數(shù)據(jù)開(kāi)發(fā)所需要的技術(shù)平臺(tái)架構(gòu)

大數(shù)據(jù)采集器能夠?qū)崿F(xiàn)海量數(shù)據(jù)的收集,不管是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),文本、語(yǔ)言、視頻都能實(shí)現(xiàn)數(shù)據(jù)的采集、清洗、整合、轉(zhuǎn)換和裝載,這些數(shù)據(jù)最終存儲(chǔ)在數(shù)據(jù)中心。

數(shù)據(jù)中心從軟件與硬件層面實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的存儲(chǔ)和訪問(wèn),同時(shí)注重能耗與安全。主數(shù)據(jù)管理則實(shí)現(xiàn)數(shù)據(jù)的編目、管理、授權(quán)、共享和交換,維護(hù)城市數(shù)據(jù)模型,形成五大庫(kù)(即人口庫(kù)、法人庫(kù)、地理信息庫(kù)、建筑物庫(kù)和宏觀經(jīng)濟(jì)庫(kù)),并維護(hù)各自的過(guò)程庫(kù)、業(yè)務(wù)數(shù)據(jù)庫(kù)和主題應(yīng)用庫(kù)等。

大數(shù)據(jù)分析器根據(jù)問(wèn)題、目標(biāo),設(shè)計(jì)出分析模型及數(shù)據(jù)處理、訓(xùn)練、檢驗(yàn)過(guò)程,將設(shè)計(jì)好的藍(lán)圖交給大數(shù)據(jù)服務(wù)器計(jì)算。大數(shù)據(jù)服務(wù)器管理所有的計(jì)算資源,實(shí)現(xiàn)分布式計(jì)算、海量數(shù)據(jù)即時(shí)處理。可視化服務(wù)器把大數(shù)據(jù)分析結(jié)果轉(zhuǎn)換成圖形,直觀地告訴客戶所擁有數(shù)據(jù)的形態(tài)和關(guān)鍵特征,這些圖形最終通過(guò)大數(shù)據(jù)客戶端向用戶呈現(xiàn)。

大數(shù)據(jù)客戶端包括如下3類。

數(shù)據(jù)服務(wù)平臺(tái):面向公眾,以網(wǎng)站的形式向公眾提供大數(shù)據(jù)開(kāi)放服務(wù),鼓勵(lì)大眾參與城市服務(wù)。

決策服務(wù)平臺(tái):面向各級(jí)領(lǐng)導(dǎo),通過(guò)圖表方式呈現(xiàn)經(jīng)濟(jì)、民生等數(shù)據(jù)的分析結(jié)果。

管理服務(wù)平臺(tái):面向政府工作人員,通過(guò)縮放地圖、拉動(dòng)時(shí)間線來(lái)查看其感興趣的數(shù)據(jù),如街道主任可以限定自己所處街道查看人口出生率,而同級(jí)教育主任可能更關(guān)心掃盲率。

3.3 獲取數(shù)據(jù)

在城市大數(shù)據(jù)開(kāi)發(fā)過(guò)程中,真正的困難是從獲取數(shù)據(jù)開(kāi)始的。從產(chǎn)業(yè)模型角度看,屬于培育大數(shù)據(jù)生產(chǎn)者的工作。

首先,政府部門(mén)開(kāi)發(fā)自己的數(shù)據(jù)意愿很低。這其中的原因非常多,包括政策上的顧慮、部門(mén)立場(chǎng)的考慮以及公開(kāi)數(shù)據(jù)可能帶來(lái)的種種問(wèn)題和對(duì)變化的擔(dān)憂。在這些因素里,數(shù)據(jù)安全是一個(gè)繞不開(kāi)的話題。2015年刑法修正案在信息安全領(lǐng)域明確擴(kuò)大了犯罪主體的適用范圍,使得部門(mén)主要領(lǐng)導(dǎo)和相關(guān)負(fù)責(zé)人都不愿意承擔(dān)因數(shù)據(jù)泄漏風(fēng)險(xiǎn)引發(fā)的連帶責(zé)任。為了讓政府部門(mén)的數(shù)據(jù)能夠更有效地共享,除了技術(shù)上不斷提高,加大數(shù)據(jù)保護(hù)的力度之外,在法律、制度上進(jìn)一步細(xì)化和松綁已成為不可缺失的一環(huán)。商業(yè)上的創(chuàng)新也比較關(guān)鍵,比如考慮一種保險(xiǎn)制度來(lái)解除大數(shù)據(jù)共享過(guò)程中所引發(fā)的安全責(zé)任風(fēng)險(xiǎn)。

其次,數(shù)據(jù)預(yù)處理(即把低級(jí)數(shù)據(jù)加工成高級(jí)數(shù)據(jù))的工作量非常大。一方面,政府的系統(tǒng)建設(shè)過(guò)于分散,都是大量的小廠商開(kāi)發(fā)出來(lái)的,數(shù)據(jù)規(guī)范性一開(kāi)始就不高;另一方面,這些政府系統(tǒng)一開(kāi)始沒(méi)有考慮向大數(shù)據(jù)分析優(yōu)化,缺失數(shù)據(jù)嚴(yán)重,而不同系統(tǒng)之間的數(shù)據(jù)一致性更加沒(méi)有保障。這就要求廠商花出大量的時(shí)間進(jìn)行數(shù)據(jù)查漏補(bǔ)缺,通過(guò)不同的數(shù)據(jù)源進(jìn)行相互驗(yàn)證來(lái)獲得更加完整、準(zhǔn)確的數(shù)據(jù)集。在這個(gè)預(yù)處理過(guò)程中,本身也有一些大數(shù)據(jù)技術(shù)在其中應(yīng)用,比如通過(guò)數(shù)據(jù)分析來(lái)判斷哪些數(shù)據(jù)集準(zhǔn)確性更高,從而替換其他重復(fù)數(shù)據(jù)。

另外,數(shù)據(jù)格式五花八門(mén),有很原始的表格、文本數(shù)據(jù),也有紙質(zhì)數(shù)據(jù),需要通過(guò)OCR掃描識(shí)別入庫(kù)。

3.4 分析列表

有了數(shù)據(jù)之后,接下來(lái)就是要有分析目標(biāo)。從產(chǎn)業(yè)模型角度看,屬于培育大數(shù)據(jù)消費(fèi)者的工作。

在培育消費(fèi)者方面,目前比較新穎的做法就是大數(shù)據(jù)競(jìng)賽。例如,2015年8月在上海舉行的開(kāi)放數(shù)據(jù)創(chuàng)新應(yīng)用大賽,獎(jiǎng)金最高達(dá)20萬(wàn)元。

傳統(tǒng)的做法是需求調(diào)研,通過(guò)和各委(員會(huì))、辦(公室)、局座談來(lái)發(fā)現(xiàn)他們工作中的難題,并從中找到大數(shù)據(jù)可以勝任的問(wèn)題列表。這種方式由于信息不對(duì)稱,導(dǎo)致效率比較低。因此,在選擇部門(mén)時(shí)應(yīng)該考慮部門(mén)的業(yè)務(wù)特點(diǎn)、部門(mén)積極性和領(lǐng)導(dǎo)人風(fēng)格來(lái)安排優(yōu)先次序。

3.5 分析人才

企業(yè)獲得合格的大數(shù)據(jù)分析人才不是一件容易的事情,主要是因?yàn)榇髷?shù)據(jù)分析人員不僅要熟悉大數(shù)據(jù)工具、技術(shù),還需要精通數(shù)理統(tǒng)計(jì)以及有足夠的社會(huì)通識(shí),才能通過(guò)一層層數(shù)據(jù)關(guān)聯(lián)關(guān)系找出問(wèn)題的答案。

一種可行的辦法是通過(guò)2~3個(gè)小團(tuán)隊(duì)高效協(xié)作的方式來(lái)解決,類似“戚家軍”的戰(zhàn)斗組織形態(tài),這樣可以整體降低對(duì)人才的需求門(mén)檻,使得產(chǎn)業(yè)模型里的數(shù)據(jù)挖掘者可以規(guī)模化。

3.6 分析過(guò)程

分析人員在針對(duì)具體問(wèn)題進(jìn)行分析前要學(xué)習(xí)很多算法,除此之外還要關(guān)注如下重要的問(wèn)題。

(1)評(píng)估方法是關(guān)鍵

算法要在新數(shù)據(jù)上的表現(xiàn)和在樣本數(shù)據(jù)上的表現(xiàn)幾乎一樣好。比較好的做法是把數(shù)據(jù)集一分為二,一部分用于訓(xùn)練模型,一部分用于模型評(píng)估。交叉驗(yàn)證,觀察算法的穩(wěn)定性。如果算法不能穩(wěn)定下來(lái),那么結(jié)果是非常可疑的。因?yàn)榉?wù)的領(lǐng)域是公共服務(wù)領(lǐng)域,如果一旦錯(cuò)誤執(zhí)行,就會(huì)存在很大危害。另外,訓(xùn)練模型也不能訓(xùn)練過(guò)度,避免出現(xiàn)過(guò)度擬合的問(wèn)題。

(2)特征提取是根本

分析人員不要迷信算法,大多數(shù)復(fù)雜算法效果大同小異。但要確保完全理解這些等價(jià)算法中的一種,然后一直用下去。

在分析過(guò)程中如果能找到合適的特征,對(duì)于達(dá)到分析目標(biāo)所需的樣本數(shù)據(jù)量就能大大縮減。數(shù)據(jù)分析人員需要完整地掌握各種特征工程來(lái)快速找到樣本數(shù)據(jù)的特征向量。如果分析人員非常懂業(yè)務(wù),也可以彌補(bǔ)特征工程經(jīng)驗(yàn)不足的短板。特征提取是大數(shù)據(jù)分析非常重要的成功因素。

(3)時(shí)間瓶頸是模型訓(xùn)練,而不是數(shù)據(jù)集規(guī)模

在模型訓(xùn)練過(guò)程中,需要花費(fèi)大量的精力進(jìn)行參數(shù)優(yōu)化,從而得出比較合理的解。在承諾給政府部門(mén)一個(gè)分析結(jié)果之前,應(yīng)該充分留有這部分的時(shí)間。

另外,還有“數(shù)據(jù)自大”問(wèn)題,很多人拿到了數(shù)據(jù)以為很大,其實(shí)這只是很小的部分,但他自己不知道,所以結(jié)果會(huì)出現(xiàn)偏差。還有就是算法演化問(wèn)題和數(shù)據(jù)生產(chǎn)者的看不見(jiàn)的動(dòng)機(jī),這些都會(huì)導(dǎo)致分析結(jié)果和實(shí)際出入較大,分析時(shí)需要仔細(xì)甄別。

3.7 決策應(yīng)用

當(dāng)數(shù)據(jù)分析人員把一個(gè)分析結(jié)構(gòu)給政府相關(guān)部門(mén),報(bào)告里面的結(jié)論是否就會(huì)很快被采納?其實(shí)不一定。分析結(jié)果不能及時(shí)應(yīng)用主要包括如下原因。

(1)大數(shù)據(jù)分析透明度不足

大數(shù)據(jù)分析由于算法上的艱深難懂,除專業(yè)人士之外,其他人很難搞懂,導(dǎo)致最終的分析結(jié)果很難證明其結(jié)果是正確的、中間的分析過(guò)程是可靠的,使得政府不是非常愿意主動(dòng)采信這樣的分析結(jié)果。

(2)缺乏第三方機(jī)構(gòu)的驗(yàn)證

如果有第三方機(jī)構(gòu)驗(yàn)證也能促進(jìn)政府放心使用大數(shù)據(jù)分析結(jié)果,使政府決策更具科學(xué)性。但企業(yè)因?yàn)樯虡I(yè)機(jī)密方面的原因,不愿意公開(kāi)分析過(guò)程中的數(shù)據(jù)模型,導(dǎo)致第三方?jīng)]有合適的驗(yàn)證方式。

(3)多方位分析結(jié)果相互不支持

有時(shí)確實(shí)會(huì)出現(xiàn)多個(gè)分析結(jié)果打架的情況,這時(shí)候需要仔細(xì)排查,分析是數(shù)據(jù)上的原因還是算法上的原因。但有時(shí)這樣的分析結(jié)果沒(méi)有及時(shí)發(fā)現(xiàn)就報(bào)給政府部門(mén),將導(dǎo)致相關(guān)部門(mén)對(duì)分析結(jié)果的可信度更加擔(dān)憂。

如何提高大數(shù)據(jù)分析結(jié)果的可信度,筆者認(rèn)為可行的辦法是改變應(yīng)用方式。由傳統(tǒng)的“報(bào)告式”結(jié)果呈現(xiàn)轉(zhuǎn)變?yōu)?ldquo;探詢式”結(jié)果呈現(xiàn),中興軟創(chuàng)科技股份有限公司在這方面正在進(jìn)行較大的技術(shù)創(chuàng)新。例如,對(duì)政府行政審批數(shù)據(jù)進(jìn)行了一個(gè)預(yù)測(cè)分析,通過(guò)KNN回歸模型來(lái)預(yù)測(cè)每一類行政審批事項(xiàng)當(dāng)前最合理的辦件承諾時(shí)間。這個(gè)承諾時(shí)間是動(dòng)態(tài)變化并適配外部環(huán)境變化(如收件量、工作人員狀況、時(shí)節(jié)、社會(huì)熱點(diǎn)等)的,從而讓這個(gè)時(shí)間更加科學(xué)。

4 結(jié)束語(yǔ)

本文介紹了筆者在城市大數(shù)據(jù)開(kāi)發(fā)方面的一些經(jīng)驗(yàn)。這個(gè)領(lǐng)域還有很多重要問(wèn)題需要一一面對(duì),如能耗與污染、信息模型與標(biāo)準(zhǔn)庫(kù)、可靠性與可用性等。在工作開(kāi)展的過(guò)程中會(huì)遇到很多現(xiàn)實(shí)困難,但更多的是解決辦法。其中,發(fā)展大數(shù)據(jù)生成者和消費(fèi)者并建立完整生態(tài)依然是發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的重中之重。

國(guó)務(wù)院發(fā)布了《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》,中國(guó)的大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)勢(shì)不可擋,必將開(kāi)始一個(gè)新的智慧城市時(shí)代。

End.

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 静宁县| 团风县| 亳州市| 商城县| 安庆市| 石家庄市| 高要市| 景泰县| 漳平市| 收藏| 襄城县| 武穴市| 遵义市| 若尔盖县| 天全县| 大足县| 九台市| 滦南县| 六盘水市| 黔东| 普格县| 庐江县| 太白县| 绍兴县| 抚宁县| 石首市| 油尖旺区| 峨眉山市| 麻阳| 黑山县| 五华县| 页游| 洞头县| 南召县| 信阳市| 星子县| 新绛县| 陇西县| 潮州市| 柳林县| 保靖县|