精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

如何尋找并發(fā)掘地理大數(shù)據(jù)的價值?

責(zé)任編輯:editor004 |來源:企業(yè)網(wǎng)D1Net  2017-01-17 10:35:42 本文摘自:網(wǎng)絡(luò)大數(shù)據(jù)

如今,地理大數(shù)據(jù)產(chǎn)業(yè)在中國方興未艾。通過地理大數(shù)據(jù)為企業(yè)提供決策服務(wù)的GeoHey,是其中的代表。如何尋找并發(fā)掘地理大數(shù)據(jù)的價值。我們請來GeoHey的數(shù)據(jù)總監(jiān)高楠,分享了他對地理大數(shù)據(jù)這座金礦的“掘金秘籍”。

如何獲取“無處不在”的地理大數(shù)據(jù)?

我們先來說說如何獲取和清洗地理大數(shù)據(jù)。

作為一個互聯(lián)網(wǎng)用戶,你是否會留意到不少手機應(yīng)用在啟動時會向你發(fā)出獲得個人位置定位的請求?比如,你在馬路上打開喜馬拉雅的FM廣播聽個相聲,邊走邊聽的時候你的位置數(shù)據(jù)便被不斷采集起來,這些被采集的位置數(shù)據(jù),便是地理數(shù)據(jù),也是值得挖掘的對象。另外,現(xiàn)實中的地理單位,比如一條馬路,一棟房屋,它們也是一個個地理數(shù)據(jù),可以被采集。

當(dāng)我們把這些搜集起來的數(shù)據(jù)賦予維度并交叉應(yīng)用時,便產(chǎn)生了它的應(yīng)用價值。

  既然位置數(shù)據(jù)來源于互聯(lián)網(wǎng),那么我們就去互聯(lián)網(wǎng)上爬。

我們將這個過程設(shè)定為四個步驟:首先是開發(fā)爬蟲,我們會開發(fā)挖掘數(shù)據(jù)的爬蟲程序,這是我們的核心工具;在爬蟲程序設(shè)定之后,我們便設(shè)定策略,確定要抓取哪一方面的數(shù)據(jù),這也是我們的關(guān)鍵環(huán)節(jié);在策略設(shè)定好之后,我們便設(shè)定生產(chǎn)排程,說通俗點就是排好工期;最后獲得到我們想要的數(shù)據(jù)。

正如淘金需要過濾泥沙一樣,我們獲取到的數(shù)據(jù)其實有很多“廢渣”,會影響整體價值。清洗數(shù)據(jù)和獲取數(shù)據(jù)也是同樣重要。按照上述這套流程下來,我們的系統(tǒng)不僅可以獲得數(shù)據(jù),還可以清洗數(shù)據(jù)。

要做到數(shù)據(jù)去重和清洗,首先要保證數(shù)據(jù)的獲取量足夠大。此外,還對數(shù)據(jù)來源進(jìn)行評估,保證數(shù)據(jù)來源的“干凈”。

我們是一個僅16人的團(tuán)隊,所以處理數(shù)據(jù)更多是依靠機器而非人力完成。我們要賦予機器學(xué)習(xí)能力,即借助計算機強大的計算能力去發(fā)現(xiàn)更多的數(shù)據(jù)信息。

依靠機器,使我們保持了較高的工作效率。所需的數(shù)據(jù)最快半小時,最多1天就能將全部爬完。而這些數(shù)據(jù)清洗的工作也僅依靠3、4個人便能完成。

除了提高效率,機器學(xué)習(xí)還具備三個功能:

數(shù)據(jù)補全:從網(wǎng)上爬下來的數(shù)據(jù)很多質(zhì)量不高,而數(shù)據(jù)補全功能就是在當(dāng)數(shù)據(jù)不完整時,可以根據(jù)已有的數(shù)據(jù)去推測估算缺失的數(shù)據(jù);

新數(shù)據(jù):在缺少某種數(shù)據(jù)時,可以從已有的數(shù)據(jù)提取生產(chǎn)出新數(shù)據(jù)。就像通過影像數(shù)據(jù)可以提取建筑數(shù)據(jù);

數(shù)據(jù)生長:從現(xiàn)有的數(shù)據(jù)中,可以提取出某些數(shù)據(jù)內(nèi)在的規(guī)律,根據(jù)規(guī)律生產(chǎn)新數(shù)據(jù)。憑借完整的流程設(shè)置和機器學(xué)習(xí),目前我們獲得數(shù)據(jù)量是非常可觀的,僅以位置數(shù)據(jù)為例,目前GeoHey的位置數(shù)據(jù)總量將近8億,位置數(shù)據(jù)年平均增量達(dá)到了58%。同時,我們還對數(shù)據(jù)實行周期更新,更新頻率從小時到每季度不等。

當(dāng)數(shù)據(jù)被掌握了之后,我們可以用它做哪些事情呢?這就是一個發(fā)掘地理大數(shù)據(jù)價值的過程,我想通過三個案例來介紹。

1. 用大數(shù)據(jù)來展現(xiàn),哪家運營商的4G信號好?

如何用地理大數(shù)據(jù)判斷哪里的4G信號哪家強?作為非專業(yè)人士,面對這個問題很難回答。不過,我們通過挖掘地理數(shù)據(jù),能夠給出答案。

首先,萬事開頭找數(shù)據(jù)。

那么這些數(shù)據(jù)從哪里挖掘呢?我們都知道,作為通訊運營商,信號離不開通信基站的支持,每個通信基站上都有一個傳感器,傳輸?shù)男盘枖?shù)據(jù)便可以被我們獲取,來判斷移動、電信和聯(lián)通三家運營商的4G信號差異。

對此,我們采集了7500萬通信基站的數(shù)據(jù)。(DT君注:在現(xiàn)場,高楠還演示了上圖右邊的這些數(shù)據(jù)采集后的三維可視化效果。)

在不同區(qū)域不同運營商的4G信號強度是不同的。比如,電信的數(shù)據(jù)應(yīng)用最普遍且信號強度最高,而在北方尤其是東北地區(qū),聯(lián)通則更加強勢,信號也要明顯電信和移動兩家運營商。

除了判別不同地區(qū)4G信號的差異,我們還能看到不同運營商的信號覆蓋密集程度。以西南地區(qū)的貴州省為例,在當(dāng)?shù)爻艘苿右患要毚笾猓盘柕拿芗潭纫裁黠@要低于中東部地區(qū)。從側(cè)面來看,這也說明貴州省的基站分布不均,對于各大運營商而言,依舊存在競爭的可能。

所以,當(dāng)你吐槽4G信號不給力的時候,不妨拿出這張圖,看看你在哪個位置,在用哪家運營商的網(wǎng)絡(luò)服務(wù)。

2. 為商業(yè)服務(wù),大數(shù)據(jù)可以幫助星巴克開下一家店

地理大數(shù)據(jù)的商業(yè)應(yīng)用,則可以直觀體現(xiàn)在店鋪選址上。我們就拿星巴克如何開下一家店這個命題來舉例。

首先,要判斷星巴克此前的選址偏好以及消費人群結(jié)構(gòu),這樣就能了解你會在哪兒遇見星巴克,又能在星巴克遇上哪些人。

舉個栗子,交通便利的路段容易獲得星巴克青睞,而消費人群中又有20%的商旅乘客。

還記得之前提到的機器學(xué)習(xí)嗎?在星巴克選址上,我們能不能通過機器學(xué)習(xí)的方式去獲得選址的解決方案呢?

通過機器,以北京的星巴克門店為例,根據(jù)不同交通工具的通勤時間情況,我們找到了星巴克門店的輻射范圍,也能比較出各家門店輻射范圍的重疊(注:以下展現(xiàn)的是演示數(shù)據(jù))。

然后我們通過機器學(xué)習(xí),發(fā)現(xiàn)了星巴克的“朋友圈”(DT君注:也就是星巴克之前開的店,老是跟哪些其他品牌店鋪在一起)。

這個“朋友圈”的一些秘密,通過這張結(jié)構(gòu)圖可以體現(xiàn)出來(注:以下是演示數(shù)據(jù),不是真實分析結(jié)果):

上圖中,以星巴克為中心的朋友圈,連線越粗,關(guān)系越親密,比如肯德基與麥當(dāng)勞,兩者緊密相連,各自的產(chǎn)品也頗為接近。而麥當(dāng)勞和肯德基,和星巴克之間的關(guān)系則是比較弱的。相比較之下,同樣被人熟知的咖世家(COSTA),無論從客群構(gòu)成到店鋪規(guī)模,再到產(chǎn)品定位都與星巴克極為相似,兩家極有可能出現(xiàn)在鄰近的地方。

那么按照大數(shù)據(jù)的學(xué)習(xí)方式,如果我看到一家COSTA咖啡店附近沒有星巴克,是不是這里就可以開一家呢?

不過,GeoHey開發(fā)出的地理大數(shù)據(jù)產(chǎn)品,目前并不直接面向市場終端消費者,作為為企業(yè)決策提供地理大數(shù)據(jù)服務(wù)的機構(gòu),我們的產(chǎn)品是面向B端。這就意味著,從這座金礦中淘到的金,普通消費者要感受到地理大數(shù)據(jù)的價值,至少需要一道其他的“加工手續(xù)”。

3. 避免看病難,大數(shù)據(jù)提供一些解決方案

第三個案例,我們來看看大數(shù)據(jù)怎么提供幫助解決民生問題的方案。

看病難一直是個困擾多數(shù)人的問題。如何破解這個問題?

我們采集了全國三甲醫(yī)院的數(shù)據(jù),包括就醫(yī)數(shù)據(jù)、醫(yī)生資料情況等。根據(jù)這些采集的數(shù)據(jù)進(jìn)行分析,我們能夠得出這些結(jié)論:

首先是三甲醫(yī)院的地域分布不均,全國80%的三甲醫(yī)院被20%的城市瓜分。和三甲醫(yī)院分布不均的還有教授醫(yī)師的數(shù)量,20%的城市占據(jù)了全國85%的教授醫(yī)師資源。其實,大家普遍吐槽的看病難其實就是集中前往大城市的三甲醫(yī)院尋找教授醫(yī)師看病造成的。

另外,結(jié)合就醫(yī)數(shù)據(jù),我們還可以得出一些普遍性的結(jié)論,其實在一個城市里頭,忙碌的科室僅占全部科室的29%。在同城的醫(yī)生里頭,僅有22%的醫(yī)生會非常忙碌。

要避免看病難,如無大病,不一定要前往三甲醫(yī)院找教授醫(yī)師就診。

關(guān)鍵字:數(shù)據(jù)清洗數(shù)據(jù)提取

本文摘自:網(wǎng)絡(luò)大數(shù)據(jù)

x 如何尋找并發(fā)掘地理大數(shù)據(jù)的價值? 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

如何尋找并發(fā)掘地理大數(shù)據(jù)的價值?

責(zé)任編輯:editor004 |來源:企業(yè)網(wǎng)D1Net  2017-01-17 10:35:42 本文摘自:網(wǎng)絡(luò)大數(shù)據(jù)

如今,地理大數(shù)據(jù)產(chǎn)業(yè)在中國方興未艾。通過地理大數(shù)據(jù)為企業(yè)提供決策服務(wù)的GeoHey,是其中的代表。如何尋找并發(fā)掘地理大數(shù)據(jù)的價值。我們請來GeoHey的數(shù)據(jù)總監(jiān)高楠,分享了他對地理大數(shù)據(jù)這座金礦的“掘金秘籍”。

如何獲取“無處不在”的地理大數(shù)據(jù)?

我們先來說說如何獲取和清洗地理大數(shù)據(jù)。

作為一個互聯(lián)網(wǎng)用戶,你是否會留意到不少手機應(yīng)用在啟動時會向你發(fā)出獲得個人位置定位的請求?比如,你在馬路上打開喜馬拉雅的FM廣播聽個相聲,邊走邊聽的時候你的位置數(shù)據(jù)便被不斷采集起來,這些被采集的位置數(shù)據(jù),便是地理數(shù)據(jù),也是值得挖掘的對象。另外,現(xiàn)實中的地理單位,比如一條馬路,一棟房屋,它們也是一個個地理數(shù)據(jù),可以被采集。

當(dāng)我們把這些搜集起來的數(shù)據(jù)賦予維度并交叉應(yīng)用時,便產(chǎn)生了它的應(yīng)用價值。

  既然位置數(shù)據(jù)來源于互聯(lián)網(wǎng),那么我們就去互聯(lián)網(wǎng)上爬。

我們將這個過程設(shè)定為四個步驟:首先是開發(fā)爬蟲,我們會開發(fā)挖掘數(shù)據(jù)的爬蟲程序,這是我們的核心工具;在爬蟲程序設(shè)定之后,我們便設(shè)定策略,確定要抓取哪一方面的數(shù)據(jù),這也是我們的關(guān)鍵環(huán)節(jié);在策略設(shè)定好之后,我們便設(shè)定生產(chǎn)排程,說通俗點就是排好工期;最后獲得到我們想要的數(shù)據(jù)。

正如淘金需要過濾泥沙一樣,我們獲取到的數(shù)據(jù)其實有很多“廢渣”,會影響整體價值。清洗數(shù)據(jù)和獲取數(shù)據(jù)也是同樣重要。按照上述這套流程下來,我們的系統(tǒng)不僅可以獲得數(shù)據(jù),還可以清洗數(shù)據(jù)。

要做到數(shù)據(jù)去重和清洗,首先要保證數(shù)據(jù)的獲取量足夠大。此外,還對數(shù)據(jù)來源進(jìn)行評估,保證數(shù)據(jù)來源的“干凈”。

我們是一個僅16人的團(tuán)隊,所以處理數(shù)據(jù)更多是依靠機器而非人力完成。我們要賦予機器學(xué)習(xí)能力,即借助計算機強大的計算能力去發(fā)現(xiàn)更多的數(shù)據(jù)信息。

依靠機器,使我們保持了較高的工作效率。所需的數(shù)據(jù)最快半小時,最多1天就能將全部爬完。而這些數(shù)據(jù)清洗的工作也僅依靠3、4個人便能完成。

除了提高效率,機器學(xué)習(xí)還具備三個功能:

數(shù)據(jù)補全:從網(wǎng)上爬下來的數(shù)據(jù)很多質(zhì)量不高,而數(shù)據(jù)補全功能就是在當(dāng)數(shù)據(jù)不完整時,可以根據(jù)已有的數(shù)據(jù)去推測估算缺失的數(shù)據(jù);

新數(shù)據(jù):在缺少某種數(shù)據(jù)時,可以從已有的數(shù)據(jù)提取生產(chǎn)出新數(shù)據(jù)。就像通過影像數(shù)據(jù)可以提取建筑數(shù)據(jù);

數(shù)據(jù)生長:從現(xiàn)有的數(shù)據(jù)中,可以提取出某些數(shù)據(jù)內(nèi)在的規(guī)律,根據(jù)規(guī)律生產(chǎn)新數(shù)據(jù)。憑借完整的流程設(shè)置和機器學(xué)習(xí),目前我們獲得數(shù)據(jù)量是非常可觀的,僅以位置數(shù)據(jù)為例,目前GeoHey的位置數(shù)據(jù)總量將近8億,位置數(shù)據(jù)年平均增量達(dá)到了58%。同時,我們還對數(shù)據(jù)實行周期更新,更新頻率從小時到每季度不等。

當(dāng)數(shù)據(jù)被掌握了之后,我們可以用它做哪些事情呢?這就是一個發(fā)掘地理大數(shù)據(jù)價值的過程,我想通過三個案例來介紹。

1. 用大數(shù)據(jù)來展現(xiàn),哪家運營商的4G信號好?

如何用地理大數(shù)據(jù)判斷哪里的4G信號哪家強?作為非專業(yè)人士,面對這個問題很難回答。不過,我們通過挖掘地理數(shù)據(jù),能夠給出答案。

首先,萬事開頭找數(shù)據(jù)。

那么這些數(shù)據(jù)從哪里挖掘呢?我們都知道,作為通訊運營商,信號離不開通信基站的支持,每個通信基站上都有一個傳感器,傳輸?shù)男盘枖?shù)據(jù)便可以被我們獲取,來判斷移動、電信和聯(lián)通三家運營商的4G信號差異。

對此,我們采集了7500萬通信基站的數(shù)據(jù)。(DT君注:在現(xiàn)場,高楠還演示了上圖右邊的這些數(shù)據(jù)采集后的三維可視化效果。)

在不同區(qū)域不同運營商的4G信號強度是不同的。比如,電信的數(shù)據(jù)應(yīng)用最普遍且信號強度最高,而在北方尤其是東北地區(qū),聯(lián)通則更加強勢,信號也要明顯電信和移動兩家運營商。

除了判別不同地區(qū)4G信號的差異,我們還能看到不同運營商的信號覆蓋密集程度。以西南地區(qū)的貴州省為例,在當(dāng)?shù)爻艘苿右患要毚笾猓盘柕拿芗潭纫裁黠@要低于中東部地區(qū)。從側(cè)面來看,這也說明貴州省的基站分布不均,對于各大運營商而言,依舊存在競爭的可能。

所以,當(dāng)你吐槽4G信號不給力的時候,不妨拿出這張圖,看看你在哪個位置,在用哪家運營商的網(wǎng)絡(luò)服務(wù)。

2. 為商業(yè)服務(wù),大數(shù)據(jù)可以幫助星巴克開下一家店

地理大數(shù)據(jù)的商業(yè)應(yīng)用,則可以直觀體現(xiàn)在店鋪選址上。我們就拿星巴克如何開下一家店這個命題來舉例。

首先,要判斷星巴克此前的選址偏好以及消費人群結(jié)構(gòu),這樣就能了解你會在哪兒遇見星巴克,又能在星巴克遇上哪些人。

舉個栗子,交通便利的路段容易獲得星巴克青睞,而消費人群中又有20%的商旅乘客。

還記得之前提到的機器學(xué)習(xí)嗎?在星巴克選址上,我們能不能通過機器學(xué)習(xí)的方式去獲得選址的解決方案呢?

通過機器,以北京的星巴克門店為例,根據(jù)不同交通工具的通勤時間情況,我們找到了星巴克門店的輻射范圍,也能比較出各家門店輻射范圍的重疊(注:以下展現(xiàn)的是演示數(shù)據(jù))。

然后我們通過機器學(xué)習(xí),發(fā)現(xiàn)了星巴克的“朋友圈”(DT君注:也就是星巴克之前開的店,老是跟哪些其他品牌店鋪在一起)。

這個“朋友圈”的一些秘密,通過這張結(jié)構(gòu)圖可以體現(xiàn)出來(注:以下是演示數(shù)據(jù),不是真實分析結(jié)果):

上圖中,以星巴克為中心的朋友圈,連線越粗,關(guān)系越親密,比如肯德基與麥當(dāng)勞,兩者緊密相連,各自的產(chǎn)品也頗為接近。而麥當(dāng)勞和肯德基,和星巴克之間的關(guān)系則是比較弱的。相比較之下,同樣被人熟知的咖世家(COSTA),無論從客群構(gòu)成到店鋪規(guī)模,再到產(chǎn)品定位都與星巴克極為相似,兩家極有可能出現(xiàn)在鄰近的地方。

那么按照大數(shù)據(jù)的學(xué)習(xí)方式,如果我看到一家COSTA咖啡店附近沒有星巴克,是不是這里就可以開一家呢?

不過,GeoHey開發(fā)出的地理大數(shù)據(jù)產(chǎn)品,目前并不直接面向市場終端消費者,作為為企業(yè)決策提供地理大數(shù)據(jù)服務(wù)的機構(gòu),我們的產(chǎn)品是面向B端。這就意味著,從這座金礦中淘到的金,普通消費者要感受到地理大數(shù)據(jù)的價值,至少需要一道其他的“加工手續(xù)”。

3. 避免看病難,大數(shù)據(jù)提供一些解決方案

第三個案例,我們來看看大數(shù)據(jù)怎么提供幫助解決民生問題的方案。

看病難一直是個困擾多數(shù)人的問題。如何破解這個問題?

我們采集了全國三甲醫(yī)院的數(shù)據(jù),包括就醫(yī)數(shù)據(jù)、醫(yī)生資料情況等。根據(jù)這些采集的數(shù)據(jù)進(jìn)行分析,我們能夠得出這些結(jié)論:

首先是三甲醫(yī)院的地域分布不均,全國80%的三甲醫(yī)院被20%的城市瓜分。和三甲醫(yī)院分布不均的還有教授醫(yī)師的數(shù)量,20%的城市占據(jù)了全國85%的教授醫(yī)師資源。其實,大家普遍吐槽的看病難其實就是集中前往大城市的三甲醫(yī)院尋找教授醫(yī)師看病造成的。

另外,結(jié)合就醫(yī)數(shù)據(jù),我們還可以得出一些普遍性的結(jié)論,其實在一個城市里頭,忙碌的科室僅占全部科室的29%。在同城的醫(yī)生里頭,僅有22%的醫(yī)生會非常忙碌。

要避免看病難,如無大病,不一定要前往三甲醫(yī)院找教授醫(yī)師就診。

關(guān)鍵字:數(shù)據(jù)清洗數(shù)據(jù)提取

本文摘自:網(wǎng)絡(luò)大數(shù)據(jù)

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 肥东县| 无棣县| 牡丹江市| 昭觉县| 怀宁县| 乌苏市| 永靖县| 辽源市| 嫩江县| 霸州市| 门源| 永胜县| 兴文县| 团风县| 安福县| 清徐县| 勐海县| 宁远县| 东丰县| 长葛市| 榆树市| 湘潭市| 黄陵县| 隆德县| 高密市| 梧州市| 赤水市| 沅陵县| 商水县| 古丈县| 横峰县| 出国| 平远县| 绥芬河市| 萨迦县| 时尚| 青冈县| 兖州市| 波密县| 崇明县| 石首市|