精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

美國大數(shù)據(jù)產(chǎn)業(yè)地圖和數(shù)據(jù)科學(xué)家必備工具-數(shù)據(jù)源

責(zé)任編輯:editor005 |來源:企業(yè)網(wǎng)D1Net  2016-01-14 14:04:43 本文摘自:199IT

數(shù)據(jù)專家不能只生活在R語言或Excel表格里。他們需要工具來獲得質(zhì)量拔尖且可用于預(yù)測(cè)分析的數(shù)據(jù)。其實(shí)我覺得這正是統(tǒng)計(jì)學(xué)家和數(shù)據(jù)專家的區(qū)別所在。在我看來,統(tǒng)計(jì)學(xué)家 使用數(shù)據(jù)進(jìn)行回歸分析。而 數(shù)據(jù)專家 需要切實(shí)獲取數(shù)據(jù)、進(jìn)行回歸分析、溝通結(jié)果、展示模式,并超越所在機(jī)構(gòu)當(dāng)時(shí)的局限,立足于制高點(diǎn)帶領(lǐng)大家尋求切實(shí)可行的突破發(fā)展。鑒于他們需要統(tǒng)籌整個(gè)數(shù)據(jù)通道,我希望這個(gè)數(shù)據(jù)生態(tài)系統(tǒng)可以羅列出數(shù)據(jù)專家門常用的重要工具和使用方法,以及工具之間的交互聯(lián)系。

  第一部分:數(shù)據(jù)源

數(shù)據(jù)是整個(gè)數(shù)據(jù)生態(tài)系統(tǒng)的源頭。總的來說,數(shù)據(jù)源可分為數(shù)據(jù)庫、應(yīng)用和第三方數(shù)據(jù)三類。

1,數(shù)據(jù)庫

結(jié)構(gòu)化數(shù)據(jù)庫早于非結(jié)構(gòu)化數(shù)據(jù)庫出現(xiàn)。結(jié)構(gòu)化數(shù)據(jù)庫每年有約250億美元的市場(chǎng),你可以在數(shù)據(jù)生態(tài)系統(tǒng)圖里看到眾所周知的Oracle,和一些新創(chuàng)公司譬如MemSQL等。結(jié)構(gòu)化數(shù)據(jù)庫儲(chǔ)存有限的數(shù)據(jù)列,一般由結(jié)構(gòu)化查詢語言(SQL)運(yùn)行,用于數(shù)據(jù)可靠完善至關(guān)重要的領(lǐng)域,比如說財(cái)政和運(yùn)營(yíng)。

對(duì)結(jié)構(gòu)化數(shù)據(jù)庫有一個(gè)重要假設(shè),那就是查詢數(shù)據(jù)時(shí)必須能得到一致且完善的結(jié)果。想一想誰絕對(duì)需要這樣一種結(jié)構(gòu)化數(shù)據(jù)庫?對(duì)了,就是你的銀行。它們存儲(chǔ)賬戶信息、個(gè)人姓名、借款等等,必須隨時(shí)分毫不差地知道你賬戶中的金額。

而另外一種則是非結(jié)構(gòu)化數(shù)據(jù)庫。情理之中,非結(jié)構(gòu)化數(shù)據(jù)庫是由數(shù)據(jù)專家們開拓的,因?yàn)閿?shù)據(jù)專家眼中的數(shù)據(jù)與賬戶并不相同。數(shù)據(jù)專家不太在意查詢結(jié)果絕對(duì)一致,他們更關(guān)注數(shù)據(jù)的靈活性。因此, 非結(jié)構(gòu)化數(shù)據(jù)在許多方面降低了對(duì)數(shù)據(jù)存儲(chǔ)和查詢的要求 。

很多非結(jié)構(gòu)化數(shù)據(jù)庫是谷歌獲得成功的直接產(chǎn)物。谷歌嘗試把互聯(lián)網(wǎng)存儲(chǔ)在數(shù)據(jù)庫中,其野心和工程之龐大可想而知。MapReduce是一種用于這種數(shù)據(jù)庫的技術(shù),雖然它一定程度上沒有結(jié)構(gòu)化查詢語言 (SQL)那么強(qiáng)大,但是 用戶可以依據(jù)需要來調(diào)整和擴(kuò)充它們的數(shù)據(jù) 。MapReduce的數(shù)據(jù)使用甚至已經(jīng)超出了谷歌的初始預(yù)期。比如現(xiàn)在谷歌可以在所有網(wǎng)站間查詢,并根據(jù)網(wǎng)站之間的互相鏈接來調(diào)整搜索結(jié)果。這種可量化的靈活查詢使谷歌獲得了巨大的競(jìng)爭(zhēng)優(yōu)勢(shì),因此雅虎和其他公司以巨額投資來開發(fā)這種技術(shù)的開源版本,名叫Hadoop。

此外,非結(jié)構(gòu)化數(shù)據(jù)庫通常所需的 儲(chǔ)存空間通常更小 。在過去數(shù)據(jù)存儲(chǔ)十分昂貴,因此幾年前,一些主要的互聯(lián)網(wǎng)公司不得不每隔幾個(gè)月就清空一次數(shù)據(jù)庫。現(xiàn)在這種情況已難以想象了。 從強(qiáng)大的推薦引擎,到世界級(jí)的翻譯系統(tǒng),到令人難以置信的存貨管理,都建立于這些數(shù)據(jù)之上。

非結(jié)構(gòu)化數(shù)據(jù)庫一般來說沒有結(jié)構(gòu)化數(shù)據(jù)庫那么精確,但對(duì)于許多應(yīng)用(尤其是數(shù)據(jù)科學(xué)界),這個(gè)折衷是值得的。舉例來說,

比如你的非結(jié)構(gòu)化數(shù)據(jù)庫在100個(gè)機(jī)器上運(yùn)行,但是其中有一個(gè)當(dāng)機(jī)了。這時(shí)你僅用99臺(tái)機(jī)器(而非100臺(tái))來決定向用戶推薦觀看一部特定的電影,也完全可行。這種類型的數(shù)據(jù)庫看重靈活性,量化以及速度,哪怕不能隨時(shí)保證完全精確。

還有一個(gè)更有名的例子。一個(gè)軟件公司創(chuàng)建了一個(gè)基于Hadoop的非結(jié)構(gòu)化數(shù)據(jù)庫軟件Cloudera。來看看它有多大的成長(zhǎng)空間吧:7年前,我接到風(fēng)投的電話,他們預(yù)期Cloudera在全球有10到15家公司的市場(chǎng),去年Cloudera已獲得了將近10億美元的融資。 隨著數(shù)據(jù)專家取代財(cái)務(wù)和會(huì)計(jì),成為最主要的數(shù)據(jù)消費(fèi)者,數(shù)據(jù)庫將會(huì)越來越走進(jìn)每一個(gè)人的生活 。

2,商業(yè)應(yīng)用

十年前,沒有人想過能把重要的商業(yè)數(shù)據(jù)存在云端,如見這卻早已成為了現(xiàn)實(shí)。這也許是商業(yè)的IT基礎(chǔ)結(jié)構(gòu)的最大轉(zhuǎn)變之處。 我在數(shù)據(jù)庫生態(tài)系統(tǒng)中列出了四種主要的商業(yè)應(yīng)用,分別是銷售、營(yíng)銷、產(chǎn)品和消費(fèi)者,每一種功能都有多種SaaS應(yīng)用可供選擇。

SalesForce 應(yīng)該是首先掀起這股趨勢(shì)的并最先獲得成功的。他們把軟件開發(fā)的目標(biāo)人群是終端用戶(銷售團(tuán)隊(duì)),而非單個(gè)的首席技術(shù)官。這對(duì)他們的用戶十分有用,在此過程中,大家也能看到公司客戶能夠信任地把重要公司數(shù)據(jù)放在云端。 銷售數(shù)據(jù)不再存在于用戶自己安裝的內(nèi)部數(shù)據(jù)庫,而是被放在云端,由致力于保證數(shù)據(jù)可用且穩(wěn)定的云端公司提供服務(wù)。

其他公司也紛紛效仿這種做法。如今基本上每個(gè)商業(yè)部門都有一個(gè)對(duì)應(yīng)的數(shù)據(jù)應(yīng)用。

Marketo存儲(chǔ)營(yíng)銷數(shù)據(jù),

MailChimp存儲(chǔ)電子郵件,

Optimizely存儲(chǔ)A/B測(cè)試數(shù)據(jù),

Zendesk存儲(chǔ)顧客滿意度,諸如此類。

為什么這是相關(guān)的呢?如今每個(gè)商業(yè)部門都有強(qiáng)大的數(shù)據(jù)庫,由數(shù)據(jù)專家分析并用于預(yù)測(cè)分析。數(shù)據(jù)量很大,卻零散地分布在多個(gè)應(yīng)用之中。比如說你在SugarCRM 中查看某個(gè)消費(fèi)者的信息,但是當(dāng)你想知道這名顧客的服務(wù)記錄時(shí),需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的賬單,則要去查Xero。所有的數(shù)據(jù)都被存放在不同的地點(diǎn),網(wǎng)站和數(shù)據(jù)庫中。 商業(yè)數(shù)據(jù)被轉(zhuǎn)移到了云端,可以存放更多的數(shù)據(jù)了,但是這些數(shù)據(jù)被零散地存放在全世界的不同服務(wù)器的不同應(yīng)用里。

3,第三方數(shù)據(jù)

第三方數(shù)據(jù)出現(xiàn)得比結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)庫都早得多。Dun & Bradstreet從1841年就開始賣數(shù)據(jù)了。隨著數(shù)據(jù)對(duì)每個(gè)機(jī)構(gòu)都愈發(fā)重要,這個(gè)領(lǐng)域也將會(huì)獲得長(zhǎng)足的發(fā)展。 在數(shù)據(jù)庫生態(tài)系統(tǒng)圖中,我大體把第三方數(shù)據(jù)分成四個(gè)領(lǐng)域,分別是

商業(yè)信息數(shù)據(jù),

社交媒體數(shù)據(jù),

網(wǎng)頁爬蟲和

公開數(shù)據(jù)。

3.1,商業(yè)信息數(shù)據(jù)

商業(yè)信息數(shù)據(jù)開始最早。 我上面提到了Dun & Broadstreet,商業(yè)數(shù)據(jù)購買對(duì)許多商業(yè)機(jī)構(gòu)來說都至關(guān)重要。商業(yè)數(shù)據(jù)能回答所有B2B公司至關(guān)重要的問題:我們的銷售團(tuán)隊(duì)該找誰談?如今,這些數(shù)據(jù)更被擴(kuò)展應(yīng)用至網(wǎng)上地圖和高頻交易等領(lǐng)域。

新創(chuàng)的數(shù)據(jù)賣方如Factual,不僅售賣商業(yè)數(shù)據(jù),更傾向于從這些高盈利的新型領(lǐng)域起步。

3.2,社交媒體數(shù)據(jù)

社交媒體數(shù)據(jù)雖然是新興產(chǎn)物,但發(fā)展很快。

通過智能PR公司對(duì)社交媒體中的文本作情感分析,營(yíng)銷人員能夠切實(shí)地了解到品牌熱度與影響力,并有效評(píng)估品牌價(jià)值。

你可以從Radian6 和DatSift里看到全部細(xì)節(jié)。

3.3,網(wǎng)絡(luò)爬蟲

接下來我們來看看網(wǎng)絡(luò)爬蟲,我個(gè)人認(rèn)為這是一個(gè)很有發(fā)展?jié)摿Φ念I(lǐng)域。如果能夠把所有網(wǎng)站都作為數(shù)據(jù)源,由數(shù)據(jù)科學(xué)團(tuán)隊(duì)發(fā)展和分析,真不知道還有多少新型商業(yè)和技術(shù)會(huì)由此而生。如今從事網(wǎng)絡(luò)爬蟲的重要公司包括 import.io和kimono,我認(rèn)為這個(gè)領(lǐng)域?qū)⒃诮酉聛韼啄瓿尸F(xiàn)爆炸式的增長(zhǎng)。

3.4,公眾數(shù)據(jù)

最后,當(dāng)然還要提及公眾數(shù)據(jù)。如果沒有數(shù)據(jù)專家團(tuán)隊(duì)的支持, 不知道奧巴馬總統(tǒng)是否還能夠贏得2004年的大選,這可能也是后來奧巴馬大力推動(dòng) Data.gov 的原因。許多地方政府也緊隨其后。

亞馬遜網(wǎng)絡(luò)服務(wù) 存放了許多驚人的公眾數(shù)據(jù),囊括從衛(wèi)星圖像到安然公司的郵件等各個(gè)方面。這些龐大的數(shù)據(jù)系列可以幫助擴(kuò)大新型商業(yè),訓(xùn)練更智能的算法,并解決許多實(shí)際問題。

這個(gè)領(lǐng)域發(fā)展快速,甚至出現(xiàn)了 Enigma.io 這種專門幫助企業(yè)使用公眾數(shù)據(jù)的公司。

3.5,開源工具

開源數(shù)據(jù)儲(chǔ)存的種類激增,尤其是在非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方面, Cassandra ,redistribute , Riak , Spark , CouchDB 和 MongoDB 等都大受歡迎。它們多數(shù)專注于公司應(yīng)用,另外也著重于數(shù)據(jù)工程的生態(tài)系統(tǒng)。通過這個(gè) 交互式地圖 你將可以一睹最受歡迎的開源數(shù)據(jù)存儲(chǔ)及開采工具的概貌。

關(guān)鍵字:谷歌SaaS

本文摘自:199IT

x 美國大數(shù)據(jù)產(chǎn)業(yè)地圖和數(shù)據(jù)科學(xué)家必備工具-數(shù)據(jù)源 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

美國大數(shù)據(jù)產(chǎn)業(yè)地圖和數(shù)據(jù)科學(xué)家必備工具-數(shù)據(jù)源

責(zé)任編輯:editor005 |來源:企業(yè)網(wǎng)D1Net  2016-01-14 14:04:43 本文摘自:199IT

數(shù)據(jù)專家不能只生活在R語言或Excel表格里。他們需要工具來獲得質(zhì)量拔尖且可用于預(yù)測(cè)分析的數(shù)據(jù)。其實(shí)我覺得這正是統(tǒng)計(jì)學(xué)家和數(shù)據(jù)專家的區(qū)別所在。在我看來,統(tǒng)計(jì)學(xué)家 使用數(shù)據(jù)進(jìn)行回歸分析。而 數(shù)據(jù)專家 需要切實(shí)獲取數(shù)據(jù)、進(jìn)行回歸分析、溝通結(jié)果、展示模式,并超越所在機(jī)構(gòu)當(dāng)時(shí)的局限,立足于制高點(diǎn)帶領(lǐng)大家尋求切實(shí)可行的突破發(fā)展。鑒于他們需要統(tǒng)籌整個(gè)數(shù)據(jù)通道,我希望這個(gè)數(shù)據(jù)生態(tài)系統(tǒng)可以羅列出數(shù)據(jù)專家門常用的重要工具和使用方法,以及工具之間的交互聯(lián)系。

  第一部分:數(shù)據(jù)源

數(shù)據(jù)是整個(gè)數(shù)據(jù)生態(tài)系統(tǒng)的源頭。總的來說,數(shù)據(jù)源可分為數(shù)據(jù)庫、應(yīng)用和第三方數(shù)據(jù)三類。

1,數(shù)據(jù)庫

結(jié)構(gòu)化數(shù)據(jù)庫早于非結(jié)構(gòu)化數(shù)據(jù)庫出現(xiàn)。結(jié)構(gòu)化數(shù)據(jù)庫每年有約250億美元的市場(chǎng),你可以在數(shù)據(jù)生態(tài)系統(tǒng)圖里看到眾所周知的Oracle,和一些新創(chuàng)公司譬如MemSQL等。結(jié)構(gòu)化數(shù)據(jù)庫儲(chǔ)存有限的數(shù)據(jù)列,一般由結(jié)構(gòu)化查詢語言(SQL)運(yùn)行,用于數(shù)據(jù)可靠完善至關(guān)重要的領(lǐng)域,比如說財(cái)政和運(yùn)營(yíng)。

對(duì)結(jié)構(gòu)化數(shù)據(jù)庫有一個(gè)重要假設(shè),那就是查詢數(shù)據(jù)時(shí)必須能得到一致且完善的結(jié)果。想一想誰絕對(duì)需要這樣一種結(jié)構(gòu)化數(shù)據(jù)庫?對(duì)了,就是你的銀行。它們存儲(chǔ)賬戶信息、個(gè)人姓名、借款等等,必須隨時(shí)分毫不差地知道你賬戶中的金額。

而另外一種則是非結(jié)構(gòu)化數(shù)據(jù)庫。情理之中,非結(jié)構(gòu)化數(shù)據(jù)庫是由數(shù)據(jù)專家們開拓的,因?yàn)閿?shù)據(jù)專家眼中的數(shù)據(jù)與賬戶并不相同。數(shù)據(jù)專家不太在意查詢結(jié)果絕對(duì)一致,他們更關(guān)注數(shù)據(jù)的靈活性。因此, 非結(jié)構(gòu)化數(shù)據(jù)在許多方面降低了對(duì)數(shù)據(jù)存儲(chǔ)和查詢的要求 。

很多非結(jié)構(gòu)化數(shù)據(jù)庫是谷歌獲得成功的直接產(chǎn)物。谷歌嘗試把互聯(lián)網(wǎng)存儲(chǔ)在數(shù)據(jù)庫中,其野心和工程之龐大可想而知。MapReduce是一種用于這種數(shù)據(jù)庫的技術(shù),雖然它一定程度上沒有結(jié)構(gòu)化查詢語言 (SQL)那么強(qiáng)大,但是 用戶可以依據(jù)需要來調(diào)整和擴(kuò)充它們的數(shù)據(jù) 。MapReduce的數(shù)據(jù)使用甚至已經(jīng)超出了谷歌的初始預(yù)期。比如現(xiàn)在谷歌可以在所有網(wǎng)站間查詢,并根據(jù)網(wǎng)站之間的互相鏈接來調(diào)整搜索結(jié)果。這種可量化的靈活查詢使谷歌獲得了巨大的競(jìng)爭(zhēng)優(yōu)勢(shì),因此雅虎和其他公司以巨額投資來開發(fā)這種技術(shù)的開源版本,名叫Hadoop。

此外,非結(jié)構(gòu)化數(shù)據(jù)庫通常所需的 儲(chǔ)存空間通常更小 。在過去數(shù)據(jù)存儲(chǔ)十分昂貴,因此幾年前,一些主要的互聯(lián)網(wǎng)公司不得不每隔幾個(gè)月就清空一次數(shù)據(jù)庫。現(xiàn)在這種情況已難以想象了。 從強(qiáng)大的推薦引擎,到世界級(jí)的翻譯系統(tǒng),到令人難以置信的存貨管理,都建立于這些數(shù)據(jù)之上。

非結(jié)構(gòu)化數(shù)據(jù)庫一般來說沒有結(jié)構(gòu)化數(shù)據(jù)庫那么精確,但對(duì)于許多應(yīng)用(尤其是數(shù)據(jù)科學(xué)界),這個(gè)折衷是值得的。舉例來說,

比如你的非結(jié)構(gòu)化數(shù)據(jù)庫在100個(gè)機(jī)器上運(yùn)行,但是其中有一個(gè)當(dāng)機(jī)了。這時(shí)你僅用99臺(tái)機(jī)器(而非100臺(tái))來決定向用戶推薦觀看一部特定的電影,也完全可行。這種類型的數(shù)據(jù)庫看重靈活性,量化以及速度,哪怕不能隨時(shí)保證完全精確。

還有一個(gè)更有名的例子。一個(gè)軟件公司創(chuàng)建了一個(gè)基于Hadoop的非結(jié)構(gòu)化數(shù)據(jù)庫軟件Cloudera。來看看它有多大的成長(zhǎng)空間吧:7年前,我接到風(fēng)投的電話,他們預(yù)期Cloudera在全球有10到15家公司的市場(chǎng),去年Cloudera已獲得了將近10億美元的融資。 隨著數(shù)據(jù)專家取代財(cái)務(wù)和會(huì)計(jì),成為最主要的數(shù)據(jù)消費(fèi)者,數(shù)據(jù)庫將會(huì)越來越走進(jìn)每一個(gè)人的生活 。

2,商業(yè)應(yīng)用

十年前,沒有人想過能把重要的商業(yè)數(shù)據(jù)存在云端,如見這卻早已成為了現(xiàn)實(shí)。這也許是商業(yè)的IT基礎(chǔ)結(jié)構(gòu)的最大轉(zhuǎn)變之處。 我在數(shù)據(jù)庫生態(tài)系統(tǒng)中列出了四種主要的商業(yè)應(yīng)用,分別是銷售、營(yíng)銷、產(chǎn)品和消費(fèi)者,每一種功能都有多種SaaS應(yīng)用可供選擇。

SalesForce 應(yīng)該是首先掀起這股趨勢(shì)的并最先獲得成功的。他們把軟件開發(fā)的目標(biāo)人群是終端用戶(銷售團(tuán)隊(duì)),而非單個(gè)的首席技術(shù)官。這對(duì)他們的用戶十分有用,在此過程中,大家也能看到公司客戶能夠信任地把重要公司數(shù)據(jù)放在云端。 銷售數(shù)據(jù)不再存在于用戶自己安裝的內(nèi)部數(shù)據(jù)庫,而是被放在云端,由致力于保證數(shù)據(jù)可用且穩(wěn)定的云端公司提供服務(wù)。

其他公司也紛紛效仿這種做法。如今基本上每個(gè)商業(yè)部門都有一個(gè)對(duì)應(yīng)的數(shù)據(jù)應(yīng)用。

Marketo存儲(chǔ)營(yíng)銷數(shù)據(jù),

MailChimp存儲(chǔ)電子郵件,

Optimizely存儲(chǔ)A/B測(cè)試數(shù)據(jù),

Zendesk存儲(chǔ)顧客滿意度,諸如此類。

為什么這是相關(guān)的呢?如今每個(gè)商業(yè)部門都有強(qiáng)大的數(shù)據(jù)庫,由數(shù)據(jù)專家分析并用于預(yù)測(cè)分析。數(shù)據(jù)量很大,卻零散地分布在多個(gè)應(yīng)用之中。比如說你在SugarCRM 中查看某個(gè)消費(fèi)者的信息,但是當(dāng)你想知道這名顧客的服務(wù)記錄時(shí),需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的賬單,則要去查Xero。所有的數(shù)據(jù)都被存放在不同的地點(diǎn),網(wǎng)站和數(shù)據(jù)庫中。 商業(yè)數(shù)據(jù)被轉(zhuǎn)移到了云端,可以存放更多的數(shù)據(jù)了,但是這些數(shù)據(jù)被零散地存放在全世界的不同服務(wù)器的不同應(yīng)用里。

3,第三方數(shù)據(jù)

第三方數(shù)據(jù)出現(xiàn)得比結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)庫都早得多。Dun & Bradstreet從1841年就開始賣數(shù)據(jù)了。隨著數(shù)據(jù)對(duì)每個(gè)機(jī)構(gòu)都愈發(fā)重要,這個(gè)領(lǐng)域也將會(huì)獲得長(zhǎng)足的發(fā)展。 在數(shù)據(jù)庫生態(tài)系統(tǒng)圖中,我大體把第三方數(shù)據(jù)分成四個(gè)領(lǐng)域,分別是

商業(yè)信息數(shù)據(jù),

社交媒體數(shù)據(jù),

網(wǎng)頁爬蟲和

公開數(shù)據(jù)。

3.1,商業(yè)信息數(shù)據(jù)

商業(yè)信息數(shù)據(jù)開始最早。 我上面提到了Dun & Broadstreet,商業(yè)數(shù)據(jù)購買對(duì)許多商業(yè)機(jī)構(gòu)來說都至關(guān)重要。商業(yè)數(shù)據(jù)能回答所有B2B公司至關(guān)重要的問題:我們的銷售團(tuán)隊(duì)該找誰談?如今,這些數(shù)據(jù)更被擴(kuò)展應(yīng)用至網(wǎng)上地圖和高頻交易等領(lǐng)域。

新創(chuàng)的數(shù)據(jù)賣方如Factual,不僅售賣商業(yè)數(shù)據(jù),更傾向于從這些高盈利的新型領(lǐng)域起步。

3.2,社交媒體數(shù)據(jù)

社交媒體數(shù)據(jù)雖然是新興產(chǎn)物,但發(fā)展很快。

通過智能PR公司對(duì)社交媒體中的文本作情感分析,營(yíng)銷人員能夠切實(shí)地了解到品牌熱度與影響力,并有效評(píng)估品牌價(jià)值。

你可以從Radian6 和DatSift里看到全部細(xì)節(jié)。

3.3,網(wǎng)絡(luò)爬蟲

接下來我們來看看網(wǎng)絡(luò)爬蟲,我個(gè)人認(rèn)為這是一個(gè)很有發(fā)展?jié)摿Φ念I(lǐng)域。如果能夠把所有網(wǎng)站都作為數(shù)據(jù)源,由數(shù)據(jù)科學(xué)團(tuán)隊(duì)發(fā)展和分析,真不知道還有多少新型商業(yè)和技術(shù)會(huì)由此而生。如今從事網(wǎng)絡(luò)爬蟲的重要公司包括 import.io和kimono,我認(rèn)為這個(gè)領(lǐng)域?qū)⒃诮酉聛韼啄瓿尸F(xiàn)爆炸式的增長(zhǎng)。

3.4,公眾數(shù)據(jù)

最后,當(dāng)然還要提及公眾數(shù)據(jù)。如果沒有數(shù)據(jù)專家團(tuán)隊(duì)的支持, 不知道奧巴馬總統(tǒng)是否還能夠贏得2004年的大選,這可能也是后來奧巴馬大力推動(dòng) Data.gov 的原因。許多地方政府也緊隨其后。

亞馬遜網(wǎng)絡(luò)服務(wù) 存放了許多驚人的公眾數(shù)據(jù),囊括從衛(wèi)星圖像到安然公司的郵件等各個(gè)方面。這些龐大的數(shù)據(jù)系列可以幫助擴(kuò)大新型商業(yè),訓(xùn)練更智能的算法,并解決許多實(shí)際問題。

這個(gè)領(lǐng)域發(fā)展快速,甚至出現(xiàn)了 Enigma.io 這種專門幫助企業(yè)使用公眾數(shù)據(jù)的公司。

3.5,開源工具

開源數(shù)據(jù)儲(chǔ)存的種類激增,尤其是在非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方面, Cassandra ,redistribute , Riak , Spark , CouchDB 和 MongoDB 等都大受歡迎。它們多數(shù)專注于公司應(yīng)用,另外也著重于數(shù)據(jù)工程的生態(tài)系統(tǒng)。通過這個(gè) 交互式地圖 你將可以一睹最受歡迎的開源數(shù)據(jù)存儲(chǔ)及開采工具的概貌。

關(guān)鍵字:谷歌SaaS

本文摘自:199IT

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 隆安县| 衡水市| 黄冈市| 庄河市| 青冈县| 资中县| 巴楚县| 响水县| 南雄市| 四川省| 城步| 西吉县| 昌宁县| 百色市| 瑞昌市| 西城区| 颍上县| 隆德县| 山东省| 威远县| 尼木县| 尼勒克县| 沭阳县| 星子县| 谷城县| 南丰县| 北碚区| 洪江市| 广昌县| 增城市| 龙海市| 唐海县| 聂拉木县| 昭平县| 枣强县| 仙游县| 驻马店市| 临潭县| 锡林浩特市| 霞浦县| 新乡市|