精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

谷歌機(jī)器學(xué)習(xí)的四大數(shù)據(jù)集

責(zé)任編輯:editor006

作者:田曉旭編譯

2016-10-24 17:17:54

摘自:it168網(wǎng)站

如果談到谷歌,你還認(rèn)為它只是一個(gè)搜索引擎公司,那么你就真的out了。谷歌從核心的搜索業(yè)務(wù)和廣告業(yè)務(wù)輻射到更為廣闊的業(yè)務(wù)領(lǐng)域,從這些領(lǐng)域收集到的數(shù)據(jù)也越來越多,光是用戶交互以及上傳的數(shù)據(jù)就多的難以想象。

如果談到谷歌,你還認(rèn)為它只是一個(gè)搜索引擎公司,那么你就真的out了。谷歌其實(shí)是一個(gè)發(fā)展比較全面的公司,早在2011年,Larry Page就曾表示,谷歌要在更少的箭頭后放更多的木材。谷歌從核心的搜索業(yè)務(wù)和廣告業(yè)務(wù)輻射到更為廣闊的業(yè)務(wù)領(lǐng)域,從這些領(lǐng)域收集到的數(shù)據(jù)也越來越多,光是用戶交互以及上傳的數(shù)據(jù)就多的難以想象。

谷歌機(jī)器學(xué)習(xí)的四大數(shù)據(jù)集

海量的數(shù)據(jù)為谷歌帶來了豐厚的利潤,維基解密創(chuàng)始人阿桑奇曾在接受英國廣播公司采訪時(shí)說道:“谷歌公司的商業(yè)模式是收集情報(bào),該項(xiàng)活動(dòng)為谷歌創(chuàng)造了80%的利潤”。那么谷歌到底從海量的數(shù)據(jù)中衍生出了哪些逆天的數(shù)據(jù)集呢?

大規(guī)模圖像數(shù)據(jù)集 Open Images

Open Image是谷歌10月1日發(fā)布的,據(jù)悉,這是一個(gè)包含900萬張圖像 URL 的數(shù)據(jù)集,里面的圖片通過標(biāo)簽注釋被分為6000多類,該數(shù)據(jù)集中的標(biāo)簽要比 ImageNet(1000類)包含更真實(shí)生活的實(shí)體存在。目前,使用谷歌云視覺 API 這樣的視覺模型自動(dòng)進(jìn)行圖像層次的注釋已是主流,谷歌稱目前已有計(jì)劃,未來的幾個(gè)月內(nèi)要提高Open Images的注釋質(zhì)量。

YouTube-8M 視頻數(shù)據(jù)集

YouTube-8M Dataset,顧名思義他是從800萬個(gè)YouTube視頻中編譯出來的,這些視頻集進(jìn)行了 video-level(視頻層級) 的標(biāo)注,標(biāo)注為 4800 種 Knowledge Graph entities(知識圖譜實(shí)體),相比于YouTube-1M有了很大的提升,以數(shù)據(jù)的多樣性和高質(zhì)量而聞名。數(shù)據(jù)集中的每一個(gè)視頻都是公開的,每個(gè)視頻至少有 1000 幀,長度一般在 120s 到 500s 之間,至少與一個(gè) Knowledge Graph entities(知識圖譜實(shí)體)相聯(lián)系,可以在線使用也支持離線使用,但是數(shù)據(jù)集只支持TensorFlow Record 格式。

Google Books Ngrams

Google Books Ngrams 是一個(gè)很有趣的黑科技,它可以讓用戶在谷歌掃描書籍?dāng)?shù)據(jù)庫中尋找特定短語,并把這個(gè)短語隨時(shí)間變化的頻率以圖表的形式顯示出來。其實(shí),詞語的出現(xiàn)和流行并不是同步的,中間有可能會經(jīng)歷很長一段時(shí)間,例如“重金屬”一詞誕生于19世紀(jì),但是流行起來卻是在1975年。另外,Google Books Ngrams 并不是靜止的,而是實(shí)時(shí)更新的。

據(jù)悉,Google Books Ngrams掃描了從1500年到2008年之間出版的8116746冊書,進(jìn)行了OCR識別,然后建成了世界上最大的電子書數(shù)據(jù)庫,再通過一系列算法從萬億級別的原始數(shù)據(jù)中識別出單個(gè)的詞語和短語,構(gòu)成了一個(gè)語料庫。

Google Trends Datastore

Google Trends 是Google推出的一款基于搜索日志分析的應(yīng)用產(chǎn)品,它通過分析Google全球數(shù)以十億計(jì)的搜索結(jié)果,告訴用戶某一搜索關(guān)鍵詞各個(gè)時(shí)期下在Google被搜索的頻率和相關(guān)統(tǒng)計(jì)數(shù)據(jù),是用戶分析搜索關(guān)鍵詞的一個(gè)相當(dāng)不錯(cuò)的工具。因 Google Trends Datastore 受時(shí)效性的影響,所以對數(shù)據(jù)集中的數(shù)據(jù)要求比較嚴(yán)格,通常它們的大小為1.1M。也正是因?yàn)閷?shù)據(jù)大小和典型性的嚴(yán)格要求,使得在預(yù)測時(shí)能夠收到令人滿意的效果。

另外值得一提的是谷歌公共數(shù)據(jù)目錄中有超過100個(gè)來自世界各地的數(shù)據(jù)供應(yīng)商,他們可以提供從人口統(tǒng)計(jì)到經(jīng)濟(jì)指標(biāo)各種類型的數(shù)據(jù),這些數(shù)據(jù)雖然不是谷歌直接提供的,但是谷歌會進(jìn)行篩選,確保數(shù)據(jù)的質(zhì)量。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 景洪市| 启东市| 宜春市| 甘孜| 旬阳县| 公主岭市| 吉木萨尔县| 新蔡县| 华安县| 苍南县| 玉屏| 定南县| 体育| 都匀市| 乌拉特中旗| 壶关县| 双柏县| 望都县| 武平县| 云龙县| 开鲁县| 绥棱县| 佳木斯市| 溧水县| 额济纳旗| 交城县| 新河县| 航空| 古田县| 绥滨县| 额敏县| 怀化市| 西峡县| 印江| 浮梁县| 吉隆县| 汾阳市| 图片| 澄城县| 兴文县| 青铜峡市|