現如今構建人工智能或機器學習系統比以往的時候更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch 和 Spark,再加上通過 AWS 的大規模計算力、Google Cloud 或其他供應商的云計算,這些都意味著你可以在下午休閑時間使用筆記本電腦去訓練出最前沿的機器學習模型。
雖然不算是人工智能訓練的最前沿,但人工智能的無名英雄確實就是數據,許多許多標注或未標注的數據。研究部門和公司也都認識到數據民主化是加快人工智能的必要步驟。
然而,涉及到機器學習或人工智能的大多數產品強烈依賴于那些通常沒有開放的私有數據集,而本文將指出解決這種困境的辦法。
事實上,我們很難用一篇文章來說明哪些開放數據集是有用的,因為那些有用的開放數據集必須是可概念證明的,而什么數據集對產品或確認特征是有用的,在你收集你自己所有數據之前是不知道的。
重要的是,如果數據集有良好的表現并不能保證其訓練的機器學習系統在實際產品場景中表現良好。許多人在構建人工智能系統時常常忘了構建一個新人工智能解決方案或產品最困難的部分不是人工智能本身或算法,通常最困難的地方是數據收集和標注。標準數據集可以作為驗證或構建更優良解決辦法的良好起點。
在這個星期,我和一些機器學習專家們討論的都是有關標準數據集的問題。為了讓你能更輕松地構建人工智能系統,我們搜集了一些開源數據集,這些開源數據集是我們認為在人工智能的世界里你所需要了解的。
計算機視覺
MNIST: 最通用的健全檢查。25x25 的數據集,中心化,B&W 手寫數字。這是個容易的任務——但是在 MNIST 有效,不等同于其本身是有效的。
地址:http://pjreddie.com/projects/mnist-in-csv/
CIFAR 10 &CIFAR 100: 32x32 彩色圖像。雖不再常用,但還是用了一次,可以是一項有趣的健全檢查。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
ImageNet: 新算法實際上的圖像數據集。很多圖片 API 公司從其 REST 接口獲取標簽,這些標簽被懷疑與 ImageNet 的下一級 WordNet 的 1000 個范疇很接近。
地址:http://image-net.org/
LSUN: 場景理解具有很多輔助任務(房間布置評估、顯著性預測等)和一個相關競爭。
地址:http://lsun.cs.princeton.edu/2016/
PASCAL VOC: 通用圖像分割/分類:對于構建真實世界的圖像注釋毫無用處,對于基線則意義重大。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
SVHN: 來自谷歌街景視圖(Google Street View)的房屋數量。把這想象成荒野之中的周期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO: 帶有一個相關性競爭的通用圖像理解/字幕。
地址:http://mscoco.org/
Visual Genome: 非常詳細的視覺知識庫,并帶有 100K 圖像的深字幕。
地址:http://visualgenome.org/
Labeled Faces in the Wild:通過名稱標識符,已經為被裁剪的面部區域(用 Viola-Jones)打了標簽?,F有人類的子集在數據集中有兩個圖像。對于這里做面部匹配系統訓練的人來說,這很正常。
地址:http://vis-www.cs.umass.edu/lfw/
自然語言
文本分類數據集(2015 年來自 Zhang 等人):一個用于文本分類的合 8 個數據集為 1 個的大型數據集。這些是用于新文本分類的最常被報道的基線。樣本大小從 120K 到 3.6M, 問題從 2 級到 14 級。數據集來自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
WikiText:來自由 Salesforce MetaMind 精心策劃的維基百科文章中的大型語言建模語料庫。
地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
Question Pairs:從包含重復/語義相似性標簽的 Quora 釋放出來的第一個數據集。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
SQuAD: 斯坦福大學問答數據集(The Stanford Question Answering Dataset)——一個被廣泛應用于問題回答和閱讀理解的數據集,其中每個問題的答案形式是文本的一個片段或碎片。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset: 手動生成的仿真陳述問題/回答與維基百科文章的難度評級相對應。
地址:http://www.cs.cmu.edu/~ark/QA-data/
Maluuba Datasets: 用于狀態性自然語言理解研究的人工生成的精密數據集。
地址:https://datasets.maluuba.com/
Billion Words: 大型,有統一目標的語言建模數據集。常被用來訓練諸如 word2vec 或 Glove 的分布式詞表征。
地址:http://www.statmt.org/lm-benchmark/
Common Crawl: PB 級規模的網絡爬行——常被用來學習詞嵌入。可從 Amazon S3 上免費獲取。由于它是 WWW 的抓取,同樣也可以作為網絡數據集來使用。
地址:http://commoncrawl.org/the-data/
bAbi: 來自 FAIR(Facebook AI Research)的合成式閱讀理解與問答數據集。
地址:https://research.fb.com/projects/babi/
The Children’s Book Test:從來自古登堡計劃的童書中提取(問題+上下文,回答)組的基線。這對問題回答、閱讀理解和仿真陳述查詢有用。
地址:https://research.fb.com/projects/babi/
Stanford Sentiment Treebank: 標準的情感數據集,在每一個句子解析樹的節點上帶有細膩的情感注解。
地址:http://nlp.stanford.edu/sentiment/code.html
20 Newsgroups: 文本分類經典數據集中的一個。通常可用作純分類或任何 IR/索引算法的基準。
地址:http://qwone.com/~jason/20Newsgroups/
Reuters: 舊的,純粹基于分類的數據集與來自新聞專線的文本。常用于教程。
地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
IMDB:一個用于二元情感分類的更舊更小的數據集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
UCI’s Spambase: 來自著名的 UCI 機器學習庫較久的經典垃圾電子郵件數據集。由于數據集的策劃細節,這可以是一個學習個性化過濾垃圾郵件的有趣基線。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語音
大多數語音識別數據集是有所有權的,這些數據為收集它們的公司帶來了大量的價值,但在這一領域里,許多可用的數據集都是比較舊的。
2000 HUB5 English: 僅僅只包含英語的語音數據,最近百度發表的論文《深度語音:擴展端對端語音識別(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了該語音數據集。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech:包括文本和語音的有聲讀物數據集。它是近 500 小時由多人朗讀清晰的各類有聲讀物數據集,且由包含文本和語音的書籍章節組織起結構。
地址:http://www.openslr.org/12/
VoxForge:帶口音的語音清潔數據集,特別是對于如期望對不同口音或腔調的語音有魯棒性需求的系統很有用。
地址:http://www.voxforge.org/
TIMIT:只包含英語的語音識別數據集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
CHIME:包含噪聲的語音識別數據集。該數據集包含真實、模擬和清潔的語音記錄。實際上是記錄四個說話者在四個噪聲源的情況下近 9000 份記錄,模擬數據是在結合話語行為和清潔無噪語音記錄的多環境下生成的。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED 演講的語音轉錄數據集。1495 份 TED 演講的語音記錄,并且這些語音記錄有對應的全文本。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排序系統
Netflix Challenge:第一個主要 Kaggle 風格的數據庫。因為存在隱私問題,只能非正式地獲得授權。
地址:http://www.netflixprize.com/
MovieLens:各種電影的評論數據庫,通常用于基線協同過濾(collaborative filtering baselines)。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:在 Kaggle 上大量、富元數據(metadata-rich)、開源的數據集,有利于人們試驗混合推薦系統(hybrid recommendation systems)。
地址:https://www.kaggle.com/c/msdchallenge
Last.fm:音樂推薦數據集,該數據集能有權訪問底層社交網絡和其他元數據,而這樣的數據集正對混合系統有巨大的作用。
地址:http://grouplens.org/datasets/hetrec-2011/
網絡和圖表
Amazon Co-Purchasing 和 Amazon Reviews:從亞馬遜以及相關產品評論數據網絡爬取的如「用戶買了這個同時也會買哪個」這樣的語句。適合在互聯網中進行推薦系統的測試。
地址:http://snap.stanford.edu/data/#amazon 和 http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:在 Friendster 的重心轉入到游戲網站之前,這家網站發布了包含 103,750,348 個用戶好友列表的匿名數據集。
地址:https://archive.org/details/friendster-dataset-201107
地理測繪數據庫
OpenStreetMap:免費許可的全球矢量數據集。其包含了舊版的美國人口統計局的 TIGER 數據。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
Landsat8:整個地球表面的衛星拍攝數據,每隔幾周會更新一次。
地址:https://landsat.usgs.gov/landsat-8
NEXRAD:多普雷達掃描的美國大氣環境。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
人們常常認為解決一個數據集上的問題就相當于對產品進行了一次完整的審視。因為我們可以使用這些數據集進行驗證或證明一個概念,但是也不要忘了測試模型或原型是如何獲取新的和更實際的數據來提高運算效果,獲得優良產品的。數據驅動的成功公司通常從他們收集新數據、私有數據的能力中獲得力量,從而以一種具有競爭力的方式提高他們的表現。
總結
好數據集還有很多,這份列表當然不可能完全覆蓋,如果你知道還有很好的數據集值得推薦,請通過評論與我們分享。