機器學習、人工智能、區塊鏈、預測分析——所有令人驚嘆的技術都承諾將革新商業和社會。
但如果沒有數據的話,這些技術就一無是處。所幸的是,對于那些沒有資源有條不紊收集每一條有用信息的企業和組織而言,他們可以免費從網上得到龐大(并且不斷增加)的數據。
我們列出了2018年的30個免費在線大數據來源:
1、世界銀行開放數據(WorldBankOpenData),是涵蓋了全球人口統計數據、大量經濟和發展指標的數據集。
2、國際貨幣基金組織數據(IMFData),國際貨幣基金組織公布的國際財務狀況、債務率、外匯儲備、商品價格和投資數據。
3、美國國家教育統計中心(TheUSNationalCenterforEducationStatisticsData),提供了覆蓋美國和世界各地的教育機構和教育人口統計的數據。
4、英國數據中心(TheUKDataCentre)是英國最大的社會、經濟和人口的數據集。
5、FiveThirtyEight,有大量提供政治和體育問題輿論數據的民意調查。
6、FBI統一犯罪報告(FBIUniformCrimeReporting),聯邦調查局負責編輯和出版國家犯罪統計數據,并在國家、州和縣級提供免費數據。
7、美國司法局(BureauofJustice),在這里你可以找到關于美國執法機構、監獄、假釋和緩刑機構及法院的數據。
8、QlickDataMarket提供免費包,可訪問涵蓋世界人口、貨幣、發展指標和天氣數據的數據集。
9、美國宇航局外行星存檔(NASAExoplanetArchive)的公共數據集涵蓋了由美國宇航局空間探索任務收集的行星和恒星數據。
10、聯合國貿易數據庫(UNComtradeDatabaseStatistics)統計是由聯合國匯編并出版的資料,包括ComtradeLab,展示了如何使用尖端分析和工具從數據中提取價值。
11、金融時報市場數據(FinancialTimesMarketData)是關于全球金融市場的最新信息,包括股票價格指數、商品和外匯。
12、谷歌趨勢(GoogleTrends)是檢查和分析全球互聯網上搜索活動和趨勢新聞的數據。
13、Twitter,Twitter的優勢在于大多數對話都是公開的,這意味著大量的數據可以通過其API獲得,誰正在談論什么,何地、何時以及為什么。
14、谷歌學術(GoogleScholar)包括學術論文、期刊、書籍和法律判例法的文本內容。
15、Instagram,與Twitter一樣,Instagram的帖子和對話默認為公開,其API允許對喜歡、提及和商業細節進行分析。
16、OpenCorporates是全球最大的企業開放數據庫。
17、GlassdoorAPI提供了有關職位空缺、候選人、薪水和員工滿意度的信息,可通過他們的開發者API獲得。
18、IMDBDatasets,是從網絡上最大的電影、電視和從業人員中獲得的多種格式數據集。
19、OpenLibraryDataDumps是關于世界各地圖書館書籍目錄的數據集。
20、LabelledFacesintheWild整理并標記了13,000個人臉圖像,用于開發涉及面部識別的應用。
21、MicrosoftMarco是微軟的開放式機器學習數據集,用于閱讀理解和問題回答的培訓系統。
22、機器學習數據集知識庫(MachineLearningDatasetRepository)由集合了由參與機器學習項目的數據科學家貢獻的開放數據集。
23、易趣市場數據洞察(eBayMarketDataInsights)提供了來自eBay的數以百萬計的在線銷售和拍賣數據。
24、自然歷史博物館數據門戶(NaturalHistoryMuseumDataPortal)提供了關于倫敦博物館藏品中近400萬個歷史標本的信息,以及自然世界的科學錄音。
25、歐洲核子研究中心開放數據(CERNOpenData),歐洲核子研究中心開展的粒子物理實驗提供了超過1PB的數據。
26、OneMillionAudioCoverImages數據集托管在archive.org上,涵蓋世界各地發布的音樂,用于圖像處理研究
27、CompletePublicRedditCommentsCorpus,2007年至2015年期間在Reddit上發布的10多億份公共評論,用于訓練語言算法。
28、MicrosoftAzureDataMarketsFreeDatasets,提供了涵蓋從農業到天氣所有內容的免費數據集。
29、IrishElectricVehicleChargePointStatus收集了這個負責愛爾蘭共和國和北愛爾蘭電動汽車充電站網絡數據機構的數據。
30、LondonAir提供了來自倫敦各地的污染和空氣質量數據。