我總是在證明這樣一個論點,即數據無處不在——并且很多都是免費的。在開始大數據分析之前,公司不一定要建立自己的大規模數據倉庫。企業和政府將大量信息投入到公共領域的舉措,使得每個人都能夠獲得海量數據。
迄今為止,從大藍籌企業到極小型創業公司,都可以使用比以往更多的數據。我的很多客戶都在向我尋求他們在向大數據方面努力時可以使用的頂尖數據源,下面描述的就是如今可以獲得的,一些好用同時免費的大數據來源。
1. Data.gov
美國政府去年承諾使所有政府數據都能在網上免費獲得。這個網站是第一階段,作為一個門戶網站,囊括了從氣候到犯罪的一切驚人的信息。
2. 美國人口普查局
一個關于美國公民生活的豐富信息,包括人口數據,地域數據以及教育。
3. 歐洲聯盟開放數據門戶
如上所述,但它是基于歐洲聯盟機構的數據。
4. Data.gov.uk
來自英國政府的數據,包括《英國國家書目》——自1950以來所有的英國書籍以及出版物的元數據。
5. 中情局世界概況
267個國家歷史、人口、經濟、政府、基礎設施以及軍事信息。
6. Healthdata.gov
125年來美國的醫療保健數據,包括索賠型醫保數據,流行病學和人口統計。
7. NHS 健康和社會保健信息中心
來自英國國民健康服務的健康狀況數據集。
8. Amazon網絡服務公共數據集
巨型公共數據源,包括1000個基因組工程,試圖建立最全面的人類遺傳信息數據庫和美國宇航局的衛星圖像數據庫。
9. Facebook Graph
雖然Facebook用戶個人資料中的很多信息是私有的,但很多也不是——Facebook提供Graph API作為查詢大量信息的一種方式,它的用戶很樂意與世界分享(或者說是不能隱藏,因為他們還沒有制定如何設置隱私功能)。
10. Gapminder
世界衛生組織和世界銀行的數據集合,包括世界各地的經濟、醫療以及社會統計數據。
11. Google Trends
自2004年以來,對所有關鍵字的搜索量(作為總搜索的比例)的數據統計。
12. Google財經
40年的股票市場數據,并實時更新。
13. Google Books Ngrams
搜索和分析數以百萬計的數字圖書全文,作為Google圖書項目的一部分。
14. 國家氣候數據中心
從美國國家氣候數據中心收集的環境、氣象以及氣候數據集。全球最大的天氣數據存檔。
15. DBPedia
維基百科包含數以百萬計的數據,生活中每個事物的結構化和非結構化信息。DBpedia的是一個用來分類的大型工程,并創建了一個公共的,免費發布的并允許任何人來分析這些數據的數據庫。
16. Topsy
免費而全面的社交媒體數據是很難得到的——畢竟這些數據是為那些大玩家(Facebook,Twitter等)產生利潤的,所以他們不想輕易送人。然而Topsy提供了一個可搜索回溯至2006年公共微博的數據庫,和現在一些用來分析會話的工具。
17. Likebutton
在全球范圍內,從你自己的網絡中挖掘Facebook的公共數據,來了解在某個時刻人們“喜歡”什么。
18. New York Times《紐約時報》
可搜索的新聞文章的索引檔案,可以追溯到1851年。
19. Freebase
一個關于人,地點和事物的結構化數據的社區數據庫,記錄數超過45萬個。
20. 百萬歌曲數據集
超過一百萬首歌曲和音樂作品的元數據。部分屬于亞馬遜網絡服務。