谷歌和GitHub宣布,谷歌BigQuery現在為GitHub上280多萬個托管開源項目提供了一個完整的快照。這讓用戶可以使用SQL查詢托管在GitHub上的將近20億個開源文件。
GitHub的BigQuery數據集以GitHub Archive項目為基礎,該項目旨在獲取GitHub特定時點的快照,以便存儲用來進行進一步的分析。借助GitHub的BigQuery數據集,現在隨時可以通過任意類似SQL的查詢查詢GitHub Archive項目的內容。
GitHub開源項目經理Arfon Smith舉了一個例子,新的BigQuery數據集可以用來找出哪個Go程序包最常用,或者哪一所美國學校的開源貢獻者最多。他還指出,總體上,該數據集還有利于研究人員研究開源社區或者最新的開發趨勢。
谷歌開發大使Felipe Hoffa另外添加了幾個有關潛在用途的示例,比如找出使用給定開源庫的每個項目,或者分析其使用方式,以便收集有用的數據,確定那個庫的未來發展方向。
在Medium上發表的一篇博文中,Hoffa列出了一些由谷歌工程師及其他開發人員創建的查詢。這些查詢可以用來分析
GitHub的BigQuery數據集包含大約1.5TB的數據,每小時自動更新。下面是基本的使用步驟:
登錄谷歌開發者控制臺;谷歌每月免費提供1TB的數據處理,但是,正如谷歌開發大使給我們的提醒,在主數據集(bigquery-public-data:github_repos.contents)上執行一個查詢就會用完這1TB的免費數據。因此,他建議使用23GB的官方摘錄數據(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意專注于流行語言的摘錄數據,諸如Go、Ruby、JavaScript、PHP、Python和Java。BigQuery還可以用來創建自定義數據集,但在這種情況下,用戶需要支付存儲費用。
谷歌BigQuery公共數據集是谷歌根據一項特別計劃通過BigQuery提供的一系列數據集,用戶只需要為他們執行的查詢付費,但不用為數據集存儲付費。谷歌BigQuery公共數據集提供的其他數據集包括美國人名、Hacker News自2006年以來的故事和評論、1029年和2016年之間的全球氣候數據,等等。
查看英文原文:Google BigQuery Now Allows to Query All Open-Source Projects on GitHub