今日凌晨,DataScience Inc. 發布了 DataScience Trends。這是一個針對 GitHub 資源庫的交互式數據分析與可視化工具,能方便地對各開源算法庫的活動、狀態、人氣進行比對,包括新 commits 和 pull requests。開發者可用它來考察開源項目大趨勢,以及篩選感興趣的項目。順便說一句,它免費使用。
它基于 GitHub 和谷歌去年公開的 3TB GitHub 項目數據。操作它不需要寫代碼,界面簡潔。因此,即便是新手也能輕松使用,用它來挖掘 GitHub 項目信息,在時間軸上與趨勢進行交互。另外,數據范圍也可任意調節。
DataScience Inc. CTO William Mercha 表示:
“當下,正是開源工具不斷蠶食有償解決方案市場空間的時候。使用 DataScience Trends 挖掘出的開源項目信息,對于需要找到合適開源軟件的開發團隊非常寶貴。去年在 Burtch Works 的市場調查中,有 62% 的數據分析從業者表示,相比經典解決方案 SAS,他們更傾向于使用開源語言 Python 和 R。在企業級領域,這是一個市場大趨勢。
在 GitHub 文檔里,有許多可探索的領域。比如某個資源庫的熱門程度(從星標數量、書簽收藏數量獲知) ,還有開源工具集的合作(從 pull requests 看出)。
我們使用 DataScience Trends 來尋找最受歡迎的開源工具,然后把它們整合入我們的企業平臺 DataScience Cloud。比如,我們通過 DataScience Trends 能清楚看出,TensorFlow 刺激了開發者對與之兼容的神經網絡庫 Keras 的興趣;還有,數據可視化工具 ggplot 在 Python 開發者群體中的影響力不斷壯大。隨著 GitHub 的存檔不斷增長,DataScience Trends 用戶能夠挖掘出更多的有價值信息。“
由于數據集多達 3 TB,DataScience Trends 帶來的探索可能性幾乎是無限的。它覆蓋了一萬個最熱門 GitHub 資源庫的數據,包含項目開發活動、流行程度、合作等方面的信息。此外,DataScience Trends 還內置了其它幾項功能,以方便探索開源軟件數據:
具體日期與數值
用戶可利用任意數據可視化方法,來觀察某一日期節點的數據與數值。
標準化的比較趨勢
任意大小、任意流行度的算法庫,可通過一個通用檢索框架來進行比較。只需一次點擊,就能從“相對”視圖返回到“絕對值”視圖。
共享功能
每次探索都會生成一個獨立的 URL。當然,用戶也可點擊“共享”圖標。
更多請訪問 DataScience Trends 官網:https://www.datascience.com/resources/tools/trends