近日,GitHub分享了其開發(fā)Topics功能的技術,這個新推出的功能是在GitHub存儲庫之間創(chuàng)建基于主題的連接的標簽,并讓用戶通過類型,技術等來探索項目。
點擊感興趣的主題以查找相關的存儲庫,將主題添加到您的存儲庫將有助于其他用戶發(fā)現(xiàn)您的項目。
Topics是GitHub在實際應用中的第一個機器學習項目,同時也是GitHub即將在未來幾個月內(nèi)推出的一系列機器學習功能的排頭兵。其中,公共庫提供了一種向GitHub添加便簽的快捷方便的方法,而公共庫中的建議都來自于最近的數(shù)據(jù)科學工作。
GitHub的Topics包括名稱、描述和README,提供了功能、用例和讀者的閱讀習慣。數(shù)據(jù)科學家和數(shù)據(jù)挖掘?qū)<襅avita Ganesan在博客中寫道:他們?yōu)樘崛≈黝}開發(fā)了一個框架—repo-topix,這個框架可以從用戶提供的human-readable text中去學習。
Repo-topix做了三件事情:
1.整合了來自數(shù)百萬個其他存儲庫的數(shù)據(jù),把自然語言文本生成候選主題;
2.從一組候選主題中選擇最佳主題
3.找出主題的相似之處和關系
據(jù)GitHub表示,Repo-topix框架能夠發(fā)現(xiàn)任何公共存儲庫的新主題,使用輕量級方法,可以輕松擴展。Ganesan寫道:“我們近期的計劃是評估Topics的建議用法以及手動創(chuàng)建的Topics,希望通過不斷的改進達到用戶的期望。一些被拒絕的主題我們也會通過Repo-topix記錄為stop,或者作為關鍵字篩選模型的反面例子”
Ganesan還寫道,為了消除數(shù)據(jù)依賴和隱私保護,GitHub還計劃探索Topics的私有庫和GitHub Enterprise版。