GitHub 的一個使命是共享代碼,所以發現其平臺上重復代碼比例高達七成并不是不令人吃驚的事情。8 名研究人員組成的國際團隊原計劃并不是測量 GitHub 上的重復代碼,而是調查不同克隆庫之間的文件差異,結果發現了驚人比例的文件級復制,因而改變了研究方向。
研究人員發現,GitHub 上 4.28 億文件中只有 8500 萬是唯一的。研究報告發表在 OOPSLA SPLASH 會議上。JavaScript 是克隆最多的環境,94% 的 JavaScript 文件是復制的;73% 的 C++ 文件是重復的,而 Python 程序則是 71%。Java 是其中最獨特的,但重復比例也達到了 40%。