近年來,人工智能(AI)與機器學(xué)習(xí)可謂不絕于耳。根據(jù)IDC公司2017年9月發(fā)布的預(yù)測,2017年全球在認知與人工智能解決方案領(lǐng)域的支出總額約為120億美元。到2021年,這一總和可能將以50.1%的復(fù)合年增長率提升,意味著屆時市場將迎來高達576億美元。
在2018年的預(yù)測當(dāng)中,F(xiàn)orrester Research公司預(yù)計新的一年內(nèi),“AI將重塑分析與業(yè)務(wù)創(chuàng)新的面貌”,且“AI將在兩成企業(yè)中承擔(dān)起制定決策與提供實時指令的職能”。不過該公司同時提醒稱,“2018年也將成為CIO們意識到要發(fā)揮AI這類新技術(shù)的潛能,必須投入巨大努力的一年。”
對于多數(shù)企業(yè)而言,其中最艱苦的工作在于首先掌握機器學(xué)習(xí)與人工智能框架。根據(jù)Gartner公司的觀點,“59%的企業(yè)仍在努力收集信息以構(gòu)建其人工智能戰(zhàn)略。”
其中大部分信息收集工作可能都將圍繞著開源解決方案展開。多種領(lǐng)先的人工智能工具都可立足開源許可下獲取,而大量尖端研究與開發(fā)工作也正基于這些開源項目進行。
那么,企業(yè)IT管理者們應(yīng)該研究哪些開源AI解決方案呢?今天的文章將著重介紹十種最具人氣的開源AI與機器學(xué)習(xí)工具。
1. TensorFlow
由谷歌公司打造的TensorFlow已經(jīng)成為當(dāng)前使用范圍最廣的機器學(xué)習(xí)框架之一。該項目的GitHub(一個面向開源及私有軟件項目的托管平臺)頁面擁有87700顆星評,fork(計算機程序設(shè)計中的分叉函數(shù))數(shù)量超過42700次。2017年發(fā)布的GitHub Octoverse報告指出,TensorFlow這款開源AI工具擁有數(shù)量最高的fork,貢獻者數(shù)量位列第五,評論數(shù)量排名第十。其能夠很好地適應(yīng)基于云的應(yīng)用程序,且目前Amazon Web Services、微軟Auzre以及Google Cloud Platform都為其提供支持及/或服務(wù)。根據(jù)項目網(wǎng)站,其企業(yè)客戶包括愛彼迎、英偉達、優(yōu)步、SAP、Dropbox、eBay、谷歌、英特爾、可口可樂以及Twitter等等。
2. Scikit-Learn
基于其它三個開源項目(NumPy、SciPy以及matplotlibe)的Scikit-learn是一款基于Python的機器學(xué)習(xí)工具,主要強調(diào)數(shù)據(jù)挖掘與數(shù)據(jù)分析。其提供多種算法以實現(xiàn)分類、回歸、聚類、降維、模型選擇以及預(yù)處理等等。其用戶包括Spotify、Evernote、OKCupid以及Change.org等等。其最初屬于谷歌Summer of Code項目,并在隨后的發(fā)展當(dāng)中得到了多個組織機構(gòu)的資助——具體包括INRIA、Paris-Saclay數(shù)據(jù)科學(xué)中心、紐約大學(xué)、Télécom Paristech、哥倫比亞大學(xué)、Alfred P. Sloan基金會與悉尼大學(xué)等。該項目在GitHub上擁有超過25300顆星評與超過12900次fork。
3. Caffe
Caffe誕生于Yangqing Jia手中,在開發(fā)此項目時其尚在加州大學(xué)伯克利分校攻讀博士學(xué)位。伯克利大學(xué)AI研究(簡稱BAIR)部門目前正負責(zé)該項目的開發(fā)工作。項目網(wǎng)站指出,其屬于“以表達、速度與容模為基礎(chǔ)的深度學(xué)習(xí)框架。”其主要功能包括表現(xiàn)性架構(gòu)、可擴展代碼、出色的性能表現(xiàn)以及龐大的學(xué)術(shù)與行業(yè)用戶禰。在GitHub上,該項目擁有22600多顆星評與超過13800次fork。
4. 微軟Cognitive Toolkit
微軟Cognitive Toolkit(原名為CNTK)將自身描述為一款“免費、易于使用的開源商業(yè)級工具包,可用于訓(xùn)練深度學(xué)習(xí)算法以通過類似于人腦的方式實現(xiàn)學(xué)習(xí)。”這套AI解決方案由微軟公司內(nèi)部開發(fā)完成,并于2016年以開源許可形式進行發(fā)布。該工具的主要特征包括支持Python、C++以及BrainScript; 支持強化學(xué)習(xí)、生成對抗網(wǎng)絡(luò)以及有監(jiān)督與無監(jiān)督學(xué)習(xí); 高效的資源利用能力; 與NumPy間的互操作性; 且可與微軟Azure相集成。此項目在GitHub上擁有超過13700顆星評與3600多次fork。
5. PredictionIO
作為Apache項目,PredictionIO是一款開源機器學(xué)習(xí)服務(wù)器,并能夠利用Hadoop、HBase以及Spark等多種其它Apache大數(shù)據(jù)工具。企業(yè)經(jīng)常利用它來實現(xiàn)lambda架構(gòu),其官方網(wǎng)站還提供一整套全面的機器學(xué)習(xí)堆棧,其中囊括Apache Spark、MLlib、HBase、Spray以及ELasticsearch。該項目的目標(biāo)在于幫助數(shù)據(jù)科學(xué)家與開發(fā)者們快速創(chuàng)建預(yù)測引擎,并將其以Web服務(wù)的形式進行部署。此項目的GitHub頁面顯示,其擁有超過10900顆星評以及超過1777次fork。
6. Deeplearn.js
顧名思義,deeplearn.js是一套面向深度學(xué)習(xí)的JavaScript庫。其允許用戶在瀏覽器當(dāng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)。與本份清單中提到的其它幾款開源AI項目一樣,它同樣源自谷歌Brain小組之后,且谷歌公司一直在為該項目的發(fā)展提供助力。Deeplearn.js當(dāng)中包含兩個獨立API:一個負責(zé)實現(xiàn)與NumPy類似的急切執(zhí)行模式,另一個則提供類似于TensorFlow的延遲執(zhí)行模式。在GitHub上,該項目擁有6000多顆星評與超過550次fork。
7. Pattern
Pattern由安特衛(wèi)普大學(xué)計算語言學(xué)與心理語言學(xué)(簡稱CLiPS)研究中心所打造。其提供多種人工智能功能,具體包括數(shù)據(jù)挖掘、自然語言處理、機器學(xué)習(xí)、網(wǎng)絡(luò)分析以及可視化。其基于Python,且捆綁有50多個示例與350多項單元測試。GitHub用戶為其給出了超過6000個星評,fork次數(shù)亦超過1100次。
8. Turi Create
Turi Create允許非技術(shù)專家創(chuàng)建屬于自己的機器學(xué)習(xí)模型,且無需編寫大量代碼。其適用于創(chuàng)建推薦引擎、圖像分析工具以及文本分類引擎,且提供多種算法以實現(xiàn)分類、回歸、圖形分析、聚類、最近鄰、主題模式等等。盡管剛剛由蘋果公司發(fā)布在GitHub上(2017年12月),但其仍然快速吸引到人們的關(guān)注,目前擁有超過5700顆星評以及490多次fork。
9. Aerosolve
由愛彼迎創(chuàng)建的Aerosolve是一款人工智能工具,特別擅長處理地理數(shù)據(jù)。之所以聲名大噪,是因為其擁有“人性化”的設(shè)計思路。其主要功能包括基于資源節(jié)約理念的特征表達、特征轉(zhuǎn)換語言、可調(diào)試模型、Java與Scala支持以及圖像內(nèi)容分析代碼。在GitHub頁面中,該項目擁有超過4200顆星評與550多次fork。
10. DSSTNE
由Amazon公司打造的DSSTNE(發(fā)音為‘Destiny’)代表著“深層可擴展稀疏張量網(wǎng)絡(luò)引擎”。網(wǎng)絡(luò)購物巨頭利用它來創(chuàng)建自己的推薦引擎,但其出色的能力也引起了其它零售商與在線企業(yè)的關(guān)注。根據(jù)開發(fā)人員所言,其在機器學(xué)習(xí)訓(xùn)練數(shù)據(jù)稀缺類用例當(dāng)中發(fā)揮著巨大的作用。在GitHub上,該項目擁有4000多顆星評與超過660次fork。