12月19日消息,據外媒報道,微軟將發布免費的數據庫來幫助機器創建更多的對話。
該數據庫名為微軟機器閱讀理解數據庫(簡稱MS MARCO),包含有10萬條英文查詢及對應回答。用來幫助人工智能系統更好地理解人類語言。
微軟合作伙伴集團項目經理Rangan Majumder在周五的一篇博客中提到,微軟將免費開放MS MARCO,并希望能夠與其他機構合作來更好地提高機器的閱讀理解能力。
數據庫中的資料來源于必應搜索和Cortana,并做相應的匿名處理。對問題的回答則是基于互聯網、人類手工編寫以及經過驗證的信息。這些查詢和回復將用于建立深度學習模型。
當前,該數據庫將對非商業用途的用戶提供免費下載。同其他人工智能數據庫開源計劃類似,微軟也將采用同樣的方式開源MS MARCO。
其中的一項是ImageNet,可用于訓練圖像識別算法的圖片標記數據庫。微軟此前在開發圖片識別技術時用到ImageNet,現在又用該數據庫來強化微軟計算機視覺API等產品。如果想了解更多有關MS MARCO的信息,可下載其研發團隊發表的論文。該團隊還在進行另外一項挑戰,用MARCO的數據來評估訓練模型,而評估腳本也還在研發中。
這項開源計劃也是微軟進一步發展其人工智能的舉重要措。微軟一直以來都在打造基于機器學習和人工智能的Azure云平臺,同時在Office和Windows中也加入了一些人工智能的特性。本周早些時候,微軟推出了QnA Maker云服務,用于降低開發者研制問答聊天機器人的難度。