北京時間5月13日上午消息,谷歌今天開放了自然語言理解軟件SyntaxNet的源代碼,將其作為該公司TensorFlow開源機器學習庫的一部分。這款軟件可以用于自動分析語句含義,而此次公布的包括訓練新模型的代碼,以及英語文本分析的預訓練模型。
谷歌表示,這個名為Parsey McParseface的句法分析程序可以自動判斷某個單詞是名詞、動詞還是形容詞,它是目前全球同類程序中準確度最高的一款,甚至可以與人類語言學家媲美。
這種技術在自然語言研究領域擁有極其重要的意義。但對谷歌本身而言同樣意義重大。
“我們內部評估技術的方法非常不同。我們不太關心基準,更加關心對下游系統性能的影響。我們的目標是改善用戶體驗。”谷歌研究院產品經理戴夫·奧爾(Dave Orr)說。
與TensorFlow一樣,SyntaxNet主要使用C++執行。它現在實現了開源,使得外部程序員也可以對其加以改進,從而幫助該公司尋找新的人才并改進產品。整體而言,語句分析與產品評論有關,包括應用評論以及餐館和購物點評,這項技術與互聯網搜索和Google Now On Tap功能也有關系。
“這非常重要,因為語言有的時候很微妙,未必能直接理解人們的意思,有些內容與上下文關系很緊密。”谷歌研究院團隊主管塔尼亞·拜德拉克斯-維斯(Tania Bedrax-Weiss)說。
奧爾表示,與傳統的機器學習算法相比,深度學習技術在語言理解方面更加擅長。這種方法通常需要通過大量數據對人工神經網絡進行訓練,然后讓其對新數據進行推斷。谷歌還將深度學習技術用于圖片識別和語音識別。事實上,神經網絡是SyntaxNet的關鍵所在,該項目的開發代號為“神經官能癥”(neurosis)。