spaCy是Python和Cython中的高級自然語言處理庫,它建立在最新的研究基礎之上,從一開始就設計用于實際產品。spaCy帶有預先訓練的統計模型和單詞向量,目前支持20多種語言的標記。它具有世界上速度最快的句法分析器,用于標簽的卷積神經網絡模型,解析和命名實體識別以及與深度學習整合。它是在MIT許可下發布的商業開源軟件。
spaCy項目由@honnibal和@ines維護,雖然無法通過電子郵件提供個人支持。但開源者相信,如果公開分享,會讓幫助更有價值,可以讓更多人從中受益。(Github官方地址:https://github.com/explosion/spaCy#spacy-industrial-strength-nlp)
spaCy的特征:
·世界上最快的句法分析器
·實體命名識別
·非破壞性標記
·支持20多種語言
·預先訓練的統計模型和單詞向量
·易于深度學習模型的整合
·一部分語音標記
·標簽依賴分析
·語法驅動的句子分割
·可視化構建語法和NER
·字符串到哈希映射更便捷
·導出numpy數據數組
·有效的二進制序列化
·易于模型打包和部署
·最快的速度
·強烈嚴格的評估準確性
安裝spaCy
pip
使用pip,spaCy版本目前僅作為源包提供。
pip install spacy
在使用pip時,通常建議在虛擬環境中安裝軟件包以避免修改系統狀態:
venv .envsource .env/bin/activate
pip install spacy
conda
通過社區開發者的努力,終于重新添加了conda支持。現在可以通過conda-forge安裝spaCy:
conda config --add channels conda-forge
conda install spacy
更新spaCy
spaCy的一些更新可能需要下載新的統計模型,如果正在運行spaCy v2.0或更高版本,則可以使用validate命令來檢查安裝的模型是否兼容,如果不兼容,請打印有關如何更新的詳細信息:
pip install -U spacy
spacy validate
如果已經訓練了自己的模型,請記住,訓練和運行時的輸入必須匹配。在更新spaCy之后,建議用新版本重新訓練模型。
下載模型
從v1.7.0開始,spaCy的模型可以作為Python包安裝。這意味著它們是應用程序的組件,就像任何其他模塊一樣。 可以使用spaCy的下載命令來安裝模型,也可以通過將pip指向路徑或URL來手動安裝模型。
加載和使用模型
要加載模型,請在模型的快捷鏈接中使用spacy.load():
如果已經通過pip安裝了一個模型,也可以直接導入它,然后調用它的load()方法:
支持舊版本
如果使用的是舊版本(v1.6.0或更低版本),則仍然可以使用python -m spacy.en.download all或python -m spacy.de.download all從spaCy下載并安裝舊模型。.tar.gz存檔也附加到v1.6.0版本,要手動下載并安裝模型,請解壓存檔,將包含的目錄放入spacy / data,并通過spacy.load('en')或spacy.load('de')加載模型。
從源代碼編譯
另一種安裝spaCy的方法是克隆它的GitHub倉庫,并從源代碼構建它。 如果要更改代碼庫,常見方法是需要確保你有一個由包含頭文件,編譯器,pip,virtualenv和git的Python發行版組成的開發環境。編譯器部分是最棘手的。,如何做到這一點取決于你的系統。有關詳細信息,請參閱Ubuntu,OS X和Windows上的說明。
與通過pip進行常規安裝相比,requirements.txt會額外安裝Cython等開發人員依賴項。 有關更多詳細信息和說明,請參閱有關從源代碼編譯spaCy和快速啟動小部件的文檔,以獲取適用于您平臺和Python版本的正確命令,而不是上面的詳細命令,你也可以使用下面的結構命令,所有命令都假定虛擬環境位于一個目錄.env中。如果使用的是其他目錄,則可以通過環境變量VENV_DIR進行更改,例如VENV_DIR =“。custom-env”fab clean make。
Ubuntu
通過apt-get安裝系統級依賴關系:
sudo apt-get install build-essential python-dev git
macOS / OS X
安裝最新版本的XCode,包括所謂的“命令行工具”。 macOS和OS X預裝了Python和git。
Windows
安裝與用于編譯Python解釋器的版本相匹配的Visual Studio Express或更高版本。官方發行版是VS 2008(Python 2.7),VS 2010(Python 3.4)和VS 2015(Python 3.5)。
運行測試
spaCy帶有一個廣泛的測試套件。 首先,找出spaCy的安裝位置:
python -c "import os; import spacy; print(os.path.dirname(spacy.__file__))"
然后在該目錄下運行。The flags--vectors,--slow 和--model是可選的,并啟用額外的測試:
#make sure you are using recent pytest version
python -m pip install -U pytest
python -m pytest <