spaCy
表示
作者 | Matthew Honnibal |
---|---|
開発元 | Explosion AI、他 |
初版 | 2015年2月[1] |
最新版 |
3.7.5[2]
/ 2024年6月05日 |
リポジトリ | |
プログラミング 言語 | Python, Cython |
対応OS | Linux, Windows, macOS |
プラットフォーム | クロスプラットフォーム |
種別 | 自然言語処理 |
ライセンス | MIT |
公式サイト |
spacy |
spaCy ([speɪˈsiː] spay-SEE) は高度な自然言語処理を行うためプログラミング言語PythonとCythonで書かれたオープンソースソフトウェア・ライブラリである[3][4]。このライブラリはMITライセンスの下で公開されており、現在、英語、ドイツ語、スペイン語、ポルトガル語、フランス語、イタリア語、オランダ語に対する種々の解析処理と多言語固有表現抽出のための統計的ニューラルネットワークモデル、また、その他様々な言語に対する字句解析モデルを提供している[5]。
教育や研究に広く使用されているNLTKとは異なり、spaCyは製品用途のソフトウェアを提供することに重点を置いている[6][7]。バージョン1.0の時点で、spaCyはTensorFlow、Keras、scikit-learnやPyTorch[8]等のよく知られた機械学習ライブラリによって訓練された統計モデルが使用できるディープラーニングのためのワークフロー[9]をサポートしている。spaCyの機械学習ライブラリであるThincが、個別のオープンソースPythonライブラリとして公開されている[10]。2017年11月7日にバージョン2.0がリリースされた[11]。品詞タグ付け、構文解析、固有表現抽出のための畳み込みニューラルネットワークモデルや、およびモデルの訓練と更新、カスタム処理パイプラインの構築周りのAPIの改善を含んでいる。
主な特徴
[編集]- 非破壊的な字句解析
- 固有表現抽出
- 25以上の言語の字句解析サポート[12]
- 8言語の統計モデル[13]
- 事前学習済みの単語ベクトル
- 品詞タグ付け
- ラベル付き依存構文解析
- 統語ドリブンの文分割
- テキスト分類
- 構文木および固有表現用のビルトインビジュアライザ
- ディープラーニング
拡張機能とビジュアライザ
[編集]spaCyには、無料のオープンソースライブラリとして利用できるいくつかの拡張機能とビジュアライザが付属している。
- Thinc: CPUによる使用とテキスト入力に対するディープラーニングに最適化された機械学習ライブラリ。
- sense2vec: Word2vecとsense2vecに基づいて、単語の類似性を計算するためのライブラリ[14]。
- displaCy: JavaScript、CSS、SVGで構築されたオープンソースの依存構文木のビジュアライザ。
- displaCyENT: JavaScriptとCSSで構築されたオープンソースの固有表現ビジュアライザ。
関連項目
[編集]参考文献
[編集]- ^ “Introducing spaCy”. explosion.ai. 2016年12月18日閲覧。
- ^ “Release 3.7.5” (5 6月 2024). 26 6月 2024閲覧。
- ^ Choi et al. (2015). It Depends: Dependency Parser Comparison Using A Web-based Evaluation Tool.
- ^ “Google’s new artificial intelligence can’t understand these sentences. Can you?”. Washington Post. 2016年12月18日閲覧。
- ^ “Models & Languages | spaCy Usage Documentation”. spacy.io. 2017年11月8日閲覧。
- ^ “Facts & Figures - spaCy” (英語). spacy.io. 2017年11月8日閲覧。
- ^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). “Multidisciplinary instruction with the Natural Language Toolkit”. Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL .
- ^ “Facts & Figures | spaCy Usage Documentation”. spacy.io. 2017年11月8日閲覧。
- ^ “explosion/spaCy”. GitHub. 2016年12月18日閲覧。
- ^ “explosion/thinc”. GitHub. 2016年12月30日閲覧。
- ^ spaCy: 💫 Industrial-strength Natural Language Processing (NLP) with Python and Cython, Explosion AI, (2017-11-08) 2017年11月8日閲覧。
- ^ “Models & Languages - spaCy” (英語). spacy.io. 2017年11月8日閲覧。
- ^ “Models & Languages | spaCy Usage Documentation” (英語). spacy.io. 2017年11月8日閲覧。
- ^ Trask et al. (2015). sense2vec - A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings