nltk是NLP领域中一个比较通用的国际分词工具,但是使用时往往依赖语料库数据包,需要安装到本地,以下介绍在线安装和离线安装两种方式:
(ps:对NLP感兴趣的朋友可以相互学习,我的微信号:Joney-Joney,请备注:NLP博客)
1.在线安装punkt等数据包:
1.1 在线安装时往往会报SSL等安全连接验证错误,可通过python的ssl模块中启用无验证的网络连接方式,代码如下:
import nltk
import ssl
try:_create_unverified_https_context = ssl._create_unverified_context
except AttributeError:pass
else:ssl._create_default_https_context = _create_unverified_https_context
nltk.download()
1.2 运行后就会弹出python解释器后自动打开nltk下载器的界面如下,按图示操作即可:
1.3 单个包都比较小,下载完后打开上图中自行指定的nltk_data目录可看到punkt目录结构如下:
1.4 恭喜您,现在可以正确运行你的代码啦(报错日志中依赖什么包就安装对应的包)
2 离线安装方式:
2.1 先到官网NLTK Corpora(如下图)下载zip包:
2.2 新建一个nltk_data文件夹(仅第一次安装时)放到任意路径下(如:我放在Python.framework/Versions/3.7/share/中);
2.3 把下载好的语料包punkt.zip解压到nltk_data/tokenizers/中(因为punkt属于tokenizers所以需要新建tokenizers文件夹);
2.4 最后把nltk_data目录以代码的形式添加到nltk的数据文件路径中(只需要在第一次安装时添加,添加的代码如下)。
import nltk
nltk.data.path.append('xxxx/nltk_data') # 参数为你放置的nltk_data文件夹的绝对路径
3.安装nltk其它的语料库同理,个人推荐在线安装的方式,比较方便~~