nltk 是 Python 下一个自然语言处理相关的库,可以方便的实现分词,词性标注等等。

安装

pip install nltk

然后在终端执行 python, 进入交互式编辑环境

>> import nltk
>> nltk.download()

下载相关模块

分词

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

词性标注

nltk.pos_tag()

词形还原

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize(word)

reference