中文分词的算法:自然语言处理第十一讲
中文分词的算法:自然语言处理第十一讲调用pkuseg模块的pkuseg()函数seg = pkuseg.pkuseg()调用pkuseg模块content = open(r'E:\pythondata\test\唐诗三百首.txt' 'r' encoding='utf-8').read()读取唐诗三百首.txt的内容为一个字符串
中文不像英文每个单词之间有空格分隔,因此处理中文之前需要对中文进行分词处理,常见的处理模块有jieba,但是效果最好的是pkuseg
安装方法:在visual studio code下方的终端区输入: pip3 install -U pkuseg
代码解读:
import pkuseg
调用pkuseg模块
content = open(r'E:\pythondata\test\唐诗三百首.txt' 'r' encoding='utf-8').read()
读取唐诗三百首.txt的内容为一个字符串
seg = pkuseg.pkuseg()
调用pkuseg模块的pkuseg()函数
text = seg.cut(content)
对上述字符串进行分词
print(text)
输出结果