快捷搜索:  汽车  科技

中文分词的算法:自然语言处理第十一讲

中文分词的算法:自然语言处理第十一讲调用pkuseg模块的pkuseg()函数seg = pkuseg.pkuseg()调用pkuseg模块content = open(r'E:\pythondata\test\唐诗三百首.txt' 'r' encoding='utf-8').read()读取唐诗三百首.txt的内容为一个字符串

中文不像英文每个单词之间有空格分隔,因此处理中文之前需要对中文进行分词处理,常见的处理模块有jieba,但是效果最好的是pkuseg

安装方法:在visual studio code下方的终端区输入: pip3 install -U pkuseg

中文分词的算法:自然语言处理第十一讲(1)

代码解读:

import pkuseg

调用pkuseg模块

content = open(r'E:\pythondata\test\唐诗三百首.txt' 'r' encoding='utf-8').read()

读取唐诗三百首.txt的内容为一个字符串

seg = pkuseg.pkuseg()

调用pkuseg模块的pkuseg()函数

text = seg.cut(content)

对上述字符串进行分词

print(text)

输出结果

猜您喜欢: