中文分词的算法：自然语言处理第十一讲

小君 2023-03-12 10:17:55 521

中文分词的算法：自然语言处理第十一讲调用pkuseg模块的pkuseg()函数seg = pkuseg.pkuseg()调用pkuseg模块content = open(r'E:\pythondata\test\唐诗三百首.txt' 'r' encoding='utf-8').read()读取唐诗三百首.txt的内容为一个字符串

中文不像英文每个单词之间有空格分隔，因此处理中文之前需要对中文进行分词处理，常见的处理模块有jieba，但是效果最好的是pkuseg

安装方法：在visual studio code下方的终端区输入： pip3 install -U pkuseg

中文分词的算法：自然语言处理第十一讲(1)