一句话里面如何用Python统计词频(Python实现词频分析器)
一句话里面如何用Python统计词频(Python实现词频分析器)sort_list = sorted(dict_list.items() key=lambda item: item[1] reverse=True) 5、 以csv格式写入文件,输出结果保存在output文件夹内。seg_list = jieba.cut(s) dict_list = {} for seg in seg_list: if(dict_list.get(seg) != None): dict_list[seg] = 1 else: dict_list[seg] = 1 4、 对每个词进行频率大小排序。1、安装jieba库。pip install jieba 2、 导入引用,并读取文件。import jieba txt_f = open('./七月与安生.txt') s = txt_f.read() txt_f.close() 3、用jieba库进行分词,并统计各
功能不多说,直接上图。
词频分析结果
输入文章,输出词频结果。
工具Python、jieba
步骤1、安装jieba库。
pip install jieba
2、 导入引用,并读取文件。
import jieba txt_f = open('./七月与安生.txt') s = txt_f.read() txt_f.close()
3、用jieba库进行分词,并统计各个词的频率。
seg_list = jieba.cut(s) dict_list = {} for seg in seg_list: if(dict_list.get(seg) != None): dict_list[seg] = 1 else: dict_list[seg] = 1
4、 对每个词进行频率大小排序。
sort_list = sorted(dict_list.items() key=lambda item: item[1] reverse=True)
5、 以csv格式写入文件,输出结果保存在output文件夹内。
f = open("./output/StatisticsSorted.csv" mode='w') for item in sort_list: f.write(item[0] " " str(item[1]) "\n") f.close()
6、 (扩展)去除英文以及标点符号,并写入文件。
f = open("./output/StatisticsSortedChinese.csv" mode='w') for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue f.write(item[0] " " str(item[1]) "\n") f.close()
7、 (扩展)去除英文、标点符号、单字词,并写入文件。
f = open("./output/StatisticsSortedChineseTwo.csv" mode='w') for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue if len(item[0]) <= 1: continue f.write(item[0] " " str(item[1]) "\n") f.close()
如果对你有所帮助,别忘了关注收藏点赞。
如果想要具体代码,可以私信我。