快捷搜索:  汽车  科技

一句话里面如何用Python统计词频(Python实现词频分析器)

一句话里面如何用Python统计词频(Python实现词频分析器)sort_list = sorted(dict_list.items() key=lambda item: item[1] reverse=True) 5、 以csv格式写入文件,输出结果保存在output文件夹内。seg_list = jieba.cut(s) dict_list = {} for seg in seg_list: if(dict_list.get(seg) != None): dict_list[seg] = 1 else: dict_list[seg] = 1 4、 对每个词进行频率大小排序。1、安装jieba库。pip install jieba 2、 导入引用,并读取文件。import jieba txt_f = open('./七月与安生.txt') s = txt_f.read() txt_f.close() 3、用jieba库进行分词,并统计各

功能

不多说,直接上图。

一句话里面如何用Python统计词频(Python实现词频分析器)(1)

词频分析结果

输入文章,输出词频结果。

工具

Python、jieba

步骤

1、安装jieba库。

pip install jieba

2、 导入引用,并读取文件。

import jieba txt_f = open('./七月与安生.txt') s = txt_f.read() txt_f.close()

3、用jieba库进行分词,并统计各个词的频率。

seg_list = jieba.cut(s) dict_list = {} for seg in seg_list: if(dict_list.get(seg) != None): dict_list[seg] = 1 else: dict_list[seg] = 1

4、 对每个词进行频率大小排序。

sort_list = sorted(dict_list.items() key=lambda item: item[1] reverse=True)

5、 以csv格式写入文件,输出结果保存在output文件夹内。

f = open("./output/StatisticsSorted.csv" mode='w') for item in sort_list: f.write(item[0] " " str(item[1]) "\n") f.close()

6、 (扩展)去除英文以及标点符号,并写入文件。

f = open("./output/StatisticsSortedChinese.csv" mode='w') for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue f.write(item[0] " " str(item[1]) "\n") f.close()

7、 (扩展)去除英文、标点符号、单字词,并写入文件。

f = open("./output/StatisticsSortedChineseTwo.csv" mode='w') for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue if len(item[0]) <= 1: continue f.write(item[0] " " str(item[1]) "\n") f.close()

如果对你有所帮助,别忘了关注收藏点赞。

如果想要具体代码,可以私信我。

猜您喜欢: