数据可视化和分析基础(数据可视化之词频分析)
数据可视化和分析基础(数据可视化之词频分析)分析工具 2.exelce数据透视图数据:https://www.tianyancha.com/search?key=凌云县数据样例分析工具:1.图悦 http://www.picdata.cn/picdata/
词频分析是什么呢?词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。
要彻底了解词频分析,必须先了解次词频统计方法。词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于某一个领域、文章中的重要程度。
我们来做个案例分析
以凌云县的在天眼车中的企业数据来做一个分析,分析当前在营业的众多企业中什么领域最火爆、资金实力、企业类型等。
数据:https://www.tianyancha.com/search?key=凌云县
数据样例
分析工具:1.图悦 http://www.picdata.cn/picdata/
2.exelce数据透视图
分析工具
第一步:数据清洗
我们需要利用经营范围数据分析火爆行业,但是经营范围中有部分信息是干扰的,比如:许可证和资质认定书在有效期内经营、不含危险化学品、不含爆破作业、具体经营项目以审批部门批准的为准等等。需要将这部分信息替换删除,得到最终我们需要的数据。
第二部;分析出图
将清洗后的数据复制到分析工具中分析。
分析结果-火爆行业
分析结果-企业类型占比
分析结果-年度企业注册情况