掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)
掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)数据转换 异常值有时也有比较好的应用价值。如何处理缺失值和异常值 缺失值的常见处理方法 异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。
常见的数据处理技巧数据的抽取要正确反应业务需求
- 真正熟悉业务背景
- 确保抽取的数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变
数据抽样:抽样方法多种多样,视具体场景使用。
分析数据的规模有哪些具体的要求
重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。
如何处理缺失值和异常值
缺失值的常见处理方法
- 数据分析师首先应该知道数据缺失的原因
- 对于数据的缺失进行判断
- 直接删除带有缺失值的数据元组(或观察对象)
- 直接删除有大量缺失值的变量
- 对缺失值进行替换
- 对缺失值进行赋值
异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。
异常值有时也有比较好的应用价值。
数据转换
产生衍生变量
改变分布
分箱
标准化
筛选有效的输入变量
为什么
- 提高模型稳定型
- 提高模型预测能力
- 提高运算速度和运算效率的需要
结合业务经验进行先行筛选
用线性相关性指标进行初步筛选
R平方
卡方检验
WOE、IV、基尼系数
- 通过WOE的变化来调整出最佳的分箱阈值
- 通过IV或者Gini筛选出有较高预测价值的自变量
部分建模算法自身的筛选功能
降维的方法
最后的准则
既要贯彻落实上述种种有效的筛选输入变量的方法和原理,又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件,并加以权衡和折中。
共线性问题
如何识别共线性
- 相关系数
- 模型结论
- 主成分分析
- 违背业务经验
- 聚类
如何处理共线性
- 变量取舍
- 变量组合
- 变量转换
聚类
聚类的场景:
- 目标用户的群体分类
- 不同产品的价值组合
- 探测、发现孤立点、异常值
主要聚类算法的分类:
- 划分方法
- 层次方法
- 基于密度的方法
- 基于网格的方法
注意事项:
- 处理数据噪声和异常值
- 数据标准化
- 聚类变量的少而精
扩展应用:
- 聚类的核心指标与非聚类的业务指标相辅相成
- 数据的探索和清理工具
- 个性化推荐的应用
聚类分析在实际应用中的优势和缺点:
- 优点:聚类算法成熟;聚类业务解释度好;简洁、高效;不依赖顺序
- 缺点:需要提前指定k;异常值敏感
聚类分析结果的评价体系和评价指标:
- 业务专家评估
- 指标:RMSSTD、R-Square、SPR、Distance Between Clusters
预测响应(分类)模型
神经网络的应用优势:
神经网络的缺点和注意事项:
决策树
常见算法:CHAID、CART、ID3
应用优势:
缺点和注意事项:
除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术