掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)
掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)数据转换 异常值有时也有比较好的应用价值。如何处理缺失值和异常值 缺失值的常见处理方法 异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。
常见的数据处理技巧数据的抽取要正确反应业务需求
- 真正熟悉业务背景
 - 确保抽取的数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变
 
数据抽样:抽样方法多种多样,视具体场景使用。
分析数据的规模有哪些具体的要求
重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。
如何处理缺失值和异常值
缺失值的常见处理方法
- 数据分析师首先应该知道数据缺失的原因
 - 对于数据的缺失进行判断
 - 直接删除带有缺失值的数据元组(或观察对象)
 - 直接删除有大量缺失值的变量
 - 对缺失值进行替换
 - 对缺失值进行赋值
 
异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。
异常值有时也有比较好的应用价值。
数据转换
产生衍生变量
改变分布
分箱
标准化
筛选有效的输入变量
为什么
- 提高模型稳定型
 - 提高模型预测能力
 - 提高运算速度和运算效率的需要
 
结合业务经验进行先行筛选
用线性相关性指标进行初步筛选

R平方


卡方检验

WOE、IV、基尼系数
- 通过WOE的变化来调整出最佳的分箱阈值
 - 通过IV或者Gini筛选出有较高预测价值的自变量
 
部分建模算法自身的筛选功能
降维的方法
最后的准则
既要贯彻落实上述种种有效的筛选输入变量的方法和原理,又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件,并加以权衡和折中。
共线性问题
如何识别共线性
- 相关系数
 - 模型结论
 - 主成分分析
 - 违背业务经验
 - 聚类
 
如何处理共线性
- 变量取舍
 - 变量组合
 - 变量转换
 
聚类
聚类的场景:
- 目标用户的群体分类
 - 不同产品的价值组合
 - 探测、发现孤立点、异常值
 
主要聚类算法的分类:
- 划分方法
 - 层次方法
 - 基于密度的方法
 - 基于网格的方法
 
注意事项:
- 处理数据噪声和异常值
 - 数据标准化
 - 聚类变量的少而精
 
扩展应用:
- 聚类的核心指标与非聚类的业务指标相辅相成
 - 数据的探索和清理工具
 - 个性化推荐的应用
 
聚类分析在实际应用中的优势和缺点:
- 优点:聚类算法成熟;聚类业务解释度好;简洁、高效;不依赖顺序
 - 缺点:需要提前指定k;异常值敏感
 
聚类分析结果的评价体系和评价指标:
- 业务专家评估
 - 指标:RMSSTD、R-Square、SPR、Distance Between Clusters
 
预测响应(分类)模型
神经网络的应用优势:

神经网络的缺点和注意事项:

决策树
常见算法:CHAID、CART、ID3
应用优势:

缺点和注意事项:

除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术




