掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）

威哥 2023-07-13 23:41:03 258

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）数据转换异常值有时也有比较好的应用价值。如何处理缺失值和异常值缺失值的常见处理方法异常值的判断和处理：连续值和离散值的异常值的处理方式不尽相同。

常见的数据处理技巧

数据的抽取要正确反应业务需求

真正熟悉业务背景
确保抽取的数据所对应的当时业务背景，与现在的业务需求即将应用的业务背景没有明显的重大改变

数据抽样：抽样方法多种多样，视具体场景使用。

分析数据的规模有哪些具体的要求

重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。

如何处理缺失值和异常值

缺失值的常见处理方法

数据分析师首先应该知道数据缺失的原因
对于数据的缺失进行判断
直接删除带有缺失值的数据元组（或观察对象）
直接删除有大量缺失值的变量
对缺失值进行替换
对缺失值进行赋值

异常值的判断和处理：连续值和离散值的异常值的处理方式不尽相同。

异常值有时也有比较好的应用价值。

数据转换

产生衍生变量

改变分布

分箱

标准化

筛选有效的输入变量

为什么

提高模型稳定型
提高模型预测能力
提高运算速度和运算效率的需要

结合业务经验进行先行筛选

用线性相关性指标进行初步筛选

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(1)

R平方

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(2)

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(3)

卡方检验

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(4)

WOE、IV、基尼系数

通过WOE的变化来调整出最佳的分箱阈值
通过IV或者Gini筛选出有较高预测价值的自变量

部分建模算法自身的筛选功能

降维的方法

最后的准则

既要贯彻落实上述种种有效的筛选输入变量的方法和原理，又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件，并加以权衡和折中。

共线性问题

如何识别共线性

相关系数
模型结论
主成分分析
违背业务经验
聚类

如何处理共线性

变量取舍
变量组合
变量转换

常见的数据挖掘技术

聚类

聚类的场景：

目标用户的群体分类
不同产品的价值组合
探测、发现孤立点、异常值

主要聚类算法的分类：

划分方法
层次方法
基于密度的方法
基于网格的方法

注意事项：

处理数据噪声和异常值
数据标准化
聚类变量的少而精

扩展应用：

聚类的核心指标与非聚类的业务指标相辅相成
数据的探索和清理工具
个性化推荐的应用

聚类分析在实际应用中的优势和缺点：

优点：聚类算法成熟；聚类业务解释度好；简洁、高效；不依赖顺序
缺点：需要提前指定k；异常值敏感

聚类分析结果的评价体系和评价指标：

业务专家评估
指标：RMSSTD、R-Square、SPR、Distance Between Clusters

预测响应（分类）模型

神经网络的应用优势：

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(5)

神经网络的缺点和注意事项：

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(6)

决策树

常见算法：CHAID、CART、ID3

应用优势：

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(7)

缺点和注意事项：

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）(8)

除此之外，还有逻辑回归、多元线性回归、过拟合的处理等技术

网站首页

返回栏目

掌握常见数据分析与数据挖掘算法（数据分析和数据挖掘的具体方法）

猜您喜欢：

相关文章