快捷搜索:  汽车  科技

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)数据转换 异常值有时也有比较好的应用价值。如何处理缺失值和异常值 缺失值的常见处理方法 异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。

常见的数据处理技巧

数据的抽取要正确反应业务需求

  • 真正熟悉业务背景
  • 确保抽取的数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变

数据抽样:抽样方法多种多样,视具体场景使用。

分析数据的规模有哪些具体的要求

重点是考量目标变量所对应的目标事件的数量。训练集的数据量大概应该占到样本总数据量的40%-70%。1000个以上。自变量一般控制在8-20个以上。

如何处理缺失值和异常值

缺失值的常见处理方法

  • 数据分析师首先应该知道数据缺失的原因
  • 对于数据的缺失进行判断
  • 直接删除带有缺失值的数据元组(或观察对象)
  • 直接删除有大量缺失值的变量
  • 对缺失值进行替换
  • 对缺失值进行赋值

异常值的判断和处理:连续值和离散值的异常值的处理方式不尽相同。

异常值有时也有比较好的应用价值。

数据转换

产生衍生变量

改变分布

分箱

标准化

筛选有效的输入变量

为什么

  • 提高模型稳定型
  • 提高模型预测能力
  • 提高运算速度和运算效率的需要

结合业务经验进行先行筛选

用线性相关性指标进行初步筛选

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(1)

R平方

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(2)

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(3)

卡方检验

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(4)

WOE、IV、基尼系数

  • 通过WOE的变化来调整出最佳的分箱阈值
  • 通过IV或者Gini筛选出有较高预测价值的自变量

部分建模算法自身的筛选功能

降维的方法

最后的准则

既要贯彻落实上述种种有效的筛选输入变量的方法和原理,又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件,并加以权衡和折中。

共线性问题

如何识别共线性

  • 相关系数
  • 模型结论
  • 主成分分析
  • 违背业务经验
  • 聚类

如何处理共线性

  • 变量取舍
  • 变量组合
  • 变量转换
常见的数据挖掘技术

聚类

聚类的场景:

  • 目标用户的群体分类
  • 不同产品的价值组合
  • 探测、发现孤立点、异常值

主要聚类算法的分类:

  • 划分方法
  • 层次方法
  • 基于密度的方法
  • 基于网格的方法

注意事项:

  • 处理数据噪声和异常值
  • 数据标准化
  • 聚类变量的少而精

扩展应用:

  • 聚类的核心指标与非聚类的业务指标相辅相成
  • 数据的探索和清理工具
  • 个性化推荐的应用

聚类分析在实际应用中的优势和缺点:

  • 优点:聚类算法成熟;聚类业务解释度好;简洁、高效;不依赖顺序
  • 缺点:需要提前指定k;异常值敏感

聚类分析结果的评价体系和评价指标:

  • 业务专家评估
  • 指标:RMSSTD、R-Square、SPR、Distance Between Clusters

预测响应(分类)模型

神经网络的应用优势:

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(5)

神经网络的缺点和注意事项:

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(6)

决策树

常见算法:CHAID、CART、ID3

应用优势:

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(7)

缺点和注意事项:

掌握常见数据分析与数据挖掘算法(数据分析和数据挖掘的具体方法)(8)

除此之外,还有逻辑回归、多元线性回归、过拟合的处理等技术

猜您喜欢: