快捷搜索:  汽车  科技

从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)

从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)大胆假设,小心求证。从不同方面做出假设,搜集信息证明或推翻假设怎么确定合适的心智模型?重点:客户提出的问题可能本身都是错的,需要沟通确认问题,分析目的,数据来源,数据意义等。2.心智模型对外界的假设和确信的观点就是心智模型,分析者无法关注一切,所以心智模型会影响分析结果

从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)(1)

数据分析入门第一本。通俗简单,但其中思想逻辑和分析原则,要好好体会,会对以后的学习有很大的帮助。

分享一下当时看完这本书的一些笔记,还没看的人可以借此搞清楚本书的一些价值点。


精华:
  1. 数据分析的流程:确认问题→分解数据→评估数据→决策
  2. 检验结论:AB测试;没有任何统计数据是绝对准确的,数据只有对比才有意义
  3. 寻找最大值:利用规划求解;设定公式及所有约束条件,求可行区域内的最大解
  4. 数据图形化:数据图形化的根本在于正确比较
  5. 假设检验:证伪法
  6. 贝叶斯统计:大家都认为A非常可能发生,突然收到消息说A很可能不发生;这时的做法不是让所有人重新评估A发生的概率,而是评估A如果发生收到这条消息的概率和A不发生收到这条消息的概率,之后利用贝叶斯进行计算。
  7. 主观概率:将直觉固化为主观概率数据;用标准偏差确定分歧大小;
  8. 启发法:你是不是凭冲动做决定,或者凭几个精心选取的关键数据,拍脑袋做决定
第一章 分解数据

需求:如何提升销量?
主要内容:数据分析的流程、统计模型、心智模型

1.数据分析流程:确定问题——>分解问题——>评估——>决策

  • 确定问题:和问题提出人一起深究问题,探寻真正需求
  • 分解问题:分解问题和数据,使其成为更易分析的单元
  • 评估:进一步对前两步定位请扩做出结论,有效的比较
  • 决策:把结论重新组合,提出建议

重点:客户提出的问题可能本身都是错的,需要沟通确认问题,分析目的,数据来源,数据意义等。

2.心智模型

对外界的假设和确信的观点就是心智模型,分析者无法关注一切,所以心智模型会影响分析结果

怎么确定合适的心智模型?

大胆假设,小心求证。从不同方面做出假设,搜集信息证明或推翻假设

3.挖掘数据

对数据做处理,保证可用于分析

第二章 检验你的结论

需求:找出解决销量下滑的办法
主要内容:比较法、混杂因素、控制组

1.数据只有比较才有意义

当出现因果关系的时候,反向思考他们之间的关系。

混杂因素是研究对象的个人差异,会导致分析结果变差。

控制组(对照组):一组体现现状的处理对象,未经过任何新的处理。有比较就要有对照,就要有控制组和实验组。

实验需要对比,没有实验组就无法对没有发生的情况做进行判断。可以进行 AB test。在 AB 测试之前,需要明确哪些因素会影响数据,比如注册模式、使用模式、付费、注册时间、活跃度……,尽量保持不同分组的用户特点保持一致。

第三章 寻找最大值

需求:寻找最佳的生产方案
主要内容:最优化问题、solver求解器

找出约束条件和决策变量

公式:P=C1 X1 C2X2 ,P 是目标,C是约束条件,X 是决策变量

解出公式后,划定可行域,计算出最优解(excel solver)

注意变量间的相关关系:负相关,正相关

第四章 图形让你更精明

主要内容:数据图形化、散点图、R语言

1.数据图形化

2.散点图

利用它进行探索性数据分析,X轴自变量,Y轴因变量。可以用R创建散点图

从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)(2)

3.提出假设,数据是否支持假设

第五章 假设检验

问题:何时开始生产新产品
主要内容:假设检验、证据的诊断性

列出全部信息,建立因果关系图(大多数时间都是网络关系,而非线性关系)

从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)(3)

做出一系列假设,证伪法选出做合适的假设

证伪法:在一系列假设中,剔除无法证实的假设,剩余的假设中,列出因素和假设,判断每个因素对每个假设是支持还是反对。对每种假设都有同样的效果的证据不具备诊断性,应该剔除。

第六章 贝叶斯统计

问题:判断患病的概率
主要内容:条件概率、基础概率、贝叶斯规则

贝叶斯公式:P(A|B)=P(A)*P(B|A)/P(B)

全概率公式:P(B)=P(B|A)*P(A) P(B|A')*P(A')

  • P(A)表示发生 A 的概率,先验概率
  • P(A')表示发生 A的对立事件的概率
  • P(A|B)表示发生 B 的基础上发生 A 的概率

多次利用贝叶斯定理,改变先验概率,可以减少误差。

第七章 主观概率

问题:解决分歧、统计决策
主要内容:主观概率、标准偏差、贝叶斯规则

列出每一个因素,做主观判断,给出概率值比「可能」、「大部分」之类的词更精确。

标准偏差:量度分析点与平均值的偏差

用贝叶斯规则去修正主观概率

第八章 启发法

主要内容:启发树、快省树

工作成果评估

第九章 直方图

例子:想要加薪
主要内容:直方图、铃形曲线

铃形曲线:正太分布/高斯分布

第十章 回归-预测

例子:加薪预测
主要内容:平均值图、散点图、相关性、相关系数

先画散点图,观察数据关系根据数据做回归线

第十一章 合理误差

例子:让加薪预测更有效
主要内容:外插法、内插法、机会误差、均方根误差、回归分析的功能

1.模型以外的数据存在很大的误差,定量衡量误差——残差分布,不同的回归模型使用的度量方式不同。

2.一元线性回归模型:均方根误差

第十二章 关联数据库

例子:分析杂志销量
主要内容:数据库、RDBMS

第十三章 整理数据

后面几章都是讲excel 和 r 的操作。


这本书是数据分析的入门书籍,介绍的大都是基础概念和思维,加上删去了一些涉及到业务隐私的总结思考,这本的笔记并不是很全。

如果想要事无巨细了解的/懒得看书的,可以直接看这个人的笔记:

读书笔记之《深入浅出数据分析》www.360doc.com

从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)(4)

猜您喜欢: