从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)
从零开始学习数据分析的简单方法(深入浅出数据分析的价值点)大胆假设,小心求证。从不同方面做出假设,搜集信息证明或推翻假设怎么确定合适的心智模型?重点:客户提出的问题可能本身都是错的,需要沟通确认问题,分析目的,数据来源,数据意义等。2.心智模型对外界的假设和确信的观点就是心智模型,分析者无法关注一切,所以心智模型会影响分析结果
数据分析入门第一本。通俗简单,但其中思想逻辑和分析原则,要好好体会,会对以后的学习有很大的帮助。
分享一下当时看完这本书的一些笔记,还没看的人可以借此搞清楚本书的一些价值点。
精华:
- 数据分析的流程:确认问题→分解数据→评估数据→决策
- 检验结论:AB测试;没有任何统计数据是绝对准确的,数据只有对比才有意义
- 寻找最大值:利用规划求解;设定公式及所有约束条件,求可行区域内的最大解
- 数据图形化:数据图形化的根本在于正确比较
- 假设检验:证伪法
- 贝叶斯统计:大家都认为A非常可能发生,突然收到消息说A很可能不发生;这时的做法不是让所有人重新评估A发生的概率,而是评估A如果发生收到这条消息的概率和A不发生收到这条消息的概率,之后利用贝叶斯进行计算。
- 主观概率:将直觉固化为主观概率数据;用标准偏差确定分歧大小;
- 启发法:你是不是凭冲动做决定,或者凭几个精心选取的关键数据,拍脑袋做决定
需求:如何提升销量?
主要内容:数据分析的流程、统计模型、心智模型
1.数据分析流程:确定问题——>分解问题——>评估——>决策
- 确定问题:和问题提出人一起深究问题,探寻真正需求
- 分解问题:分解问题和数据,使其成为更易分析的单元
- 评估:进一步对前两步定位请扩做出结论,有效的比较
- 决策:把结论重新组合,提出建议
重点:客户提出的问题可能本身都是错的,需要沟通确认问题,分析目的,数据来源,数据意义等。
2.心智模型
对外界的假设和确信的观点就是心智模型,分析者无法关注一切,所以心智模型会影响分析结果
怎么确定合适的心智模型?
大胆假设,小心求证。从不同方面做出假设,搜集信息证明或推翻假设
3.挖掘数据
对数据做处理,保证可用于分析
第二章 检验你的结论需求:找出解决销量下滑的办法
主要内容:比较法、混杂因素、控制组
1.数据只有比较才有意义
当出现因果关系的时候,反向思考他们之间的关系。
混杂因素是研究对象的个人差异,会导致分析结果变差。
控制组(对照组):一组体现现状的处理对象,未经过任何新的处理。有比较就要有对照,就要有控制组和实验组。
实验需要对比,没有实验组就无法对没有发生的情况做进行判断。可以进行 AB test。在 AB 测试之前,需要明确哪些因素会影响数据,比如注册模式、使用模式、付费、注册时间、活跃度……,尽量保持不同分组的用户特点保持一致。
第三章 寻找最大值需求:寻找最佳的生产方案
主要内容:最优化问题、solver求解器
找出约束条件和决策变量
公式:P=C1 X1 C2X2 ,P 是目标,C是约束条件,X 是决策变量
解出公式后,划定可行域,计算出最优解(excel solver)
注意变量间的相关关系:负相关,正相关
第四章 图形让你更精明主要内容:数据图形化、散点图、R语言
1.数据图形化
2.散点图
利用它进行探索性数据分析,X轴自变量,Y轴因变量。可以用R创建散点图
3.提出假设,数据是否支持假设
第五章 假设检验问题:何时开始生产新产品
主要内容:假设检验、证据的诊断性
列出全部信息,建立因果关系图(大多数时间都是网络关系,而非线性关系)
做出一系列假设,证伪法选出做合适的假设
证伪法:在一系列假设中,剔除无法证实的假设,剩余的假设中,列出因素和假设,判断每个因素对每个假设是支持还是反对。对每种假设都有同样的效果的证据不具备诊断性,应该剔除。
第六章 贝叶斯统计问题:判断患病的概率
主要内容:条件概率、基础概率、贝叶斯规则
贝叶斯公式:P(A|B)=P(A)*P(B|A)/P(B)
全概率公式:P(B)=P(B|A)*P(A) P(B|A')*P(A')
- P(A)表示发生 A 的概率,先验概率
- P(A')表示发生 A的对立事件的概率
- P(A|B)表示发生 B 的基础上发生 A 的概率
多次利用贝叶斯定理,改变先验概率,可以减少误差。
第七章 主观概率问题:解决分歧、统计决策
主要内容:主观概率、标准偏差、贝叶斯规则
列出每一个因素,做主观判断,给出概率值比「可能」、「大部分」之类的词更精确。
标准偏差:量度分析点与平均值的偏差
用贝叶斯规则去修正主观概率
第八章 启发法主要内容:启发树、快省树
工作成果评估
第九章 直方图例子:想要加薪
主要内容:直方图、铃形曲线
铃形曲线:正太分布/高斯分布
第十章 回归-预测例子:加薪预测
主要内容:平均值图、散点图、相关性、相关系数
先画散点图,观察数据关系根据数据做回归线
第十一章 合理误差例子:让加薪预测更有效
主要内容:外插法、内插法、机会误差、均方根误差、回归分析的功能
1.模型以外的数据存在很大的误差,定量衡量误差——残差分布,不同的回归模型使用的度量方式不同。
2.一元线性回归模型:均方根误差
第十二章 关联数据库例子:分析杂志销量
主要内容:数据库、RDBMS
后面几章都是讲excel 和 r 的操作。
这本书是数据分析的入门书籍,介绍的大都是基础概念和思维,加上删去了一些涉及到业务隐私的总结思考,这本的笔记并不是很全。
如果想要事无巨细了解的/懒得看书的,可以直接看这个人的笔记:
读书笔记之《深入浅出数据分析》www.360doc.com