快捷搜索:  汽车  科技

多元线性回归模型数据分析(理解回归多元线性回归)

多元线性回归模型数据分析(理解回归多元线性回归)​编辑y = w1*x1 ....wn * xn w0 * x0 就写成了这样y = w1*x1 ....wn * xn w0​编辑然后这里要注意 其实这个w0 可以写成w0*x0 我们假设x0是1

​编辑

然后我们再来看一下 对于之前我们说的 一元一次方程来说 在我们的现实世界中 往往是不能适用的 因为只考虑一个因素的话 那么太简单了 所以我们需要 考虑多个因素 这里就需要

多元一次方程.这个元就是多个维度 考虑多个因素的意思.

多元线性回归模型数据分析(理解回归多元线性回归)(1)

多元线性回归模型数据分析(理解回归多元线性回归)(2)

​编辑

可以看到 多元线性回归 其实就是上面写的

y = w1*x1 ....wn * xn w0

多元线性回归模型数据分析(理解回归多元线性回归)(3)

多元线性回归模型数据分析(理解回归多元线性回归)(4)

​编辑

然后这里要注意 其实这个w0 可以写成w0*x0 我们假设x0是1

y = w1*x1 ....wn * xn w0 * x0 就写成了这样

多元线性回归模型数据分析(理解回归多元线性回归)(5)

多元线性回归模型数据分析(理解回归多元线性回归)(6)

​编辑

然后这个我们看到其实就是一个 行和列的计算 如果我们把w1...wn写成行 然后把x0...xn写成列 那么上面我们写的那个:y = w1*x1 ....wn * xn w0 * x0 实际上就是行列的 相乘

也可以写成 y =wT* x 这样写 在数学中叫做transpose 转置函数 也叫转换函数 转换成行列相乘函数.这里wT指的就是w0到wn 然后x指的就是x0到xn 然后还可以简写成:y = seita T * X

这里seita 符号我又不会打了. y = θ^T * X 这里的T 也不是这样写的 也不是T次方的意思 这里表示对W 或者说是对θ 进行转置 因为T是转置函数

多元线性回归模型数据分析(理解回归多元线性回归)(7)

多元线性回归模型数据分析(理解回归多元线性回归)(8)

​编辑

然后我们继续来看这里 对于上图中 左边的m来说 表示输入的样本 所谓的样本 就是很多的数据 历史数据 这里yi表示 第m个样本的 第i个结果 这里的yi 表示的是真实的结果.并不是我们之前说的那个yhat y估计 是真实值.这里要知道y是一列的 然后x是什么呢?x不是行业不是列 x是一个 行列的矩阵 表示的是 m * x 这样的行列矩阵 然后如果我们写一个xi 那么这个xi 表示 里面的某一行 也就是针对某个m样本的 某个x0到xn 这里的xi指的就是某个x0到xn.

然后上面我们写的公式y = W^t * X 这里是小写的y 表示预测值 就是yhat 然后t表示转置 可以看到 右边是e bu se lo ε 这个值 我们就可以用 大写的Y 也就是输入的真实的Y值 然后 减去- y小写的y 去绝对值 就得到了误差ε了.

然后我们再看上面的值 那个be ta beta(大写Β,小写β,中文音译:贝塔 ) 这个其实用w来表示 会更专业 w0到wn 这里用大写的W 表示权重 为什么用大写的W表示 因为:

多元线性回归模型数据分析(理解回归多元线性回归)(9)

多元线性回归模型数据分析(理解回归多元线性回归)(10)

​编辑

可以看到 这里y = w1*x1 w2*x2 ....wn*xn w0 *x0..

可以看到这里W越大 表示权重越大对结果的影响越大对吧.所以w也是重要程度 影响程度这样.

然后我们再来看 这里m指的是样本 那么m *x0 ...xn 其实就是 y列 其实就是y = m *x 这样一个矩阵

那么就是m *x (也就是y 这一个列)= 那么m行 * n列(这里m和x都表示一组数据) 这个行列矩阵 * 要乘以 注意这里需要再理解一下 这里的m0到mn个样本 * x0 到xn 这里整个的这部分合起来 可以理解成 我们之前的那个一元一次方程里的x 然后 这个行列的矩阵 要乘以一个n行 一列的w0的数据 也就是权重数据 才能得到 y这个预测值.所以 这里我们说的w 每个w都表示w0到wn 是一个一列n行的数据 一组数据.

这里有了y值这个真实值这一列 有了输入的初始的样本m yi = mi * xi m0 *x0 这里就可以获取到

一组w 这里一组w 就是m其实就是 但是m是初始的样本值 w是求出的模型 也就是我们说权重 然后

这里mi 和 xi 都值得是一组数据这个要清楚 然后 有了这个w以后 我们就可以带入新的xi 也就是一组x 的值 然后去求出预测值y.得到预测值yi.

多元线性回归模型数据分析(理解回归多元线性回归)(11)

多元线性回归模型数据分析(理解回归多元线性回归)(12)

​编辑

然后我们再来看 我们的公式 y = se ta T* X 或者写成 = WT *X 这里的

w指的是一个m行一列的数据 同样x是m行 n列的数据 得到的是一个y 这个预测值 是

m行 一列的预测值 然后和m行 一列的真实的Y 去减去然后获得绝对值 得到一个 m行 一列的

误差列 e bu se lo.

多元线性回归模型数据分析(理解回归多元线性回归)(13)

多元线性回归模型数据分析(理解回归多元线性回归)(14)

​编辑

然后其实我们这里要做的就是 要把现有的得到这个e bu se lo 这个列 拿到 然后

把拿到的值进行 平方 然后加起来 ∑ 然后再去除以 m的 行数 也就是我们输入的样本数量 得到

平均值 这个值就是截距...就是挨着线性最近的那个误差值.通过我们不断得到w权重 带入 得到

不同的这个值 获取最小的这个值 对应的一组w就可以了.我们找到就是这一组w.权重.也叫模型.

多元线性回归模型数据分析(理解回归多元线性回归)(15)

多元线性回归模型数据分析(理解回归多元线性回归)(16)

​编辑

首先我们看 这里数据首先是包含 x y的数据 然后 得到的值 y如果是连续的那么我们需要处理的是 回归问题

如果y是离散的 我们需要解决的是分类问题.

多元线性回归模型数据分析(理解回归多元线性回归)(17)

多元线性回归模型数据分析(理解回归多元线性回归)(18)

​编辑

之前也说过这个案例了 这里要说的就是 自然规律 高斯分布 我们要做的就是 找到贴近高斯分布 也就是正态分布的 这个权重w.

多元线性回归模型数据分析(理解回归多元线性回归)(19)

多元线性回归模型数据分析(理解回归多元线性回归)(20)

​编辑

然后我们再来看 这里 有个最大似然估计 这个是什么意思 最大似然估计是一种统计方法 它用来求一个样本的相关概率密度函数的参数 也就是说 对于我们的数据集 我们可能会有很多个正太分布

那么我们要找到 符合我们数据集的是哪一个正太分布 这个时候我们就需要用到这个 最大似然估计.

因为我们知道 如果我们找到了一个正态分布的密度函数 我们要获取密度最大的 也就是相关性最大的这个正太分布.

举个例子 我们有两个正太分布 一个是踢足球的人员的正态分布 可以看到上面左边的那个 这个正太分布 身高可以看到 范围广一些 1.6到1.9 是 另一个是打篮球人的正太分布 可以看到这个身高是1.8到2.26 这个正太分布就比较的高 比较廋对吧 也就是大部分数据 都集中在u均值的左右了...数据密集.所以如果有一个人是1.7 或者1.8 那么我们通过最大似然估计 能得到 第一个正太分布 比较符合规律 我们就把这个人放到第一个正太分布里.

实际上 我们说 如果我们有一个u值 也就是均值 并且我们还有一个 标准差 这个标准差表示的是数据的离散程度 或者说方差是表示离散程度 方差越大 那么正太分布越扁平 离散程度高 越小离散程度越小.

方差是实际值与期望值之差平方的平均值,而标准差是方差平方根。标准差,也称均方差,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度.

猜您喜欢: