多元线性回归模型数据分析(理解回归多元线性回归)
多元线性回归模型数据分析(理解回归多元线性回归)编辑y = w1*x1 ....wn * xn w0 * x0 就写成了这样y = w1*x1 ....wn * xn w0编辑然后这里要注意 其实这个w0 可以写成w0*x0 我们假设x0是1
编辑然后我们再来看一下 对于之前我们说的 一元一次方程来说 在我们的现实世界中 往往是不能适用的 因为只考虑一个因素的话 那么太简单了 所以我们需要 考虑多个因素 这里就需要
多元一次方程.这个元就是多个维度 考虑多个因素的意思.
编辑
可以看到 多元线性回归 其实就是上面写的
y = w1*x1 ....wn * xn w0
编辑
然后这里要注意 其实这个w0 可以写成w0*x0 我们假设x0是1
y = w1*x1 ....wn * xn w0 * x0 就写成了这样
编辑
然后这个我们看到其实就是一个 行和列的计算 如果我们把w1...wn写成行 然后把x0...xn写成列 那么上面我们写的那个:y = w1*x1 ....wn * xn w0 * x0 实际上就是行列的 相乘
也可以写成 y =wT* x 这样写 在数学中叫做transpose 转置函数 也叫转换函数 转换成行列相乘函数.这里wT指的就是w0到wn 然后x指的就是x0到xn 然后还可以简写成:y = seita T * X
这里seita 符号我又不会打了. y = θ^T * X 这里的T 也不是这样写的 也不是T次方的意思 这里表示对W 或者说是对θ 进行转置 因为T是转置函数
编辑
然后我们继续来看这里 对于上图中 左边的m来说 表示输入的样本 所谓的样本 就是很多的数据 历史数据 这里yi表示 第m个样本的 第i个结果 这里的yi 表示的是真实的结果.并不是我们之前说的那个yhat y估计 是真实值.这里要知道y是一列的 然后x是什么呢?x不是行业不是列 x是一个 行列的矩阵 表示的是 m * x 这样的行列矩阵 然后如果我们写一个xi 那么这个xi 表示 里面的某一行 也就是针对某个m样本的 某个x0到xn 这里的xi指的就是某个x0到xn.
然后上面我们写的公式y = W^t * X 这里是小写的y 表示预测值 就是yhat 然后t表示转置 可以看到 右边是e bu se lo ε 这个值 我们就可以用 大写的Y 也就是输入的真实的Y值 然后 减去- y小写的y 去绝对值 就得到了误差ε了.
然后我们再看上面的值 那个be ta beta(大写Β,小写β,中文音译:贝塔 ) 这个其实用w来表示 会更专业 w0到wn 这里用大写的W 表示权重 为什么用大写的W表示 因为:
编辑
可以看到 这里y = w1*x1 w2*x2 ....wn*xn w0 *x0..
可以看到这里W越大 表示权重越大对结果的影响越大对吧.所以w也是重要程度 影响程度这样.
然后我们再来看 这里m指的是样本 那么m *x0 ...xn 其实就是 y列 其实就是y = m *x 这样一个矩阵
那么就是m *x (也就是y 这一个列)= 那么m行 * n列(这里m和x都表示一组数据) 这个行列矩阵 * 要乘以 注意这里需要再理解一下 这里的m0到mn个样本 * x0 到xn 这里整个的这部分合起来 可以理解成 我们之前的那个一元一次方程里的x 然后 这个行列的矩阵 要乘以一个n行 一列的w0的数据 也就是权重数据 才能得到 y这个预测值.所以 这里我们说的w 每个w都表示w0到wn 是一个一列n行的数据 一组数据.
这里有了y值这个真实值这一列 有了输入的初始的样本m yi = mi * xi m0 *x0 这里就可以获取到
一组w 这里一组w 就是m其实就是 但是m是初始的样本值 w是求出的模型 也就是我们说权重 然后
这里mi 和 xi 都值得是一组数据这个要清楚 然后 有了这个w以后 我们就可以带入新的xi 也就是一组x 的值 然后去求出预测值y.得到预测值yi.
编辑
然后我们再来看 我们的公式 y = se ta T* X 或者写成 = WT *X 这里的
w指的是一个m行一列的数据 同样x是m行 n列的数据 得到的是一个y 这个预测值 是
m行 一列的预测值 然后和m行 一列的真实的Y 去减去然后获得绝对值 得到一个 m行 一列的
误差列 e bu se lo.
编辑
然后其实我们这里要做的就是 要把现有的得到这个e bu se lo 这个列 拿到 然后
把拿到的值进行 平方 然后加起来 ∑ 然后再去除以 m的 行数 也就是我们输入的样本数量 得到
平均值 这个值就是截距...就是挨着线性最近的那个误差值.通过我们不断得到w权重 带入 得到
不同的这个值 获取最小的这个值 对应的一组w就可以了.我们找到就是这一组w.权重.也叫模型.
编辑
首先我们看 这里数据首先是包含 x y的数据 然后 得到的值 y如果是连续的那么我们需要处理的是 回归问题
如果y是离散的 我们需要解决的是分类问题.
编辑
之前也说过这个案例了 这里要说的就是 自然规律 高斯分布 我们要做的就是 找到贴近高斯分布 也就是正态分布的 这个权重w.
编辑
然后我们再来看 这里 有个最大似然估计 这个是什么意思 最大似然估计是一种统计方法 它用来求一个样本的相关概率密度函数的参数 也就是说 对于我们的数据集 我们可能会有很多个正太分布
那么我们要找到 符合我们数据集的是哪一个正太分布 这个时候我们就需要用到这个 最大似然估计.
因为我们知道 如果我们找到了一个正态分布的密度函数 我们要获取密度最大的 也就是相关性最大的这个正太分布.
举个例子 我们有两个正太分布 一个是踢足球的人员的正态分布 可以看到上面左边的那个 这个正太分布 身高可以看到 范围广一些 1.6到1.9 是 另一个是打篮球人的正太分布 可以看到这个身高是1.8到2.26 这个正太分布就比较的高 比较廋对吧 也就是大部分数据 都集中在u均值的左右了...数据密集.所以如果有一个人是1.7 或者1.8 那么我们通过最大似然估计 能得到 第一个正太分布 比较符合规律 我们就把这个人放到第一个正太分布里.
实际上 我们说 如果我们有一个u值 也就是均值 并且我们还有一个 标准差 这个标准差表示的是数据的离散程度 或者说方差是表示离散程度 方差越大 那么正太分布越扁平 离散程度高 越小离散程度越小.
方差是实际值与期望值之差平方的平均值,而标准差是方差平方根。标准差,也称均方差,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度.