使用贝叶斯分类器进行预测(具有最大似然估计的贝叶斯分类器)
使用贝叶斯分类器进行预测(具有最大似然估计的贝叶斯分类器)值得注意的是,对于特定的theta和X值,似然函数和概率函数具有相同的输出(注意:说的是一个特定的输出而不是输出列表,因为它们因此具有不同的图形)。因此,给定参数theta,似然函数和概率函数的概率分布是相同的。在似然函数内部,给定θ,您可以计算特征向量的概率分布。(1)它们有不同的图形(2)当你对一个函数求导时,你要对不同的变量(3)argmax进行计算,根据不同的变量计算。在学习算法阶段,输入为训练数据,输出为分类器所需的参数。为了从训练数据中选择分类器的参数,可以使用最大似然估计(MLE)、贝叶斯估计(最大后验)或优化损失准则。在本文中,我将介绍一个使用MLE估计贝叶斯分类器参数的示例。第一步是要弄清楚样本分布是什么。给定一系列的训练数据,对sigma和mu的估计是什么?概率模型与似然之间的差异:
监督学习的基本概念是存在用于训练算法的初始数据。这里的假设是有一个最优且相对简单的分类器,它将给定输入映射到大多数输入的适当分类。由于输入可能失真或无法识别,因此分类器可能无法对所有输入进行分类。
通过初始训练,目标是找到与最佳分类器一样有效的分类器的近似值,以便相同的分类器可以与未标记/未看到的数据一起使用。
统计模型方法最初,为训练目的给出了标记的训练数据。利用测试数据,假设一定的概率分布,并且预先计算其所需参数以在分类器中使用。
当初始数据被给定时,假设这里的数据是独立的和相同分布的(i.i.d)。然后检查数据类型,确定可以使用什么概率模型。例如,如果数据是抛硬币,则使用伯努利模型,如果是掷骰子,则可以使用多项式模型。在我下面的示例中,使用的是最常见的高斯模型。为了保证正态分布,通常进行正态检验。
在学习算法阶段,输入为训练数据,输出为分类器所需的参数。为了从训练数据中选择分类器的参数,可以使用最大似然估计(MLE)、贝叶斯估计(最大后验)或优化损失准则。在本文中,我将介绍一个使用MLE估计贝叶斯分类器参数的示例。
利用MLE估计分类器的参数第一步是要弄清楚样本分布是什么。给定一系列的训练数据,对sigma和mu的估计是什么?
概率模型与似然之间的差异:
(1)它们有不同的图形(2)当你对一个函数求导时,你要对不同的变量(3)argmax进行计算,根据不同的变量计算。
值得注意的是,对于特定的theta和X值,似然函数和概率函数具有相同的输出(注意:说的是一个特定的输出而不是输出列表,因为它们因此具有不同的图形)。因此,给定参数theta,似然函数和概率函数的概率分布是相同的。在似然函数内部,给定θ,您可以计算特征向量的概率分布。
单变量高斯示例例如,考虑到个人的体重,这个人是男性还是女性?
设X是一组体重数据。设x_i为第i个体重值。
设Y为类,y_0为男性,y_1为女性
分类器:贝叶斯分类器
argmax选择提供最大输出值的输入。在这种情况下,在给定weight值的情况下,它选择给出最高后验概率的性别。
使用贝叶斯定理,P [Y | X]被P [X | Y] * P [Y] / P [X]代替。请注意,我们只对给出概率最高的y值感兴趣,因此P [X]不是我们感兴趣的,它与P [Y]无关。因此,它可以从等式中删除
对y = y_0计算一次,对y = y_1计算二次,选择概率最大的y值。
但我们不知道P[X|Y](如果是女性或男性,则获得输入特征向量的概率)和P[Y](男性或女性在人群中的比例)。这是MLE(最大似然估计)发挥作用来估计这些可能性的地方。
P(Y)的估计P[Y]在学习阶段以最大似然估计。为了估计男性或女性的总体比例,利用MLE从训练数据中计算出男性或女性的比例。这里的“m”表示男性,p表示从测试数据中获得唯一男性数据序列的概率,(1-p)表示女性数据序列。“n”表示总样本容量。
为了获得P [Y],即男性或女性的fractional population,似然函数的导数设置为0,我们可以求解p。然后我们得到m / n作为fractional population。
P [X | Y]的估计P [X | Y]是获得重量的输入数据的概率(无论是标记的还是未标记的),假设男性或女性。为了得到这个概率,我需要知道什么是(1)weight的总体概率分布以及(2)该分布所需的参数。假设概率分布的正态高斯分布; 在这个例子中,单变量高斯分布。
但我不知道mu和sigma²。所以我将使用MLE(最大似然估计)从训练数据估计mu和sigma²的值
图5
每个模型是mu和sigma²的不同常数值的概率分布,其中给定的x值为体重作为输入。请注意,体重的x值由似然函数提供。由于存在无限的μ和sigma对,因此存在无限数量的这些模型。例如,假设女性的平均体重为135磅,给定的体重值为110磅,则输出概率约为0.005。
似然函数的作用是采用具有mu和sigma²值的模型及其概率,并输出将mu和sigma²的给定体重值作为输入的概率
图5围绕一个for循环,它会为每个模型运行; 在这种情况下,无限多的模型。结果,绘制了上述3-d图。因为我们的目标是估计sigma和mu值,所以选择具有最高概率的sigma和mu值对,其在图中具有峰值,将被选择作为估计值。
为了估计sigma²和mu值,我们需要从似然函数图中找出最大值概率值,看看mu和sigma值给出了该值。因此,我们采用似然函数的导数并将其设置为等于0并求解sigma和mu。然后这些值用于计算P [X | Y]。