贝叶斯曲线算法：朴素贝叶斯 Naive Bayes

小君 2022-11-12 20:26:08 606

贝叶斯曲线算法：朴素贝叶斯 Naive Bayes为了得到有意义的预测概率，需要采用模型“校正”（calibration）。在scikit-learn中，使用CalibratedClassifierCV分类，通过k折交叉验证（k-fold cross-validation）来生成“好的”校正的预测概率。在CalibratedClassifierCV中，训练集用于训练模型，测试集用于矫正模型预测概率。返回的预测概率是k-fold的均值。详见参考文章。>>> from sklearn.datasets import load_iris >>> from sklearn.model_selection import train_test_split >>> from sklearn.naive_bayes import GaussianNB >>> X y = load

首先计算P(Walks|X)的概率，可以参见如下公式：

首先，需要自定义一个参考集，如下图中虚线所示。

先验概率（步行上班发生的概率）为：$P(Walks)={10} \over {40}$；
边际可能性为：$P(X)={4} \over {30}$；
可能性为：$P(X|Walks)={3} \over {10}$；
后验概率（给定特征情况下，步行上班发生的概率）为：$P(Walks|X) = {0.3 * 0.25} \over {4 \over 30} = 0.75$。

计算$P(Walks|X)$后计算$P(Drivers|X)$，通过比较两个概率的大小，来决定灰色点属于哪类（Walks 或者 Drives）。通过比较不难得出灰色点属于“步行上班”类别（此处省略计算过程）。

在机器学习中，朴素贝叶斯分类器是基于贝叶斯理论（该理论中有很强的特征间独立性假设）的一个简单“概率分类”的家族。因此，朴素贝叶斯分类算法属于概率的机器学习（probabilistic machine learning），并且可应用于很多分类的任务中。典型的应用有垃圾邮件筛选（filtering spam），分类文件（classifying documents），情绪预测（sentiment prediction）。

在scikit-learn中，一共提供三种朴素贝叶斯的方法，分别为高斯朴素贝叶斯（Gaussian Naive Bayes）、二项式朴素贝叶斯（Multinomial Naive Bayes），伯努利朴素贝叶斯（Bernoulli Naive Bayes）和补足朴素贝叶斯（Complement Naive Bayes）。官方文档中给出以高斯朴素贝叶斯为例的代码，示例如下：

>>> from sklearn.datasets import load_iris >>> from sklearn.model_selection import train_test_split >>> from sklearn.naive_bayes import GaussianNB >>> X y = load_iris(return_X_y=True) >>> X_train X_test y_train y_test = train_test_split(X y test_size=0.5 random_state=0) >>> gnb = GaussianNB() >>> y_pred = gnb.fit(X_train y_train).predict(X_test) >>> print("Number of mislabeled points out of a total %d points : %d" ... % (X_test.shape[0] (y_test != y_pred).sum())) Number of mislabeled points out of a total 75 points : 4

概率校正

分类概率在一些机器模型中应用广泛，在scikit-learn中，大多数机器学习算法通过使用predict_proba函数，允许计算样本各类别的概率。这个功能对于一些情况下是极为有效的，例如，如果某一类的模型预测概率是大于欧90%的。但是，包括朴素贝叶斯等模型，它的模型预测概率与现实中的概率不尽相同。例如，函数predict_proba预测某个样本属于某类的样本概率是70%，而实际只有0.1或者0.99。尤其对于朴素贝叶斯模型而言，尽管不同目标类的预测概率有效（valid），但原始概率往往采用接仅0和1的极端值。

为了得到有意义的预测概率，需要采用模型“校正”（calibration）。在scikit-learn中，使用CalibratedClassifierCV分类，通过k折交叉验证（k-fold cross-validation）来生成“好的”校正的预测概率。在CalibratedClassifierCV中，训练集用于训练模型，测试集用于矫正模型预测概率。返回的预测概率是k-fold的均值。详见参考文章。

代码示例如下：

# 导入相关的库 from sklearn import datasets from sklearn.naive_bayes import GaussianNB from sklearn.calibration import CalibratedClassifierCV # 载入莺尾花数据集 iris = datasets.load_iris() X = iris.data y = iris.target # 构建朴素贝叶斯分类对象 clf = GaussianNB() # 构建校正器 clf_sigmoid = CalibratedClassifierCV(clf cv=2 method='sigmoid') # 构建带有校正概率的分类器 clf_sigmoid.fit(X y) # 构建新样本 new_observation = [[ 2.6 2.6 2.6 0.4]] # 得到矫正后的概率 clf_sigmoid.predict_proba(new_observation)

根据Alexandru和Rich在2005年发表的题为“Predicting Good Probabilities With Supervised Learning”论文[1]中指出：对于朴素贝叶斯模型而言，对于不同校正集合的大小，Isotonic Regression的表现都优于Platt Scaling方法（在CalibratedClassifierCV中，用参数method定义）。因此，这对朴素贝叶斯模型的参数设置，可以优先考虑Isotonic Regression方法。

参考文章：

[1] Niculescu-Mizil A. & Caruana R. (2005 August). Predicting good probabilities with supervised learning. In Proceedings of the 22nd international conference on Machine learning (pp. 625-632).

（1）获取更多优质内容及精彩资讯，可前往：https://www.cda.cn/?seo

（2）了解更多数据领域的优质课程：

上一页 1 2 尾页

网站首页

返回栏目

贝叶斯曲线算法：朴素贝叶斯 Naive Bayes

概率校正

猜您喜欢：

相关文章