怎么用python实现回归分析?Python机器学习随笔之非线性分类的logistic回归拟合及正则化
怎么用python实现回归分析?Python机器学习随笔之非线性分类的logistic回归拟合及正则化import numpy as np import pandas as pd import matplotlib.pyplot as plt path = 'D:\python\ml data\ex2data2.txt' #路径要设置为你自己的路径 data2 = pd.read_csv(path header=None names=['Test 1' 'Test 2' 'Accepted']) data2.head()(2)其数据可视化为:https://github.com/jdwittenauer/ipython-notebooks/tree/master/data 中的ex2data2.txt):在这里λ称作正则化参数,它通过平衡拟合训练的目标和保持参数值较小的目标。从而来保持假设的形式相对简单,来避免过度的拟合。03 Regularized Logistic Regres
01 非线性决策边界的logistic回归拟合
常规的logistic回归在解决分类问题时,通常是用于线性决策边界的分类(如下图-左图),因为logistic回归可以视为线性回归的一种转化,其回归模型为 (sigmoid函数):
式中的z=θTx(i)就是不同x的线性表达式f(x) = g(w0 w1x1 w2x2)。那么,对于线性决策边界的分类,如何用logistic回归预测、拟合呢?这时候就需要将f(x) = g(w0 w1x1 w2x2)的线性函数式转化成多项式:f(x) = g(w0 w1x1 w2x2 w3x12 w4x22 w5x1x2)去拟合(如下图-中图)。
但是,这种处理方式相比较于线性函数表达式会产生很多的项数,因而其变量(特征)也比较多,如果我们没有足够的数据集(训练集)去约束这个变量过多的模型,那么就会发生过拟合。如上图中的最右边图形,其分类结果完全正确,但这个分类模型似乎太过完美了吧?连交叉部分的类别也划分出来了。过拟合就是表示它的分类只是适合于自己这个测试用例,对需要分类的真实样本(例如测试集)而言,特别是针对新的数据样本,实用性反倒可能会低很多。
在这里λ称作正则化参数,它通过平衡拟合训练的目标和保持参数值较小的目标。从而来保持假设的形式相对简单,来避免过度的拟合。
03 Regularized Logistic Regression实例
(1)假设有这样一个非线性决策边界的分类数据,(数据来自
https://github.com/jdwittenauer/ipython-notebooks/tree/master/data 中的ex2data2.txt):
import numpy as np import pandas as pd import matplotlib.pyplot as plt path = 'D:\python\ml data\ex2data2.txt' #路径要设置为你自己的路径 data2 = pd.read_csv(path header=None names=['Test 1' 'Test 2' 'Accepted']) data2.head()
(2)其数据可视化为:
positive = data2[data2['Accepted'].isin([1])] #Accepted列中的1设定为positive negative = data2[data2['Accepted'].isin([0])] #Accepted列中的0设定为positive fig ax = plt.subplots(figsize=(12 8)) ax.scatter(positive['Test 1'] positive['Test 2'] s=50 c='b' marker='o' label='Accepted') ax.scatter(negative['Test 1'] negative['Test 2'] s=50 c='r' marker='x' label='Rejected') ax.legend() ax.set_xlabel('Test 1 Score') ax.set_ylabel('Test 2 Score') plt.show()
(3)构建多项式特征值
上图的可视化结果可以看到该数据类别是明显的非线性决策边界,对此我们首先构建变量'Test 1' 'Test 2'的多项式特征值,如下:
degree = 5 x1 = data2['Test 1'] x2 = data2['Test 2'] data2.insert(3 'Ones' 1) for i in range(1 degree): for j in range(0 i): data2['F' str(i) str(j)] = np.power(x1 i-j) * np.power(x2 j) data2.drop('Test 1' axis=1 inplace=True) #删除Text1列并进行替换 data2.drop('Test 2' axis=1 inplace=True) #删除Text2列并进行替换 data2.head()
其中degree表示多项式的幂数,range(1 degree)表示了从1次到4次,即由data2['F' str(i) str(j)] = np.power(x1 i-j) * np.power(x2 j)命令可知,每一列列名的F第一个数代表了x1的幂值,第二个数代表了x2的幂值,如F31则表示x13x2,以此类推。
(4)构建加入惩罚项的cost函数
def sigmoid(z): return 1 / (1 np.exp(-z)) #构建sigmoid函数 def costReg(theta X y learningRate): theta = np.matrix(theta) X = np.matrix(X) y = np.matrix(y) first = np.multiply(-y np.log(sigmoid(X * theta.T))) second = np.multiply((1 - y) np.log(1 - sigmoid(X * theta.T))) reg = (learningRate / 2 * len(X)) * np.sum(np.power(theta[: 1:theta.shape[1]] 2)) return np.sum(first - second) / (len(X)) reg
reg就是惩罚项,构建思路参考正则化优化logistic回归过拟合部分的惩罚项设置规则。
(5)采用梯度下降法求解
def gradientReg(theta X y learningRate): theta = np.matrix(theta) #转化为矩阵 X = np.matrix(X) y = np.matrix(y) parameters = int(theta.ravel().shape[1]) #计算参数theta的个数 grad = np.zeros(parameters) error = sigmoid(X * theta.T) - y for i in range(parameters): term = np.multiply(error X[: i]) #两矩阵相乘 if (i == 0): grad[i] = np.sum(term) / len(X) #一般来说第一个参数不需要正则化 else: grad[i] = (np.sum(term) / len(X)) ((learningRate / len(X)) * theta[: i]) return grad
具体的梯度下降法思路可以参考之前本人写的关于梯度下降法求解线性回归的文章,只是在这里加了一个惩罚项的梯度下降求解,其构造思路如下图所示。
(6)将变量代入进行拟合
基于表格数据构建x、y变量并转化成数组,这部分内容可以参考之前本人写的关于梯度下降法求解线性回归的文章。然后用梯度下降法函数求解并计算cost。
# set X and y (remember from above that we moved the label to column 0) cols = data2.shape[1] X2 = data2.iloc[: 1:cols] y2 = data2.iloc[: 0:1] # convert to numpy arrays and initalize the parameter array theta X2 = np.array(X2.values) y2 = np.array(y2.values) theta2 = np.zeros(11) learningRate = 1 #设置学习率 gradientReg(theta2 X2 y2 learningRate) costReg(theta2 X2 y2 learningRate)
得到的cost值为0.6931471805599454。
值得注意的是,在这里我们并没有在这个函数中执行梯度下降,而是基于梯度下降计算结果加入梯度项来实现的一个渐变步骤,因此,在这里我们还可以调用octave的内建函数fminunc();来获得最优的theta和最小的cost。在Python,我们可以使用SciPy的优化API来完成
import scipy.optimize as opt result2 = opt.fmin_tnc(func=costReg x0=theta2 fprime=gradientReg args=(X2 y2 learningRate)) result2
(7)计算预测结果精度
def predict(theta X): probability = sigmoid(X * theta.T) return [1 if x >= 0.5 else 0 for x in probability] theta_min = np.matrix(result2[0]) predictions = predict(theta_min X2) correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a b) in zip(predictions y2)] accuracy = (sum(map(int correct)) % len(correct)) print 'accuracy = {0}%'.format(accuracy)
首先构建预测值函数,然后将该值与原始类别值0 1比较,计算其正确的精度,结果为91%。
写作不易,特别是技术类的写作,请大家多多支持,关注、点赞、转发等等..
参考文献:
Machine Learning Exercises In Python Part 1
http://www.johnwittenauer.net/machine-learning-exercises-in-python-part-1/
(吴恩达笔记 1-3)——损失函数及梯度下降
http://blog.csdn.net/wearge/article/details/77073142?locationNum=9&fps=1
斯坦福机器学习视频笔记 Week3 逻辑回归与正则化 Logistic
https://www.cnblogs.com/yangmang/p/6352118.html
详解机器学习中的“正则化”(Regularization)
http://makaidong.com/baimafujinji/1/5017_10306169.html