最近有人问我一个问题,我数学不好,代码基础薄弱,英语一般般,如何入门当今最为前沿的机器学习领域?均方差损失,MSE,平方损失函数,二次代价函数都是什么意思?

这个问题问得好,诸如学好数学,多敲代码,攻克专八这类标准回答我就不多说了。我们这回用Python实战教程案例,分分钟带你入门。

下面我们通过机器学习的入门模型——线性回归,从数学说起,以代码着手,一步步推导出可以应用于实践的模型。

线性回归的数学原理

首先,先看一张图:

图是我们在初中学习过的直角坐标系二维平面,上面遍布着一些点。从整体趋势看,y随x的增大而增大。如果曾经你和我一样,数学每次考试都是90的话,那么接下来,我相信你会情不自禁地做一件事:

没错,我们会以(0,0)和(10,10)为两点,画出一条贯穿其中的线,从视觉上,这条红线正好把所有点一分为二,其对应的数学表达式为:

y=x

而这就是我们线性回归所要做的事:找到一组数学表达式(图中的红线),用来反映数据(图中的点)的变化规律。

目标有了,问题也来了:

贯穿图中密密麻麻点的线有无数条,为什么不是y=2x,y=x+1,偏偏是y=x呢?

我们又是通过何种方法去找到这条线呢?

先解决第一个问题,上天书:

这个式子就是第一个问题的解,没见过的符号太多,看不懂是吧?那么我来翻译一下:

先求出(每个点的Y值-以每个点的X值通过函数求出的Y值)的平方求和;乘以1/2

再通俗点:

把每个点的实际y值与它通过某个函数求出的y值的差的平方加起来,再乘以1/2。

而文章开篇中的均方差损失,MSE,平方损失函数,二次代价函数其实都指的是它。这个式子其实计算的是真实值和用函数预测的值之间的误差之和。那么第一个问题就迎刃而解了:哪一个表达式所求出的误差和最小,就是我们要找的那条“红线”。

我们继续解决第二个问题,先上图:

这个问题还要简单,我们只要从斜率为0的那条“红线”(y=0*X)开始画线,然后一点点增大斜率,每条线求一个误差值,找出其中误差值最小的那条线,就大功告成了。而中间有着巨大计算量的遍历过程,我们可以通过python,瞬间完成。

线性回归的Python实现

重点:梯度下降法!

导入一些包,待用:

importnumpyasnpimportpandasaspdfromsklearn.linear_modelimportLinearRegressionfromsklearn.preprocessingimportMinMaxScalerimportmatplotlib.pyplotaspltimportseabornassnssns.set_context('notebook')sns.set_style('white')

导入案例数据:

model_data=pd.read_csv('model_data.csv',engine='python')model_data.head()

数据是一份上海的房价数据,我们要把房屋价格作为因变量y,房屋面积,房间数附近餐饮POI数量,评论,距离市中心距离等作为自变量,拟合一个线性回归模型,用于预测房价。

根据要求提取自变量和因变量:

feat_cols=model_data.columns.tolist()[1:]print(feat_cols)

X=model_data[feat_cols].valuesy=model_data['价格'].values

构建损失函数:

defCost_Function(X,y,theta):'''需要传入的参数为X:自变量y:应变量theta:权重使用均方误差(MSE),作为损失函数'''m=y.size#求出y的个数(一共多少条数据)t=X.dot(theta)#权重和变量点乘,计算出使用当前权重时的预测值c=0#定义损失值c=1/(2*m)*(np.sum(np.square(t-y)))#预测值与实际值的差值,平方后除以数据的条数,计算出均方误差。最后乘以1/2(无实际意义,方便以后计算)returnc#返回损失值

*θ为每个变量前的权重,什么是权重?比如y=2x,2就是自变量x的权重

求损失值我们就用先前说到的损失函数。如果你够仔细,可能会有一个问题,我们的损失函数前需要乘以一个1/2,似乎没有特别的意义。恭喜你很机智,1/2的确没有任何意义,只是为了接下来方便求导。

构建梯度下降法:

defGradientDescent(X,y,feat_cols,alpha=0.3,num_iters=10000):'''需传入参数为X:自变量y:应变量feat_cols:变量列表alpha:学习率,默认0.3num_iters:迭代次数,默认10000次使用梯度下降法迭代权重'''scaler=MinMaxScaler()#最大最小值归一化自变量X=scaler.fit_transform(X)#归一化m=y.size#求出y的个数(一共多少条数据)J_history=np.zeros(num_iters)#创建容纳每次迭代后损失值得矩阵,初始值为0theta=np.zeros(len(feat_cols)+1)#设置默认权重,0foriterinnp.arange(num_iters):#根据迭代次数,开始迭代t=X.dot(theta)#权重和变量点乘,计算出使用当前权重时的预测值theta=theta-alpha*(1/m)*(X.T.dot(t-y))#对代价函数求导,算出下降最快的方向,乘以学习率(下降的速度),再用原来的权重相减,得到新的权重J_history[iter]=Cost_Function(X,y,theta)#求出新的权重时的损失值,存入矩阵return(theta,J_history)#返回最终的权重和历次迭代的损失值

这是构造模型最为核心的部分。我们不断迭代,寻找最优的那条“红线”的过程,其实是在不断调整每个自变量的权重。而每个权重每次到底怎么调整,增大还是减小(方向),这就需要我们对损失函数求导。

如果数学不好,不理解,我们用图来说明一下:

好比,我们站在悬崖顶端,要找到最快能达到悬崖底部的方向,那么显而易见,你所在位置最陡峭的方向,就是正确的方向,而求导就是找到最陡峭的方向(切线斜率绝对值最大的点)。

山坡是凹凸不平的,所以我们每走一步都需要重新寻找方向,这就是迭代的过程;其次,每次的步子也不能跨太大,万一跨错地方了,不好纠正,所以我们又需要设置一个步子的大小——学习率。

所以梯度下降法的公式就是:

每一次更新的权重= 前一次的权重-学习率X损失函数的导数。

在理解了下山这个场景以后,我们就能顺利的完成梯度下降法的构建,并且通过python函数求出最后每个变量的权重和每次迭代过后的损失值。

构建绘制损失值变化图的函数:

defplot_Cost(GD_result):'''绘制权重变化情况需传入参数为GD_result:梯度下降法结果'''theta,Cost=GD_result#得到权重和损失值print('theta:',theta.ravel())#打印权重plt.plot(Cost)#绘制损失值变化情况plt.title('COSTchange')plt.ylabel('Cost')plt.xlabel('Iterations')plt.grid()plt.show()

这个很简单,就是通过前面梯度下降法求得的历次迭代后的损失值,画出变化曲线。

最后把所有函数汇总,就是我们的线性回归模型了:

deflr_function(X,y,feat_cols):'''需要输入的变量为X:自变量y:应变量feat_cols:变量列表'''defscore(y_p,y):'''y_p:预测值y:真实值dimension:样本数量计算R^和调整R^'''aa=y_p.copy();bb=y.copy()iflen(aa)!=len(bb):print('notsamelength')returnnp.nancc=aa-bbwcpfh=sum(cc**2)#误差平方和#RRmeansR_SquareRR=1-sum((bb-aa)**2)/sum((bb-np.mean(bb))**2)returnRR#返回R^X=np.c_[np.ones(X.shape[0]),X]GD_result=GradientDescent(X,y,feat_cols)plot_Cost(GD_result)y_p=np.dot(X,GD_result[0])RR=score(y_p,y)returnRR,y_p,GD_result[0]#返回R^,预测值

一般对于每个机器学习模型,都需要有一个指标衡量其拟合程度,而线性模型我们使用的是我们所熟知的**可决系数R2**。为了求出R2,

我在函数中又套用了一个简单的求解函数,具体过程不赘述了,通读代码就能明白。通常R^2越接近1,表示模型拟合程度越好。

模型封装完毕,下面是见证奇迹的时刻!

model_result=lr_function(X,y,feat_cols)print('R^2为:{}'.format(round(model_result[0],4)))

通过模型,我们求出了每个自变量的权重,图表反应了损失值由大变小的过程,在10000次迭代的过程中,一开始速度很快,越到后面越趋于平缓。

最后是R^2为0.70,有70%的拟合度,尚可。

线性回归模型的验证

为了验证我们自己编写的模型是否准确,我们也可以使用python机器学习工具包sklearn,对同样的数据,用线性回归模型拟合,查看最后的R^2是否一致。

先对变量标准化:

scaler=MinMaxScaler()X=scaler.fit_transform(X)

使用LinearRegression()进行拟合,并求出R^2:

lr=LinearRegression()lr.fit(X,y)R2=lr.score(X,y)print('R^2为:{}'.format(round(R2,4)))

R^2同样为0.7,代表我们自己编写的模型没有问题。

最后,我们绘制一张真实值与预测值对比图,可视化模型结果:

黑色标记是以真实值为横坐标,预测值为纵坐标。绿色的线为用sklearn拟合的线性回归模型,红色的线为使用我们自己编写的模型拟合的回归线。我们发现,两条线几乎完全重合在一起,说明结论是一致的。

好了,如何不通过调包,一步步运用数学知识和代码优势还原线性回归模型的方法就讲到这里。如果,你完全读懂了上述所有操作,那么我相信你已经入门了。

关于如何用python推导线性回归模型的问题就讲到这里,喜欢就点个关注吧~更多的Python实战教程也会继续为大家更新!