回归问题就是拟合输入变量x与数值型的目标变量y之间的关系,而线性回归就是假定了x和y之间的线性关系,公式如下:

十大经典预测算法

如下图所示,我们可以通过绘制绘制(x,y)的散点图的方式来查看x和y之间是否有线性关系,线性回归模型的目标是寻找一条穿过这些散点的直线,让所有的点离直线的距离最短。这条完美直线所对应的参数就是我们要找的线性回归模型参数w1,w2,w3……b

十大经典预测算法

最小二乘法是一种求解回归模型参数w1,w2,w3……b的方法,线性回归模型中,能让预测值和真实值误差平方和最小的这条直线就是完美直线。

十大经典预测算法

y^i表示第i个数据点的预测值,也就是对应完美直线的y值。最小二乘法通过求偏导数的方法让误差平方和取得最小值w1,w2,w3……b。

损失函数定义:

监督学习算法的目标就是为了让目标变量y的预测值和真实值尽量吻合,定义预测值与真实值之间的差异方法就叫损失函数。损失函数值越小,说明差异越小,模型的预测效果越好。线性回归中最小二乘法就是这个损失函数。

梯度下降法

在机器学习领域中,梯度下降法是更加通用的一种求解参数的方法。它的核心思想是 通过迭代逼近的方法寻找到让损失函数取得最小值的参数,如下图所示

十大经典预测算法

上图中,J(ð)是损失函数,a是学习率,初始要设的小一点,这样用梯度下降法时,才会更快的迭代到。迭代过程如下所示:

十大经典预测算法

最终求出最合适的参数值

2、逻辑回归

一、逻辑回归概念

线性回归可以拟合X与Y之间的关系,但回归模型中Y值是连续的,如果换成一个二分类标签,Y只能取两个值0、1,这时候就不能用线性回归了,这样就有了逻辑回归。

针对Y的值域在区间[0-1]的问题,我们不能寻找到一条完美曲线,用于拟合二分类模型,但我们可以寻找一条完美的S型曲线,S型曲线叫Sigmoid曲线,

十大经典预测算法

二、Sigmoid函数介绍

Sigmoid函数数学表达示

十大经典预测算法

十大经典预测算法

以二分类为例,逻辑回归就是假设y=1的概率为(P(Y = 1))与X之间是S曲线关系,数学表达式为

十大经典预测算法

 

逻辑回归核心原理是在线性回归的基础上加上一个Sigmoid函数,把训练数据通过Sigmoid函数整合到(0—1)之间。

逻辑回归的损失函数为

十大经典预测算法

 

逻辑回归只能用梯度下降法来求解参数w,b,不能用最小二乘法。

 

逻辑回归虽然有“回归”两字,但是他解决的是分类问题,而不是回归问题,逻辑回归是最经典和最常用的一个分类算法

随机梯度下降:每次只考虑一个样本

批量梯度下降:考虑所有样本

3、支持向量机(SVM算法)

一、概念:SVM思想和线性回归很相似,两个都是寻找一条最佳直线。

不同点:最佳直线的定义方法不一样,线性回归要求的是直线到各个点的距离最近,SVM要求的是直线离两边的点距离尽量大。

十大经典预测算法

 

SVM本质,

距离测度,即把点的坐标转换成点到几个固定点的距离 ,从而实现升维。十大经典预测算法

 

十大经典预测算法

如下所示

十大经典预测算法

因为SVM要映射到高维空间,再来求分离超平面,但是这样的话,运算量会非常庞大,又因为上面的核函数和和映射到高维空间的解类似,所以求SVM分离超平面时,可以用求核函数方法代替在高维空间中计算,从而实现在一维平面上计算达到高维空间计算的效果