二项逻辑回归模型

既然logistic回归把结果压缩到连续的区间(0,1)，而不是离散的0或者1，然后我们可以取定一个阈值，通常以0.5为阈值，如果计算出来的概率大于0.5，则将结果归为一类（1），如果计算出来的概率小于0.5，则将结果归为另一类（0），用分段函数写出来便是

这样逻辑回归就可以用来进行2分类了，假设数据结构如下

其中m表示样本个数，n表示影响因数的个数，yi(i=0,1,⋯ ,m)取0或者1。现在我们结合数据，利用条件概率分布模型给出基于概率的二项logistic模型如下：

其中，X表示自变量，y表示因变量所属的类别，θ为模型待求的参数，模型解释为在特定的因素下，模型结果取1的概率和取0的概率。模型建好了，接下来就需要进行机器训练，而怎么来给训练一种恰当反馈呢？答案是损失函数，通过损失函数来评估模型学习的好坏和改进机制。

损失函数

机器学习或者统计机器学习常见的损失函数如下：

1.0-1损失函数（0-1 loss function）

2.平方损失函数（quadratic loss function)

3.绝对值损失函数(absolute oss function)

4.对数损失函数(logarithmic loss function)或对数似然损失函数(log - like hood loss function)

逻辑回归中，采用的则是对数损失函数。如果损失函数越小，表示模型越好。

说说对数损失函数与平方损失函数

在逻辑回归的推导中，我们假设样本是服从伯努利分布(0-1分布)的，然后求得满足该分布的似然函数，最终求该似然函数的极大值。整体的思想就是求极大似然函数的思想。而取对数，只是为了方便我们的在求MLE(Maximum Likelihood Estimation)过程中采取的一种数学手段而已。

由前面阈值的取定原则，我们知道相当于我们用一个类别值代替概率值，而类别值是sigmoid函数的两个最值，概率不可能时时刻刻都取到最值，这势必会造成误差，我们把这种误差称为损失，为了给出损失函数表达式，我们假设模型第i个样本所求的概率值为Pi，而真实类别值可能是0或者1。

当类别真实值是1的情况下:
所求的概率值pi越小，越接近0，被划为类别0的可能性越大，被划为类别1的可能性越小，导致的损失越大。
所求的概率值pi越大，越接近1，被划为类别1的可能性越大，被划为类别0的可能性越小，导致的损失越小。我们用下面的函数来描述这种变化关系

其中pi∈(0,1)，其图像大致如下

当类别真实值是0的情况下:
所求的概率值pi越大，越接近1，其结果的类别判定更偏向于1，导致的损失越大。
所求的概率值pi越小，越接近0，其结果的类别判断更偏向于0，导致的损失越小。我们用下面的函数来描述这种变化关系

其中pi∈(0,1)，其图像大致如下

------------------------ ---------- ---------- 分割线内容，hθ等于Pi --------------------------------

根据上面的内容，我们可以得到逻辑回归的对数似然损失函数cost function：

当y=1时，假定这个样本为正类：
①如果此时预测的概率hθ(x)=1 ,则单对这个样本而言的cost=0,表示这个样本的预测完全准确。那如果所有样本都预测准确，则总损失total_cost=0
②如果此时预测的概率hθ(x)=0，那么单对这个样本而言的cost→∞。也就是说预测y=1的概率为0，那么此时就要对损失函数加一个很大的惩罚项。

当y=0时，推理过程跟上述完全一致，不再累赘。

将以上两个表达式合并为一个，则单个样本的损失函数可以描述为：