1. 定义与核心思想
逻辑回归(Logistic Regression)是一种用于二分类问题的统计学习方法,通过sigmoid函数将线性回归的输出映射到[0,1]区间,表示样本属于某一类别的概率。
-
本质:广义线性模型,适用于因变量为二分类(如“是/否”、“成功/失败”)的场景。
-
核心公式:
其中为线性组合,
为模型参数
-
:在特征XX条件下,样本属于类别1的概率。
- sigmoid函数(
):将线性组合
压缩到(0,1)之间,提供非线性概率转换。
:线性组合,由特征加权和加截距项组成。
-
:截距项(偏置),调整决策边界的偏移。
:特征系数,反映每个特征对结果的影响方向和大小。
-
:输入特征变量。
2. Sigmoid函数的作用
- 功能:将线性输出
转换为概率值,公式为:
- 特性:
- 输出范围(0,1),适合表示概率;
- 当
时,
,即分类阈值
3. 模型参数估计
- 最大似然估计(MLE):通过最大化观测数据的联合概率求解参数。
- 对数似然函数:
其中 .
- 损失函数(交叉熵):
通过梯度下降法最小化损失
4. 决策边界与系数解释
- 决策边界:线性超平面
,即
。
- 系数意义:
表示特征
每增加1单位,胜率(Odds)的倍数变化。
- 例如,
时,
,即
增加1单位,胜率提高至2.23倍
5. 计算示例
问题:预测学生是否通过考试,特征为学习时间(小时)和出勤率(比例),模型已训练,参数为:
学生数据:学习时间小时,出勤率
,计算通过考试的概率。
步骤:
- 计算线性组合
:
- 应用sigmoid函数:
预测结果:概率为85.2%,超过阈值0.5,预测为通过考试。