第二十四周周报
- 摘要
- Abstract
- 1.监督学习和无监督学习
- 1.1 监督学习(Supervised Learning)
- 1.2 无监督学习(Unsupervised Learning)
- 2.线性回归模型
- 3.K-means聚类算法
- 3.1 K-means算法的具体步骤:
- 4.决策树
- 4.1 划分选择的目标
- 4.2 信息增益(Information Gain)
- 4.3 基尼指数(Gini Index)
- 4.4 增益率
- 4.5 划分选择过程
- 4.6 停止条件
- 5.集成学习
- 5.1 Boosting
- 5.2 Bagging
- 5.3 Bagging与Boosting的主要区别
- 6.贝叶斯
- 6.1什么是贝叶斯定理
- 6.2 贝叶斯公式模型的理解
- 6.3 朴素贝叶斯法(Naive Bayes model)
- 总结
摘要
本文详细介绍了统计学习中的基本概念和算法,包括监督学习和无监督学习的区别、线性回归模型、K-means聚类算法、决策树、集成学习(包括Boosting和Bagging)以及贝叶斯定理及其在机器学习中的应用。
Abstract
This paper provides a comprehensive overview of fundamental concepts and algorithms in statistical learning, including the differences between supervised and unsupervised learning, linear regression models, K-means clustering algorithm, decision trees, ensemble learning (including Boosting and Bagging), and the application of Bayes’ theorem in machine learning.
1.监督学习和无监督学习
监督学习和无监督学习是机器学习中的两种主要学习方式,它们在目标、方法和应用场景上有所不同。
1.1 监督学习(Supervised Learning)
监督学习是一种机器学习范式,其中模型从标记的训练数据学习,每个训练样本都包含输入特征和一个对应的标签(或输出)。目标是学习一个映射规则,使得模型能够根据新的输入预测输出。它通常用于分类和回归任务。
特点:
- 标记数据: 训练数据包含输入和对应的输出标签。
- 预测任务: 模型学习如何预测未见过的数据的输出。
- 误差反馈: 模型的预测结果会与真实标签比较,并通过误差反馈进行调整。
常见算法:
- 线性回归(Linear Regression)
- 逻辑回归(Logistic Regression)
- 支持向量机(Support Vector Machines, SVM)
- 决策树(Decision Trees)
- 随机森林(Random Forests)
- 神经网络(Neural Networks)
- K最近邻(K-Nearest Neighbors, KNN)
应用场景:
- 邮件分类(垃圾邮件识别)
- 医疗诊断
- 股票价格预测
- 图像识别
1.2 无监督学习(Unsupervised Learning)
无监督学习涉及从未标记的数据中学习,模型试图找到输入数据中的隐藏结构或模式。它通常用于聚类和关联规则学习任务。
特点:
- 未标记数据: 训练数据只包含输入,没有对应的输出标签。
- 发现模式: 模型尝试发现数据中的模式、结构或分布。
- 探索性: 无监督学习更多用于探索数据,发现数据的内在特性。
常见算法:
- K均值聚类(K-Means Clustering)
- 层次聚类(Hierarchical Clustering)
- 主成分分析(Principal Component Analysis, PCA)
- 自动编码器(Autoencoders)
- 深度信念网络(Deep Belief Networks)
应用场景:
- 市场细分
- 社交网络分析
- 异常检测(如信用卡欺诈)
- 基因表达分析
区别:
- 目标不同: 监督学习的目标是预测,而无监督学习的目标是发现数据的结构。
- 反馈机制: 监督学习有明确的反馈(误差),无监督学习没有。
- 应用场景: 监督学习适用于有明确输出标签的任务,无监督学习适用于探索数据内在结构的任务。
2.线性回归模型
- Hypothesis
在单变量线性回归中,我们假设输出变量 ( y ) 与输入变量 ( x ) 之间存在线性关系。这个关系可以通过以下的假设函数来表示:
h θ ( x ) = θ 0 + θ 1 x h_\theta(x) = \theta_0 + \theta_1 x hθ(x)=θ0+θ1x
其中, θ0 是截距项(bias),θ1 是斜率(weight),h(θ)是预测值。
2. Cost Function
为了衡量假设函数 ( h_\theta(x) ) 与实际数据的拟合程度,我们使用成本函数(Cost Function)。在单变量线性回归中,通常使用均方误差(Mean Squared Error, MSE)作为成本函数:
J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta_0, \theta_1) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 J(θ0,θ1)=2m1i=1∑m(hθ(x(i))−y(i))2
其中, m 是训练样本的数量, x ( i ) 和 y ( i ) 分别是第 i 个样本的输入和输出。 其中, m 是训练样本的数量, x^{(i)} 和 y^{(i)} 分别是第 i 个样本的输入和输出。 其中,m是训练样本的数量,x(i)和y(i)分别是第i个样本的输入和输出。
3. Goal
单变量线性回归的目标是找到参数 θ0 和 θ1 ,使得成本函数 J( θ0 , θ1 ) 最小化。
即:
min θ 0 , θ 1 J ( θ 0 , θ 1 ) \min_{\theta_0, \theta_1} J(\theta_0, \theta_1) θ0,θ1minJ(θ0,θ1)
4. Gradient Descent
为了找到成本函数的最小值,我们使用梯度下降(Gradient Descent)算法。梯度下降通过迭代地更新参数 θ0 和 θ1 来减小成本函数的值。更新规则如下:
θ j : = θ j − α ∂ ∂ θ j J ( θ 0 , θ 1 ) \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1) θj:=θj−α∂θj∂J(θ0,θ1)
其中, α 是学习率( L e a r n i n g R a t e ) ; ∂ ∂ θ j J ( θ 0 , θ 1 ) 是成本函数关于参数 θ j 的偏导数。 其中, α是学习率(Learning Rate); \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1) 是成本函数关于参数 \theta_j 的偏导数。 其中,α是学习率(LearningRate);∂θj∂J(θ0,θ1)是成本函数关于参数θj的偏导数。
对于 θ0 和 θ1 的偏导数,我们有:
∂ ∂ θ 0 J ( θ 0 , θ 1 ) = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) \frac{\partial}{\partial \theta_0} J(\theta_0, \theta_1) = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) ∂θ0∂J(θ0,θ1)=m1i=1∑m(hθ(x(i))−y(i))
∂ ∂ θ 1 J ( θ 0 , θ 1 ) = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x ( i ) \frac{\partial}{\partial \theta_1} J(\theta_0, \theta_1) = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)} ∂θ1∂J(θ0,θ1)=m1i=1∑m(hθ(x(i))−y(i))x(i)
因此,参数的更新规则可以写为:
θ 0 : = θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) θ0:=θ0−αm1i=1∑m(hθ(x(i))−y(i))
θ 1 : = θ 1 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x ( i ) \theta_1 := \theta_1 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) x^{(i)} θ1:=θ1−αm1i=1∑m(hθ(x(i))−y(i))x(i)
参数解释:
- Hypothesis:假设函数 h(θ) 是我们对 y 的预测,它是一个关于 x 的线性函数。
- Cost Function:成本函数 J( θ0 , θ1 ) 衡量了我们的预测值与实际值之间的差异,我们希望这个差异尽可能小。
- Goal:我们的目标是找到使得成本函数最小的参数θ0 和 θ1 。
- Gradient Descent:梯度下降是一种优化算法,它通过计算成本函数的梯度(偏导数)来指导参数的更新,从而逐步减小成本函数的值。学习率 α 决定了每次更新的步长。
多变量的情况
3.K-means聚类算法
K-means聚类算法是一种广泛使用的无监督学习算法,用于将数据集划分为K个簇(clusters)。
K-means算法的核心如下:通过随机在数据集中取点作为聚类中心,以距离为划分依据,然后不断地更新聚族中心。算法实现了机器对未处理数据的分类和处理。
3.1 K-means算法的具体步骤:
- 在数据集中随机取k个点作为聚类中心,剩余的点作为样本点。
- 计算每一个样本到不同的聚类中心的距离,并将样本数据划分到距离其最近的聚类中。
- 重新计算聚类中心的位置,计算方法是取每个聚类中数据坐标的均值,让后用这个值作为新的聚类中心。
- 再次计算样本点到新的聚类中心距离,并划分,然后再重新计算新的新聚族中心位置,直到聚族中心位置不变为止。
迭代过程如下图所示:
K-means算法的优点包括简单、快速,且对大数据集有效。然而,它也有一些局限性:
- K值的选择:需要预先指定K值,而这个值可能不容易确定。
- 对初始值敏感:算法的结果可能依赖于初始聚类中心的选择。
- 对异常值敏感:异常值可能会对聚类中心的计算产生较大影响。
- 簇形状的假设:K-means假设簇是凸形的,这可能不适用于所有数据集。
K-means算法在许多领域都有应用,如市场细分、社交网络分析、图像分割等。
4.决策树
在决策树的构建过程中,划分选择(Split Selection)是一个关键步骤,它决定了如何将数据集分割成更小的子集以提高模型的预测准确性。以下是划分选择的详细描述和相关公式:
4.1 划分选择的目标
划分选择的目标是找到一个特征及其阈值,使得数据集在该特征上的分裂能够最大化信息增益或最小化不纯度(如基尼指数)。这样可以帮助模型更好地学习数据的结构,提高分类或回归的准确性。
4.2 信息增益(Information Gain)
信息增益是一种常用的划分选择标准,它基于熵的概念。熵是衡量数据集纯度的指标,熵越低,数据集的纯度越高。
-
熵(Entropy) 的计算公式为:
H ( S ) = − ∑ i = 1 n p i log 2 p i H(S) = -\sum_{i=1}^{n} p_i \log_2 p_i H(S)=−i=1∑npilog2pi
其中,( S ) 是数据集,( p_i ) 是数据集中第 ( i ) 类的概率。 -
信息增益(Information Gain) 的计算公式为:
I G ( S , A ) = H ( S ) − ∑ v ∈ V a l u e s ( A ) ∣ S v ∣ ∣ S ∣ H ( S v ) IG(S, A) = H(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|} H(S_v) IG(S,A)=H(S)−v∈Values(A)∑∣S∣∣Sv∣H(Sv)
其中,A 是特征,Values(A) 是特征 A 的所有可能值,Sv 是在特征 A 上取值为 v 的数据子集。
4.3 基尼指数(Gini Index)
基尼指数是另一种衡量数据集不纯度的方法,它反映了数据集中样本被错误分类的概率。
-
基尼指数 的计算公式为:
[ Gini(S) = 1 - \sum_{i=1}^{n} p_i^2 ] -
基尼指数增益 的计算公式为:
[ GiniGain(S, A) = Gini(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|} Gini(S_v) ]
4.4 增益率
增益率是决策树算法中用于选择分裂属性的一种标准,它旨在减少信息增益对取值较多属性的偏好。增益率的计算公式如下:
Gain-ratio ( D , a ) = Gain ( D , a ) IV ( a ) \text{Gain-ratio}(D,a) = \frac{\text{Gain}(D,a)}{\text{IV}(a)} Gain-ratio(D,a)=IV(a)Gain(D,a)
其中,Gain(D,a) 是属性 a 在数据集 D 上的信息增益, IV(a) 是属性 a 的固有值(Intrinsic Value),计算公式为:
IV ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ log 2 ∣ D v ∣ ∣ D ∣ \text{IV}(a) = -\sum_{v=1}^{V} \frac{|D^v|}{|D|} \log_2 \frac{|D^v|}{|D|} IV(a)=−v=1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣
这里, V 是属性 a 可能的取值数目, D^v ^ 是在属性 ( a ) 上取值为 ( v ) 的数据子集,|Dv|是 Dv 中的样本数, |D|是数据集 D 的总样本数。
增益率通过将信息增益除以固有值来调整,这样即使某个属性有很多可能的取值,也不会因为信息增益高而被过分偏好。固有值可以看作是属性取值的熵,它衡量了属性取值的分布情况。属性的取值越多,固有值通常越大,这有助于平衡信息增益对取值多的属性的偏好。
在C4.5决策树算法中,增益率被用来选择分裂属性。算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。这种方法可以避免决策树过于复杂,同时提高模型的泛化能力。
4.5 划分选择过程
- 计算每个特征的每个可能分裂点的信息增益或基尼指数增益。
- 选择具有最大信息增益或最小基尼指数增益的特征和阈值作为划分点。
- 根据选定的特征和阈值分裂数据集,形成新的子节点。
- 对每个子节点重复上述过程,直到满足停止条件。
4.6 停止条件
- 节点中的样本数小于某个阈值。
- 信息增益低于某个阈值。
- 达到预设的最大树深度。
- 节点中的所有样本都属于同一类别。
通过这种方式,决策树能够逐步构建起来,每个节点都基于最优的特征和阈值进行数据分裂,以提高模型的预测性能。
5.集成学习
5.1 Boosting
Boosting是一种集成学习算法,它通过组合多个弱分类器来构建一个强分类器。
Boosting的核心思想是按顺序逐步训练模型,每个模型都在前一个模型的基础上进行改进,特别关注前一个模型中分类错误的数据点。这种方法可以减少模型的偏差(bias),提高整体性能。
Boosting算法的过程通常包括以下步骤:
- 初始化每个样本的权重。
- 迭代训练弱分类器,每个分类器都根据当前样本权重进行训练。
- 更新样本权重,增加被前一个分类器错误分类样本的权重。
- 将所有弱分类器的预测结果通过加权投票或加权平均的方式组合成最终预测。
Boosting系列算法中最经典的包括AdaBoost算法和GBDT算法。AdaBoost算法通过给每个弱分类器分配权重,并将它们线性组合作为最终分类器。误差越小的弱分类器,权值越大。
5.2 Bagging
Bagging,即Bootstrap Aggregating,是一种并行集成学习方法
它通过在训练集中多次随机采样(有放回的抽样)生成多个不同的子集,并在每个子集上训练一个模型,然后将这些模型的预测结果进行平均或投票来提高模型的稳定性和准确性。
Bagging算法的过程通常包括以下步骤:
- 从原始训练数据集中使用Bootstrap方法随机抽取多个子集。
- 在每个子集上训练一个基学习器。
- 对于分类任务,通过投票机制得到最终预测;对于回归任务,通过平均所有基学习器的预测值得到最终预测。
5.3 Bagging与Boosting的主要区别
Bagging与Boosting的主要区别在于:
- Bagging通过增加个体学习器的多样性降低模型方差,而Boosting通过加权累加个体学习器,着重降低模型偏差。
- Bagging中的个体学习器地位平等,而Boosting中的个体学习器权重随训练过程动态调整。
- Bagging可以并行计算,而Boosting需要顺序生成模型,因为后一个模型参数需要前一轮模型的结果。
随机森林(Random Forest)是Bagging的一个变体,它在决策树构建过程中引入了额外的随机性,如随机选取特征子集,进一步增强了个体学习器的多样性,通常在分类任务中表现更优。
6.贝叶斯
在上一周的机器学习中,我们在二分类问题中用到了贝叶斯公式,贝叶斯对于我们的Classification具有重大的作用,因此需要开一个拓展专题来研究一下贝叶斯。
6.1什么是贝叶斯定理
举个不太恰当的例子:
比如说有一个家人,有父亲、母亲、和一个正在读初中的儿子
母亲有一天打扫房间卫生,发现儿子的房间多了一个打火机,于是她就会怀疑在小学的儿子是不是在外面结识了社会人士学会抽烟了。
出于对儿子的担心于是她咨询她的朋友,她的朋友是一名数学家,于是她的朋友告诉她就可以用贝叶斯定理来计算她儿子抽烟的几率有多大
她的朋友跟她说,
贝叶斯模型,主要有这几个重要组成部分:
1、先验概率:即根据先前的经验对事物产生初步的判断(可以理解为,根据自己的社会经验、生活经验判断儿子抽烟的概率有多大)
2、接收新信息:例如隔几天再看看儿子的房间有没有烟,或者衣服上有没有烟味
3、根据新信息更新对事物的判断:即根据2再去判断儿子抽烟的概率有多大,得出一个后验概率
所以这位母亲开始收集这些信息。
首先是先验概率: **如果这个打火机没有出现在儿子的房间,儿子抽烟的几率有多大。**这个问题肯定是不好估计的,于是母亲根据自己的见解和生活经验给出了答案:她觉得5%比较合适
然后 根据贝叶斯定理,
还需要有两个概率
1、如果儿子真的抽烟,那在儿子房间发现打火机的概率有多少?
2、如果儿子没有抽烟,那在儿子房间发现打火机的概率有多少?
对于1,母亲觉得其儿子是一个比较粗心的人,如果真的抽烟,在房间里遗落打火机的可能性很大,于是她将1的概率定为50%
对于2,也有合理的解释,是不是其父亲抽烟时候不小心把打火机留在耳机房间了,又或者儿子的打火机是外面捡到的,出于好奇心就带回家了。于是她将2的概率定为5%
接下来,我们把先验概率、概率1、概率2带入贝叶斯定理
P ( A i ∣ B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) = P ( A i ) P ( B ∣ A i ) P ( A 1 ) P ( B ∣ A 1 ) + … + P ( A n ) P ( B ∣ A n ) P\left(A_{i} \mid B\right)=\frac{P\left(A_{i}\right) P\left(B \mid A_{i}\right)}{\sum_{j=1}^{n} P\left(A_{j}\right) P\left(B \mid A_{j}\right)}=\frac{P\left(A_{i}\right) P\left(B \mid A_{i}\right)}{P\left(A_{1}\right) P\left(B \mid A_{1}\right)+\ldots+P\left(A_{n}\right) P\left(B \mid A_{n}\right)} P(Ai∣B)=∑j=1nP(Aj)P(B∣Aj)P(Ai)P(B∣Ai)=P(A1)P(B∣A1)+…+P(An)P(B∣An)P(Ai)P(B∣Ai)
具体计算如下:‘
可以看发现打火机的情况下,儿子抽烟的几率为34%,称之为后验概率,证明可能性是比较低的。
这是由于母亲相信耳机仅有5%可能性抽烟的先验概率前提下导致的
但是如果,出现了第二次这样的情况(即获取到了新信息,例如发现了烟,或者在衣服闻到烟味),这个概率就会随之改变。
于是我们把上一步得到的后验概率当作这一次的先验概率,来判断儿子是否抽烟,可得儿子抽烟的概率为84%
经过不断收集新的信息,又发现了儿子的可疑事件,,就可以基本上确认儿子抽烟了,即使她的母亲对其一开始就很信任。
这就是贝叶斯定理的原理:简单来说就是通过信息不断更新先验概率的过程
其实我们小时候听过的故事———狼来了,就很形象的描述了这一过程
《狼来了》寓言故事是出自古希腊伊索所著的《伊索寓言》中。该故事讲述了一个放羊的孩子喜欢撒谎,两次通过告诉村里人说狼来了,骗取村民急忙赶来,而这个孩子还以此为乐。村民们由于受骗而不再相信孩子的话,有一天,狼真来了,孩子呼救,没人相信,孩子的羊被狼吃光。
从贝叶斯定理我们可以看出,先验概率是无论是5%或者80%,只要们有足够多的证据,概率一定会收敛在事实附近
但是有一种情况是贝叶斯无法判断的,那就是极端情况,如下:
从这里我们可以得到些许反思,一个人不要有极端思想,否则,任何东西都输入不到你的观念中,从而变得狭窄落后,闭关锁国就是经典的例子。
贝叶斯定理在我们机器学习中有许多应用场景,如下:
1.自然语言处理:在自然语言处理中,贝叶斯公式用于求解语句中的概率关系,对语句进行分类和聚类,并预测语句可能的未来发展情况。这有助于实现理解、生成和检索等多种功能。
2.文本分类:贝叶斯方法可以用于识别、分类主题性文本,例如新闻报道分类或公司新闻等。
3.信用评分:在信用评分系统中,高斯朴素贝叶斯(GaussianNB)模型是一种广泛应用的机器学习算法。该模型基于朴素贝叶斯理论,假设特征之间相互独立,并且每个特征都服从高斯分布(正态分布)。例如,在银行构建的自动化的信用评分系统中,GaussianNB模型通过收集大量用户的信用数据,学习到各个特征与信用好坏之间的关系及其概率分布。
6.2 贝叶斯公式模型的理解
在学习贝叶斯公式时,需要了解两个公式
1、全概率公式:
P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + P ( A 3 ) P ( B ∣ A 3 ) + . . . . + P ( A n ) P ( B ∣ A n ) P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)+....+P(A_n)P(B|A_n) P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)+....+P(An)P(B∣An)
2、贝叶斯公式:
P ( A i ∣ B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) = P ( A i ) P ( B ∣ A i ) P ( A 1 ) P ( B ∣ A 1 ) + … + P ( A n ) P ( B ∣ A n ) P\left(A_{i} \mid B\right)=\frac{P\left(A_{i}\right) P\left(B \mid A_{i}\right)}{\sum_{j=1}^{n} P\left(A_{j}\right) P\left(B \mid A_{j}\right)}=\frac{P\left(A_{i}\right) P\left(B \mid A_{i}\right)}{P\left(A_{1}\right) P\left(B \mid A_{1}\right)+\ldots+P\left(A_{n}\right) P\left(B \mid A_{n}\right)} P(Ai∣B)=∑j=1nP(Aj)P(B∣Aj)P(Ai)P(B∣Ai)=P(A1)P(B∣A1)+…+P(An)P(B∣An)P(Ai)P(B∣Ai)
3、联合概率公式(为了解释几个事件同时发生的概率,例如只有两个事件A、B):
P ( A , B ) = P ( A ∣ B ) ∗ P ( B ) = P ( B ∣ A ) ∗ P ( A ) P(A,B) = P(A|B)*P(B) = P(B|A)*P(A) P(A,B)=P(A∣B)∗P(B)=P(B∣A)∗P(A)
在这个基础上,我们用模型图来理解贝叶斯公式:
6.3 朴素贝叶斯法(Naive Bayes model)
下面我们学习一下机器学习中经常提到的Naive Bayes model(朴素贝叶斯法)
朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立(没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。)
虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。所以在机器学习中其算法可以用来处理大量的数据。
我们上面的2.1例子中,讲的都是一个特征判断一个事件(只通过是否有打火机来判断是否抽烟),假设我们有多个特征要怎么处理呢?
这个时候就要用到我们的朴素贝叶斯分分类算法,我们用一个买瓜的例子进行理解学习。
还有很多贝叶斯算法,因为时间有限,后续我们继续研究学习。
总结
本周考试繁多,所以刚好学习统计学习的知识,作为周报的同时也是一种复习。
本文全面探讨了统计学习领域的基础和核心算法,从监督学习与无监督学习的区别入手,详细分析了线性回归模型、K-means聚类算法、决策树构建及其划分选择标准、集成学习中的Boosting和Bagging方法,以及贝叶斯定理和朴素贝叶斯分类器在机器学习中的应用。通过对这些算法的特点、工作原理、优势和局限性的深入学习。
下一周计划继续学习动手深度学习知识。