文章目录
- 1 概率
- 1.1 条件概率
- .每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相遇的概率是多少?
- 小明和小红结对编程完成了一个项目。在整个项目中,他们贡献的代码比例是3:5。据往常的统计,小明的bug率为10‰ ,小红的bug率为15‰ 。今天小猿在项目中发现了一个bug,那么该bug是小明编写的概率为多少?
- 小明来猿辅导参加现场面试,他选择地铁、骑自行车、骑电动车三种交通工具方式的概率分别为0.3,0.2,0.5,从各个交通工具迟到的概率分别为0.3,0.1,0.15。下列说法正确的是()
- 1.2 排列组合得概率
- 有5本不同的书,其中语文书2本,数学书2本,英语书1本,将它们随机地摆放到书架上,则同一科目的书都不相邻的概率为()
- 有6块完全相同的瓷砖(大小为1*2),用它们铺满2*6的地面,一共有()种不同的铺法。
- 2 树
- 1.按照二叉树的定义,不考虑节点值,仅考虑树结构情况下,4个节点的二叉树有多少种?
- 3.深度学习
- 3.1 训练
- 在训练神经网络时,损失函数下降得很慢,下列说法中不可能的是()
- 处理过拟合
- 4. 机器学习
- 4.1 adaboost 和随机森林
- 4.2 HMM和CRF
- 4.3 SVM和LR
1 概率
1.1 条件概率
.每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相遇的概率是多少?
1.((1/12 * 1/12)+(1/12 * 1/6))6。两个人做的不是同一个车,小红分为6段的话,小红段时间初始到可以偶遇小明两车次
2.
假设两人到达站台的时间在9-10点之间均匀分布。
P(相遇) = 1-P(不相遇)
= 1- P(小明到的时候小红已经走了) - P(小红到的时候小明已经走了)
= 1- [P(小红9:10走,小明9:10后到)+P(小红9:20走,小明9:20后到)+…+P(小红9:50走,小明9:50后到)] - [P(小明9:05走,小红9:05后到)+P(小明9:10走,小红9:10后到)+…+P(小明9:15走,小红9:15后到)]
= 1-[1/65/6+1/64/6+…+1/61/6] - [1/1211/12+1/1210/12+…+1/12*1/12]
= 1-10/24-11/24
=1/8
小明和小红结对编程完成了一个项目。在整个项目中,他们贡献的代码比例是3:5。据往常的统计,小明的bug率为10‰ ,小红的bug率为15‰ 。今天小猿在项目中发现了一个bug,那么该bug是小明编写的概率为多少?
小明来猿辅导参加现场面试,他选择地铁、骑自行车、骑电动车三种交通工具方式的概率分别为0.3,0.2,0.5,从各个交通工具迟到的概率分别为0.3,0.1,0.15。下列说法正确的是()
不可估计
准时到,则骑电动车得概率大于0.5
1.2 排列组合得概率
有5本不同的书,其中语文书2本,数学书2本,英语书1本,将它们随机地摆放到书架上,则同一科目的书都不相邻的概率为()
英语书最后放 语文数学有两种大方式
ABab 这时英语书有五种方式 2×2×2×5
ABbA 这时英语书只能放在Bb中间 2×2×2
最后(2×2×2×5+2×2×2)/A(5,5)=2/5
有6块完全相同的瓷砖(大小为12),用它们铺满26的地面,一共有()种不同的铺法。
13种
全横1种,四个横的5种,两个横的6种,全竖1种。
现有28 的区域可以摆放俄罗斯方块。共有8个21的方块需要摆放在该区域中。求共有多少种摆放方式?
15(4个横的)+7(2个横的)+6(6个横的)+2=30
2 树
1.按照二叉树的定义,不考虑节点值,仅考虑树结构情况下,4个节点的二叉树有多少种?
(2n)!/(n!*(n+1)!)=14
3.深度学习
3.1 训练
在训练神经网络时,损失函数下降得很慢,下列说法中不可能的是()
学习率太低
正则参数太高
陷入局部最小值
训练数据太少
处理过拟合
增加训练数据。
使用数据扩增技术(data augmentation)。
降低模型的复杂度。
归一化训练数据,使数据更加统一。
https://zhuanlan.zhihu.com/p/27627299/
归一化得目的:容易收敛?
4. 机器学习
4.1 adaboost 和随机森林
和Adaboost相比,随机森林对异常值更鲁棒。
Adaboost初始时每个训练元组被赋予相等的权重。
组成随机森林的树可以并行生成,而GBDT是串行生成。
GBDT是通过减少模型方差提高性能,随机森林是通过减少模型偏差提高性能。
-
随机森林采用的bagging思想,而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以较大的权重),因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各训练集之间相互独立,弱分类器可并行,而Boosting的训练集的选择与前一轮的学习结果有关,是串行的。
-
组成随机森林的树可以是分类树,也可以是回归树;而GBDT只能由回归树组成。 组成随机森林的树可以并行生成;而GBDT只能是串行生成。
-
对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来。
-
随机森林对异常值不敏感;GBDT对异常值非常敏感。 随机森林对训练集一视同仁;GBDT是基于权值的弱分类器的集成。 随机森林是通过减少
-
模型方差提高性能;GBDT是通过减少模型偏差提高性能。
4.2 HMM和CRF
在HMM模型中,如果已知观察序列和状态序列,可以使用极大似然估计算法进行参数估计。
https://www.zhihu.com/question/35866596
区别:
https://zhuanlan.zhihu.com/p/31187060
1.HMM是生成模型,CRF是判别模型
2.HMM是概率有向图,CRF是概率无向图
3.HMM求解过程可能是局部最优,CRF可以全局最优
4.CRF概率归一化较合理,HMM则会导致label bias 问题
HMM 与 CRF的区别:https://blog.csdn.net/losteng/article/details/51037927
以下错误:
CRF模型是局部最优,而HMM模型是全局最优。
cuod
CRF模型和HMM模型都是生成式模型。
4.3 SVM和LR
LR和SVM的异同:https://www.cnblogs.com/zhizhan/p/5038747.html
LR可以给出每个点属于每一类的概率,而SVM是非概率的。
相同:
- 都是分类模型,本质都是在找最佳分类超平面;
- 都是判别式模型,判别式模型不关系数据是怎么生成的,只关心数据之间的差别,然后用差别来简单对给定的一个数据进行分类;
- 都是监督学习算法;
- 都可以增加不同的正则项。
异同: - LR 是一个统计的方法,SVM 是一个几何的方法;
- SVM 的处理方法是只考虑 Support Vectors,也就是和分类最相关的少数点去学习分类器。而逻辑回归通过非线性映射减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重;
- 损失函数不同:LR 的损失函数是交叉熵,SVM 的损失函数是 HingeLoss,这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。对 HingeLoss 来说,其零区域对应的正是非支持向量的普通样本,从而所有的普通样本都不参与最终超平面的决定,这是支持向量机最大的优势所在,对训练样本数目的依赖大减少,而且提高了训练效率;
- LR 是参数模型,SVM 是非参数模型,参数模型的前提是假设数据服从某一分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。所以 LR 受数据分布影响,尤其是样本不均衡时影响很大,需要先做平衡,而 SVM 不直接依赖于分布;
- LR 可以产生概率,SVM 不能;
- LR 不依赖样本之间的距离,SVM 是基于距离的;
- LR 相对来说模型更简单好理解,特别是大规模线性分类时并行计算比较方便。而 SVM 的理解和优化相对来说复杂一些,SVM 转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算;
- SVM 的损失函数自带正则(损失函数中的 1/2||w||^2),而 LR 需要另外添加正则项。
SVM的目标是结构风险最小化,逻辑回归目标函数是最小化后验概率。
SVM中当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习。
SVM的分类间隔为,||w||代表向量的模。
与SVM相比, LR对异常数据更加敏感。