往年笔试题

文章目录

  • 1 概率
    • 1.1 条件概率
      • .每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相遇的概率是多少?
      • 小明和小红结对编程完成了一个项目。在整个项目中,他们贡献的代码比例是3:5。据往常的统计,小明的bug率为10‰ ,小红的bug率为15‰ 。今天小猿在项目中发现了一个bug,那么该bug是小明编写的概率为多少?
      • 小明来猿辅导参加现场面试,他选择地铁、骑自行车、骑电动车三种交通工具方式的概率分别为0.3,0.2,0.5,从各个交通工具迟到的概率分别为0.3,0.1,0.15。下列说法正确的是()
    • 1.2 排列组合得概率
      • 有5本不同的书,其中语文书2本,数学书2本,英语书1本,将它们随机地摆放到书架上,则同一科目的书都不相邻的概率为()
      • 有6块完全相同的瓷砖(大小为1*2),用它们铺满2*6的地面,一共有()种不同的铺法。
  • 2 树
    • 1.按照二叉树的定义,不考虑节点值,仅考虑树结构情况下,4个节点的二叉树有多少种?
  • 3.深度学习
    • 3.1 训练
      • 在训练神经网络时,损失函数下降得很慢,下列说法中不可能的是()
      • 处理过拟合
  • 4. 机器学习
    • 4.1 adaboost 和随机森林
    • 4.2 HMM和CRF
    • 4.3 SVM和LR

1 概率

1.1 条件概率

.每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相遇的概率是多少?

1.((1/12 * 1/12)+(1/12 * 1/6))6。两个人做的不是同一个车,小红分为6段的话,小红段时间初始到可以偶遇小明两车次
2.
假设两人到达站台的时间在9-10点之间均匀分布。
P(相遇) = 1-P(不相遇)
= 1- P(小明到的时候小红已经走了) - P(小红到的时候小明已经走了)
= 1- [P(小红9:10走,小明9:10后到)+P(小红9:20走,小明9:20后到)+…+P(小红9:50走,小明9:50后到)] - [P(小明9:05走,小红9:05后到)+P(小明9:10走,小红9:10后到)+…+P(小明9:15走,小红9:15后到)]
= 1-[1/6
5/6+1/64/6+…+1/61/6] - [1/1211/12+1/1210/12+…+1/12*1/12]
= 1-10/24-11/24
=1/8

小明和小红结对编程完成了一个项目。在整个项目中,他们贡献的代码比例是3:5。据往常的统计,小明的bug率为10‰ ,小红的bug率为15‰ 。今天小猿在项目中发现了一个bug,那么该bug是小明编写的概率为多少?

在这里插入图片描述

小明来猿辅导参加现场面试,他选择地铁、骑自行车、骑电动车三种交通工具方式的概率分别为0.3,0.2,0.5,从各个交通工具迟到的概率分别为0.3,0.1,0.15。下列说法正确的是()

不可估计
准时到,则骑电动车得概率大于0.5

1.2 排列组合得概率

有5本不同的书,其中语文书2本,数学书2本,英语书1本,将它们随机地摆放到书架上,则同一科目的书都不相邻的概率为()

英语书最后放 语文数学有两种大方式
ABab 这时英语书有五种方式 2×2×2×5
ABbA 这时英语书只能放在Bb中间 2×2×2
最后(2×2×2×5+2×2×2)/A(5,5)=2/5

有6块完全相同的瓷砖(大小为12),用它们铺满26的地面,一共有()种不同的铺法。

13种
全横1种,四个横的5种,两个横的6种,全竖1种。
现有28 的区域可以摆放俄罗斯方块。共有8个21的方块需要摆放在该区域中。求共有多少种摆放方式?
15(4个横的)+7(2个横的)+6(6个横的)+2=30

2 树

1.按照二叉树的定义,不考虑节点值,仅考虑树结构情况下,4个节点的二叉树有多少种?

(2n)!/(n!*(n+1)!)=14

3.深度学习

3.1 训练

在训练神经网络时,损失函数下降得很慢,下列说法中不可能的是()

学习率太低

正则参数太高

陷入局部最小值

训练数据太少

处理过拟合

增加训练数据。

使用数据扩增技术(data augmentation)。

降低模型的复杂度。

归一化训练数据,使数据更加统一。
https://zhuanlan.zhihu.com/p/27627299/
归一化得目的:容易收敛?

4. 机器学习

4.1 adaboost 和随机森林

和Adaboost相比,随机森林对异常值更鲁棒。

Adaboost初始时每个训练元组被赋予相等的权重。

组成随机森林的树可以并行生成,而GBDT是串行生成。

GBDT是通过减少模型方差提高性能,随机森林是通过减少模型偏差提高性能。

  • 随机森林采用的bagging思想,而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以较大的权重),因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各训练集之间相互独立,弱分类器可并行,而Boosting的训练集的选择与前一轮的学习结果有关,是串行的。

  • 组成随机森林的树可以是分类树,也可以是回归树;而GBDT只能由回归树组成。 组成随机森林的树可以并行生成;而GBDT只能是串行生成。

  • 对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来。

  • 随机森林对异常值不敏感;GBDT对异常值非常敏感。 随机森林对训练集一视同仁;GBDT是基于权值的弱分类器的集成。 随机森林是通过减少

  • 模型方差提高性能;GBDT是通过减少模型偏差提高性能。

4.2 HMM和CRF

在HMM模型中,如果已知观察序列和状态序列,可以使用极大似然估计算法进行参数估计。
https://www.zhihu.com/question/35866596
在这里插入图片描述
区别:
https://zhuanlan.zhihu.com/p/31187060
1.HMM是生成模型,CRF是判别模型

2.HMM是概率有向图,CRF是概率无向图

3.HMM求解过程可能是局部最优,CRF可以全局最优

4.CRF概率归一化较合理,HMM则会导致label bias 问题

HMM 与 CRF的区别:https://blog.csdn.net/losteng/article/details/51037927

以下错误:
CRF模型是局部最优,而HMM模型是全局最优。

cuodHMM模型,设其观察值空间为,设其状态空间为: ,用维特比算法进行解码,其时间复杂度为 。

CRF模型和HMM模型都是生成式模型。

4.3 SVM和LR

LR和SVM的异同:https://www.cnblogs.com/zhizhan/p/5038747.html
LR可以给出每个点属于每一类的概率,而SVM是非概率的。

相同:

  • 都是分类模型,本质都是在找最佳分类超平面;
  • 都是判别式模型,判别式模型不关系数据是怎么生成的,只关心数据之间的差别,然后用差别来简单对给定的一个数据进行分类;
  • 都是监督学习算法;
  • 都可以增加不同的正则项。
    异同:
  • LR 是一个统计的方法,SVM 是一个几何的方法;
  • SVM 的处理方法是只考虑 Support Vectors,也就是和分类最相关的少数点去学习分类器。而逻辑回归通过非线性映射减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重;
  • 损失函数不同:LR 的损失函数是交叉熵,SVM 的损失函数是 HingeLoss,这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。对 HingeLoss 来说,其零区域对应的正是非支持向量的普通样本,从而所有的普通样本都不参与最终超平面的决定,这是支持向量机最大的优势所在,对训练样本数目的依赖大减少,而且提高了训练效率;
  • LR 是参数模型,SVM 是非参数模型,参数模型的前提是假设数据服从某一分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。所以 LR 受数据分布影响,尤其是样本不均衡时影响很大,需要先做平衡,而 SVM 不直接依赖于分布;
  • LR 可以产生概率,SVM 不能;
  • LR 不依赖样本之间的距离,SVM 是基于距离的;
  • LR 相对来说模型更简单好理解,特别是大规模线性分类时并行计算比较方便。而 SVM 的理解和优化相对来说复杂一些,SVM 转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算;
  • SVM 的损失函数自带正则(损失函数中的 1/2||w||^2),而 LR 需要另外添加正则项。
    SVM的目标是结构风险最小化,逻辑回归目标函数是最小化后验概率。

SVM中当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习。

SVM的分类间隔为,||w||代表向量的模。

与SVM相比, LR对异常数据更加敏感。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481448.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

量子生物学的未来:量子理论如何帮助理解生命?

导语2022年诺贝尔物理学奖授予了关于量子信息科学的基础性研究。一百多年前,量子革命为我们带来了晶体管和激光,今天,基于量子信息的新技术正在让我们进入一个新的量子信息时代。事实上,已有研究表明,在生命过程中也存…

【量化投资1】

文章目录0.相关包及常识1.股票买卖收益分析2.双均线策略2.1 均线2.2 双均线2.2.1 金叉死叉的获取量化投资0.相关包及常识 股票的买入卖出:最少为一手,100股 tushare open:开盘价格,close:收盘价格 1.股票买卖收益分析 每次至少买入1手最后…

超高效人工光电神经元成真?速度比自然神经元快3万倍,研究登Nature子刊

来源:悦智网作者:Charles Q. Choi翻译:机器之心原文链接:https://spectrum.ieee.org/neuromorphic-computing-superconducting-synapseAI系统越来越受限于为实现其功能的硬件。现在,一种新的超导光子电路问世&#xff…

2022年工业机器人的5大应用行业

来源:工业机器人前言截止至2022年,在中国60%的工业机器人应用于汽车制造业,其中50%以上为焊接机器人;在发达国家,汽车工业机器人占机器人总保有量的53%以上。‍本文梳理了五大应用行…

【java spring学习1】IOC理论,spring用DI实现IOC

狂神说java spring:让java 开发更容易 IOC:控制反转 AOP:面向切面编程(业务面) 2. spring组成和扩展 2.1spring 组成 Sprint AOP ORM:对象关系映射 Context:UI界面、邮件验证等 2.4 拓展 学习路线: spring boot:构…

深度学习以最佳纳米尺度分辨率解决重叠单个分子的3D方向和2D位置,生成蛋白质图片...

编辑 | 萝卜皮偶极扩散函数 (DSF) 工程重塑了显微镜的图像,可以最大限度地提高测量偶极状发射器 3D 方向的灵敏度。然而,严重的泊松散粒噪声、重叠图像以及同时拟合高维信息(包括方向和位置)使单分子定向定位显微镜(SM…

【大数据学习-hadoop1】大数据如何处理

文章目录1. 大数据启蒙1.1 意义1.1.1 查找元素1.1.2 单机处理大数据问题1.2 历史1.3 hadoop1. 大数据启蒙 学习视频 大数据多,复杂度很重要, 内存不够,分治处理IO仍成为瓶颈,多机器并行多机器间通信也可以并行,但仍是…

自动驾驶数据之争,走向合规

报道数字经济 定义转型中国撰文 | 泰伯网 编辑 | 鹿野2015年12月,一辆百度无人车从京新高速到五环进行了最高时速达100公里的全自动行驶,将国内自动驾驶推向大众视野。当自动驾驶产业随时间沉淀驶入商业落地的下半场,百度对这场自动驾驶持久…

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录1.架构1.1 大数据框架:lambda 架构的1.2.基本概念2. 推荐模型构建流程2.1 数据2.1.1 数据来源2.1.2 数据清洗、处理2.2 特征工程2.3 算法(机器学习)来源1.架构 推荐算法架构 召回 协同过滤基于内容的基于隐语义的 排序 召回决定了推…

DeepMind专题之创始人访谈|DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象...

来源:图灵人工智能作者:黄楠、王玥编辑:陈彩娴导读:DeepMind,位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯哈萨比斯(Demis Hassabis)等人联合创立的Google旗下 前沿人工智能企业。其将机…

世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成...

来源:ScienceAI编辑:陈萍、杜伟如今,在蛋白质结构预测领域,各大厂也出现了「百家争鸣,百家齐放」。今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的…

谷歌用AI研发「乒乓球机器人」,4分钟对拉300多次,还能指哪打哪!

一个人怎么练习乒乓球?或许这事你可以问问谷歌。最近,谷歌又玩新花样,这回是乒乓球机器人AI 项目,号称和人类对战时能够连续接球340次?!要知道,让解说员激动到破音的「乒乓球史上最疯狂一球」—…

【网络搜索】学习资料

文章目录1.综述2.相关技术3.课程4. 论文4.1综述召回预训练4.2 相关模型及论文5.书6. 博客6.1 电商搜索QP:Query Processor相关性1.综述 微软综述视频,较老但不过时 2.相关技术 相关技术目录 3.课程 北邮《网络搜索原理》2020 4. 论文 sigir 4.1综…

论文新鲜出炉 - 数学家张益唐攻克 Landau-Siegel 零点猜想(2022-11-05)

来源:北大大纽约校友会感谢钱朝晖师兄、贾德星师兄的分享。张益唐老师厉害,出来了!虽然还有待数学权威机构认定,但以张老师的性格,没有攻克他不会轻易公开。看了一下PDF时间戳,是昨天的:2022-11…

神奇!一篇不足700字的论文,竟然能发表在Science上

来源:彭聃龄科学网博客 作者:彭聃龄(北京师范大学教授)文字:南方配图:南方排版 :南方一篇不足700单词的文章为什么能发表在国际顶级期刊 Science 杂志上?刊登在 Science 上的这篇文…

【搜索/推荐排序】FM,FFM,AFM,PNN,DeepFM:进行CTR和CVR预估

文章目录1.FM1.1代码-是否点击预测效果和参数量级1.3 和其他模型的比较SVMMF2. FFMone-hot的比较eg训练注意事项效果和参数量级实现3. AFM4.FNN/PNN4.1 FNN4.2 PNN5. DeepFM与Wide&Deep比较与NFMFM 本来就可以在稀疏输入的场景中进行学习,为什么要跟 Deep 共享稠…

科学家首次3D生物打印出血管化肿瘤,并成功使用免疫疗法治疗

近些年,癌症治疗领域不断取得了突破性进展,但仍缺乏标准化和生理相关的体外测试平台。一个关键性障碍是肿瘤微环境和免疫反应之间复杂的相互作用。因此,该领域研究人员不得不依赖临床试验来测试治疗效果,最终限制了抗癌治疗药物的…

【搜索/推荐排序】总结

文章目录1.进化路线2. 公式比较1.进化路线 LR:没有较叉项->FM:LR交叉项,一个特征一个向量->FFM:一个特征对每一个field(属性名)的交互有一个向量,一个特征有一个特征矩阵。->AFM:每个内积都有一个权重&#…

人工智能帮助揭秘生物衰老的原理

编辑 | 萝卜皮年龄是流行疾病和死亡的主要风险因素。然而,人们对与年龄相关的生理变化和寿命之间的关系知之甚少。新加坡 Gero PTE 公司的研究人员结合分析和机器学习工具来描述大量纵向测量中的老化过程。假设衰老是由有机体状态的动态不稳定性引起的,该…

DALL-E 2的错误揭示出人工智能的局限性

OpenAI的文字图像转换器与文本、科学和偏见作斗争。在2022年4月,人工智能(AI)研究实验室OpenAI继2021年推出的DALL-E后,又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像,包括照…