LLM面试题六

NLP方向CRF算法面试题

  1. 什么是CRF?CRF的主要思想是什么?

    设X与Y是随机变量,P(Y | X)是给定条件X的条件下Y的条件概率分布,若随机变量Y构成一个由无向图G=(V,E)表示的马尔科夫随机场。则称条件概率分布P(X | Y)为条件随机场。CRF的主要思想统计全局概率,在做归一化时,考虑了数据在全局的分布。

在这里插入图片描述

  1. CRF的三个基本问题是什么?
  • 概率计算问题定义:给定观测序列x和状态序列y,计算概率P(y | x)
  • 解决方法:前向计算、后向计算
  • 学习计算问题定义:给定训练数据集估计条件随机场模型参数的问题,即条件随机场的学习问题。
  • 公式定义:利用极大似然的方法来定义目标函数
  • 解决方法:随机梯度法、牛顿法、拟牛顿法、迭代尺度法这些优化方法来求解得到参数。
  • 目标:解耦模型定义,目标函数,优化方法
  • 预测问题定义:给定条件随机场P(Y | X)和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列)y*,即对观测序列进行标注。
  • 方法:维特比算法
  1. 线性链条件随机场的参数化形式?

    在随机变量X取值为X的条件下,随机变量Y取值为y的条件概率如下:P(ulx)=Z(aexp王红-,0+于4利)其中,Z)=∑xp∑s(-1,x司+∑4s,刘

  • Z(x):是规范化因子,求和是在所有可能得输出序列上进行的。
  • t_k:是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置
  • s_l:是定义在结点上的特征函数,称为状态特征,依赖于当前位置;
  1. CRF的优缺点是什么?
  • 优点:为每个位置进行标注过程中可利用丰富的内部及上下文特征信息
  • CRF模型在结合多种特征方面的存在优势
  • 避免了标记偏置问题
  • CRF的性能更好,对特征的融合能力更强
  • 缺点:训练模型的时间比ME更长,且获得的模型非常大。在一般的PC机上可能无法执行
  • 特征的选择和优化是影响结果的关键因素。特征选择问题的好与坏,直接决定了系统性能的高低
  1. HMM与CRF的区别?
  • 共性:都常用来做序列标注的建模,像词性标注。HMM是有向图,CRF是无向图.
  • HMM只使用了局部特征(齐次马尔科夫假设和观测独立性假设),只能找到局部最优解;CRF使用了全局特征(在所有特征进行全局归一化),可以得到全局的最优值。
  • 隐马尔可夫模型(HMM)是描述两个序列联合分布P(I,O)的概率模型;条件随机场模型(CRF)是给定观测状态O的条件下预测状态序列I的P(I/O)的条件概率模型。
  • HMM是生成模型,CRF是判别模型。CRF包含HMM,或者说HMM是CRF的一种特殊情况。
  1. 生成模型与判别模型的区别?
  • 生成模型:学习得到联合概率分布P(x, y),即特征X,共同出现的概率
  • 常见的生成模型:朴素贝叶斯模型,混合高斯模型,HMM模型。
  • 判别模型:学习得到条件概率分布P(y | x),即在特征x出现的情况下标记y出现的概率。
  • 常见的判别模型:感知机,决策树,逻辑回归,SVM,CRF等。
  • 判别式模型:要确定一个羊是山羊还是绵羊,用判别式模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。
  • 生成式模型:是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。

NLP方向文本分类常见面试题

  1. 文本分类任务有哪些应用场景?

    文本分类时机器学习汇总常见的监督学习任务质疑,常见的应用场景如情感分类、新闻分类、主题分类、问答匹配、意图识别、推断等等。分类任务根据具体的数据集的标签情况,还可以分为二分类、多分类、多标签分类等。

  1. 文本分类的具体流程?

    文本分类的流程一般包括文本预处理、特征提取、文本表示、最后分类输出。文本处理通常需要做分词及去除停用词等操作,常会使用一些分词工具,如hanlp、jieba、哈工大LTP、北大pkuseg等。

在这里插入图片描述

  1. fastText的分类过程?fastText的优点?

    fastText首先把输入转化为词向量,取平均,再经过线性分类器得到类别。输入的词向量可以是预先训练好的,也可以随机初始化,跟着分类狂务一起训练fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:

  • fastText在保持高精度的情况下加快了训练速度和测试速度
  • fastText不需要预训练好的词向量,fastText会自己训练词向量
  • fastText两个重要的优化:使用层级Softmax提升效率、采用了char-level的n-gram作为附加特征。
  1. TextCNN进行文本分类的过程?

    卷积神经网络的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息。因此文本分类任务中可以利用CNN来提取句子中类似n-gram的关键信息。

在这里插入图片描述

  • 第一层为输入层。将最左边的7乘5的句子矩阵,每行是词向量,维度=5,这个可以类比为图像中的原始像素点了。图中的输入层实际采用了双通道的形式,即有两个n×k的输入矩阵,其中一个用预训练好的词嵌入表达,并且在训练过程中不再发生变化;另外一个也由同样的方式初始化,但是会作为参数,随着网络的训练过程发生改变。
  • 第二层为卷积层。然后经过有filter_size=(2,3,4)的一维卷积层,每个filter_size有两个输出channel。第三层是一个1-max_pooling层,这样不同长度句子经过pooling层之后都能变成定长的表示了。
  • 最后接一层全连接的softmax层,输出每个类别的概率。每个词向量可以是预先在其他语料库中训练好的,也可以作为未知的参数由网络训练得到。
  1. TextCNN可以调整哪些参数?
  • 输入词向量表征:词向量表征的选取(如选word2vec还是GloVe)
  • 卷积核大小:一个合理的值范围在1~10。若语料中的句子较长,可以考虑使用更大的卷积核。另外,可以在寻找到了最佳的单个filter的大小后,尝试在该filter的尺寸值附近寻找其他合适值来进行组合。实践证明这样的组合效果往往比单个最佳filter表现更出色
  • feature map特征图个数:主要考虑的是当增加特征图个数时,训练时间也会加长,因此需要权衡好。这个参数会影响最终特征的维度,维度太大的话训练速度就会变慢。这里在100-600之间调参即可。当特征图数量增加到将性能降低时,可以加强正则化效果,如将dropout率提高过0.5
  • 激活函数:ReLU和tanh
  • 池化策略:1-max pooling表现最佳,复杂任务选择k-max
  • 正则化项(dropout/机2):指对CNN参数的正则化,可以使用dropout或L2,但能起的作用很小,可以试下小的dropout率(<0.5),L2限制大一点
  1. 文本分类任务使用的评估指标有哪些?

    准确率、召回率、ROC,AUC,F1、混淆矩阵

在这里插入图片描述

NLP方向文本摘要常见面试题

  1. 抽取式摘要和生成式摘要存在哪些问题?
  • 抽取式摘要在语法、句法上有一定的保证,但是也面临了一定的问题,例如:内容选择错误、连贯性差、灵活性差等问题。
  • 生成式摘要优点是相比于抽取式而言用词更加灵活,因为所产生的词可能从未在原文中出现过。但存在以下问题:
  • OOV问题。源文档语料中的词的数量级通常会很大,但是经常使用的词数量则相对比较固定。因此通常会根据词的频率过滤掉一些词做成词表。这样的做法会导致生成摘要时会遇到UNK的词。
  • 摘要的可读性。通常使用贪心算法或者beam search方法来做decoding。这些方法生成的句子有时候会存在不通顺的问题。
  • 摘要的重复性。这个问题出现的频次很高。与2的原因类似,由于一些decoding的方法的自身缺陷,导致模型会在某一段连续timesteps生成重复的词。
  • 长文本摘要生成难度大。对于机器翻译来说,NLG的输入和输出的语素长度大致都在一个量级上,因此NLG在其之上的效果较好。但是对摘要来说,源文本的长度与目标文本的长度通常相差很大,此时就需要encoder很好的将文档的信息总结归纳并传递给decoder,decoder需要完全理解并生成句子。
  1. Pointer-generator network解决了什么问题?
  • 指针生成网络从两方面针对seq-to-seq模型在生成式文本摘要中的应用做了改进。
  • 第一,使用指针生成器网络可以通过指向从源文本中复制单词(解决OOV的问题),这有助于准确复制信息,同时保留generater的生成能力。PGN可以看作是抽取式和生成式摘要之间的平衡。通过一个门来选择产生的单词是来自于词汇表,还是来自输入序列复制。
  • 第二,使用coverage跟踪摘要的内容,不断更新注意力,从而阻止文本不断重复(解决重复性问题)。利用注意力分布区追踪目前应该被覆盖的单词,当网络再次注意同一部分的时候予以惩罚。
  1. 文本摘要有哪些应用场景?

    文本摘要技术有许多应用场景。例如,在新闻报道领域,可以使用文本摘要技术快速生成新闻摘要,使读者可以快速了解新闻内容:在市场调查领域,可以使用文本摘要技术对大量用户反馈进行快速分析,提取出关键信息,从而更好地了解市场需求;在医学领域,可以使用文本摘要技术从海量医学文献中快速找到相关研究成果,以帮助医生更好地做出诊疗决策。

  1. 几种ROUGE指标之间的区别是什么?
  • ROUGE是将待审摘要和参考摘要的元组共现统计量作为评价依据。
  • ROUGE-N=每个n-gram在参考摘要和系统摘要中同现的最大次数之和/参考摘要中每个n-gram出现的次数之和
  • ROUGE-L计算最长公共子序列的匹配率,L是LCS(longest common subsequence)的首字母。如果两个句子包含的最长公共子序列越长,说明两个句子越相似。
  • Rouge-W是Rouge-L的改进版,使用了加权最长公共子序列(Weighted LongestCommon Subsequence),连续最长公共子序列会拥有更大的权重。

在这里插入图片描述

  1. BLEU和ROUGE有什么不同?
  • BLEU是2002年提出的,而ROUGE是2003年提出的。
  • BLEU的计算主要基于精确率,ROUGE的计算主要基于召回率。
  • ROUGE用作机器翻译评价指标的初衷是这样的;在SMT(统计机器翻译)时代,机器翻译效果稀烂,需要同时评价翻译的准确度和流畅度;等到MT(神经网络机器翻译)出来以后,神经网络脑补能力极强,翻译出的结果都是通顺的,但是有时候容易瞎翻译。
  • ROUGE的出现很大程度上是为了解决NMT的漏翻问题(低召回率)。所以ROUGE只适合评价NMT,而不适用于SMT,因为它不管候选译文流不流畅。
  • BLEU需要计算译文1-gram,2-gram,.,N-gram的精确率,一般N设置为4即可,公式中的Pn指n-gram的精确率。Wn指n-gram的权重,一般设为均匀权重,即对于任意n都有Wn=1/N。BP是惩罚因子,如果译文的长度小于最短的参考译文,则BP小于1。BLEU的1-gram精确率表示译文忠于原文的程度,而其他n-gram表示翻译的流畅程度。

在这里插入图片描述

海康-CV算法工程师实习面试题

  1. YOLO的正负样本是什么?

    在YOLO算法中,目标物体被定义为一组边界框,也称为锚框(anchor box)。每个锚框都由其中心点坐标、宽度和高度来定义。对于每个锚框,计算它与所有目标物体的loU(交并比)值。如果U大于某个阈值(如0.5),则将该锚框标记为正样本,否则将其标记为负样本。

  1. 模型压缩和加速的方法有哪些?
  • 参数剪枝(Parameter Pruning):别除模型中冗余的参数,减少模型的大小。通常情况下,只有很少一部分参数对模型的性能贡献较大,其余参数对性能的贡献较小或没有贡献,因此可以删除这些冗余参数。
  • 量化(Quantization):将浮点型参数转换为更小的整数或定点数,从而减小模型大小和内存占用,提高计算效率。
  • 知识蒸馏(Knowledge Distillation):利用一个较大、较准确的模型的预测结果来指导一个较小、较简单的模型学习。这种方法可以减小模型的复杂度,提高模型的泛化能力和推理速度。
  • 网络剪枝(Network Pruning):删除模型中冗余的神经元,从而减小模型的大小。与参数剪枝不同,网络剪枝可以删除神经元而不会删除对应的参数。
  • 蒸馏对抗网络(Distil训ation Adversarial Networks):在知识蒸馏的基础上,通过对抗训练来提高模型的鲁棒性和抗干扰能力。
  • 模型量化(Model Quantization):将模型的权重和激活函数的精度从32位浮点数减少到更小的位数,从而减小模型的大小和计算开销。
  • 层次化剪枝(Layer–wise Pruning):对模型的不同层进行不同程度的剪枝,以实现更高效的模型压缩和加速。
  • 低秩分解(Low-Rank Decomposition):通过将一个较大的权重矩阵分解为几个较小的权重矩阵,从而减少计算开销。
  • 卷积分解(Convolution Decomposition):将卷积层分解成几个更小的卷积层或全连接层,以减小计算开销。
  • 网络剪裁(Network Trimming):通过对模型中一些不重要的连接进行剪裁,从而减小计算开销。
  1. 半精度是什么?

    半精度是指使用16位二进制浮点数(half-precision floating point.)来表示数字的数据类型,可以加速计算和减小内存占用。

  1. 半精度的理论原理是什么?

    半精度使用16位二进制浮点数来表示数字,其中1位表示符号位,5位表示指数,10位表示尾数。相比于单精度(32位)和双精度(64位)的浮点数,半精度的表示范围和精度更小,但可以通过降低内存占用和加速计算来实现高效的运算。

  1. 你了解的知识蒸馏模型有哪些?
  • FitNets:使用一个大型模型作为教师模型来指导一个小型模型的训练。
  • Hinton蒸馏:使用一个大型模型的输出作为标签来指导一个小型模型的训练。
  • Borm-Again Network(BAN):使用一个已经训练好的模型来初始化一个新模型,然后使用少量的数据重新训练模型。
  • TinyBERT:使用一个大型BERT模型作为教师模型来指导一个小型BERT模型的训练。
  1. 自监督、半监督、无监督的区别?
  • 自监督学习:使用输入数据的某些属性(例如,数据本身的结构或某些隐含信息)来作为监督信号,从而避免了手动标注的成本。例如,图像数据可以通过旋转、剪切等方式进行扩增,并使用数据自身的变换作为监督信号来训练模型。
  • 半监督学习:是指使用有标注和无标注的数据来训练模型。通常情况下,有标注的数据只是无标注数据的一个子集。通过同时使用有标注和无标注数据进行训练,可以提高模型的性能和泛化能力。
  • 无监督学习:是指在没有标注数据的情况下,通过分析数据本身的结构、模式和相关性来学习模型。无监督学习的目标是从数据中发现一些有用的结构,例如聚类、降维、密度估计等。常见的无监督学习方法包括自编码器、生成对抗网络、变分自编码器等。与监督和半监督学习不同,无监督学习不需要手动标注数据,因此可以处理大量未标注的数据,从而提高数据利用率和模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/76646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日一题(小白)ASCLL娱乐篇5

本题我们使用ASCLL值的方法解决&#xff0c;也可以打表去判断。加深对ASCLL表的认识&#xff01; 图源ASCII 表 | 菜鸟教程&#xff0c;有需要的小伙伴可以在菜鸟详细了解。 由题知要识别三种类型的字符&#xff0c;使用三个变量存储最终值输出即可。根据ASCLL表可知数字、大写…

ffmpeg中格式转换需要注意点总结

某些封装格式(例如MP4/FLV/MKV等)的H.264码流的SPS和PPS信息存储在AVCodeccontext结构体的extradata中。分离某些封装格式(例如MP4/FLV/MKV等)中的H.264的时候&#xff0c;需要首先写入SPS和PPS&#xff0c;否则会导致分离出来的数据没有SPS、PPS而无法播。需要使用ffmpeg中名称…

小型语言模型与检索增强生成系统的融合:机遇与挑战

小型语言模型(SLMs)是大型语言模型(LLMs)的紧凑版本。其参数量通常比大型模型少得多&#xff1a;约30亿或更少。这使得它们具有相对轻量级的特点&#xff0c;推理速度更快。 当前研究的一个有趣方向是将SLMs整合到检索增强生成(RAG)系统中以提升性能。本文探讨这一最新趋势&…

使用 .NET 9 和 Azure 构建云原生应用程序:有什么新功能?

随着 .NET 9 推出一系列以云为中心的增强功能&#xff0c;开发人员拥有比以往更多的工具来在 Azure 上创建可扩展、高性能的云原生应用程序。让我们深入了解 .NET 9 中的一些出色功能&#xff0c;这些功能使构建、部署和优化云应用程序变得更加容易&#xff0c;并附有示例以帮助…

PostgreSQL:表分区与继承

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;精通Java编…

Linux / Windows 下 Mamba / Vim / Vmamba 安装教程及安装包索引

目录 背景0. 前期环境查询/需求分析1. Linux 平台1.1 Mamba1.2 Vim1.3 Vmamba 2. Windows 平台2.1 Mamba2.1.1 Mamba 12.1.2 Mamba 2- 治标不治本- 终极版- 高算力版 2.2 Vim- 治标不治本- 终极版- 高算力版 2.3 Vmamba- 治标不治本- 终极版- 高算力版 3. Linux / Windows 双平…

开源项目更新到个人仓库二次开发并保持同步

当你克隆了一个开源项目并将其推送到自己的仓库后&#xff0c;定期更新该开源项目并与你的本地修改同步是一个常见的需求。为了高效地管理这一过程&#xff0c;你可以使用 Git 的 upstream 远程仓库和 rebase 技术来保持代码的整洁和线性历史。 1. 设置上游远程仓库 首先&…

多输入多输出 | Matlab实现BO-GRU贝叶斯优化门控循环单元多输入多输出预测

多输入多输出 | Matlab实现BO-GRU贝叶斯优化门控循环单元多输入多输出预测 目录 多输入多输出 | Matlab实现BO-GRU贝叶斯优化门控循环单元多输入多输出预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Matlab实现BO-GRU贝叶斯优化门控循环单元多输入多输出预测&#…

MCP(模型上下文协议)入门指南:用Web开发的视角理解下一代AI引擎

引言&#xff1a;当Java Web遇到长期记忆 想象你正在开发一个在线法律咨询平台。用户上传一份300页的合同后&#xff0c;连续提出了10个问题&#xff1a; 第3页的违约条款具体内容是什么&#xff1f;请对比第15页和第120页的支付条件整份合同中最高的赔偿金额是多少&#xff…

简易Minecraft python

废话多说 以下是一个基于Python和ModernGL的简化版3D沙盒游戏框架。由于代码长度限制&#xff0c;这里提供一个核心实现&#xff08;约500行&#xff09;&#xff0c;您可以通过添加更多功能和内容来扩展它&#xff1a; python import pygame import moderngl import numpy a…

element-ui自制树形穿梭框

1、需求 由于业务特殊需求&#xff0c;想要element穿梭框功能&#xff0c;数据是二级树形结构&#xff0c;选中左边数据穿梭到右边后&#xff0c;左边数据不变。多次选中左边相同数据进行穿梭操作&#xff0c;右边数据会多次增加相同的数据。右边数据穿梭回左边时&#xff0c;…

WPS宏开发手册——Excel实战

目录 系列文章5、Excel实战使用for循环给10*10的表格填充行列之和使用for循环将10*10表格中的偶数值提取到另一个sheet页使用for循环给写一个99乘法表按市场成员名称分类&#xff08;即市场成员A、B、C...&#xff09;&#xff0c;统计月内不同时间段表1和表2的乘积之和&#x…

计算机网络-TCP的流量控制

内容来源&#xff1a;小林coding 本文是对小林coding的TPC流量控制的精简总结 什么是流量控制 发送方不能无脑的发数据给接收方&#xff0c;要考虑接收方处理能力 如果一直无脑的发数据给对方&#xff0c;但对方处理不过来&#xff0c;那么就会导致触发重发机制 从而导致网…

Spring Boot 七种事务传播行为只有 REQUIRES_NEW 和 NESTED 支持部分回滚的分析

Spring Boot 七种事务传播行为支持部分回滚的分析 支持部分回滚的传播行为 REQUIRES_NEW&#xff1a;始终开启新事务&#xff0c;独立于外部事务&#xff0c;失败时仅自身回滚。NESTED&#xff1a;在当前事务中创建保存点&#xff08;Savepoint&#xff09;&#xff0c;可局部…

突破反爬困境:SDK开发,浏览器模块(七)

声明 本文所讨论的内容及技术均纯属学术交流与技术研究目的&#xff0c;旨在探讨和总结互联网数据流动、前后端技术架构及安全防御中的技术演进。文中提及的各类技术手段和策略均仅供技术人员在合法与合规的前提下进行研究、学习与防御测试之用。 作者不支持亦不鼓励任何未经授…

C++数据排序( 附源码 )

一.冒泡排序 原理:自左向右依次遍历,若相邻两数顺序错误,则交换两数. 这样,每一轮结束后,最大/最小的数就会到最后. Code: #include <iostream> #include <cstdio> using namespace std; const int N1e51; int n,a[N],in; void PrintArray(int a[],int n){for…

I2C 读写 AT24C02

根据AT24C02的 Datasheet 可知AT24C02有2K bit&#xff0c;即256B&#xff0c;分为32页,每页8个字节&#xff0c;结合数据手册和原理图可以得知&#xff0c;板载AT24C02的读地址为0xA2&#xff0c;写地址为0xA3&#xff1a; #define AT24C02_ADDR_WRITE 0xA2 #define AT24C02_…

K8S学习之基础七十四:部署在线书店bookinfo

部署在线书店bookinfo 在线书店-bookinfo 该应用由四个单独的微服务构成&#xff0c;这个应用模仿在线书店的一个分类&#xff0c;显示一本书的信息&#xff0c;页面上会显示一本书的描述&#xff0c;书籍的细节&#xff08;ISBN、页数等&#xff09;&#xff0c;以及关于这本…

Linux 查找文本中控制字符所在的行

参考资料 ASCIIコード表 目录 一. 业务背景二. 遇到的问题三. 分析3.1 url编码的前置知识3.2 出现控制字符的transactionid分析3.3 16进制分析 四. 从文本中查找控制字符所在的行五. 控制字符一览 一. 业务背景 ⏹在项目中&#xff0c;业务请求对应着下URL http://www.test.…

python将pdf文件转为图片,如果pdf文件包含多页,将转化的多个图片通过垂直或者水平合并成一张图片

要将PDF文件转换为图片&#xff0c;并将多页PDF垂直合并成一张图片&#xff0c;可以使用PyMuPDF&#xff08;也称为fitz&#xff09;库来读取PDF文件&#xff0c;并使用Pillow库来处理和合并图片。以下是一个示例代码&#xff0c;展示了如何实现这个功能&#xff1a; 首先&…