LAMDA面试准备(2024-05-23)

  • 有没有学习过机器学习,提问了 FP-Growth 相比 Apriori 的优点
    • 1. 更高的效率和更少的计算量(时间)

      FP-Growth 通过构建和遍历 FP-树 (Frequent Pattern Tree) 来挖掘频繁项集,而不需要像 Apriori 那样生成和测试大量的候选项集。具体来说:

      • 减少候选项集的生成:Apriori 需要生成大量的候选项集并进行多次扫描数据集以计算候选项集的支持度。FP-Growth 通过 FP-树结构直接挖掘频繁项集,避免了候选项集的生成过程。
      • 单次数据扫描:FP-Growth 只需要两次扫描数据集:第一次扫描用于计算各项的频次,第二次扫描用于构建 FP-树。而 Apriori 在每次生成新的候选项集时都需要重新扫描数据集。
    • 2. 更低的内存消耗(空间)

      FP-Growth 通过 FP-树结构紧凑地表示数据集中的所有项和它们之间的关联关系,从而减少了内存消耗:

      • 压缩数据集:FP-树能够有效地压缩数据集,将共享的频繁项组合在一起,以树的形式存储,从而减少了冗余数据。
      • 减少存储空间:由于 FP-树紧凑地存储了所有频繁项集,所需的存储空间远小于 Apriori 算法中需要存储的所有候选项集。【适合大数据集
  • 调模型怎么 debug
    • 1. 数据预处理和输入检查

      • 数据正确性:确保数据预处理步骤正确无误,包括数据归一化、标准化、缺失值处理等。
      • 数据分布:检查训练数据和测试数据的分布是否一致,是否存在数据泄漏。
      • 数据可视化:使用可视化工具检查数据输入是否符合预期(如图像、文本等)。
    • 2. 模型架构和实现验证

      • 逐层检查:逐层检查模型架构,确保每层的输入和输出维度正确。
      • 单元测试:对模型的各个组件(如卷积层、全连接层等)进行单元测试,确保它们的功能正确。
      • 对比基准:将实现与已知正确的基准模型(如官方实现)进行对比,确保实现无误。
    • 3. 超参数和训练过程调试

      • 学习率调整:尝试不同的学习率,观察模型的收敛情况。过高或过低的学习率都会影响模型性能。
      • 批次大小:调整批次大小,观察其对训练速度和模型性能的影响。
      • 正则化:使用正则化技术(如Dropout、L2正则化)防止过拟合,调试其参数。
    • 4. 损失函数和梯度检查

      • 损失曲线:绘制损失函数值随训练迭代次数的变化曲线,观察损失是否正常下降。
      • 梯度检查:检查梯度值是否合理,是否存在梯度爆炸或梯度消失问题。
      • 数值稳定性:确保计算过程中没有数值不稳定的问题,如NaN或Inf值。
    • 5. 输出和中间结果检查

      • 输出可视化:可视化模型的输出,检查是否符合预期。
      • 中间激活值:提取和检查中间层的激活值,确保模型在各层的行为符合预期。
      • 错误案例分析:分析模型在错误样本上的表现,找出模型的薄弱环节。
    • 6. 调试工具和框架

      • 调试器:使用调试工具(如TensorFlow的tfdbg或PyTorch的pdb)进行逐步调试。
      • 日志记录:记录训练过程中的重要信息(如损失值、精度等),方便后续分析。
      • Profiler:使用性能分析工具(如TensorFlow的Profiler或PyTorch的torch.utils.bottleneck)检测性能瓶颈。
    • 7. 迁移学习和微调

      • 预训练模型:使用预训练模型作为起点,通过微调减少训练时间和数据需求。
      • 逐层微调:逐层解冻模型进行微调,从高层特征到低层特征逐步调整模型。
    • 8. 集成学习和模型对比

      • 集成方法:使用集成方法(如Bagging、Boosting)提高模型性能。
      • 模型对比:对比不同模型的性能,选择最优模型进行部署。
    • 9. 合作与咨询

      • 代码审查:与团队成员进行代码审查,寻找潜在问题。
      • 社区支持:利用开源社区资源(如论坛、讨论组)寻求帮助和建议。
  •  机器学习中FP、TP是什么?
    • 混淆矩阵

      • TP(True Positive,真正例)

        • 定义:模型预测为正类(Positive),且实际也是正类。
        • 示例:在癌症检测中,模型预测某人患有癌症,且实际该人确实患有癌症。
      • FP(False Positive,假正例)

        • 定义:模型预测为正类,但实际是负类。
        • 示例:在癌症检测中,模型预测某人患有癌症,但实际该人没有患癌症。这种情况也被称为“误报”。
      • TN(True Negative,真负例)

        • 定义:模型预测为负类(Negative),且实际也是负类。
        • 示例:在癌症检测中,模型预测某人没有癌症,且实际该人确实没有癌症。
      • FN(False Negative,假负例)

        • 定义:模型预测为负类,但实际是正类。
        • 示例:在癌症检测中,模型预测某人没有癌症,但实际该人患有癌症。这种情况也被称为“漏报”。
      • T/F为判断正误,P/N为模型预测



  • 线代中的矩阵的秩和矩阵的关系?

    • 1. 秩的定义

      • 行秩(Row Rank):矩阵中线性无关的行向量的最大数目。
      • 列秩(Column Rank):矩阵中线性无关的列向量的最大数目。
      • 对于一个矩阵 A,行秩和列秩是相等的,这个共同的值就称为矩阵的秩。

    • 2. 秩与线性无关

      • 矩阵的秩表示矩阵中最大线性无关向量的数量。
      • 如果一个矩阵的秩等于其行数,则行向量线性无关。
      • 如果一个矩阵的秩等于其列数,则列向量线性无关。



  • 讲一讲线代中的矩阵的特征值

  • 了解科研前瞻用什么工具
  • 有哪几种常见的神经网络
    • MLP,CNN,RNN,AutoEncoder,GAN,GNN,Transformer...
  • RNN有哪些常见的问题?如何解决这些问题
    • 常见问题
      • 梯度消失和梯度爆炸问题

        • 梯度消失:在反向传播过程中,梯度逐层缩小,导致前面的层几乎无法更新。
        • 梯度爆炸:在反向传播过程中,梯度逐层增大,导致模型参数变得非常大,训练不稳定
      • 长期依赖问题

        • RNN 在处理长序列数据时,难以捕捉远距离的依赖关系,即早期输入信息对后续输出的影响较弱。
      • 计算效率

        • RNN 的序列处理是逐步进行的,不能并行处理,导致训练时间较长,特别是在处理长序列时。
      • 训练过程不稳定

        • 由于梯度问题和参数初始化问题,RNN 的训练过程可能会非常不稳定。
    • 改进方法
      • 长短期记忆网络 (Long Short-Term Memory, LSTM) 和门控循环单元 (Gated Recurrent Unit, GRU)

        • LSTM 和 GRU 是两种改进的 RNN 架构,通过引入门控机制,能够有效地解决梯度消失和梯度爆炸问题,并捕捉长期依赖关系。
        • LSTM:通过引入输入门、遗忘门和输出门来控制信息的流动。
        • GRU:类似于 LSTM,但结构更简单,仅包含更新门和重置门。
      • 梯度裁剪 (Gradient Clipping)

        • 为了解决梯度爆炸问题,可以设置一个阈值,当梯度超过这个阈值时,将其裁剪到阈值范围内。
        • 这种方法可以防止梯度值变得过大,导致训练不稳定。
      • 使用更高级的优化算法

        • 使用自适应学习率的优化算法,如 Adam、RMSprop 等,可以在一定程度上缓解梯度消失和梯度爆炸问题。
      • 序列的截断反向传播 (Truncated Backpropagation Through Time, TBPTT)

        • 对于非常长的序列,可以将序列分割成较短的子序列,分别进行反向传播。这种方法能够在不影响捕捉长期依赖的前提下,提高计算效率。
      • 正则化技术

        • 使用正则化技术(如 Dropout、权重惩罚等)可以提高 RNN 的泛化能力,减轻过拟合问题。
        • Dropout:在训练过程中随机丢弃一部分神经元,防止过拟合。
      • 使用预训练模型和迁移学习

        • 使用预训练模型(如 BERT、GPT 等)和迁移学习技术,可以充分利用已有的大规模数据和训练好的模型参数,提高训练效率和模型性能。
      • 引入注意力机制 (Attention Mechanism)

        • 注意力机制可以动态地为输入序列中的不同部分分配权重,从而更好地捕捉长距离依赖关系。
        • 自注意力 (Self-Attention):在变换器 (Transformer) 中得到广泛应用,通过计算输入序列内部各个位置之间的注意力权重,提升序列建模能力。
      • 双向 RNN (Bidirectional RNN)

        • 双向 RNN 通过在正向和反向两个方向上处理序列数据,能够更全面地捕捉序列中的依赖关系。
        • 双向 LSTM 和 GRU:结合双向处理和门控机制,进一步增强对长序列的建模能力。
  • 中心极限定理
    • 独立同分布随机变量的均值分布在样本数量趋于无穷大时接近于正态分布的性质。
  • 等价类的定义



参考:(视频超好)

【五分钟机器学习】随机森林(RandomForest):看我以弱搏强_哔哩哔哩_bilibili

【五分钟机器学习】Adaboost:前人栽树后人乘凉_哔哩哔哩_bilibili

 随机森林:(这个画风很爱哈哈哈,已投币orz)

以弱博强(整个模型是由多个弱监督模型组成),bagging

 

xgboost:(自适应增强算法,前人栽树、后人乘凉,错题本)


寄了寄了寄了,,,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/14574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5.23.2 深度学习提高乳房 X 光检查中乳腺癌的检测率

开发了一种深度学习算法,该算法可以使用“端到端”训练方法在筛查乳房 X 光检查中准确检测出乳腺癌,该方法有效地利用了具有完整临床注释或仅具有整个图像的癌症 标签 的训练数据集。 在这种方法中,仅在初始训练阶段才需要病变注释&#xff…

springboot vue 开源 会员收银系统 (2) 搭建基础框架

前言 完整版演示 前面我们对会员系统https://blog.csdn.net/qq_35238367/article/details/126174288进行了分析 确定了技术选型 和基本的模块 下面我们将从 springboot脚手架开发一套收银系统 使用脚手架的好处 不用编写基础的rabc权限系统将工作量回归业务本身生成代码 便于…

Tensorflow入门实战 P01-实现手写数字识别mnist

目录 1、背景:MNIST手写数字识别 2、完整代码(Tensorflow): 3、运行过程及结果: 4、小结(还是很清晰的) 5、 展望 🍨 本文为🔗365天深度学习训练营 中的学习记录博客…

Kafka之【生产消息】

消息(Record) 在kafka中传递的数据我们称之为消息(message)或记录(record),所以Kafka发送数据前,需要将待发送的数据封装为指定的数据模型: 相关属性必须在构建数据模型时指定,其中…

JavaEE技术之分布式事务(理论、解决方案、Seata解决分布式事务问题、Seata之原理简介、断点查看数据库表数据变化)

文章目录 JavaEE技术之分布式事务准备:1. 本地事务回顾1.1 什么是事务1.2 事务的作用1.3 事务ACID四大特性1.4 事务的并发问题1.5 MySQL事务隔离级别1.6 事务相关命令(了解)1.7 事务传播行为(propagation behavior)1.8 伪代码练习1.9 回滚策略1.10 超时事…

144.栈和队列:有效的括号(力扣)

题目描述 代码解决 class Solution { public:bool isValid(string s) {// 如果字符串长度为奇数&#xff0c;不可能是有效的括号字符串if(s.size() % 2 ! 0) return false;// 使用栈来存放括号stack<char> st;// 遍历字符串中的每一个字符for(int i 0; i < s.size();…

Error:(6, 43) java: 程序包org.springframework.data.redis.core不存在

目录 一、在做SpringBoot整合Redis的项目时&#xff0c;报错&#xff1a; 二、尝试 三、解决办法 一、在做SpringBoot整合Redis的项目时&#xff0c;报错&#xff1a; 二、尝试 给依赖加版本号&#xff0c;并且把版本换了个遍&#xff0c;也不行&#xff0c;也去update过ma…

Parasoft C++Test软件静态分析操作指南_软件质量度量

系列文章目录 Parasoft CTest软件安装指南 Parasoft CTest软件静态分析操作指南_编码规范/标准检查 Parasoft CTest软件静态分析操作指南_软件质量度量 Parasoft CTest软件静态分析_自动提取静态分析数据生成文档 Parasoft CTest软件单元测试_操作指南 Parasoft CTest软件单元…

C语言章节学习归纳--数据类型、运算符与表达式

3.1 C语言的数据类型&#xff08;理解&#xff09; 首先&#xff0c;对变量的定义可以包括三个方面&#xff1a; 数据类型 存储类型 作用域 所谓数据类型是按被定义变量的性质&#xff0c;表示形式&#xff0c;占据存储空间的多少&#xff0c;构造特点来划分的。在C语言中&…

2461. 长度为 K 子数组中的最大和(c++)

给你一个整数数组 nums 和一个整数 k 。请你从 nums 中满足下述条件的全部子数组中找出最大子数组和&#xff1a; 子数组的长度是 k&#xff0c;且子数组中的所有元素 各不相同 。 返回满足题面要求的最大子数组和。如果不存在子数组满足这些条件&#xff0c;返回 0 。 子数…

设计模式6——单例模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用&#xff0c;主要是下面的UML图可以起到大作用&#xff0c;在你学习过一遍以后可能会遗忘&#xff0c;忘记了不要紧&#xff0c;只要看一眼UML图就能想起来了。同时也请大家多多指教。 单例模式&#xff08;Singleto…

完成商品属性分组和商品属性关联维护

文章目录 1.前端页面搭建1.复制attrgroup-attr-relation.vue到src/views/modules/commodity下2.加入超链接和引入组件 src/views/modules/commodity/attrgroup.vue1.加入超链接2.引入组件 3.数据池加入变量4.使用组件1.引用组件2.添加方法3.测试&#xff0c;点击关联&#xff0…

建站平台布局结构

建站平台布局结构对于网站的成功至关重要。一个良好的布局结构能够有效地吸引用户&#xff0c;提升用户体验&#xff0c;并且有助于网站的搜索引擎优化&#xff08;SEO&#xff09;。在设计网站布局结构时&#xff0c;需要考虑到用户导航、信息层次结构、页面加载速度等方面&am…

Android JetPack快速上手

学习地址 【Android Jetpack组件从入门到入坟&#xff0c;全家桶全面学习教程精讲&#xff0c;通俗易懂】 review 研究生期间接触过一部分android开发&#xff0c;近期有个小项目需要进行开发&#xff0c;临时恶补了一下Android相关知识点&#xff0c;突然发现Android新增了…

VBA语言専攻每周通知20240524

通知20240524 各位学员∶本周MF系列VBA技术资料增加611-615讲&#xff0c;T3学员看到通知后请免费领取,领取时间5月24日晚上18:00-5月26日晚上18:00。本次增加内容&#xff1a; MF611:用InputBox录入日期 MF612:信息提示10秒后关自动关闭 MF613:只是信息提示10秒 MF614:显…

如何解决Nginx反向代理不生效?

目录 背景 过程 日志 检查配置文件 重启服务 检查容器内的配置文件 容器和宿主机 其他 背景 用了两年的nginx新加的反向代理不生效 Docker挂载的配置文件启动的Nginx&#xff0c;配置一切正常&#xff0c;但是反向代理不生效&#xff0c;???先自查一波 过程 日志 …

RDDM论文阅读笔记

CVPR2024的残差去噪模型。把diffusion 模型的加噪过程分解为残差diffusion和noise diffusion&#xff0c;其中残差diffusion模拟从target image到degraded image的过程&#xff0c;而noise diffusion则是原来的diffusion过程&#xff0c;即从图片到高斯噪声的加噪过程。前者可以…

如何让社区版IDEA变得好用

如何让社区版IDEA变得好用 背景 收费版的idea功能非常强大&#xff0c;但是费用高。社区版的免费&#xff0c;但是功能被阉割了。如何才能让社区版Idea变得好用&#xff0c;就需要各种插件支持了。经过全局配置编码&#xff0c;maven&#xff0c;jdk版本&#xff0c;在加上各…

架构二。。

1、CAP 只能3选2 1&#xff09;一致性&#xff08;Consistency&#xff09; 客户每次读都是返回最新的写操作结果 2&#xff09;可用性&#xff08;Availability&#xff09; 非故障节点在合理的时间内返回合理的响应 3&#xff09;分区容忍性&#xff08;Partition Tolerance…

Ribbon负载均衡(自己总结的)

文章目录 Ribbon负载均衡负载均衡解决的问题不要把Ribbon负载均衡和Eureka-Server服务器集群搞混了Ribbon负载均衡代码怎么写ribbon负载均衡依赖是怎么引入的&#xff1f; Ribbon负载均衡 负载均衡解决的问题 首先Ribbon负载均衡配合Eureka注册中心一块使用。 在SpringCloud…