怎么做网站视频教程/seo快速入门教程

怎么做网站视频教程,seo快速入门教程,清远做网站的公司,哪个网站做舞蹈培训推广效果好不定期更新,建议关注收藏点赞。 目录 transformer大语言模型Google Gemma疫情网民情绪识别 整体框架 baseline构建 模型调参、模型优化、其他模型 数据trick、指标优化、magic feature 数据增强、伪标签、迁移学习 模型融合sklearn中TFIDF参数详解 频率阈值可以去掉…

不定期更新,建议关注收藏点赞。


目录

  • transformer
  • 大语言模型
  • Google Gemma
  • 疫情网民情绪识别

  • 整体框架
    baseline构建
    模型调参、模型优化、其他模型
    数据trick、指标优化、magic feature
    数据增强、伪标签、迁移学习
    模型融合
  • sklearn中TFIDF参数详解
    在这里插入图片描述
    频率阈值可以去掉高于max和低于min的特征
    l2正则化
  • 如何fine-tune微调BERT用于文本分类
    有一片论文可以找一下 how to fine-tune BERT for text classification?以下只是几个点,详见paper
    在这里插入图片描述
    fine-tuning strategies
    further pre-training 要求机器好、用时长
    multi-task fine-tuning
    长文本阶段处理(长文本截断对BERT不友好)
    不同层的特质 不同层表征意义不一样 哪一层是效果最好的
    学习率(小的学习率)

transformer

几乎所有NLP都是基于这个基础上。
BERT

大语言模型

Google Gemma

30:00

疫情网民情绪识别

  • 思路分析

linux系统需要把数据转换成utf-8读取

  1. 多模态情感分析->转化成 文本情感分析->文本分类
    机器学习方法:词袋模型TFIDF(baseline,基于字还是词)Ngram范围、分类模型LR、SVM、XGBoost、等

深度学习方法:CNN,RNN,Transformer,早停、学习率衰减、Embedding向量dropout,双层双向RNN即Bi-LSTM Bi-GRU,Text CNN、Text RNN、Text Capsule等

迁移学习方法:BERT、XLNET、ALBERT等

预训练模型 bert albert xlnet robert,BERT-WWM
不同层级相加、平均、concat
batch,epoch
对抗训练 环境包的版本要注意
BERT+Word2Vec/Glove

  1. 标签分布不平衡,1和-1占比较小
  2. 发布时间关于样本数量和样本标签的分布、正文长度分布

文本长度也要注意设置多少能覆盖90%的文本、北大开源分词包pkuseg

  1. 数据集中有图片和视频信息的分布,图片张数的分布、视频分布及语义信息
  • 代码
    把训练集和测试集的文本编码成bert的三条序列,填充成固定的文本长度,并保存起来,标签类型编码改成0-2,利用transformer包构建bert模型导入,五折交叉验证训练模型,有两种结果,一种是概率相加取平均,另一种是每一折结果取出来做投票

batch_size=32还是64要与显卡的内存32g 还是64g对应上
改进思路:模型优化、修改损失函数、对抗训练

  • 数据增强
    • 为什么要进行文本增强?常见的场景是少样本、分类任务中样本分布不均衡、半监督训练场景、提高模型鲁棒性。
      解决方法:半监督学习算法UDA用在无标签样本上、回译back translation、随机词替换、非核心词替换、基于上下文信息的文本增强
      方法的原理:1)保持语义不变,变换文本表达。2)按照某种策略对原文局部调整EDA easy data augmentation,如同义词替换SR 、随机删除RD、随机插入RI、随机交换RS、非核心词替换

URA原理
在这里插入图片描述
不足之处:只进行了词替换,没提到删除、交换等。

基于上下文信息的文本增强,首先需要一个训练好的语言模型LM,对于需要增强的原始文本,随机去掉文中的一个词或字,取决于语言模型支持字还是词(取决于语言模型支持字还是词),将文本剩余部分输入语言模型,选择语言模型所预测的top k个词去替换掉原文对应的词,以形成新的k条文本。
在这里插入图片描述

利用语言生成模型进行文本生成 如GPT

工业界或比赛界用得最多的方式:回译,测试时也可以增强,对一条测试样本可以进行构造多条增强样本,得到预测结果,和原来的结果进行加权融合 TTA、embedding技术,FastText+Glove pre-trained、伪标签(将测试集得到的结果和训练集合到一起再喂进去)、

    • 回译:利用翻译模型不停翻译成其他语种最后再翻译回来
  • 迁移学习
    通过减少源域到目标域的分布差异进行知识迁移,从而实现数据标注工作。
    传统机器学习和深度学习,训练集和测试集同分布。
    迁移学习中的“域”:某个时刻某个特定的领域,比如书本评论和电视剧评论,本身分为source domain & target domain,并不要求二者数据分布一致。
    迁移学习中的“任务”:比如情感分析和实体识别就是两个不同的任务,source domain & target domain任务也不一定一致。
    分为几种,归纳式迁移学习inductive transfer learning(目标任务不同但相关,无论源域和目标域的数据域是否相同)、直推式迁移学习transductive(目标任务相同,但目标数据域中没有或少量可获得带标记的数据,然而在源数据域中有许多可获得带标记的数据) 、无监督迁移学习(源域目标域都没有带标签的数据,关注与目标任务上的聚类、降维和密度估计)。
    在这里插入图片描述
    单步迁移学习和多步迁移学习。比如源域图片、目标域文字,需要做多步迁移,找一个中间域,划分为单步迁移。单步又分为同构DA、异构DA,它们区别在于数据空间是否一致。
    domain adaptation,其中feature adaptation很重要:源域和目标域共享同样的特征,提取到共同空间。

  • 特征工程
    在这里插入图片描述
    在这里插入图片描述

  • 模型调参
    参数初始化很重要,很多时候是这里的问题。
    Glorot条件:优秀的初始化应该使各层激活值和状态梯度的方差在传播过程中的方差保持一致。
    初始化方法下面推荐3种。

  1. Xavier
  2. He
  3. normal
    根据3σ原则,概率得到几乎只会出现在(μ-3σ,μ+3σ)之间
    在这里插入图片描述

技巧:
shuffle,
batch normalization BN用于图像处理, layer normalization LN用于文本处理 ,
梯度裁剪:限制最大梯度,对超过阈值的梯度进行规约,使优化算法更加稳定,
dropout 防止过拟合 一般设置为0.5,adam优化器:小数据集尝试sgd(慢但是效果好),大数据集先用adam,快收敛的时候换sgd,
学习率用sgd的化考虑从1或0.1开始
激活函数 tanh或relu比sigmoid更优
sigmoid在-4到4的区间才会有较大的梯度,之外梯度接近0,很容易造成梯度消失问题,输入0均值,sigmoid输出后非0均值
其他超参数 如focal loss参数,这个不是在所有场景下都有效
全连接层,如果输入和输出大小一致,建议用highway network替换

highway network
在这里插入图片描述

  • 模型融合
    哪些模型可以拿来融合?同样参数但模型训练的不同阶段即不同迭代次数的模型、同样参数不同的初始化方式、半监督加入的数据量、不同的模型(如bert系列 bert albert xlnet bert-wwm roberta 都是基于transformer结构的预训练语言模型 统称为bert家族)、融合特征工程

文本输入的截断方式:三种,pre-truncate,post-truncate,middle-truncate(head+tail)

bert 是一种基于transformer encoder构建的预训练语言模型,通过masked language model MLM +Next sentence prediction NSP两个任务在大规模语料上训练得到的;开源的bert分为base 和large,模型大小不同。
bert-wwm 模型结构和bert完全一样,只是在MLM训练任务上做了小的改进,bert在做MLM采用的是token级别的mask,而bert-wwm采用词级别的mask。

roberta是bert优化版,只是在数据量和训练方式上做改进,更大的数据量更好的训练方式训练的更久,去除了NSP任务有损模型性能,MLM换成dynamic masking LM, 更大的batchsize及其他超参数的调优。

XLNet对bert做了较大的改动,二者在模型结构和训练方式上都有不小的差异。
Bert的MLM在预训练时有mask标签,但使用时没有,导致训练和使用出现不一致;MLM不属于autoregressive LM不能做生成类任务,XLNet采用PML permutation language model避免mask标签的使用,且可以做生成任务。Bert使用的transformer结构对文本长度有限制,XLNet使用升级版的transformer-XL

Albert是bert的瘦身版本,更简单的模型,更少的数据,得到更好的结果。通过两个方面减少模型参数量,对vocabulary embedding进行矩阵分解,将原来的矩阵VxE分解成两个矩阵VxH和HxE(H<<E),跨层参数共享可以避免参数量随网络深度增加而增加。

这些模型在不同数据集上有差异,需要试一下才知道哪个好。总体而言,XLNet,roberta,Bert-wwm会比bert效果略好,large比base好,albert也有多个版本,tiny版本好很多。更多情况下会被一起使用,最后做ensemble.

NLP:BERT, TextRNN, TextCapsule
分类问题采用投票方法,回归问题采用平均、加权平均,权值按模型效果进行排名。交叉验证也是一个方式,把每一折数据固定下来,看效果,也是按加权平均。
stacking的方式
在这里插入图片描述

  • 面试题

这个项目有什么难点?针对这个怎么优化的
预训练模型BERT和word2vex+textRNN based encoder哪个效果好
BERT在per train 时候和word2vec有什么异同点
bert的token怎么分词的
bert如何获得词意和句意
为什么bert有3个嵌入层,它们如何实现的
bert在Per train阶段的损失函数
为什么fine-tune有效?学习到针对特定任务的特征,学到了深层次的语义信息。

1.word2vec与Elmo模型在语义学习上差异是什么?
2.Batch Normalization与Layer Normalization区别?bert中为什么用后者?
3.熟悉GELU激活函数,与RELU差异。
4.实际操作,Semi-Supervised DA方法;
5.对比实施模型融合的相关方法。

1.有哪些文本增强方法?你用过哪些文本增强方法
2.BERT有哪些调参方法?你是如何调参的?Transformer的原理?
3. 尝试模型调参(比如BERT和word2vec构建词向量)
4. 了解一种文本增强方法
5. 代码实现文本增强(比如回译技术)

涉及论文:
Understanding the diffificulty of training deep feedforward neural networks
Delving Deep into Rectififiers:
Surpassing Human-Level Performance on ImageNet Classifification
Highway Networks
论文下载地址:
https://arxiv.org/abs/1502.01852
http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf
https://arxiv.org/abs/1505.00387
作业名称(详解):面试问题及比赛实战。
1.跑通其它的预训练模型
2.尝试多模型的融合,实现stacking方式
3.尝试加入特征进行模型学习
4.熟悉几种常用的参数初始化方法及其原理(看paper)
5.熟悉adam原理(看paper)

  • Bert
    有两个预训练任务,MLM masked language model(在每一轮迭代中随机选择15%的词隐藏,目标是通过它们的上下文来预测这个单词,操作是取这些词对应的最后一个隐单元向量后接一个softmax来预测这个词,80%采用masked,10%随机选择其他词填充,10%使用原词,这个平衡了masked和fine-tune)、Next Sentence Prediction(预测第二个句子是否可以自然的接在第一个句子后面,是一个二分类问题,用于理解句子间的关系)
    在这里插入图片描述
    是一个12层的网络,学到位置信息,多头attention公式见上图右边,I是原始输入,输出key,value,query。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/75952.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

集成开发环境革新:IntelliJ IDEA与Cursor AI的智能演进

集成开发环境革新&#xff1a;IntelliJ IDEA 与 Cursor AI 的智能演进 集成开发环境&#xff08;IDE&#xff09; 是软件开发者必不可少的工具。一个优秀的 IDE 不仅能够帮助编写和调试代码&#xff0c;还能集成版本控制和代码优化等多种功能。如今&#xff0c;随着人工智能&a…

【Django】教程-1-安装+创建项目+目录结构介绍

欢迎关注我&#xff01;后续会更新django教程。一周2-3更&#xff0c;欢迎跟进&#xff0c;本周会更新第一个Demo的单独一个模块的增删改查【Django】教程-4-一个增删改查的Demo【Django】教程-2-前端-目录结构介绍【Django】教程-3-数据库相关介绍 1.项目创建 1.1 安装 Djan…

智能仪表板DevExpress Dashboard v24.2新版亮点:支持.NET 9

使用DevExpress BI Dashboard&#xff0c;再选择合适的UI元素&#xff08;图表、数据透视表、数据卡、计量器、地图和网格&#xff09;&#xff0c;删除相应参数、值和序列的数据字段&#xff0c;就可以轻松地为执行主管和商业用户创建有洞察力、信息丰富的、跨平台和设备的决策…

STM32 IIC通信

目录 IIC简介硬件电路连接I2C时序基本单元IIC完整数据帧MPU6050封装硬件IIC内部电路 IIC简介 IIC&#xff08;Inter-Integrated Circuit&#xff09;是 IIC Bus 简称&#xff0c;中文叫集成电路总线。它是一种串行通信总线&#xff0c;使用多主从架构&#xff0c;由飞利浦公司…

debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述 按照官方的写法 import torch from transformers import pipeline import os os.environ["HF_TOKEN"] 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 model_id "meta-llama/Llama-3.2-3B"pipe pipeline("text-generation", modelmode…

使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第五讲)

在上一讲我们讲解了按键回调函数的自定义函数的用法&#xff0c;这一讲继续讲解回调函数的另一种用法。 首先我们将上一讲做好的按键名称以及自定义回调事件中的按键名称修改&#xff0c;改为默认模式为“open”当点击按键时进入回调函数将按键名称改为“close”&#xff0c;具…

Hyperliquid 遇袭「拔网线」、Polymarket 遭治理攻击「不作为」,从双平台危机看去中心化治理的进化阵痛

作者&#xff1a;Techub 热点速递 撰文&#xff1a;Glendon&#xff0c;Techub News 继 3 月 12 日「Hyperliquid 50 倍杠杆巨鲸」引发的 Hyperliquid 清算事件之后&#xff0c;3 月 26 日 晚间&#xff0c;Hyperliquid 再次遭遇了一场针对其流动性和治理模式的「闪电狙击」。…

自顶向下学习K8S--部署Agones

本文在本人博客&#xff0c;原文地址&#xff1a;http://viogami.tech/index.php/blog/346/ 我是gopher&#xff0c;离不开云原生&#xff0c;自然也逃不了理解docker和K8S这俩。今天抽空想玩下agones&#xff0c;进而对K8S有实践性的理解。 学一个新事物从底层理论学肯定是最…

协作机械臂需要加安全墙吗? 安全墙 光栅 干涉区

安全墙是什么 文章目录 安全墙是什么简介1. 物理安全墙1.1 定义&#xff1a;1.2 作用机制&#xff1a;1.3 应用场景&#xff1a; 2. 虚拟安全墙2.2 定义&#xff1a;2.3 作用机制&#xff1a;2.3 应用场景&#xff1a; 3. 安全毛毯3.1 工作原理&#xff1a;3.2 特点3.3 应用场景…

光谱范围与颜色感知的关系

光谱范围与颜色感知是光学、生理学及技术应用交叉的核心课题&#xff0c;两者通过波长分布、人眼响应及技术处理共同决定人类对色彩的认知。以下是其关系的系统解析&#xff1a; ‌1.基础原理&#xff1a;光谱范围与可见光‌ ‌光谱范围定义‌&#xff1a; 电磁波谱中能被特定…

如何让DeepSeek-R1在内网稳定运行并实现随时随地远程在线调用

前言&#xff1a;最近&#xff0c;国产AI圈里的新星——Deepseek&#xff0c;简直是火到不行。但是&#xff0c;你是不是已经对那些千篇一律的手机APP和网页版体验感到腻味了&#xff1f;别急&#xff0c;今天就带你解锁一个超炫的操作&#xff1a;在你的Windows电脑上本地部署…

leetcode33.搜索旋转排序数组

思路源于 【小白都能听懂的算法课】【力扣】【Leetcode33】搜索旋转排序数组 | 二分查找 | 数组 主要是数组旋转后分为左右两个升序区间 &#xff0c;如果mid落在左区间并且目标大小也在left-mid中&#xff0c;那么right右缩 class Solution {public int search(int[] nums, i…

YOLO历代发展 图像增强方式 架构

YOLO1 YOLOV5 数据增强 mosaic 仿射变换(Affine)、透视变换(Perspective) 网络搭建

NX二次开发刻字功能——布尔运算

刻字功能在经历、创建文本、拉伸功能以后就剩下布尔运算了。布尔运算的目的就是实现文本时凸还是凹。这部分内容很简单。 1、首先识别布尔运算的类型&#xff0c;我这里用到一个枚举类型的选项&#xff0c;凸就是布尔求和&#xff0c;凹就是布尔求差。 2、其放置位置为创建拉伸…

Python贝叶斯分层模型专题|对环境健康、医学心梗患者、体育赛事数据空间异质性实证分析合集|附数据代码

全文链接&#xff1a;https://tecdat.cn/?p41267 在大数据时代&#xff0c;多水平数据结构广泛存在于环境健康、医学研究和体育赛事等领域。本专题合集聚焦贝叶斯分层模型&#xff08;Hierarchical Bayesian Model&#xff09;的创新应用&#xff0c;通过氡气污染数据与 季后…

基于 Qt / HTTP/JSON 的智能天气预报系统测试报告

目录 一、项目概述 1.1项目背景 1.2项目目标 二、功能需求 2.1 用户界面功能 2.2 后台功能 三、技术选择 3.1 开发框架与工具 3.2 第三方 API 四、UI设计 4.1界面展示 4.2stylesheet样式 五、代码实现 1.构造函数 2.网络请求响应处理函数 3.处理json数据 4.更新…

C语言基础—构造类型

数据类型 1.基本类型/基础类型 整型 短整型&#xff1a;short[int] --2字节 基本整型&#xff1a;int --4字节 长整型&#xff1a;long[int] --32位4字节/64位8字节 长长整型&#xff1a;long long [int] &#xff08;C99&#xff09; 注意&#xff1a;以上类型又都分为sig…

什么是SQL作业

SQL作业是在数据库服务器上按特定时间或间隔自动执行的计划任务或流程&#xff0c;这些作业由Microsoft SQL Server中的SQL Server代理管理&#xff0c;对于自动执行日常任务&#xff08;如数据库系统中的备份、数据导入和报告生成&#xff09;以及确保及时准确地处理和更新数据…

【数据分享】基于联合国城市化程度框架的全球城市边界数据集(免费获取/Shp格式)

在全球城市化进程不断加快的今天&#xff0c;如何精准定义和测量“城市”成为关键问题。不同国家和机构采用不同的标准&#xff0c;导致全球城市化水平的统计结果存在较大差异。同时&#xff0c;由于数据来源分散、标准不统一&#xff0c;获取一套完整、可比的全球城市边界数据…

刘火良FreeRTOS内核实现与应用学习之6——多优先级

在FreeRTOS中&#xff0c;数字优先级越小&#xff0c;逻辑优先级也越小&#xff1b;在任务创建时&#xff0c;会根据任务的优先级将任务插入就绪列表不同的位置。 List_t pxReadyTasksLists[ configMAX_PRIORITIES ] 就绪列表是一个数组&#xff0c;数组中存储的是就绪任务TCB(…