美国专利短语相似度大赛

1.特殊token

[cls],[sep],[pas],[unk]

2.皮尔逊系数

利用metric矩阵获得评价指标

def compute_metrics(eval_pred):predictions, labels = eval_predpredictions = predictions.reshape(len(predictions))return {'pearson': np.corrcoef(predictions, labels)[0][1]}

3.bert

1)embedding

word embedding,sentence embedding,position embedding的原理:lookup table。O(1)的时间复杂度

先线性计算得到Q,K,V再分头对各自的Q,K,V进行计算,计算结果直接concat

2)feedforward

先降维后升维:768-->768*4-->768

3)warm up

一开始抑制后层参数的学习率,给前面参数一个缓冲优化的时间,以促进前后层的同步优化。

学习率缓慢爬升到一个较大的值,再开始下降,而不是传统的直接从一个较大的值开始下降。

4.Roberta

与bert的区别:

mask随机挑选

去除NSP任务

增大batch_size=4k

bytes_level BPE编码的tokenizer(5w+词库大小)

5.Deberta

背景:在attention矩阵中,对角线的值最大(即自己-自己的关联性最高),实际需求不光要关注本身还应关注本身的上下文。

与bert的区别:

结构侧:

在输入的input embedding不在加入position embedding

在input经过编码后

在encoder与enhance mask decoder端通过相对位置计算分散注意力

enhance mask decoder和transformer中的decoder没关系

在原始bert的倒数第二层,插入了一个分散注意力计算

训练侧:

训练时加入数据扰动

mask不替换词,替换成词的pos-embedding

debert用的是相对位置编码

6.参数选择

num_warmup_steps:一般设置在0.1-0.2(samples_num/batch_size)*epochs*num_warmup_steps

learning_rate:(base)(2-5)e-5 (large)小于等于2e-5(以0.5e-5为步长进行调整,调整时预训练语言模型越大,学习率应该越小)

seed:输入幸运数字

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/22102.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第六篇 移位寄存器

实验六 移位寄存器 6.1实验目的 掌握移位寄存器的工作原理; 掌握利用移位寄存器实现串行与并行的相互转换; 掌握使用移位寄存器实现乘除法运算; 6.2 原理介绍 6.2.1 基本移位寄存器 在实验四中,我们主要介绍了寄存器的结构…

qnx sepol 和 vmm_service

qnx/hlos_dev_qnx/apps/qnx_ap/target/hypervisor/host/build_files/init_mifs.build.tmpl:74: SECPOL_ENABLE1 编译生成 secpol.bin 打包进ifs_la.img https://download.csdn.net/blog/column/11845877/128596292 qnx/hlos_dev_qnx/apps/qnx_ap/AMSS/platform/vm/resource…

突破性技术: 大语言模型LLM量化激活outliers异常值抑制

LLM过去有两种突破性技术大大提升了量化精度,分别是group-wise量化和GPTQ/AWQ量化。前者相比于过去的per-tensor和per-channel/per-axis量化提出了更细粒度的对channel拆分为更小单元的量化方式,后者通过巧妙的算法明显提升了4bit量化的精度。 LLM量化存…

【TB作品】MSP430G2553单片机,读取dht11,读取ds18b20,温度报警器

功能 读取dht11温湿度显示到oled 读取ds18b20温度显示到oled 按键修改温度上限 温度超出温度上限就蜂鸣器报警 硬件接法 oled接法 0.96 寸 7针 oled // GND 电源地 // VCC 3.3v电源 // D0 P23(时钟) // D1 P24(数据) // RES 接…

LeetCode25_K个一组翻转链表

. - 力扣(LeetCode) 一、题目描述 二、过程模拟 1. 第一步 2. 第二步:子链表分组 3. 第三步:断开前后两组 4. 第四步:翻转start到end的部分 5. 第五步:连接翻转好的前半部分和未翻转的后半部分&#xff…

怎么把照片转成jpg

将照片转换成JPG格式是一个相对简单的过程,适用于大多数设备和操作系统。以下是一些常见的方法: 一、在Windows系统中转换照片格式 使用画图工具 打开你想要转换的照片,右击选择“打开方式”里面的“画图”工具。在画图工具的界面上&#xf…

《世界很喧嚣,做自己就好》有感

仅仅只用了两个中午一个晚上就看完了《世界很喧嚣,做自己就好》,不能说看完,应该说浏览完。决定要看这本书,仅仅只是因为它的书名。前几章还认真看,后面越来越快,再后来一目十行,只重点关注黑色…

设备树接口函数

0.前言 在前一篇博客里面,写设备树语法介绍和接口函数的时候,写到一半发现csdn有篇幅限制,现在在此篇进行补充。 之前的文章路径如下 驱动开发之设备树语法-CSDN博客 1.接口函数 1.1.of_property_read_xx_array 函数 int of_property_r…

富格林:正确抵制黑幕被骗陷阱

富格林指出,投资现货黄金对于新手投资者来说是一项有挑战性的任务,但其中最难的还属如何正确抵制黑幕被骗陷阱。事实上,我们可以采取一系列的措施来正确抵制黑幕被骗陷阱。有哪些措施可以帮助我们呢?下面富格林就给大家讲讲。 许…

Python笔记 - *args和**kwargs

探索Python的*args和**kwargs 在Python中,函数可以接受任意数量的参数,而这要归功于*args和**kwargs的强大功能。这两个特性使得函数在处理不同数量的输入时变得更加灵活和高效。在这篇博客中,我们将详细介绍*args和**kwargs,并展…

Redis键值数据库详解(科普面试必看)

目录 一、引言 二、Redis概述 三、Redis的特性 四、Redis的数据结构 五、Redis的应用场景 六、Redis的优化措施 一、引言 在当今大数据和云计算的时代,高效、稳定的数据存储与检索系统成为保障系统性能和可靠性的重要基础。键值数据库(Key-Value …

找回以前的视频:技术与实践3个指南

你们有没有发现现在视频已经成为我们生活中不可或缺的一部分了?不管是在工作场合做演示、在学习时看教学视频,还是在休闲娱乐时追剧看电影,视频都扮演着超级重要的角色。 然而误删或手机故障的发生很可能将以前的视频清除。本文将深入探讨手…

LeetCode 每日一题 数学篇 LCR 182.动态口令

某公司门禁密码使用动态口令技术。初始密码为字符串 password,密码更新均遵循以下步骤: 设定一个正整数目标值 target将 password 前 target 个字符按原顺序移动至字符串末尾 请返回更新后的密码字符串。 char* dynamicPassword(char* password, int …

「实战应用」如何用图表控件LightningChart JS创建SQL仪表板应用(一)

LightningChart JS是Web上性能特高的图表库,具有出色的执行性能 - 使用高数据速率同时监控数十个数据源。 GPU加速和WebGL渲染确保您的设备的图形处理器得到有效利用,从而实现高刷新率和流畅的动画,常用于贸易,工程,航…

深入了解JVM命令:优化Java应用的利器

目录 前言JVM架构概述常用JVM命令 javajavacjpsjstackjmapjstatjinfojcmd 命令详解及使用场景 java命令javac命令jps命令jstack命令jmap命令jstat命令jinfo命令jcmd命令 高级JVM调优 GC调优内存调优性能监控和分析 总结 前言 JVM不仅仅是一个执行Java字节码的运行时环境&…

10-探索 Intersection Observer API:高效管理元素可见性

探索 Intersection Observer API:高效管理元素可见性 笔记分享 在前端开发中,处理元素的可见性是一个常见的需求,尤其是在实现懒加载、无限滚动或检测广告曝光度等场景中。传统的方法通常依赖于 scroll 事件和 getBoundingClientRect 方法&a…

【ES】docker安装ES7.14.0+es-head

# 拉取镜像 docker pull elasticsearch:7.14.0 # 运行 --- # 拷贝数据用于挂载 docker cp -a es:/usr/share/elasticsearch/config/. /volume/es/config # 启动容器 docker run -p 9200:9200 -p 9300:9300 --privilegedtrue --name es -e "discovery.typesingle-node&quo…

【递归、搜索与回溯】递归、搜索与回溯准备+递归主题

递归、搜索与回溯准备递归主题 1.递归2.搜索3.回溯与剪枝4.汉诺塔问题5.合并两个有序链表6.反转链表7.两两交换链表中的节点8.Pow(x, n)-快速幂(medium) 点赞👍👍收藏🌟🌟关注💖💖 你…

Docker基础篇之本地镜像发布到阿里云

文章目录 1. 本地镜像发布到阿里云的流程2. 阿里云开发平台3. 将自己的本地镜像推送到阿里云 1. 本地镜像发布到阿里云的流程 阿里云ECS Docker生态如下图所示: 2. 阿里云开发平台 在控制台找到容器和镜像服务: 然后创建一个个人实例: 下面…

深圳垣象科技golang期望19K一面挂

垣象科技是一个初创公司,我们看好制造业数字化这个大方向,希望搭建一个云平台,通过创新的产品和服务,提高电子及高科技行业产品创新的能力和研发的效率 一面(挂) 总体来说项目答得不好,h5 拖拽…