[论文阅读]SimCSE: Simple Contrastive Learning of Sentence Embeddings

SimCSE:句子嵌入的简单对比学习

SimCSE: Simple Contrastive Learning of Sentence Embeddings

http://arxiv.org/abs/2104.08821

EMNLP 2021

文章介绍了SimCSE,这是一种简单的对比学习框架,采用了自监督来提升模型的句子表示能力

而自监督最关键的问题是构建正负例

对于无监督来说,作者使用了Droupout来构建正例,将一个样本经过encoder两次,就得到了一个正例对,负例则是同一个batch里的其它句子。

对于有监督则采用了SNLI数据集天然的结构,对立类别的是负例,另外两个类别的就是正例

对比学习旨在通过将语义上接近的邻居拉在一起并推开非邻居来学习有效的表示

 

图像上的对比学习方案:对同一个图像进行两次随机转换(例如裁剪、翻转、扭曲和旋转等)。文本上采用类似的方案:单词删除、重排序和替换等增强技术,但是由于文本的离散型,文本数据增强本质上是很困难的,简单地在中间表示上使用标准dropout优于这些离散运算符。

无监督SImCSE:

使用droupout来对文本增加噪音,从而构造一个正样本对,而负样本对则是在batch中选取的其它句子

 有监督SimCSE:

这一部分的句子对直接采用了NLI数据集的数据,因为其中有天然的正负例句子对。

详细请参考这篇文章:
无监督对比学习SIMCSE理解和中文实验操作-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883877.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网络原理】——图解HTTPS如何加密(通俗简单易懂)

阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 一:HTTP为什么不安全 二:HTTPS加密过程 1:密码学中的概念 &…

apt的编译安装(古老通讯)

Ubuntu系统的防火墙关闭: ufw disable 第一步:Ubuntu 安装依赖环境 apt -y install libpcre3-dev zlib1g-dev libssl-dev build-essential 如果出现无法下载则在末尾处假如 --fix missing如下图所示 出现下图则为安装成功 第二步: useradd…

上市公司企业数字金融认知数据集(2001-2023年)

一、测算方式:参考C刊《经济学家》王诗卉(2021)老师的做法,数字金融认知使用每万字年报描述中包含的对数字金融相关关键词的提及次数,关键词为:互联网、数字化、智能、大数据、电子银行、金融科技、科技金融…

LivePortrait——生成可拼接和重定向控制的高效肖像动画翻译

文章目录 原文翻译Abstract1. Introduction2. Related Work2.1. Non-diffusion-based Portrait Animation2.2. Diffusion-based Portrait Animation 3. Methodology3.1. Preliminary of Face Vid2vid3.2. Stage I: Base Model Training3.3. Stage II: Stitching and Retargetin…

快来免费参加交通领域重量级会议:第十三届交通运输研究(上海)论坛

一、会议简介 交通运输研究(上海)论坛(简称为TRF)是按照国际会议的组织原则,为综合交通运输领域学者们构建的良好 合作交流平台。交通运输研究(上海)论坛已经成功举办了十二届,凝聚了…

zabbix 6.0 监控clickhouse(单机)

zabbix 6.0 LTS已经包含了clickhouse的监控模板,所以我们可以直接使用自带的模板来监控clickhouse了。 0.前置条件 clickhouse 已经安装,我安装的是24.3.5.47zabbix-agent 已经安装并配置。系统是ubuntu 2204 server 1. 新建监控用户 使用xml的方式为…

机架式服务器:

外观:机架式服务器按照统一标准设计,通常安装在机柜中。 规格:机架式服务器有不同的规格,如1U(高度约4.45厘米)、2U、4U、6U、8U等。 应用范围:适用于数据中心、企业级应用和大规模部署

【JVM第1课】Java 跨平台原理

无痛快速学习JVM,欢迎订阅本免费专栏 JVM Java的特性就是程序员一次编写,到处运行,意思是我们只需要写一份代码,就可以在不同的操作系统(windows、Linux、Mac OS等)中运行。但是不同的操作系统能看懂的指令…

RabbitMQ替换默认端口

前提:客户通过漏洞扫描,发现rabbitmq中的erlang是默认端口4369,出于安全的考虑,需要将erlang的端口修改为其他的端口。 1.查看默认erlang的默认端口 netstat -plnt | grep 4369 2.关闭rabbitmq rabbitmqctl stop(注…

【MySQL】 运维篇—备份与恢复:使用mysqldump进行数据库备份与恢复

无论是企业应用、电子商务平台还是社交媒体,数据的安全性和完整性都是至关重要的。数据库备份是一种保护措施,确保在数据丢失、损坏或系统故障时,可以快速恢复数据,保持业务的连续性和稳定性。 应用场景 意外数据丢失&#xff1a…

Linux上配置NFS服务

架设一台NFS服务器,并按照以下要求配置: 1、开放/nfs/shared目录,供所有用户查询资料: 2、开放/nfs/upload目录,为192.168.xxx.0/24网段主机可以上传目录,并将所有用户及所属的组映射为nfs-upload,其UID和…

MySQL数据库MHA高可用

目录 一、MHA简述 二、MHA 的组成 三、MHA 的特点 四、MHA工作原理 五、MHA部署步骤 六、搭建 MySQL MHA MHA一主两从高可用集群示意图 实验环境 1. Master、Slave1、Slave2 节点上安装 mysql5.7 2. 关闭防火墙 3. 修改 Master、Slave1、Slave2 节点的主机名 4. 修…

【http作业】

1.关闭防火墙 [rootlocalhost ~]# systemctl stop firewalld #关闭防火墙 [rootlocalhost ~]# setenforce 0 2.下载nginx包 [rootlocalhost ~]# mount /dev/sr0 /mnt #挂载目录 [rootlocalhost ~]# yum install nginx -y #下载nginx包 3.增加多条端口 [rootlocalhost ~]# n…

docker build cache 占用磁盘空间很高

一、查看docker 构建缓存占用空间 二、清理 三、查看

PostgreSQL 删除重复数据

我们常常会遇到这样的问题,就是数据重复。然后我们需要对重复数据进行删除。保留最大还是最小则根据具体业务来判断。 假设有表 vbi1 在设计表的时候由于 vbi01 没有被设置为主键,这个时候业务发现 vbi01 重复了,我们需要根据字段 vbi01 来删…

优选算法专题一 ——双指针算法

🌈个人主页:小新_- 🎈个人座右铭:“成功者不是从不失败的人,而是从不放弃的人!”🎈 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝 🏆所属专栏&#xff1…

2025年NPDP产品经理认证考试时间和报考条件

在报考2025年NPDP认证考试前,了解NPDP相关考试信息是非常重要的,可以帮助我们更好地制定备考计划,提高学习效率。 NPDP考试时间 NPDP考试每年举办两次,分别在5月和11月进行,且考试一般安排在周末,以便在职的专业人士…

敢为人先 创世富尔是如何引领磁性元件磁集成技术风向的

【哔哥哔特导读】2021年便已实现车载OBC磁集成产品的量产,创世富尔将如何通过磁集成技术改变电源行业生态,并确立自身的领先优势? 自2023年新能源汽车厂商开启价格战以来,这波内卷逐渐蔓延至所有终端领域,加上上游材料…

Google如何做医疗大模型(Med-Gemini)

1. 前言 开发垂直领域模型的方法有好几种,其中医疗、法律等专业是比较能体现模型垂直行业能力的,因此也深受各大厂商的重视。 五一小长假的第一天,Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.o…

虚拟光驱软件 PowerISO v8.7.0 中文激活版

PowerISO 是一款虚拟光驱工具及强大的光盘映像文件制作工具。支持创建、编辑、提取、压缩、加密和转换ISO/BIN图像文件。同时自带DISM工具,支持ESD/ISO/WIM/ESD格式转换,制作镜像文件制作U盘启动,支持ISO/BIN/IMG/DAA/WIM等各种常见文件类型。…