[论文阅读]SimCSE: Simple Contrastive Learning of Sentence Embeddings

SimCSE:句子嵌入的简单对比学习

SimCSE: Simple Contrastive Learning of Sentence Embeddings

http://arxiv.org/abs/2104.08821

EMNLP 2021

文章介绍了SimCSE,这是一种简单的对比学习框架,采用了自监督来提升模型的句子表示能力

而自监督最关键的问题是构建正负例

对于无监督来说,作者使用了Droupout来构建正例,将一个样本经过encoder两次,就得到了一个正例对,负例则是同一个batch里的其它句子。

对于有监督则采用了SNLI数据集天然的结构,对立类别的是负例,另外两个类别的就是正例

对比学习旨在通过将语义上接近的邻居拉在一起并推开非邻居来学习有效的表示

 

图像上的对比学习方案:对同一个图像进行两次随机转换(例如裁剪、翻转、扭曲和旋转等)。文本上采用类似的方案:单词删除、重排序和替换等增强技术,但是由于文本的离散型,文本数据增强本质上是很困难的,简单地在中间表示上使用标准dropout优于这些离散运算符。

无监督SImCSE:

使用droupout来对文本增加噪音,从而构造一个正样本对,而负样本对则是在batch中选取的其它句子

 有监督SimCSE:

这一部分的句子对直接采用了NLI数据集的数据,因为其中有天然的正负例句子对。

详细请参考这篇文章:
无监督对比学习SIMCSE理解和中文实验操作-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883877.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网络原理】——图解HTTPS如何加密(通俗简单易懂)

阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 一:HTTP为什么不安全 二:HTTPS加密过程 1:密码学中的概念 &…

apt的编译安装(古老通讯)

Ubuntu系统的防火墙关闭: ufw disable 第一步:Ubuntu 安装依赖环境 apt -y install libpcre3-dev zlib1g-dev libssl-dev build-essential 如果出现无法下载则在末尾处假如 --fix missing如下图所示 出现下图则为安装成功 第二步: useradd…

上市公司企业数字金融认知数据集(2001-2023年)

一、测算方式:参考C刊《经济学家》王诗卉(2021)老师的做法,数字金融认知使用每万字年报描述中包含的对数字金融相关关键词的提及次数,关键词为:互联网、数字化、智能、大数据、电子银行、金融科技、科技金融…

LivePortrait——生成可拼接和重定向控制的高效肖像动画翻译

文章目录 原文翻译Abstract1. Introduction2. Related Work2.1. Non-diffusion-based Portrait Animation2.2. Diffusion-based Portrait Animation 3. Methodology3.1. Preliminary of Face Vid2vid3.2. Stage I: Base Model Training3.3. Stage II: Stitching and Retargetin…

快来免费参加交通领域重量级会议:第十三届交通运输研究(上海)论坛

一、会议简介 交通运输研究(上海)论坛(简称为TRF)是按照国际会议的组织原则,为综合交通运输领域学者们构建的良好 合作交流平台。交通运输研究(上海)论坛已经成功举办了十二届,凝聚了…

zabbix 6.0 监控clickhouse(单机)

zabbix 6.0 LTS已经包含了clickhouse的监控模板,所以我们可以直接使用自带的模板来监控clickhouse了。 0.前置条件 clickhouse 已经安装,我安装的是24.3.5.47zabbix-agent 已经安装并配置。系统是ubuntu 2204 server 1. 新建监控用户 使用xml的方式为…

RabbitMQ替换默认端口

前提:客户通过漏洞扫描,发现rabbitmq中的erlang是默认端口4369,出于安全的考虑,需要将erlang的端口修改为其他的端口。 1.查看默认erlang的默认端口 netstat -plnt | grep 4369 2.关闭rabbitmq rabbitmqctl stop(注…

Linux上配置NFS服务

架设一台NFS服务器,并按照以下要求配置: 1、开放/nfs/shared目录,供所有用户查询资料: 2、开放/nfs/upload目录,为192.168.xxx.0/24网段主机可以上传目录,并将所有用户及所属的组映射为nfs-upload,其UID和…

MySQL数据库MHA高可用

目录 一、MHA简述 二、MHA 的组成 三、MHA 的特点 四、MHA工作原理 五、MHA部署步骤 六、搭建 MySQL MHA MHA一主两从高可用集群示意图 实验环境 1. Master、Slave1、Slave2 节点上安装 mysql5.7 2. 关闭防火墙 3. 修改 Master、Slave1、Slave2 节点的主机名 4. 修…

docker build cache 占用磁盘空间很高

一、查看docker 构建缓存占用空间 二、清理 三、查看

优选算法专题一 ——双指针算法

🌈个人主页:小新_- 🎈个人座右铭:“成功者不是从不失败的人,而是从不放弃的人!”🎈 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝 🏆所属专栏&#xff1…

敢为人先 创世富尔是如何引领磁性元件磁集成技术风向的

【哔哥哔特导读】2021年便已实现车载OBC磁集成产品的量产,创世富尔将如何通过磁集成技术改变电源行业生态,并确立自身的领先优势? 自2023年新能源汽车厂商开启价格战以来,这波内卷逐渐蔓延至所有终端领域,加上上游材料…

Google如何做医疗大模型(Med-Gemini)

1. 前言 开发垂直领域模型的方法有好几种,其中医疗、法律等专业是比较能体现模型垂直行业能力的,因此也深受各大厂商的重视。 五一小长假的第一天,Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.o…

虚拟光驱软件 PowerISO v8.7.0 中文激活版

PowerISO 是一款虚拟光驱工具及强大的光盘映像文件制作工具。支持创建、编辑、提取、压缩、加密和转换ISO/BIN图像文件。同时自带DISM工具,支持ESD/ISO/WIM/ESD格式转换,制作镜像文件制作U盘启动,支持ISO/BIN/IMG/DAA/WIM等各种常见文件类型。…

【简历】25届湖南某专升本JAVA简历:项目名称不要过份搞笑!!

注:为保证用户信息安全,姓名和学校等信息已经进行同层次变更,内容部分细节也进行了部分隐藏 另外:我们出这一系列校招简历指导的原因,就是看很多学生被忽悠,没有先定位大厂、中厂还是小公司,导…

目前最新最好用 NET 混淆工具 .NET Reactor V6.9.8

目前最新最好用 NET 混淆工具 .NET Reactor V6.9.8 1、.NET Reactor V6.9.8 功能简介2、官方下载 1、.NET Reactor V6.9.8 功能简介 业界领先的源代码保护 .NET Reactor通过多种方法来防止反编译,这些方法会将 .NET 程序集转换为任何现有工具都无法反编译的进程。…

Android Activity 属性 TaskAffiity、allowTaskReparenting

Activity未设置taskAffinity属性 页面跳转顺序 MainActivity -> StandardActivity -> SingleTopActivity-> SingleTaskActivity-> SingleInstanceActivity-> SingleInstancePerTaskActivity MainActivity 标准启动模式 StandardActivity 标准启动模式 SingleTo…

PPT批量替换字体

1.【开始】➡【查找】➡【替换字体】。 2.在弹窗内选择替换字体,和想要换成的字体,设置好点击【替换】,然后点击【关闭】或者左上角的小【】。 3.可以检查一下,每一页的【宋体】或者其他字体,都被改成了【微软雅黑】…

模型 支付矩阵

系列文章 分享 模型,了解更多👉 模型_思维模型目录。策略选择的收益分析工具。 1 支付矩阵的应用 1.1 支付矩阵在市场竞争策略分析中的应用 支付矩阵是一种强大的决策工具,它在多个领域的应用中都发挥着重要作用。以下是一个具体的应用案例…

五指cms安装

我在安装五指cms的过程中发现一个问题,我看到的大部分的安装指导并没有详细的告诉大家该怎样做。所以我写这篇博客来进行一个比较详细的指导。 第一步:解压我们的wuzhicms文件并将其移动到phpstudy的WWW文件目录下。 第二步: 在phpstudy配置…