RoNID：通过生成可靠标签与聚类友好型表征来实现新意图的发现

RoNID：通过生成可靠标签与聚类友好型表征来实现新意图的发现

diannao/2025/7/8 16:52:20/文章来源:https://blog.csdn.net/lichunericli/article/details/138401518

论文地址：https://arxiv.org/abs/2404.08977

原文地址：intents-are-not-going-away-ronid-is-a-new-intent-discovery-framework

2024 年 4 月 26 日

Robust New Intent Discovery（RoNID）框架致力于在开放域场景中识别已知意图并合理推断新意图组。

问题

传统的聊天机器人系统严重依赖意图。意图完全基于预先定义的（通常是经过深思熟虑的）假设，即用户想要进行的对话。

因此，传统意图的能力有限，只能识别预定义和受限的意图类别。解决聊天机器人这一问题的尝试包括域外检测和知识库回退，这些方法最近已演变成 RAG 方法。

新的用户意图不断从面向客户的实施中出现，这些新意图通常来自向组织引入的新产品和服务。或者系统故障、产品缺陷或产品或服务上线问题等等。

这些新的意图需要动态地发现和聚集。 RoNiD 旨在创建一个框架，其中通过弱监督包括 RLHF，在该框架中识别新意图并确认伪标签。

介绍

该研究的重点是建立可靠的伪标签并获得聚类友好的判别表示。

使用的两个模型是：

可靠的伪标签生成模块
聚类友好的表示学习模块。

文本描述了一个名为 RoNID 的过程，它生成可靠的合成标签和聚类友好的表示。

简单来说，这意味着 RoNID 创建准确的标签并以更易于理解的方式组织数据。这是通过两个主要步骤完成的：

标签生成

RoNID通过解决特定问题为数据分配准确的标签；这有助于为进一步分析提供明确的指导。

表征学习

RoNID 组织数据，以便相似的项目被分组在一起（聚类紧凑性），而不同的组被很好地分开（聚类间分离）。此步骤可以更轻松地查看数据中的模式和差异。

通过重复这些步骤，RoNID 创建了一个具有准确标签和组织良好的数据的可靠模型。测试表明，该方法大大优于以前的技术，在各种基准测试中将结果提高了 1 到 4 个点。

意图与对话

准确理解和识别用户意图对于下游面向任务的对话系统非常重要，它直接影响用户体验。如果意图识别不正确，则呈现给用户的对话流与用户的意图不匹配。

随后，用户试图从一个流程转移到另一个流程；如果没有计划好这种转移，用户会感到更加沮丧。

Out-Of-Domain

上面的场景（a）展示了已知意图和新意图是如何被分组的。而场景（b）展示了RoNID方法，其中已知意图和新的/未知的意图是基于可靠的伪标签和聚类表征被分离的。

NID

半监督 NID 通常采用 k-means 算法进行伪标签分配并学习判别意图特征。

RoNID 框架通过在一个步骤中解决特定问题来获得可靠的伪标签，在另一个步骤中，它通过组合不同类型的损失来学习以一种易于理解的方式组织数据。

最后

在这项研究中，研究人员引入了针对 NID 问题的 EM-optimised RoNID 框架。它由两个主要部分组成：可靠的伪标签生成模块和聚类友好的表示学习模块。

伪标签生成模块通过解决特定问题分配精确的伪标签来确保准确的监督。表示学习模块通过关注簇内和簇间差异来提高表示的质量。这有助于区分已知意图和新意图。

他们的实验表明 RoNID 是有效的，并且比以前最先进的方法表现得更好。

RoNID 使用迭代方法通过创建可靠的伪标签并将数据组织到集群中来提高模型性能。

该方法包括三个主要步骤：

首先，使用标记和未标记数据预训练特征提取器，以实现更好的知识迁移。
然后，通过解决特定问题来提高伪标签的准确性。
最后，引入簇内和簇间对比学习，为已知和新颖的意图创建不同的表示簇。

为了给表示学习模块提供高质量的监督信号，该研究提出生成可靠的伪标签来指导模型训练，从而将无监督训练样本转化为伪监督样本。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/6909.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【STM32+HAL】DS18B20读取环境温度

【STM32+HAL】DS18B20读取环境温度

一、准备工作有关CUBEMX的初始化配置，参见我的另一篇blog：【STM32HAL】CUBEMX初始化配置二、所用工具 1、芯片： STM32F407VET6 2、IDE： MDK-Keil软件 3、库文件：STM32F4xxHAL库三、实现功能串口打印当前温度值…

阅读更多...

羊毛项目(华为iPhone茅台),讲解抢购渠道与抢购注意事项

羊毛项目(华为iPhone茅台),讲解抢购渠道与抢购注意事项

薅羊毛天花板，华为iPhone茅台无脑撸，几分钟换几百元(非脚本项目) 网盘自动获取链接：https://pan.baidu.com/s/1lpzKPim76qettahxvxtjaQ?pwd0b8x 提取码：0b8x

阅读更多...

投屏协议DLNA

投屏协议DLNA

目录 1. 常见投屏方案 2. 什么是DLNA 3. DLNA设备分类 4，DLNA的架构 1. 常见投屏方案常见的投屏方案主要有以下几种： DLNA DLNA的全称是DIGITAL LIVING NETWORK ALLIANCE(数字生活网络联盟)。DLNA委员会已经于2017年1月5日正式解散，原…

阅读更多...

Merck：mPAGE® Lux SDS-PAGE制胶系统

Merck：mPAGE® Lux SDS-PAGE制胶系统

相对于传统SDS-PAGE制胶工艺，Merck公司的mPAGE Lux制胶系统是一种更快速、简单、安全的替代方法，可实现更具可重现性的结果。mPAGE Lux制胶系统可在90秒内完成小型凝胶固化，而传统方法则需要90分钟以上。该系统采用紫外线照射快速制胶工作流程…

阅读更多...

Android 编译文件简述(Android.mk)

Android 编译文件简述(Android.mk)

Android 编译文件简述(Android.mk) Android.mk 文件是 Android 构建系统中的一种构建配置文件，使用 GNU Make 语法，用于定义 Android 项目中的模块、库、应用程序、JNI 代码等的编译和链接方式。每个 Android.mk 文件通常对应一个目录，代表构建系统应该如何处理该目录下的源…

阅读更多...

用 node 写一个命令行工具，全局安装可用

用 node 写一个命令行工具，全局安装可用

现在，不管是前端项目还是 node 项目，一般都会用 npm 做包管理工具，而 package.json 是其相关的配置信息。对 node 项目而言，模块导出入口文件由 package.json 的 main 字段指定，而如果是要安装到命令行的工具&#x…

阅读更多...

【高阶数据结构(一)】并查集详解

【高阶数据结构(一)】并查集详解

💓博主CSDN主页:杭电码农-NEO💓 ⏩专栏分类:高阶数据结构专栏⏪ 🚚代码仓库:NEO的学习日记🚚 🌹关注我🫵带你学习更多Go语言知识 🔝🔝 高阶数据结构 1. 前言2. 并查集…

阅读更多...

等保2.0有哪些好处，到底要花多少钱?今天一个文章给你讲透

等保2.0有哪些好处，到底要花多少钱?今天一个文章给你讲透

自从等保2.0相关标准正式发布以来，等级保护测评已然成为网络安全行业的热门话题，这意味着等保进入了一个全新的高度。目前一些机构国家单位项目都有等保资质这一项，早做的客户符合这一标准，竞争项目就更有把握了。第一次做完等…

阅读更多...

数据分析的统计推断

数据分析的统计推断

数据分析的统计推断前言一、提出问题二、统计归纳方法三、统计推断四、统计推断步骤如何进行统计推断统计推断的基本问题点估计区间估计总体方差已知总体方差未知假设检验假设检验的假设显著性水平五、检验统计量常见的检验统计量六、检验方法七、拒绝域八、假设检验步骤九…

阅读更多...

高并发下缓存失效问题

高并发下缓存失效问题

1、缓存穿透风险利用不存在的数据进行攻击，数据库瞬时压力增大，最终导致崩溃。解决 null 结果缓存，并加入短暂过期时间。 2、缓存雪崩风险所有的 key 采用相同的过期时间，导致某一时刻同时失效，压力转移到…

阅读更多...

【JavaEE网络】从数据链路层到应用层的DNS

【JavaEE网络】从数据链路层到应用层的DNS

目录数据链路层以太网 DNS 数据链路层越往下与程序员越远代表协议：以太网。平常用的网线也叫“以太网线”，平常用的交换机也叫“以太网交换机” 以太网认识以太网 “以太网” 不是一种具体的网络，而是一种技术标准；既包含…

阅读更多...

Day19 代码随想录打卡|字符串篇---反转字符串II

Day19 代码随想录打卡|字符串篇---反转字符串II

题目（leecode T541）： 给定一个字符串 s 和一个整数 k，从字符串开头算起，每计数至 2k 个字符，就反转这 2k 字符中的前 k 个字符。如果剩余字符少于 k 个，则将剩余字符全部反转。如果剩余字符小…

阅读更多...

基于uniapp+vue3+vite实现小程序构建Android、iOS多端项目配置详解

基于uniapp+vue3+vite实现小程序构建Android、iOS多端项目配置详解

🚀 作者 ：“二当家-小D” 🚀 博主简介：⭐前荔枝FM架构师、阿里资深工程师||曾任职于阿里巴巴担任多个项目负责人，8年开发架构经验，精通java,擅长分布式高并发架构,自动化压力测试，微服务容器化k…

阅读更多...

网络驱动--汽车ETNB(瑞萨)

网络驱动--汽车ETNB(瑞萨)

以太网AVB (ETNB) 介绍RH850/U2A-EVA的属性，如编号单元、寄存器的基址。描述了函数和寄存器 ETNB的成员。两个单元；Units ▪ Fast Ethernet ETNB0 ▪ Gigabit Ethernet ETNB1 单元通道特点 For ETNB0 (Fast Ethernet) ▪ Communication interface ▪…

阅读更多...

基于 llama2 的提示词工程案例2

基于 llama2 的提示词工程案例2

优化大型语言模型（LLMs） 优化大型语言模型（LLMs）中的提示词（prompts）是提高模型性能和输出相关性的重要手段。以下是一些优化提示词的方向： 明确性：确保提示词清晰明确，…

阅读更多...

推荐一个免费的api接口调用平台

推荐一个免费的api接口调用平台

WhyApi：apis.whyta.cn

阅读更多...

Rust 实战thiserror+自定义错误消息体

Rust 实战thiserror+自定义错误消息体

导航一、背景二、实践1、导入thiserror2、自定义错误消息体（1）创建ErrMsg.rs和创建自定义结构体（2）lib.rs添加ErrMsg（3）main函数（4）完整代码一、背景开发中遇到需要通用、能够满…

阅读更多...

LeetCode 142.环形链表Ⅱ

LeetCode 142.环形链表Ⅱ

题目描述给定一个链表的头节点 head ，返回链表开始入环的第一个节点。如果链表无环，则返回 null。如果链表中有某个节点，可以通过连续跟踪 next 指针再次到达，则链表中存在环。为了表示给定链表中的环，评测系统内…

阅读更多...

速卖通自养号测评技术策略与实战指南

速卖通自养号测评技术策略与实战指南

速卖通自养号测评是一个涉及多个步骤和细节的过程，以下是一些关键步骤和注意事项： 1. 准备资源和环境： 测评养号系统：确保账号的权重稳定运营与账号便捷的管理。海外纯净IP资源：为账号提供稳定的网络环境&#x…

阅读更多...

AI新突破：多标签预测技术助力语言模型提速3倍

AI新突破：多标签预测技术助力语言模型提速3倍

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享，与你一起了解前沿深度学习信息！ 引言：多标签预测的新视角在人工智能领域，尤其是在自然语言处理（NLP）中，预测模型的训练方法一直在…

阅读更多...

最新文章