人工标签不准确的一种解决方案：PCA降维可视化筛选正样本

人工标签不准确的一种解决方案：PCA降维可视化筛选正样本

news/2025/7/6 16:33:10/文章来源:https://blog.csdn.net/Rhiney_97/article/details/134554049

背景

在实际的业务场景里，用会话文本构建模型（机器学习/深度学习）来做意图分类之类的任务时，经常会出现人工打标不够准确的问题，标签都不准确的话模型当然无法学习到有效信息了。这个问题真的非常头疼…除了与业务沟通修正标签以外（通常很慢），用现有的数据尽量修正正负样本也能有效的提升模型区分效果。

方法

介绍一种比较简要的方法，这里的分类任务我用的是给句子做二分类，用sentence2vec方法把句子转换成向量后，采用PCA降维成二维数据，做可视化图就可以看出人工打标下正负样本的分布。

人工打标结果虽然不准，但还是可以用作参考，比方说可视化图中几乎仅有正样本分布的区域，就是人工判断样本正负上绝对没有异议的样本，可以作为新的正样本。

PCA降维及可视化的核心代码：

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
pca = PCA(n_components=2) #PCA
result = pca.fit_transform(data_vecs)   #将句子向量(128维度)降维成二维向量，[1000, 128]->[1000,

主要步骤

句子转向量【略】；
句子向量用PCA降成二维信息；
每个句子的二维信息作为坐标，可视化；
根据可视化点图，分别截取不同区域的句子查看句子含义：

注：黄点为正样本，紫色点为负样本

比方我这里是以“要退保”意图为正样本，“不要退保”意图为负样本，图中右边区域正样本和负样本几乎都混杂在了一起，这些就是按照不同人员打标后标准不统一的结果，但左边的样本几乎没有负样本，说明这部分文本是没有异议的，可以筛出作为新的正样本。

我筛选的标准比较粗糙，直接将左边区域的作为新的正样本，也可以用机器学习中的模型来筛选出正样本应该也OK的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/159588.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

d3dcompiler_47.dll缺失怎么修复，d3dcompiler_47.dll的作用有哪些

d3dcompiler_47.dll缺失怎么修复，d3dcompiler_47.dll的作用有哪些

d3dcompiler_47.dll丢失是一种常见的电脑问题。如果你遇到了这个问题，不要惊慌，下面的方法可以帮助你解决。本文将详细介绍解决d3dcompiler_47.dll丢失问题的步骤，让你手把手地学会。一.解决d3dcompiler_47.dll丢失问题的步骤解决方法一&a…

阅读更多...

CSS伪类选择器详细讲解

CSS伪类选择器详细讲解

前言伪类选择器在CSS中起到的作用可以说是至关重要的，如果CSS没有伪类选择器，有很多效果都要借助js来完成，这样不仅代码量增加，维护起来你难度也大。这样程序员的工作量大，也违背了CSS诞生的作用，就是提高…

阅读更多...

洛谷 P1250 种树

洛谷 P1250 种树

种树题目背景一条街的一边有几座房子，因为环保原因居民想要在路边种些树。题目描述路边的地区被分割成块，并被编号成 1 , 2 , … , n 1, 2, \ldots,n 1,2,…,n。每个部分为一个单位尺寸大小并最多可种一棵树。每个居民都想在门前种些树&#…

阅读更多...

重磅！TikTok Shop将以新方式重启印尼业务

重磅！TikTok Shop将以新方式重启印尼业务

据报道，TikTok将通过与印尼电商平台合作的方式重启电商业务。据悉，印尼合作社和中小企业部就TikTok Shop将在印尼重新开业的消息发表了讲话。合作社和中小企业部Temmy Satya Permana证实TikTok Shop将在印尼重新开业的消息。他表示，TikTok …

阅读更多...

使用 Python脚本在3DMAX中加载图像和读取图像中的像素值

使用 Python脚本在3DMAX中加载图像和读取图像中的像素值

如何使用Python在3dmax中加载和显示图像文件？我们先看下面的代码： *测试的3dmax文件和图像文件位于同一目录中。 from MaxPlus import BitmapManagerimage_file_path rje_gray_02_4k.exrbmp_storage MaxPlus.Factory.CreateStorage(17)bmp_info bmp…

阅读更多...

探索数字孪生的潜力：五个最有前景的行业

探索数字孪生的潜力：五个最有前景的行业

数字孪生技术正在引领一场新的工业革命，其潜力正在被全球范围内的行业所认识和利用。在未来，数字孪生技术将在许多行业中发挥重要作用，本文带大家共同解析未来数字孪生技术五个最有发展前景的行业。 1.制造业数字孪生技术可以帮助制造商模…

阅读更多...

Leetcode——169 多数元素

Leetcode——169 多数元素

我的答案 class Solution {public int majorityElement(int[] nums) {int len nums.length;Arrays.sort(nums);int count 1;int res 0;if(len 1){return nums[0];}for(int i0; i<len-1; i){if(nums[i]nums[i1]){count;}else{count 1;}if(count>len/2){res nums[i]…

阅读更多...

springboot post添加URL添加参数

springboot post添加URL添加参数

出现 MissingServletRequestParameterException: Required String parameter pageNumber is not present 异常的原因是在请求中没有提供名为 pageNumber 的参数。请确保发送 POST 请求时，在请求的 URL 或请求体中提供了名为 pageNumber 的参数，以满足方…

阅读更多...

【问题定位】通过看Mybatis源码解决系统问题

【问题定位】通过看Mybatis源码解决系统问题

开发需求好好的，运维同事突然发现了一个问题，某个任务的详情页面加载不出来。看日志，系统在进行查询操作的时候抛出空指针异常。感觉是Mybatis内部异常，所以就跟踪源码看下Mybatis运行到哪一步报错的。 DefaultSqlSession#select…

阅读更多...

MySQL大表设计

MySQL大表设计

存储大规模数据集需要仔细设计数据库模式和索引，以便能够高效地支持各种查询操作。在面对数亿条数据，每条数据包含数百个字段的情况下，以下是我能想到的在设计数据库的时候需要注意的内容，不足之处欢迎各位在评论区批评指正&#…

阅读更多...

2023年亚太杯数学建模思路 - 案例：粒子群算法

2023年亚太杯数学建模思路 - 案例：粒子群算法

文章目录 1 什么是粒子群算法？2 举个例子3 还是一个例子算法流程算法实现建模资料 # 0 赛题思路 （赛题出来以后第一时间在CSDN分享） https://blog.csdn.net/dc_sinor?typeblog 1 什么是粒子群算法？ 粒子群算法（Pa…

阅读更多...

零成本搭建微信公众号自助查券返利机器人教程

零成本搭建微信公众号自助查券返利机器人教程

零成本搭建微信公众号自助查券返利机器人教程随着电商行业的快速发展，越来越多的消费者开始关注如何通过优惠券和返利来省钱购物。而微信公众号自助查券返利机器人的出现，为消费者提供了更加便捷的渠道来查找和获取优惠信息。本文将结合微赚淘客系统&a…

阅读更多...

PostgreSQL导出表结构带注释

PostgreSQL导出表结构带注释

我们在平时开发过程中，经常会在字段的注释中，加上中文，解释字段的相关含义，也可以避免时间太久忘记这个字段代表什么，毕竟英文水平不好。我们可能要经常整理数据库表结构，提供他人去收集数据，但…

阅读更多...

Doris中的Rollup（十五）

Doris中的Rollup（十五）

ROLLUP 在多维分析中是“上卷”的意思，即将数据按某种指定的粒度进行进一步聚合。在 Doris 中，我们将用户通过建表语句创建出来的表称为 Base 表（Base Table）。Base 表中保存着按用户建表语句指定的方式存储的基础数据。在 Ba…

阅读更多...

iOS 17 跳转到系统设置页面（蓝牙、wifi、键盘、壁纸、铃声、iCloud等等）

iOS 17 跳转到系统设置页面（蓝牙、wifi、键盘、壁纸、铃声、iCloud等等）

最新iOS系统设置和路径对照表名称路径aboutApp-prefs:General&pathAboutautoLockApp-prefs:General&pathAUTOLOCKbluetoothApp-prefs:BluetoothdateTimeApp-prefs:General&pathDATE_AND_TIMEfacetimeApp-prefs:FACETIMEgeneralApp-prefs:GeneralkeyboardApp-pref…

阅读更多...

SQLite3 数据库学习（四）：Qt 数据库基础操作

SQLite3 数据库学习（四）：Qt 数据库基础操作

参考引用 SQLite 权威指南（第二版）SQLite3 入门 1. 创建连接执行 sql 语句在 Qt 中使用数据库要在工程文件中添加QT sql1.1 main.cpp #include "createsqlapp.h" #include <QApplication> #include <QSqlDatabase> #include &l…

阅读更多...

香港高端人才通行证计划申请（包括条件）你需要知道的这些真相！

香港高端人才通行证计划申请（包括条件）你需要知道的这些真相！

香港高端人才通行证计划申请（包括条件）你需要知道的这些真相！ 香港高才通计划从刚推出就带着“光速获批“的光环，吸引了大批高学历和高收入人士，后续也因它申请要求简单、明确，获批率高等优势，火…

阅读更多...

主机dbeaver访问gitlab容器中的pg

主机dbeaver访问gitlab容器中的pg

映射5432端口- 5431:5432或者从docker客户端查看 version: 3.6 services:web:image: gitlab/gitlab-ce:latestrestart: alwayshostname: localhostenvironment:GITLAB_OMNIBUS_CONFIG: |external_url http://localhost:8929gitlab_rails[gitlab_shell_ssh_port] 2224ports:- …

阅读更多...

【正点原子STM32连载】第五十七章 DSP FFT实验（Julia分形）实验摘自【正点原子】APM32F407最小系统板使用指南

【正点原子STM32连载】第五十七章 DSP FFT实验（Julia分形）实验摘自【正点原子】APM32F407最小系统板使用指南

1）实验平台：正点原子stm32f103战舰开发板V4 2）平台购买地址：https://detail.tmall.com/item.htm?id609294757420 3）全套实验源码手册视频下载地址： http://www.openedv.com/thread-340252-1-1.html## 第五…

阅读更多...

springboot_项目重启问题

springboot_项目重启问题

问题描述在做一个文件上传功能的时候，我获取到类路径： String classPath ClassUtils.getDefaultClassLoader().getResource("").getPath();此方法获取到的路径是：/target/classes我将文件存储到/target/classes/template/中此…

阅读更多...

最新文章