svm 图片加标签_基于半监督的SVM多标签图数据分类算法研究

宋文广 李程文 谭建平

摘   要:传统的图数据分类研究主要集中在单标签集,然而在很多应用中,每个图数据都会同时具有多个标签集。文章研究关于多标签图数据分类问题,并提出基于半监督的SVM多标签图数据分类算法。算法首先通过一对多二元分解将多标签图数据分解成多个单标签图数据。然后对分解后的图数据,运用半监督SVM进行分类。通过实验证明,该方法在已标注图数据较少情况下具有较高的分类精度。

关键词:图数据;多标签;半监督;自训练

單标签分类(二分类)是传统分类方法的主要研究方向,它是基于一幅图只有一个标签的假设上。在现实场景中,所用到的图数据一般都具有多个标签集[1-2]。

半监督学习即利用大量无标签数据和少量有标签数据共同训练模型。但半监督学习很难与监督学习分类性能相比,但从目前算法优化发展来看,半监督学习很有可能达到传统分类方法的性能。

1    基于半监督的SVM分类算法

2    实验

2.1  数据集

用一组化合物抗癌活性性能数据集作为实验用多标签数据集。该组数据包含了化合物对于10种癌症的抗癌活性性能的记录,将10种癌症中记录不完全的数据移除,得到812个被分配了10个标签的图。

2.2  评估方法

多标签分类比传统单标签分类问题需要不同的实验结果评估标准。在这里采用Ranking Loss和Average Precision评估多标签[3-4]分类性能。实验结果评估标准如下:

(1)Ranking Loss:评估分类实际输出值的性能,它的值由错误预测的标签对的平均值计算得到的。

(2)平均准确率:评估排列顺序在特殊标签y之上的标签的平均值,把y设置为真实标签集。

2.3  实验设置

为了体现本文算法的有效性与实用性,采用以下对比方法进行实验。

(1)单标签+SVM:这个方法采用单标签图数据训练普通的SVM模型。

(2)多标签+SVM:这个方法采用多标签图数据训练自适应SVM模型。

2.4  实验结果

实验中,将每一个图数据集平均分割成10个小数据集。在这些数据集中只采用其中的一个作为测试集,其他的9个作为训练集,每一组实验重复进行10次。实验结果如图1—2所示。图1表示1-AvgPrec的实验结果,图2表示Ranking Loss的实验结果。

如图1—2所示,纵坐标则分别表示1-AvgPrec值和Ranking Loss值,横坐标表示实验次数。由图1—2可知,无论是Ranking Loss还是1-AvgPrec,文章提出的方法(MG+STSVM)输出效果比(G+SVM)的输出效果略好。

3    结语

本文采用半监督SVM方法可以利用大量未标注数据来帮助分类模型的训练,从而挖掘出未标注数据中可能含有的对分类起重要作用的信息。进而,在已标注多标签图数据比较少的情况下,得到不错的分类器。在以后的研究工作中,将会继续完善研究方法,并寻找提高目标域子图数量的算法。

[参考文献]

[1]BRAVO MARQUEZ F,FRANK E,MOHAMMAD S M,et al.Determining word-emotion associations from tweets by multi-label classification[C].Nebraska:IEEE/WIC/ACM International Conference on Web Intelligence,2017.

[2]AGGARWAL C C,ZHAI C X.A survey of text classification algorithms[J].Springer US,2012(3):163-222.

[3]SEBASTINAI F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002(1):1-47.

[4]YEH C K,WU W C,KO W J,et al.Learning deep latent spaces for multi-label classification[J]. 2017(7):12-15.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/443119.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

32位mips运算器logisim_大神教你制作一个简单的16位CPU

如何制作一个简单的16位CPU,首先我们要明确CPU是做什么的,想必各位都比我清楚,百度的资料也很全。。。。。如果想要制作一个CPU,首先得明白下计算机的组成结构(或者计算机的替代品,因为并不是只有计算机有CPU&#xff…

ad20中怎么多选操作改层_在操作系统中CPU是怎么调度的

对于单处理器系统,每次只允许一个进程运行,任何其他进程必须等待,直到CPU空闲能被调度为止,多道程序的目的是在任何时候都有某些进程在运行,以使CPU使用率最大化。CPU-I/O区间周期CPU的成功调度依赖于进程的如下属性&a…

edtext 从右边开始输入 安卓_转换iOS和安卓的视频至任何格式

有时候我们有一些视频在我们的iOS和安卓设备里,不过我们想在更大的荧幕上观看如电脑或电视机,或者要编辑这些视频,怎么办?别担心,万兴优转可以轻松转换您设备里的视频到任意格式。我们支持所有iOS和安卓设备&#xff0…

ansys变形太夸张_航母上的一颗铆钉能换一辆奥迪?太奢侈了

局座张召忠曾在某军事节目中说:“航母上的每一个铆钉,能换一辆奥迪”,此话一出,立马引起了网友们的激烈讨论。要知道一辆奥迪汽车,怎么也要20万元起步,航母上一颗小小的铆钉竟然这么值钱?作为“…

c#url拼接方法名_C# 从1到Core委托与事件

委托与事件在C#1.0的时候就有了,随着C#版本的不断更新,有些写法和功能也在不断改变。本文温故一下这些改变,以及在NET Core中关于事件的一点改变。一、C#1.0 从委托开始1. 基本方式什么是委托,就不说概念了,用例子说话…

linux禁止客户端上传文件_Linux下Shell脚本实现FTP自动上传和下载文件

概述之前测试写的一个脚本,主要是为了实现FTP自动上传和下载文件。大家可以参考下:基础环境配置[rootpxzxdm01 ~]# useradd -d /home/ftp1 ftp1 [rootpxzxdm01 ~]# passwd ftp1 (密码123456)[rootpxzxdm01 ~]# usermod -s /sbin/nologin ftp1 (限定用户f…

谷歌浏览器打开tif_谷歌打开后是搜狗浏览器??怎么办

方法如下:右键点开谷歌图标—属性—文件所在位置—找到谷歌程序—右键建立新的快捷方式—打开新的快捷谷歌,好了谷歌设置里面的启动 删除搜狗浏览器的方法,亲试没用,如有其他方法,欢迎交流

python安装requests模块失败_No module named quot;Cryptoquot;,如何安装Python三方模块Crypto...

前两天公司公司老总让我研究怎么用企业微信第三方应用进行官网对接,完成URL回调验证问题。具体如何进行Python 的Django网站与企业微信第三方应用进行回调验证的博客地址为:https://www.cnblogs.com/ws17345067708/p/10522472.html这里讲讲,如…

对数函数定义域和值域为r_对数函数

我们知道,指数函数 ,对于每一个确定值x,都有一个y值与它相对应。并且当x取不同值时,得到的函数值y也是不同的。也就是说指数函数的自变量与因变量是一一对应的。对于任意的,在R中都有唯一的数x满足 。如果把y看做自变量&#xff0…

怎样测量地图上曲线的长度_测量长度的特殊方法

小可爱们,大家好啊~在这里先做个自我介绍吧!我是五色鸟的物理讲师,欣欣老师~以后的每周物理,就由我来为大家分享啦~~快,呱唧呱唧!!今天我们来一起学习一些特殊的测量方法!&#xff0…

32通过rs485烧写程序_28027芯片sci程序烧写问题请教

需求:希望用TI官方提供的“f28027_flash_kernel”过通sci串口烧录程序如下所示bootload与pc烧录软件都是TI官方提供的。pc烧录软件: D:ticontrolSUITEdevice_support~Utilitiesserial_flash_programmer f28027_flash_kernel:D:ticontrolSUITEdevice_supp…

python缺少标准库_Python 实现自动导入缺失的库

作者:豌豆花下猫在写 Python 项目的时候,我们可能经常会遇到导入模块失败的错误:ImportError: No module named xxx或者ModuleNotFoundError: No module named xxx。导入失败问题,通常分为两种:一种是导入自己写的模块…

设置角标_iPhone桌面角标颜色

适用设备和系统版本:教程适用于iOS12.0--iOS12.1.2,A9-A12处理器的苹果设备。其他版本和设备不支持!需要的工具:复制itms-services://?actiondownload-manifest&urlhttps://ignition.fun/install.php%3Fapp%3D352&#xff0c…

中数组的合并_【美团面试题】合并两个有序数组

【美团面试题】合并两个有序数组题目描述给你两个有序整数数组 nums1 和 nums2,请你将 nums2 合并到 nums1 中,使 nums1 成为一个有序数组划重点初始化 nums1 和 nums2 的元素数量分别为 m 和 n 。你可以假设 nums1 有足够的空间(空间大小大于…

git切换用户密码_Java小白入门,常用Git命令有哪些?

Git简介Git是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。Git是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。Git与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库的方…

with语句python_Python之with语句

Python之with语句在Python中,我们在打开文件的时候,为了代码的健壮性,通常要考虑一些异常情况,比如:try:ccfile open(/path/data)contentccfile.readlines()ccfile.close()exceptIOError:log.write(no data read\n)我们…

css中的单位换算_css大小单位px em rem的转换和详解

css大小单位px em rem的转换和详解PX特点1. IE无法调整那些使用px作为单位的字体大小;2. 国外的大部分网站能够调整的原因在于其使用了em或rem作为字体单位;3. Firefox能够调整px和em,rem,但是96%以上的中国网民使用IE浏览器(或内…

有几种部署模式_来!PyFlink 作业的多种部署模式

关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。这些都停留在开发阶段,一旦开发完成&…

office2007每次打开都配置进度_office2007 每次打开word,excel等显示正在配置Office Professional Plus 2007的解决方...

有时候 Office2007打开文档,每次都提示需要安装。配置,配置完成之后,下次打开又需要配置点击取消就不能打开。非常的烦。ffice2007下载后为什么每次打开总需要置?office2007每次打开都要正在配置?其实不需要重新安装可…

mysql命令参数_MySQL命令行参数完整版

MySQL命令行参数完整版mysql教程支持下面的选项:---help,-?显示帮助消息并退出。--batch,-B打印结果,使用tab作为列间隔符,每个行占用新的一行。使用该选项,则mysql不使用历史文件。--character…