针对科技文章的多标签分类

0. 起

  最近没有更新。暑假之后学的东西也比较杂,看了一下基于DL的智能美颜,感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等,调代码巴拉巴拉几个星期就这么过了。前几天看ACM的best paper也觉得很有意思,两个步骤:1)给图片打标题,属于多媒体计算和NLP的结合 2)由标题生成诗歌。感觉这里面可以学的东西也有很多。等项目结束论文写完一定好好的顺着学一遍,看京都大学团队说近期会公布数据集,不错不错。

  最近是在看论文和弄实验室的项目。之前的短评预测预订明年的一个项目,而今年的题目是:新知识抽取与发现。主要是针对科技文章的,也就是知网文章。我在想怎么做这个题目的时候也是百般思考(因为这个题目是去年订的,没有经过我的手),如何体现新知识?抽取与发现在NLP倒是老生常谈,提取主题、摘要、关键字,发现无非也就是分类或者打标签。

  之前已经毕业的师兄是有一套完整的单标签代码的,包含他的毕业论文一同给了我参考。这里也可以简单说一下打标签和分类的区别,也方便捋清思路。好比你在淘票票上买电影票,点进电影介绍,它会告诉你这是一部18R/成人向/.../的电影,这就是一个分类;而电影的类型是Comedy/Tragedy/.../Family and Comedy,这就是多标签,即可以存在交叉项或是合并项。所以我合计着师兄的单标签其实也就是分类....

  为什么我不用师兄的呢,可以省很多事情,连答辩PPT都有改一改去糊弄一下甲方就完事。在我的理解里面,交叉学科最容易产生新知识,甚至是新科学。计算机+智能形成了近年来很火的人工智能领域,金融+数学的结合成为了金融工程,这都是新知识新领域的诞生。IG进入S赛决赛,那提及一下传媒+电竞+主持等等你能想到什么呢,不仅是新知识,新岗位也出现了。所以,从多标签的角度去阐述新知识更有意义

1. 承

  前面废话了很多,其实也就是想说明白我这个伪逻辑。既然针对知网文章,那么如何爬取一个文本--多标签对的数据集就尤为关键了。在这里我们也想了很多办法,包括知网本身也有一些奇奇怪怪的反爬机制,这一块我交给学弟去做了,也是煞费时间。

  知网本身没有明显的多标签痕迹,它把文章的分类放在一个动态加载frame里面。我们按照高级检索栏的10来个大类*10来个子栏进行爬取,选取每篇文章的标题、摘要、多标签。目前进展有10W+数据,数据还在更新中。(用的学校的公网ip,似乎没有被封)为什么要按照这种方式爬取呢,主要是为了各个类别标签下的文章数量分布均匀。不然训练出某些词向量会导致比重失衡。

图1 按知网的分类进行爬取

  然后具体每篇文章的爬取内容如下,多标签可以爬取一级、二级甚至三级标签。我们爬取了一级和二级。主要是防止三级标签太多导致稀疏问题,训练时难以收敛,测试时结果可以也会和预期相去甚远。当然具体的选择可以根据自己的项目来做决定。

图2 爬取内容

  存放呢。所有数据先写入excel之后再进行整理。第一列设定一个ID,第二列标题,第三列摘要,第四列一级标签,第五列二级标签。然后将按文章,将题目和摘要整理到一个txt,标题一行摘要一行;将label整理到一个txt。这两个文件按id命名,只是后缀不同。最后再将所有的标签汇总到一个文件方便读写,一个标签一行。目前为止我们总共收集了120+标签。

2. 转

10.29写完上面的。直到现在还是没时间更新后面的。项目结项了,然后施工论文ing。累。先贴几张图吧,之后有时间再继续更,大概过年的时候了吧。


2018.12.10 16:53 更新

To be continue


 

 

转载于:https://www.cnblogs.com/catallen/p/9869321.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/570068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rest_Framework之频率组件部分

一、RestFramework之频率组件源码部分 频率组件的源码部分和权限组件流程一模一样的,这里就不多说了,直接上源码的主要逻辑部分: def check_throttles(self, request):"""Check if request should be throttled.Raises an app…

【使用指南】WijmoJS 前端开发工具包

为方便广大前端开发人员更好的使用 WijmoJS 前端开发工具包,葡萄城专门推出了 WijmoJS 使用指南,该指南详细地介绍了如何把 WijmoJS 各种强大的功能应用到您自己的 Web 项目中,助您轻松掌握产品使用技巧,快速完成产品选型。 本指南…

phpMyAdmin4.4.10安装

1.下载地址: phpMyAdmin4.4.10 https://files.phpmyadmin.net/phpMyAdmin/4.4.10/phpMyAdmin-4.4.10-all-languages.zip Apache 2.4.12(VC9) http://www.apachehaus.com/cgi-bin/download.plx php-5.4.42(VC9&#xff09…

汇编实验九

20171308171 胡欣怡 一、实验目的1. 掌握十进制两位数输出的方法2. 理解 8025 彩色字符模式显示原理3. 综合应用寻址方式和汇编指令完成应用编程二、实验准备1. 复习数值和数字字符之间的转换方法,div 指令用法2. 学习 P187-189 支撑材料及「实验 9 提示」&#xff…

U盘安装centos 7 提示 “Warning: /dev/root does not exist, could not boot” 解决办法

安装centos 7时提示 “Warning: /dev/root does not exist, could not boot” 这个问题是没有找到你的U盘,这个配置是需要在上一步需要完成的,但在上一步我们并不知道U盘的文件名,所以索性在这一步查看一下U盘的设备名,然后再回到…

【原创】大叔经验分享(6)Oozie如何查看提交到Yarn上的任务日志

通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID : 0012077-180830142722522-oozie-hado-W -----------------------------------------------------------…

Beta 冲刺(3/7)

Beta 冲刺(3/7) Beta 冲刺 (3/7) 队名:第三视角 组长博客链接 本次作业链接 团队部分 团队燃尽图 工作情况汇报 张扬(组长) 过去两天完成了哪些任务 文字/口头描述 参与开发关键词提醒部分展示G…

vuex的理解

首先需要了解vuex的基本概念和使用方式,vue的官网也有很详细的说明或者浏览:https://zhuanlan.zhihu.com/p/24357762。vue是单页应用所以当页面刷新时vuex的数据随之也被清空了,如何实现页面被刷新而数据没有被清空呢?vuex主要是v…

Redis高可用sentinel

1.sentine介绍 Redis-Sentinel是Redis官方推荐的高可用性(HA)解决方案,当用Redis做Master-slave的高可用方案时,假如master宕机了,Redis本身(包括它的很多客户端)都没有实现自动进行主备切换,而Redis-sentinel本身也是一个独立运行…

关于eclipse web项目认不到用户库的问题

解决方法: 选中项目右键属性,弹出对话框,选择Deployment Assembly,设置用户库对应路径。

Python中 类和对象调用其他类中的变量和方法

class house_item: def __init__(self,name,area): self.namename self.areaarea def __str__(self): return "%s,\n面积是%.2f" % (self.name,self.area)class house: def __init__(self,house_type,house_area): self.typeho…

201771010109焦旭超《面向对象程序设计(java)》第十六周学习总结

1、实验目的与要求 (1) 掌握线程概念; (2) 掌握线程创建的两种技术; (3) 理解和掌握线程的优先级属性及调度方法; (4) 掌握线程同步的概念及实现技术; 2、实验内容和步骤 实验1:测试程序并进行代码注释。 测试程序1&am…

Hibernate hql getHibernateTemplate()常用方法汇总

getHibernateTemplate()常用方法 一、find(String queryString); 示例: Java代码 this.getHibernateTemplate().find("from bean.User"); 返回所有User对象 二、find(String queryString , Object value); 示例: Java代码 this.getHib…

阿里巴巴的26款超神Java开源项目!

1.分布式应用服务开发的一站式解决方案 Spring Cloud Alibaba Spring Cloud Alibaba 致力于提供分布式应用服务开发的一站式解决方案。此项目包含开发分布式应用服务的必需组件,方便开发者通过 Spring Cloud 编程模型轻松使用这些组件来开发分布式应用服务。 依托…

为DEV C++/CodeBlock配置gdb调试遇到的问题

DEV C和CodeBlock都只是一个IDE,不能编译调试,需要自己配置MINGW和gdb调试 1、MINGW 在这下载mingw-get-setup.exe安装即可。 https://sourceforge.net/projects/mingw/files/MinGW/ 配置MINGW很简单,安装包就好了,可以只安装gcc和…

Java面向对象第二章课后习题

网盘链接: 链接:https://pan.baidu.com/s/12YzJZY3s4XSq5C94HxWqZA 提取码:3w23 一、商场为员工提供了基本工资、物价津贴以及房租津贴。其中,物价津贴为基本工资的40%,房租津贴为基本工资的25%。 要求:从…

Tomcat映射虚拟路径到指定磁盘(eclipse)

用WangEditor富文本编辑,上传图片的时候,本文主要记录一下Tomcat映射虚拟路径到指定磁盘,保存到指定路径中,且能实现页面预览。 在实现之前wangeditor的简单实用请参照博主小道仙的后宫,写的很详细:http://…

JVM内存简析

JAVA的JVM的内存可分为3个区:堆(heap)、栈(stack)和方法区(method) 堆区:1.存储的全部是对象,每个对象都包含一个与之对应的class的信息。(class的目的是得到操作指令)2.jvm只有一个堆区(heap)被所有线程共享,堆中不存放基本类型和对象引用&a…

centos下离线安装mysql

卸载原有冲突的依赖包 rpm -e postfix rpm -e mariadb-libs 按顺序安装 rpm -ivh mysql-community-common-5.7.27-1.el7.x86_64.rpm rpm -ivh mysql-community-libs-5.7.27-1.el7.x86_64.rpm rpm -ivh mysql-community-client-5.7.27-1.el7.x86_64.rpm rpm -ivh mysql-com…

记一次es和mq的netty冲突

1.今天在服务里面加了 es 6.4的 依赖包后,在预发布测试时候出现了下列的问题 看了 半天,最后发现是 es的 jar包 和 mq的 netty包 有冲突。然后去idea的 jar包依赖里面查看,mq使用的 是 而es依赖的netty 是多个 不同的包, 而在依赖…