【持续学习系列(四)】《Lifelong-RL》

一、论文信息

1 标题

Lifelong-RL: Lifelong Relaxation Labeling for Separating Entities and Aspects in Opinion Targets

2 作者

Lei Shu, Bing Liu, Hu Xu, and Annice Kim

3 研究机构

  1. Department of Computer Science, University of Illinois at Chicago, USA
  2. Center for Health Policy Science and Tobacco Research, RTI International, USA

二、主要内容

这篇论文旨在解决意见挖掘中的一个重要问题:将意见目标(opinion targets)分为实体(entities)和方面(aspects)。意见目标可以是实体(如产品或服务的整体)或实体的某个方面(如产品的特性或属性)。为了有效地进行意见挖掘,需要区分这些目标,因为它们代表了关于意见的不同方面。论文提出了一种新的算法Lifelong-RL,该算法基于终身机器学习和松弛标签(relaxation labeling)来解决这个问题。

三、相关研究

相关研究包括目标提取方法、情感分类、转移学习、多任务学习以及终身机器学习。这些研究为本文提供了理论基础和方法论支持。

四、解决方案

松弛标签算法(Relaxation Labeling, RL)

输入:

  • G = ( V , E ) G = (V, E) G=(V,E),其中 V V V 是节点集合, E E E 是边集合。
  • 每个节点 t i ∈ V t_i ∈ V tiV 与一个多项式分布 P ( L ( t i ) ) P(L(t_i)) P(L(ti)) 相关联,表示标签 L ( t i ) L(t_i) L(ti) 的概率。
  • 每条边 ( t i , t j ) ∈ E (t_i, t_j) ∈ E (ti,tj)E 与两个条件概率分布 P ( L ( t i ) ∣ L ( t j ) ) P(L(t_i)|L(t_j)) P(L(ti)L(tj)) P ( L ( t j ) ∣ L ( t i ) ) P(L(t_j)|L(t_i)) P(L(tj)L(ti)) 相关联,表示标签 L ( t j ) L(t_j) L(tj) 对标签 L ( t i ) L(t_i) L(ti) 的影响以及反之。

计算过程:

  1. 初始化每个节点的标签分布 P 0 ( L ( t i ) ) P_0(L(t_i)) P0(L(ti))
  2. 对于每个迭代 r r r,计算每个节点的标签分布的变化量 Δ P r + 1 ( L ( t i ) ) ΔP_{r+1}(L(t_i)) ΔPr+1(L(ti)),根据邻居节点的标签和条件概率分布。
  3. 更新每个节点的标签分布 P r + 1 ( L ( t i ) ) P_{r+1}(L(t_i)) Pr+1(L(ti)),直到收敛。

输出:

  • 每个节点的最终标签 L ( t i ) L(t_i) L(ti),即其最高概率的标签。

数学公式:

  • Δ P r + 1 ( L ( t i ) ) ΔP_{r+1}(L(t_i)) ΔPr+1(L(ti)) 的计算公式:
    Δ P r + 1 ( L ( t i ) ) = ∑ t j ∈ N e ( t i ) w ( t j ∣ t i ) ⋅ ∑ y ∈ Y ( P ( L ( t i ) = y , L ( t j ) = y ) ⋅ P r ( L ( t j ) = y ) ) \Delta P_{r+1}(L(t_i)) = \sum_{t_j \in Ne(t_i)} w(t_j|t_i) \cdot \sum_{y \in Y} (P(L(t_i) = y, L(t_j) = y) \cdot P_r(L(t_j) = y)) ΔPr+1(L(ti))=tjNe(ti)w(tjti)yY(P(L(ti)=y,L(tj)=y)Pr(L(tj)=y))
  • 更新后的标签分布 P r + 1 ( L ( t i ) ) P_{r+1}(L(t_i)) Pr+1(L(ti)) 的计算公式:
    P r + 1 ( L ( t i ) ) = P r ( L ( t i ) ) ( 1 + Δ P r + 1 ( L ( t i ) ) ) ∑ y ∈ Y P r ( L ( t i ) = y ) ( 1 + Δ P r + 1 ( L ( t i ) = y ) ) P_{r+1}(L(t_i)) = \frac{P_r(L(t_i))(1 + \Delta P_{r+1}(L(t_i)))}{\sum_{y \in Y} P_r(L(t_i) = y)(1 + \Delta P_{r+1}(L(ti) = y))} Pr+1(L(ti))=yYPr(L(ti)=y)(1+ΔPr+1(L(ti)=y))Pr(L(ti))(1+ΔPr+1(L(ti)))
  • 最终标签 L ( t i ) L(t_i) L(ti) 的选择:
    L ( t i ) = arg max ⁡ y ∈ Y P ( L ( t i ) = y ) L(t_i) = \argmax_{y \in Y} P(L(t_i) = y) L(ti)=yYargmaxP(L(ti)=y)

终身机器学习(Lifelong Machine Learning, LML)

输入:

  • 知识库(Knowledge Base, KB),包含过去任务中提取的图和分类结果。
  • 当前任务的图 G ′ = ( V ′ , E ′ ) G' = (V', E') G=(V,E) 和节点的初始标签分布。

计算过程:

  1. 使用过去任务中的知识来帮助当前任务的标签分布初始化。
  2. 利用过去任务中的目标标签来调整当前任务的初始标签概率分布。
  3. 结合松弛标签算法进行迭代更新,直到收敛。

输出:

  • 当前任务中每个节点的最终标签。

数学公式:

  • 初始化概率分布 P 0 ( L ( t i ) ) P_0(L(t_i)) P0(L(ti)) 的更新:
    P L L 1 , 0 ( L ( t ) ) = P d u + 1 , 0 ( L ( t ) ) + λ ⋅ C D s L ( t ) D + λ D P_{LL1,0}(L(t)) = P_{du+1,0}(L(t)) + \lambda \cdot \frac{CDs_{L(t)}}{D + \lambda D} PLL1,0(L(t))=Pdu+1,0(L(t))+λD+λDCDsL(t)
  • 条件概率分布 P ( L L 1 ) ( L ( t i ) ∣ L ( t j ) ) P(LL1)(L(t_i)|L(t_j)) P(LL1)(L(ti)L(tj)) 的更新:
    P L L 2 ( L ( t i ) ∣ L ( t j ) ) = P L L 1 ( L ( t i ) ∣ L ( t j ) ) + λ ⋅ C D s L ( t i ) , L ( t j ) D + λ D P_{LL2}(L(t_i)|L(t_j)) = P_{LL1}(L(t_i)|L(t_j)) + \lambda \cdot \frac{CDs_{L(t_i), L(t_j)}}{D + \lambda D} PLL2(L(ti)L(tj))=PLL1(L(ti)L(tj))+λD+λDCDsL(ti),L(tj)

这里, λ \lambda λ是一个控制参数,用于调整过去知识对当前任务影响的强度。 C D s L ( t ) CDs_{L(t)} CDsL(t) C D s L ( t i ) , L ( t j ) CDs_{L(ti), L(tj)} CDsL(ti),L(tj)分别表示过去任务中目标 t t t被标记为 L ( t ) L(t) L(t)和目标 t i t_i ti t j t_j tj 同时被标记为 L ( t i ) L(t_i) L(ti) L ( t j ) L(t_j) L(tj) 的领域数量。 D D D是过去任务的总数。

五、实验环节

论文使用两个数据集进行实验:一组包含8个注释的评论数据集,用于计算精确度、召回率和F1分数;另一组包含100个不同产品或领域的未标记评论数据集,作为过去领域数据在终身机器学习中的处理。实验结果表明,Lifelong-RL方法显著优于基线方法。

六、进一步探索点:

论文指出,虽然实验结果很有前景,但还有进一步的探索空间,例如如何更有效地利用知识库中的信息,以及如何提高算法在不同领域中的泛化能力。

七、总结

论文提出了一种新的算法Lifelong-RL,用于在意见挖掘中区分实体和方面。通过结合松弛标签算法和终身机器学习,该方法在实验中表现出色,显著提高了目标分类的准确性。这项工作为意见挖掘领域提供了一种新的思路和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/581791.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 和 MySQL2 的区别

MySQL是最流行的开源关系型数据库管理系统,拥有大量的使用者和广泛的应用场景。而MySQL2是MySQL官方团队推出的新一代MySQL驱动,用于取代老版的MySQL模块,提供更好的性能和更丰富的功能。 本文将介绍MySQL2相较于MySQL有哪些优势以及具体的技术区别。 …

[Angular] 笔记 11:可观察对象(Observable)

chatgpt: 在 Angular 中,Observables 是用于处理异步数据流的重要工具。它们被广泛用于处理从异步操作中获取的数据,比如通过 HTTP 请求获取数据、定时器、用户输入等。Observables 提供了一种机制来订阅这些数据流,并可以在数据到达时执行相…

代码随想录算法训练营day1|704.二分查找、27.移除元素

第一章 数组 part01 今日任务 数组理论基础,704. 二分查找,27. 移除元素 详细布置 数组理论基础 文章链接:代码随想录 题目建议: 了解一下数组基础,以及数组的内存空间地址,数组也没那么简单。 704. 二…

炮炮面试——经典面试问题汇总

面试前准备 公司官网(仔细了解):成立时间,主营业务,组织架构招聘简章(重点了解):任何问题都要围绕招聘简章回答,最好背下来岗位意义 (了解痛点) 1、自我介绍 面试官,您好! …

第08章:随堂复习与企业真题(面向对象-高级)

来源:尚硅谷Java零基础全套视频教程(宋红康2023版,java入门自学必备) 基本都是宋老师发的资料里面的内容,只不过补充几个资料里没直接给出答案的问题的答案。 不想安装markdown笔记的app所以干脆在这里发一遍。 第08章:随堂复习…

Jupyter Notebook 开启远程登录

Jupyter Notebook可以说是非常好用的小工具,但是不经过配置只能够在本机访问 安装jupyter notebook conda install jupyter notebook 生成默认配置文件 jupyter notebook --generate-config 将会在用户主目录下生成.jupyter文件夹,其中jupyter_noteb…

查看ios app运行日志

摘要 本文介绍了一款名为克魔助手的iOS应用日志查看工具,该工具可以方便地查看iPhone设备上应用和系统运行时的实时日志和奔溃日志。同时还提供了奔溃日志分析查看模块,可以对苹果奔溃日志进行符号化、格式化和分析,极大地简化了开发者的调试…

Pandas 高级教程——IO 操作

Python Pandas 高级教程:IO 操作 Pandas 提供了强大的 IO 操作功能,可以方便地读取和写入各种数据源,包括文本文件、数据库、Excel 表格等。本篇博客将深入介绍 Pandas 中的高级 IO 操作,通过实例演示如何灵活应用这些功能。 1.…

短说社区运营的使用工具分享(一)

本文是一篇针对短说社区运营的使用工具分享帖,是小编结合日常使用,总结的一些可以帮助网站管理员和运营人员进行日常操作和管理的工具。 1. 想天工作台之运营面板 想天工作台可以将桌面划分不同的类型来辅助办公,我分享下我当前的桌面情况&…

基于Mbed Studio环境下开发STM32

基于Mbed Studio环境下开发STM32 📍Mbed官网:https://os.mbed.com/ ✨mbed OS是ARM出的一个免费开源的,面向物联网的操作系统。提供了一个定义良好的API来开发C应用程序;集成度很高,类似Arduino,目前并不兼…

新兴品牌如何做好传播?媒介盒子分享三招

很多品牌抓住了品类和流量红利,给自己做了传播,但是红利是有时效的,流量越来越贵,竞争对手你追我赶,只有真正占领用户心智,才能获取长期利润。今天媒介盒子就来和大家聊聊:新兴品牌如何做好传播…

elementui 表单校验validate不起效果

原因: 自定义的validator验证方式需要调用callback。 验证失败callabck(new Errno(‘’)). 验证成功 callback() var checkNumber3 (rule, value, callback) > {if (value && !Number.isInteger(value)) {callback(new Error("请输入数字值"…

Java 中 Lambda 表达式的使用

目录 一、Lambda 表达式的概念 二、Lambda 表达式的语法格式 三、Lambda 表达式的案例使用 1、使用 Lambda 来实现启动线程 2、使用 Lambda 表达式实现集合的排序 3、使用 Lambda 表达式实现文件夹下的文件查找 一、Lambda 表达式的概念 Lambda 表达式是特殊的匿名内部类…

用katalon解决接口/自动化测试拦路虎--参数化

不管是做接口测试还是做自动化测试,参数化肯定是一个绕不过去的坎。 因为我们要考虑到多个接口都使用相同参数的问题。所以,本文将讲述一下katalon是如何进行参数化的。 全局变量 右侧菜单栏中打开profile,点击default,打开之后…

[spark] SaveMode

https://spark.apache.org/docs/latest/api/java/index.html?org/apache/spark/sql/SaveMode.html Overwrite 覆盖模式是指将DataFrame保存到数据源时,如果数据/表已经存在,则现有数据将被DataFrame的内容覆盖。 注意: Overwrite 模式会覆盖已存在的表…

Alibaba Cloud Linux 3.2104 LTS 64位镜像兼容和性能如何?

阿里云Alibaba Cloud Linux 3.2104 LTS 64位镜像是可以选择的,它阿里云打造的Linux服务器操作系统发行版,针对云服务器ECS做了大量深度优化,完全兼容RHEL/CentOS生态和操作方式,如果是阿里云服务器ECS建议选择Alibaba Cloud Linux…

室内设计师效果图云渲染好?还是本地渲染好?

室内设计师在设计项目中经常面临一个关键的技术选择:使用云渲染服务或本地渲染完成效果图渲染呢?每种方式都有其独的优势与不足,且影响整个设计的完成速度、质量和成本。当然还有部分人群不知道云渲染是什么?本文整理关于云渲染的…

Mybatis Java API - Using Mappers

<T> T getMapper(Class<T> type) 您提到的插入&#xff08;insert&#xff09;、更新&#xff08;update&#xff09;、删除&#xff08;delete&#xff09;和查询&#xff08;select&#xff09;方法对于一些操作来说确实很强大&#xff0c;但它们也比较冗长、不…

完全背包问题,原理剖析,公式推导,OJ详解

文章目录 前言一、完全背包的状态设计1、状态设计2、状态转移方程3、对比0/1背包问题4、时间复杂度分析 二、完全背包问题的优化1、时间复杂度优化2、空间复杂度优化 三、OJ练习裸题完全背包离散化最小值 前言 完全背包问题&#xff0c;相比0/1背包问题&#xff0c;实就每个物品…

upset 绘制

好久没有更新,今天来一个upset图的绘制 1.1 安装包 #绘制upset的包现在看来有三个 ## UpSet ### 最基本的upsetR包,使用方便,但是扩展不方便 devtools::install_github("hms-dbmi/UpSetR") ## complex-upset ### UpSet的升级款 支持ggplot2 devtools::install_git…