k均值的损失函数_一种基于均值不等式的Listwise损失函数

1 前言

1.1 Learning to Rank 简介

Learning to Rank (LTR) , 也被叫做排序学习, 是搜索中的重要技术, 其目的是根据候选文档和查询语句的相关性对候选文档进行排序, 或者选取topk文档. 比如在搜索引擎中, 需要根据用户问题选取最相关的搜索结果展示到首页. 下图是搜索引擎的搜索结果

d15e17ca0bdd701179c92463a8f8a563.png

1.2 LTR算法分类

根据损失函数可把LTR分为三种: 1. Pointwise, 该类型算法将LTR任务作为回归任务来训练, 即尝试训练一个为文档和查询语句的打分器, 然后根据打分进行排序. 2. Pairwise, 该类型算法的损失函数考虑了两个候选文档, 学习目标是把相关性高的文档排在前面, triplet loss 就属于Pairwise, 它的损失函数是$$ loss = max(0, score_{neg}-score_{pos}+margin)$$, 可以看出该损失函数一次考虑两个候选文档. 3. Listwise, 该类型算法的损失函数会考虑多个候选文档, 这是本文的重点, 下面会详细介绍.

1.3 本文主要内容

本文主要介绍了本人在学习研究过程中发明的一种新的Listwise损失函数, 以及该损失函数的使用效果. 如果读者对LTR任务及其算法还不够熟悉, 建议先去学习LTR相关知识, 同时本人博客自然语言处理中的负样本挖掘 (分类与排序任务中如何选择负样本) 也和本文关系较大, 可以先进行阅读.

2 预备知识

2.1 数学符号定义

$q$代表用户搜索问题, 比如"如何成为宇航员", $D$代表候选文档集合,$d^+$代表和$q$相关的文档,$d^-$代表和$q$不相关的文档, $d^+_i$代表第$i$个和$q$相关的文档, LTR的目标就是根据$q$找到最相关的文档$d$

2.2 学习目标

本次学习目标是训练一个打分器 scorer, 它可以衡量q和d的相关性, scorer(q, d)就是相关性分数,分值越大越相关. 当前主流方法下, scorer一般选用深度神经网络模型.

2.3训练数据分类

损失函数不同, 构造训练数据的方法也会不同:

-Pointwise, 可以构造回归数据集, 相关的数据设为1, 不相关设为0.
-Pairwise, 可构造triplet类型的数据集, 形如($q,d^+, d^-$) -Listwise, 可构造这种类型的训练集: ($q,d^+1,d^+_2..., d^+_n , d^-_1, d^-_2, ..., d^-{n+m}$), 一个正例还是多个正例也会影响到损失函数的构造, 本文提出的损失函数是针对多正例多负例的情况.

3 基于均值不等式的Listwise损失函数

3.1 损失函数推导过程

在上一小结我们可以知道,训练集是如下形式 ($q,d^+1,d^+_2..., d^+_n , d^-_1, d^-_2, ..., d^-{n+m}$), 对于一个q, 有m个相关的文档和n个不相关的文档, 那么我们一共可以获取m+n个分值:$(score_1,score_2,...,score_n,...,score_{n+m})$, 我们希望打分器对相关文档打分趋近于正无穷, 对不相关文档打分趋近于负无穷.

对m+n个分值做一个softmax得到$p_1,p_2,...,p_n,...,p_{n+m}$, 此时$p_i$可以看作是第i个候选文档与q相关的概率, 显然我们希望$p_1,p_2,...,p_m$越大越好, $p_{n+1},...,p_{m+n}$越小越好, 即趋近于0. 因此我们暂时的优化目标是$sum_{i=1}^{n}{p_i} rightarrow 1$.

但是这个优化目标是不合理的, 假设$p_1=1$, 其他值全为0, 虽然满足了上面的要求, 但这并不是我们想要的. 因为我们不仅希望$sum_{i=1}^{n}{p_i} rightarrow 1$, 还希望相关候选文档的每一个p值都要足够大, 即我们希望m个候选文档都与q相关的概率是最大的, 所以我们真正的优化目标是: $$max(prod_{i=1}^{n}{p_i} ) , sum_{i=1}^{n}{p_i} = 1$$

当前情况下, 损失函数已经可以通过代码实现了, 但是我们还可以做一些化简工作, $prod_{i=1}^{n}{p_i}$是存在最大值的, 根据均值不等式可得: $$prod_{i=1}^{n}{p_i} leq (frac{sum_{i=1}^{n}{p_i}}{n})^n$$

对两边取对数: $$sum_{i=1}^{n}{log(p_i)} leq -nlog(n)$$

这样是不是感觉清爽多了, 然后我们把它转换成损失函数的形式: $$ loss = -nlog(n) - sum_{i=1}^{n}{log(p_i)}$$

所以我们的训练目标就是$min{(loss)}$

3.2 使用pytorch实现该损失函数

在获取到最终的损失函数后, 我们还需要用代码来实现, 实现代码如下:

# A simple example for my listwise loss function
# Assuming that n=3, m=4
# In[1]
# scores
scores = torch.tensor([[3,4.3,5.3,0.5,0.25,0.25,1]])
print(scores)
print(scores.shape)
'''
tensor([[0.3000, 0.3000, 0.3000, 0.0250, 0.0250, 0.0250, 0.0250]])
torch.Size([1, 7])
'''
# In[2]
# log softmax
log_prob = torch.nn.functional.log_softmax(scores,dim=1)
print(log_prob)
'''
tensor([[-2.7073, -1.4073, -0.4073, -5.2073, -5.4573, -5.4573, -4.7073]])
'''
# In[3]
# compute loss
n = 3.
mask = torch.tensor([[1,1,1,0,0,0,0]]) # number of 1 is n
loss = -1*n*torch.log(torch.tensor([[n]])) - torch.sum(log_prob*mask,dim=1,keepdim=True)
print(loss)
loss = loss.mean()
print(loss)
'''
tensor([[1.2261]])
tensor(1.2261)
'''

该示例代码仅展现了batch_size为1的情况, 在batch_size大于1时, 每一条数据都有不同的m和n, 为了能一起送入模型计算分值, 需要灵活的使用mask. 本人在实际使用该损失函数时,一共使用了两种mask, 分别mask每条数据所有候选文档和每条数据的相关文档, 供大家参考使用.

3.3 效果评估和使用经验

由于评测数据使用的是内部数据, 代码和数据都无法公开, 因此只能对使用效果做简单总结: 1. 效果优于PointwisePairwise, 但差距不是特别大 2. 相比Pairwise收敛速度极快, 训练一轮基本就可以达到最佳效果

下面是个人使用经验: 1. 该损失函数比较占用显存, 实际的batch_size是batch_size*(m+n), 建议显存在12G以上 2. 负例数量越多,效果越好, 收敛也越快 3. 用pytorch实现log_softmax时, 不要自己实现, 直接使用torch中的log_softmax函数, 它的效率更高些. 4. 只有一个正例, 还可以考虑转为分类问题,使用交叉熵做优化, 效果同样较好

### 4 总结 该损失函数还是比较简单的, 只需要简单的数学知识就可以自行推导, 在实际使用中也取得了较好的效果, 希望也能够帮助到大家. 如果大家有更好的做法欢迎告诉我.

文章可以转载, 但请注明出处:

  • 本人简书社区主页
  • 本人博客园社区主页
  • 本人知乎主页
  • 本人Medium社区主页

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/433213.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sqlite3_exec

函数:sqlite3_exec(),称为便捷函数,封装了好多任务。 函数声明: int sqlite3_exec( sqlite * , const char * sql , sqlite_callback , void *data , char ** errmmsg) ; 其中 sqlite* 表示打开的数…

HBase 集群搭建

文章目录 安装前准备兼容性官方网址 集群搭建搭建 Hadoop 集群搭建 Zookeeper 集群解压缩安装配置文件高可用配置分发 HBase 文件 服务的启停启动顺序停止顺序 验证进程查看 Web 端页面 安装前准备 兼容性 1)与 Zookeeper 的兼容性问题,越新越好&#…

四叉树碰撞优化版,速度飞一样

http://bbs.9ria.com/thread-243675-1-1.html转载于:https://www.cnblogs.com/chenhongyu/p/3283165.html

在哪个Linux发行版上运行python,怎么在linux上运行python

Linux默认是已经安装好了Python程序目前来说,大多数的Linux发行版是安装了两个版本的Python程序一个是Python 2.x一个是Python 3.x一些系统自带的程序文件需要Python 2的支持,另外Python 3又是大势所趋所以,我们最好不要动系统的Python版本需…

职场上个人的核心技术_职场上,这3种人表面老实,实际却是个“高手”,要远离...

职场上,这3种人表面老实,实际却是个“高手”,要远离!在职场生活中,每一步都需要走好,因为你不慎走错了一步也就可能满盘皆输。而公司里面也有一种比较特殊的情况,也就是有这么3种类型的人&#…

使用SQLite3存储和读取数据

SQLite3是嵌入在iOS中的关系型数据库,对于存储大规模的数据很有效。SQLite3使得不必将每个对象都加到内存中。 基本操作: (1)打开或者创建数据库 sqlite3 *database; int result sqlite3_open("/path/databaseFile"…

NCBI SRA数据预处理

SRA数据的的处理流程大概如下 一、SRA数据下载、 NCBI 上存储的数据现在大都存储为SRA格式。 下载以后就是以SRA为后缀名。 这里可以通过三种方式下载SRA格式的数据。 1.通过http方式,2.通过ftp方式,3.通过Aspera Aspera可以在NCBI网站上下载。 参阅&…

化浆池是什么东西_一种双工位浆化池的制作方法

本发明涉及铋矿用生产设备技术领域,具体的说是一种双工位浆化池。背景技术:铋在自然界中以游离金属和矿物的形式存在。铋的主要矿物有自然铋辉铋矿、铋华、以及菱铋矿、铜铋矿等,其中以辉铋矿与铋华为最重要。铋的矿物大都与钨、钼、铅、锡、…

Linux下,sqlite简单实例

#include "stdlib.h"#include "stdio.h"#include "sqlite3.h"int main(){charcSql[1024] {0};sqlite3*pSql NULL;char *pError NULL;int i 0, j 0;char**ppTableData NULL;int nRow 0, nColumn 0;int pos 0;//打开数据库sqlite3_open("…

linux编程参数列表,Linux编程 14 文件权限(用户列表passwd,用户控制shadow,useradd模板与useradd命令参数介绍)...

一. 概述linux安全系统的核心是用户账户。 创建用户时会分配用户ID(UID)。 UID是唯一的,但在登录系统时不是用UID,而是用登录名。在讲文件权限之之前,先了解下linux是怎样处理用户账户的。以及用户账户需要的文件和工具,这样处理文…

GitHub托管BootStrap资源汇总(持续更新中…)

Twitter BootStrap已经火过大江南北,对于无法依赖美工的程序员来说,这一成熟前卫的前端框架简直就一神器,轻轻松松地实现出专业的UI效果。GitHub上相关的的开源项目更是层出不穷,在此整理列举一些感觉不错的组件或增强实现&#x…

Sqlite3_prepare

这个函数将sql文本转换成一个准备语句(prepared statement)对象,同时返回这个对象的指针。这个接口需要一个数据库连接指针以及一个要准备的包含SQL语句的文本。它实际上并不执行(evaluate)这个SQL语句,它仅…

python爬虫框架scrapy实例详解_python爬虫框架scrapy实例详解

生成项目scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码。打开命令行,执行:scrapy startproject tutorial,生成的项目类似下面的结构tutorial/scrapy.cfgtutorial/__in…

themyleaf 图片上传_javaEE --springboot #实现图片上传和回显 #单文件上传 #多文件上传 #ajax异步文件上传 (非常详细,从创建项目开始)...

实现文件上传和回显1、新建一个SpringBoot项目,选择 Spring Web 和 thymeleaf 依赖 。pow.xml文件下的依赖如下2、根据下图,创建如下文件3、直接上代码配置文件 application.xmlserver:port: 8005file:upload:path: F://upload/relationImg: /images/配置…

sqlite3_setp

这个过程用于执行有前面sqlite3_prepare创建的准备语句。这个语句执行到结果的第一行可用的位置。继续前进到结果的第二行的话,只需再次调用sqlite3_setp()。继续调用sqlite3_setp()知道这个语句完成,那些不返回结果的语句(如:INS…

aix linux运维,运维老司机分享的八个AIX日常运维经验及案例

原文来自微信公众号:AIX专家俱乐部【经验分享】在AIX启动时,打开debug模式经常遇到aix无法启动,但又不知道pending在哪,因此打开启动过程的debug模式,对于诊断问题有很大的帮帮助。下面是打开debug的方法:打…

Mysql找不到mysql.sock怎么办?

1. #ps -aux|grep mysql 找mysql的进程. #kill mysql进程号 确定全部kill光 2.直接跳第3步,无效再使用第2步 /usr/local/mysql/bin/mysqld_safe --usermysql & 启动mysql. bin/mysql -u root -p 登陆mysql 3. 重启mysql服务,可以到mysql的安装目录下…

ssr无法在win10使用_Win10疑难解答无法使用怎么办-百度经验

Win10疑难解答无法使用的解决方法Win10系统打开疑难解答工具时只显示“出于安全考虑,某些设置由组策略控制”,怎么办?1、打开Windows10系统的控制面板,双击疑难解答,出现提示:出于安全考虑,某些…

sqlite3_column

这个过程从执行sqlite3_step()执行一个准备语句得到的结果集的当前行中返回一个列。每次sqlite3_step得到一个结果集的列停下后,这个过程就可以被多次调用去查询这个行的各列的值。对列操作是有多个函数,均以sqlite3_column为前缀 const void *sqlite3_…

linux中将hdfs数据导入hbase,将数据文件导入到HBase中

假设有一个TSV格式的数据文件test.dat(TSV是指数据文件中的每个字段是以制表符隔开的)首先,将test.dat上传到hdfs上,具体的命令如下:hadoop fs -copyFromLocal test.dat的路径名 /tmp/test.dat(/tmp是hdfs上的一个目录)执行以下命令就可以查…