论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录

  • 摘要
  • 1.Introduction
  • 2. 介绍两个概念
    • 2.1 Dynamic Heterogeneous Network Model动态异构网络模型
    • 2.2 时间随机游走
  • 3NODE2BITS:基于散列的Emdedding框架
    • 3.1 采样时间随机游动和定义时间上下文
    • 3.2 基于多维特征的时态语境(上下文
    • 3.3基于特征的上下文聚合和散列
  • 4.EXPERIMENTS

摘要

在真实的web服务中,识别和匹配各种在线引用(例如,在不同设备和时间段上的会话)到同一用户的任务对于个性化和推荐是至关重要的。然而,传统的用户拼接方法(如分组或阻塞)需要对大量用户活动进行两两比较,从而对计算和存储都造成了挑战。最近的作品,往往是应用特定的,启发式地寻求减少比较的数量,但他们遭受低精度和回忆。为了以与应用程序无关的方式解决这个问题,我们采用了一种基于异构网络的方法,其中用户(节点)与内容(如会话、网站)交互,并且可能具有属性(如位置)。我们提出了node2bits,这是一种使用二进制哈希码表示节点上下文多维特征的高效框架。node2bits利用基于特征的时间步来封装异构web网络中节点之间的短期和长期交互,并采用SimHash来获得紧凑的二进制表示,避免了相似度搜索的二次复杂度。在大型真实网络上的大量实验表明,node2bits的性能比传统技术和现有工作都要好,后者在用户拼接方面的F1分数最高可达5.16%,而存储空间只占1.56%。

1.Introduction

个性化和推荐通过提供相关体验和处理新闻、web搜索、娱乐等方面的在线信息过载来提高用户满意度。随着时间的推移,准确地建模用户行为和偏好是个性化的核心。然而,追踪用户在线活动是一项挑战,因为用户每天都要与来自不同地点的数十台联网设备进行交互,导致用户档案支离破碎。如果没有统一的配置文件,所观察到的用户数据将是稀疏的、不具有代表性的,并且对于驱动业务成功的准确预测是不够的。

  • 追踪用户的挑战
    • 用户每天都要与来自不同地点的数十台联网设备进行交互,导致用户档案支离破碎。

在这项工作中,我们解决了身份或用户拼接的问题,其目的是识别和分组在不同渠道、平台、设备和浏览器[30]上发生的相同用户的登录和匿名会话。这个问题是实体或身份解析的一种形式[13,2],也称为实体链接、记录链接和重复检测[6,21,2]。在实体解析中,每个用户的文本信息(例如,姓名、地址)是可用的,而身份拼接仅依赖于用户与在线内容和web元数据的交互。虽然cookie可以帮助同一用户缝几个不同的会话,但许多用户有多个cookie(例如,每个设备或web浏览器的一个cookie)[8],而且大多数cookie在短时间内就会过期,因此不能帮助缝用户。类似地,IP地址在不同位置的变化会导致在不同时间拥有相同IP地址的用户(例如,机场)之间产生碎片甚至错误的拼接。与此同时,指纹识别方法基于设备或浏览器配置捕获用户相似度,而不是基于跨设备或浏览器保持一致的行为模式。另一方面,实体解析的穷举解决方案需要所有实体对之间的二次比较,这对于大型web服务在计算上是难以处理的。这可以通过阻塞[24]的启发式来部分处理,它将类似的实体描述分组到块中,并且只比较同一块中的实体。

  • 本文做

    • 实体链接
    • 记录链接
    • 重复检测
  • 实体解析

    • 每个用户的文本信息(例如,姓名、地址)是可用的,
    • 身份拼接仅依赖于用户与在线内容和web元数据的交互
  • 使用cookie–不可用

    • cookie可以帮助同一用户缝几个不同的会话,
    • 但许多用户有多个cookie
    • 大多数cookie在短时间内就会过期,因此不能帮助缝用户
  • 使用IP地址–不可用

    • P地址在不同位置的变化会导致在不同时间拥有相同IP地址的用户(例如,机场)之间产生碎片甚至错误的拼接。
  • 指纹识别方法

    • 基于设备或浏览器配置捕获用户相似度,而不是基于跨设备或浏览器保持一致的行为模式。
    • 不可能用跨设备或浏览器
  • 穷举方案–分块处理

    • 实体解析的穷举解决方案需要所有实体对之间的二次比较,这对于大型web服务在计算上是难以处理的。
    • 这可以通过阻塞[24]的启发式来部分处理,它将类似的实体描述分组到块中,并且只比较同一块中的实体。
  • 解决方案的思想:

    • 相似用户::相同的用户跨平台访问相似的内容,并且随着时间的推移具有相似的行为。
    • 动态异构网络中随时间变化的不同内容和平台的用户交互进行建模,其中用户将映射到对应于相同现实实体的节点的标识。
    • 在节点表示学习成功的激励下,我们的目标是在这个丰富的交互网络中找到随时间变化的用户配置文件的嵌入。
  • 挑战:

    • 大型图数据–太大了
  • 目标:

    • 有效地找到稀疏的二进制表示
    • 和基于相似活动的链接实体,同时
    • 避免对所有用户配置文件进行两两比较
  • 问题1(临时的、基于哈希的节点嵌入)。给定一个图G (V, E),基于散列的网络嵌入的目标是学习函数χ:V d{0,1}这样派生的二进制采用嵌入

    • (1)在交互空间中保持相似性在G
    • (2)有效利用空间
    • (3)准确地捕获时间信息和底层网络的异构性。
      在这里插入图片描述
  • Node2BITs:

    • 它捕获网络中节点间的临时有效交互,并
    • 基于拓扑特征和
    • (可选)参与交互的实体侧信息。
  • 本文的贡献:

    • 基于嵌入的公式:超越传统的阻塞技术,我们将用户拼接的问题表述为在异构网络中寻找临时的、基于散列的嵌入的问题,以便它们在用户交互之间保持随时间的相似性。
    • 节省空间的嵌入:我们提出node2bits,这是一个实用、直观、快速的框架,可以生成适合用户拼接的紧凑的二进制嵌入。我们的方法结合了上下文的随机步进抽样、基于特征的直方图表示和局部敏感哈希来保持上下文随时间的异构等价性。
    • 广泛的经验分析:我们在真实网络上的实验表明,node2bits输出一种节省空间的二进制表示,比基线少使用63到339个空间,同时在用户拼接任务中获得了可比较或更好的性能。此外,node2bits对于大型的现实世界、时间和异构网络是可伸缩的
    • https://github.com/GemsLab/node2bits.

2. 介绍两个概念

在这里插入图片描述
动态异构网络模型和时间随机游动

2.1 Dynamic Heterogeneous Network Model动态异构网络模型

  • 我们将用户与内容、网站、设备等的交互建模为异构网络
  • 异构网络:异构网络G = (V, E,ψ,ξ)
    • V:节点集合
    • E:边集
    • 映射ψ:V→τV\tau_VτV节点类型
    • (iii)映射ξ:E→TE\Tau_ETE边集类型
  • 许多图类型是异构网络的特例:
    • 同构图:∣τV∣=∣τE∣=1|\tau_V|=|\tau_E|=1τV=τE=1
    • k部图: ∣τV∣=k,∣τE∣=k−1|\tau_V|=k,|\tau_E|=k-1τV=k,τE=k1
    • signed network:∣τV∣=1,∣τE∣=2|\tau_V|=1,|\tau_E|=2τV=1,τE=2
    • labeled graph: a single label per node/edge.
  • 建模为连续时间的动态网络
  • (连续时间动态网络):一个连续时间动态、异构网络G = (V, Eτ,ψ,ξ,τ)
    • Eτ:时间边
    • τ:E→R+\tau:E\rightarrow R^+τ:ER+将每条边映射到对应时间戳的函数

2.2 时间随机游走

  • 图上的行走是节点序列,其中每对连续节点由一条边连接。目前流行的网络嵌入方法是使用随机化的过程生成游动[25,14]来构造节点ids或节点上下文的语料库。在连续时间动态网络中,时间上有效的遍历被定义为一组节点序列,这些节点由具有非递减时间戳的边连接(例如,表示用户内容交互发生的顺序),并且首次被提出并用于嵌入
  • 定义:temporal walk:
    • L:长度v1->vL在图G = (V, E,ψ,ξ)
    • 路径:v1,v2,…,vL
    • <vi,vi+1>∈Eτ,1≤i≤L时间顺序排列:τ(vi,vi+1)≤τ(vi+1,vi+2),1≤i≤L−1<v_i,v_{i+1}>\in E_\tau ,1\leq i\leq L\\ 时间顺序排列:\tau(v_i,v_{i+1})\leq\tau(v_{i+1},v_{i+2}),1\leq i\leq L-1<vi,vi+1>Eτ,1iLτ(vi,vi+1)τ(vi+1,vi+2),1iL1

3NODE2BITS:基于散列的Emdedding框架

  • 任务:用户拼接
  • 目的:在实际交互的上下文中简洁地描述每个节点/实体(问题1)
  • 要求
    1. 支持异构网络
    2. 保证数据中事件和交互的时间有效性;
    3. 在运行时扩展到具有数百万个节点/边的大型网络;
    4. 内存需求的规模与空间效率,但强大的二进制嵌入式可以捕获id无关的相似性。
  • 我们详细介绍了node2bits的三个主要步骤:
    • (3.1)采样时间随机游动和定义时间上下文;
    • (3.2)基于多维特征构建时态语境;
    • (3.3)将上下文聚合和散列成稀疏嵌入。我们在图2和算法1中给出了node2bits的概述
      在这里插入图片描述

3.1 采样时间随机游动和定义时间上下文

node2bits的第一步是捕获节点上下文中的交互,这对于用户拼接任务非常重要:它不是简单的交互,而是通过随机漫步对更复杂的交互序列进行采样。但与许多现有的表示学习方法不同[25,14],我们的方法通过Lstep时间随机游走(定义3[23])对现实交互进行采样,从而满足需求R2。node2bits将节点u在时间距离t处的时间上下文CuΔtC_u^{\Delta t}CuΔt定义为采样的随机游走中时间距离Δt\Delta tΔt,距离为Δt\Delta tΔt的实体集合为u的上下文。

  • 通过随机游走对更复杂的交互序列进行采样
  • 上下文:CuΔt={v:∣wK[v]−wL[u]=Δt,任意wL∈W}wL[‘]是随即游走中对应节点的索引上下文:C_u^{\Delta t}=\{v:|w_K[v]-w_L[u]=\Delta t,任意w_L\in W\}\\w_L[`]是随即游走中对应节点的索引CuΔt={v:wK[v]wL[u]=Δt,wLW}wL[]

通常,小的时间距离值可以捕捉到实体间更直接的交互作用和相似性。在静态图中,∆t仅仅对应于采样序列中节点之间的距离,没有捕捉到任何时间信息。
时间局部性。上面定义的上下文没有明确地包含连续采样的交互之间经过的时间。然而,在建模临时用户交互时,区分短期转换和长期转换非常重要。受[23]的启发,node2bits解释了连续上下文之间的紧密性或局部性(例如,CuΔt和CuΔt+1C_u^{\Delta t}和C_u^{\Delta t+1}CuΔtCuΔt+1)通过不同的偏置时间步长策略。例如,在短期策略中,节点u到v的

转移概率为softmax函数

  • short-term transitions
  • 转移概率:p(v∣u)=exp(−τ(u,v)/d)Σi∈Tτ(u)exp(−τ(u,i)/d)p(v|u)=\frac{exp(-\tau(u,v)/d)}{\Sigma_{i\in \Tau_\tau(u)}exp(-\tau(u,i)/d)}p(vu)=ΣiTτ(u)exp(τ(u,i)/d)exp(τ(u,v)/d)softmax
    • d=maxe∈Eττ(e)−mine∈Eττ(e)d=max_{e\in E_\tau}\tau(e)-min_{e\in E_\tau}\tau(e)d=maxeEττ(e)mineEττ(e) 所有时间戳的总持续时间,
    • Tτ(u)\Tau_\tau(u)Tτ(u)时间邻域的集合:从节点u通过时间有效边到达。
  • long-term transitions
    • 转移概率同上
    • 同样,在长期政策中,节点u到v的转移概率如式(2)所示,但分子分母上都有正的符号。

3.2 基于多维特征的时态语境(上下文

式(1)中的上下文取决于节点标识(IDs)。然而,在多平台环境中,单个实体可能有多个节点id,因此可能导致看起来不同的上下文。为了生成与身份无关的适合用户拼接的上下文,我们通过假设相应或相似的实体具有相似的特征,使时态上下文具有属性感知或特征感知(R1)。正式,我们假设一个网络可能有一组输入节点属性(如IP地址,设备类型),以及一组导出拓扑特性(例如,学位,PageRank),所有这些都存储在一个N
x|F
|特性矩阵F(图2中,步骤1)。然后,我们推广我们的随机漫步不仅依据时间(R2)[23],还捕获这个特性信息使用的概念认为/特点走在[1提出

  • 与id无关的上下文:我们通过假设相应或相似的实体具有相似的特征,使时态上下文具有属性感知或特征感知(R1)
  • 基于特征的时间随机游走:(通用的
    在这里插入图片描述在这里插入图片描述

3.3基于特征的上下文聚合和散列

用户缝合的关键点是,随着时间的推移,每个用户都通过类似的关系与类似类型的实体进行交互:例如,在在线销售日志中,用户可能在登录和匿名会话中浏览类似类型的商品;在在线社交网络中,分享几乎相同的互动模式(如回复或分享)的账户可能来自同一个人。基于这一认识,node2bits使用节点类型(以及隐含的对应关系或边缘类型)增强了先前生成的时间、多维特征上下文,这是异构网络(R1)的一个关键属性。随后,它将它们聚合起来,并通过对位置敏感的哈希得到保持相似性和节省空间的二进制实体表示(R4)。

  • 关键点:行为相似的用户是同一个人。
  • node2bits:上下文(节点类型+时间+多维特征)->聚合->位置敏感的hash保持相似性,二进制实体表示

context聚合。与现有的将上下文特征聚合成单个值(如平均值或最大值)的工作不同[15,29],node2bits将它们聚合成更低损耗的表示形式:通过区分节点类型(R1)为异构网络定制的直方图。具体地,通过进一步将式(4)中的导出上下文条件设置在节点类型pi∈Tvp_i\in\Tau_vpiTv(即,每个时态上下文只包含一个节点类型的特征)。我们将基于特征和节点类型的时间上下文表示为CuΔt∣f,pC_u^{\Delta t}|f,pCuΔtf,p。节点u在时间距离t处的最终直方图表示由t处条件上下文上的直方图连接组成(图2,步骤3)。
在这种表示法中,特征被对数地结合起来,以解释结构特征(如度)的经常偏态分布。我们注意到,直方图可以进一步扩展到[19]中所示的边缘类型,例如,通过区分由多种类型的边缘连接的节点对。
在这里插入图片描述

  • simHash:保持相似性的hash表示(也保证了空间效率
    • 余弦相似度也被映射过去了
      在这里插入图片描述在这里插入图片描述
      在这里插入图片描述

4.EXPERIMENTS

  • 标准
    • 有效吗?
    • 比以前好嘛
    • 可扩展吗
    • 空间需求低否
  • 任务构建
    • 用户链接–二元分类任务,每一对节点,是否是一个人?
      在这里插入图片描述在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源&#xff1a;智源社区整理&#xff1a;戴一鸣导读&#xff1a;机器人领域已经发展了三四十年&#xff0c;但应用方面的进展较慢。这是因为&#xff0c;机器人建立在这样一个假设上&#xff1a;工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境&#xff08;如家…

论文学习6-(M2DNE)Temporal Network Embedding with Micro- and Macro-dynamics

文章目录1 intorduction2. 相关工作3. 准备工作4.model4.2 Micro-dynamics Preserved Embedding4.2.1 分层时间关注4.3 Macro-dynamics Preserved Embedding4.3.1链接速率4.3.2 宏观约束联合5. 实验网络嵌入的目的是将节点嵌入到低维空间中&#xff0c;同时捕获网络的结构和属性…

蒲慕明院士:我们为什么要探索人脑的奥秘

来源&#xff1a;学习时报作者简介蒲慕明&#xff0c;1948年出生&#xff0c;中国科学院院士&#xff0c;美国科学院外籍院士&#xff0c;现任中国科学院脑科学与智能技术卓越创新中心学术主任&#xff0c;上海脑科学与类脑研究中心主任。他是国际著名的神经生物学家和生物物理…

论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)

文章目录Introduction2. 相关工作3. 本文的model3.1 Preliminaries3.2建立问题3.3闲鱼图上的异构卷积网络3.3.1Aggregation Sub-layer3.3.2 Time-related Sampling3.3.4将图形网络与文本分类模型相结合。3.4 GCN-based反垃圾邮件模式4.实验Introduction ppt 任务&#xff1a;…

新型AI芯片 其能效或是替代品的两倍

DAVID BAILLOT/UNIVERSITY OF CALIFORNIA SAN DIEGO来源&#xff1a;IEEE电气电子工程师在软件和硅中复制人脑是人工智能&#xff08;AI&#xff09;研究的长期目标。虽然神经形态芯片在能够同时运行多个计算方面取得了重大进展&#xff0c;并且既能计算也能存储数据&#xff0…

论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

文章目录abstract1.introduction2. our approach2.2 微调fine tuning3.Model3.1QA Model3.2QG modelabstract 本文研究了基于知识库的问答系统的性能改进问题生成技术。问题生成(question generation, QG)的任务是根据输入的答案生成相应的自然语言问题&#xff0c;而问答(ques…

1575万美元!2023科学突破奖揭晓,AlphaFold、量子计算等突破斩获殊荣

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 2022年9月22日&#xff0c;科学突破奖基金会宣布了2023科学突破奖&#xff08;Breakthrough Prize&#xff09;的获奖名单。科学突破奖有「科学界的奥斯卡」之称&#xff0c;它表彰在生命科学、基础物理学和数…

nlp4-语料库

文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库 语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究&#xff0d;语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语&#xff1a;…

费曼:任何伟大的科学成就,都源于思想自由

来源&#xff1a;群学书院理查德菲利普斯费曼&#xff08;Richard Phillips Feynman&#xff0c;1918-1988&#xff09;&#xff0c;美籍犹太裔物理学家&#xff0c;加州理工学院物理学教授&#xff0c;1965年诺贝尔物理奖得主。>>>>费曼1939年毕业于麻省理工学院&…

nlp5-n-gram/语言模型(数据平滑方法

文章目录1.句子的先验概率1.1 n-gram2. 参数估计3. 数据平滑3.1 数据平滑度方法3.1.1加1法3.1.2减1.句子的先验概率 这个联合概率太小了 窗口越大&#xff0c;共现的可能性越小参数多 解决&#xff1a;等价类 不看所有的历史信息只看部分历史信息&#xff0c;但看所有的历史等价…

《科学》:3.8亿年前的心脏,揭示生命演化历史

来源&#xff1a;学术经纬编辑 &#xff1a;药明康德内容微信团队一颗3.8亿年前的心脏&#xff0c;可以告诉我们什么&#xff1f;在一篇近期的《科学》论文中&#xff0c;由澳大利亚科廷大学领导的研究团队借助最新的研究工具&#xff0c;从一枚有颌鱼化石中揭示了清晰的心脏、…

论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

文章目录1.Introduction2 model2.1 LSTM2.2BI-LSTMBPTT2.3 CRF2.4 LSTM-CRF参考文献本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络&#xff0c;比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。1.Introduction 序列标…

从连接组学到行为生物学,AI 助力使从图像中提取信息变得更快、更容易

来源&#xff1a;ScienceAI编辑&#xff1a;白菜叶一立方毫米听起来并不多。但在人脑中&#xff0c;这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。为了生成原始数据&#xff0c;他使用了一种称为串行薄层电子显微镜的协议…

论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a …

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源&#xff1a;AI科技评论作者&#xff1a;李梅、黄楠编辑&#xff1a;陈彩娴AI 作画很牛&#xff0c;但它并不理解图像背后的世界。自从 DALL-E 2 问世以来&#xff0c;很多人都认为&#xff0c;能够绘制逼真图像的 AI 是迈向通用人工智能&#xff08;AGI&#xff09;的一大…

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录1. introduction2.相关工作3.Model3.1 Joint learning as head selection3.2 AT4.实验设置5.结果6.总结实体关系抽取模型对抗学习. 论文链接 code Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” ar…

【前沿技术】美国脑计划2.0!投5亿美元,绘制史上最全人脑地图

来源&#xff1a;智能研究院【新智元导读】今天&#xff0c;脑科学计划宣布启动的「细胞图谱网络项目」&#xff0c;目标是绘制世界上最全面的人类大脑细胞图谱。这种雄心&#xff0c;堪比当年的人类基因组计划。今天&#xff0c;美国国立卫生研究院&#xff08;NIH&#xff09…

HMM总结

文章目录4.HMM-->CRF4.1 HMM--是个序列4.1.1 推断问题&#xff08;evaluate&#xff09;4.1.2 viterbi decoding解码4.1.3 学习&#xff0c;参数估计4.1.4计算实例4.1.5 EM(baum-welch算法)的上溢出和下溢出概率图模型code4.HMM–>CRF 4.1 HMM–是个序列 x-观测到的条件…

南科大本科生在《物理评论快报》发文,实现由不定因果序驱动的量子冰箱

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 近日&#xff0c;南方科技大学物理系师生在实验中实现了由不定因果序驱动的量子冰箱。相关成果以「Experimental realization of a quantum refrigerator driven by indefinite causal orders」为题发表在《物…

论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF

文章目录abstract1.introduction1.2 条件模型2.标签偏差问题3.CRF提出条件随机场CRF abstract 我们提出了条件随机场&#xff0c;这是一个建立概率模型来分割和标记序列数据的框架。相对于隐马尔可夫模型和随机语法&#xff0c;条件随机场在这类任务中有几个优势&#xff0c;…