异构图上的连接预测一

这里写目录标题

  • 异构图?
  • 处理数据:

异构图?

异构图:就是指节点与边类型不同的图。
连接预测:目的是预测图中两个节点之间是否存在一条边,或者是预测两个节点之间,在未来可能形成的连接。
eg:
节点:
研究人员A、研究人员B、研究人员C
论文P1、论文P2
机构I1
边关系:
研究人员A 写作 论文P1
研究人员B 写作 论文P1
研究人员C 写作 论文P2
论文P1 隶属于 机构I1
例如呢,我们想预测 在未来 A 与B 是否会合作写作论文呢?
或者是预测 B会不会加入机构l1呢?

处理数据:

代码展示,其中包括我其中遇到的困惑。

"""
MoviesLens数据集:描述了MoviesLens的评分以及标记活动。
该数据集包括600多个用户对9000多部电影的10万个评分。
使用该数据集生成两种节点类型: 分别保存电影  和 用户的数据,
以及一种连接用户和电影的边缘类型,表示用户是否对特定电影进行了评级关系。
最后,链接预测任务 尝试预测缺失的评分,可以用于向用户推荐新电影。"""import torch
import os
import pandas as pd
from torch_geometric.data import HeteroData
import torch_geometric.transforms as T
# 电影
movies_path = './data/ml-latest-small/movies.csv'
# 评分
ratings_path = './data/ml-latest-small/ratings.csv'# 在处理数据之前肯定得先知道csv中的数据格式
# print('movies.csv')
# print('movies.csv:')
# print('===========')
# print(pd.read_csv(movies_path)[["movieId", "genres"]].head(10))
# print()
# print('ratings.csv:')
# print('============')
# print(pd.read_csv(ratings_path)[["userId", "movieId"]].head(10))# 加载数据,movieId 作为索引列
movies_df = pd.read_csv(movies_path,index_col='movieId')
# data = {
#     'movieId': [1, 2, 3],
#     'title': ['Toy Story', 'Jumanji', 'Grumpier Old Men'],
#     'genres': ['Adventure|Animation|Children|Comedy|Fantasy',
#                'Adventure|Children|Fantasy',
#                'Comedy|Romance']
# }
# 执行下方这行代码,作用就是按照 | 进行分割,且使用one-hot 编码
# 输出:   Adventure  Animation  Children  Comedy  Fantasy  Romance
# 0          1          1         1       1        1        0
# 1          1          0         1       0        1        0
# 2          0          0         0       1        0        1
genres = movies_df['genres'].str.get_dummies('|')
# print(genres[["Action", "Adventure", "Drama", "Horror"]].head())
# (9742, 20) 9742部电影,20种体裁
# print(genres.values.shape)
# 将genres作为电影的输入特征
movie_feat = torch.from_numpy(genres.values).to(torch.float)
assert movie_feat.size() == (9742,20)# 同理对评分进行处理
ratings_df = pd.read_csv(ratings_path)# 提取出每个用户的id
"""
ratings_data = {'userId': [10, 20, 10, 30, 20, 40, 30, 50],'movieId': [101, 101, 102, 103, 104, 105, 106, 107],'rating': [3.5, 4.0, 2.5, 5.0, 4.0, 3.0, 4.5, 2.0]
}
"""
# unique_user_id = ([10, 20, 30, 40, 50])
unique_user_id = ratings_df['userId'].unique()
# 创建映射表
"""userId  mappedID
0      10         0
1      20         1
2      30         2
3      40         3
4      50         4
"""
unique_user_id = pd.DataFrame(data={'userId': unique_user_id,'mappedID':pd.RangeIndex(len(unique_user_id))
})# 同理,对电影进行相同处理
unique_movie_id = ratings_df['movieId'].unique()
unique_movie_id = pd.DataFrame(data={'movieId':unique_movie_id,'mappedID':pd.RangeIndex(len(unique_movie_id))
})# 获取user和movie的原始Id和映射ID
# 下方这代码,不就是将评分表种的原始id与获取的映射id进行映射而已吗
ratings_user_id = pd.merge(ratings_df['userId'],unique_user_id,left_on='userId',right_on='userId',how='left')
ratings_user_id = torch.from_numpy(ratings_user_id['mappedID'].values)ratings_movie_id = pd.merge(ratings_df['movieId'], unique_movie_id,left_on='movieId', right_on='movieId', how='left')
ratings_movie_id = torch.from_numpy(ratings_movie_id['mappedID'].values)# 构造’edge_index'
# 在这里,你肯定会有这个疑惑?
# 为啥能那么刚好,例如用户id为0的,刚好就是评论10号电影呢?
# 其实在一开始,所有的数据都是安排好的
#  'userId': [1, 2, 1, 3, 2, 4, 3, 5],
#    'movieId': [101, 101, 102, 103, 104, 105, 106, 107],
#    'rating': [3.5, 4.0, 2.5, 5.0, 4.0, 3.0, 4.5, 2.0]
# 是不是一一对应呢?只是将userid和movieid转变为对应的mappedid而已
# 例如:userid:[0, 1, 0, 2, 1, 3, 2, 4]
#      movieid:[0, 0, 1, 2, 3, 4, 5, 6]
edge_index_user_to_movie = torch.stack([ratings_user_id,ratings_movie_id],dim=0)
assert edge_index_user_to_movie.size() == (2,100836)
"""
tensor([[   0,    0,    0,  ...,  609,  609,  609],[   0,    1,    2,  ..., 3121, 1392, 2873]])
"""
# print(edge_index_user_to_movie)# 到现在,完成了数据的处理
# 初始化HeterData 对象。
data = HeteroData()# 保存节点索引
data['user'].node_id = torch.arange(len(unique_user_id))
data['movie'].node_id = torch.arange(len(movies_df))# 添加节点特征和边索引
data['movie'].x = movie_feat  # 电影的体裁作为节点特征,因为每个电影可能会有多个体裁
data['user','rates','movie'].edge_index =edge_index_user_to_movie# 添加反向边,使得GNN能够在两个方向上传递消息,那不就是成为无向图咯
data = T.ToUndirected()(data)print(data)
assert data.node_types == ["user", "movie"]
assert data.edge_types == [("user", "rates", "movie"),("movie", "rev_rates", "user")]assert data["user"].num_nodes == 610
assert data["user"].num_features == 0
assert data["movie"].num_nodes == 9742
assert data["movie"].num_features == 20assert data["user", "rates", "movie"].num_edges == 100836
assert data["movie", "rev_rates", "user"].num_edges == 100836

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/16130.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统如何通过编译方式安装python3.11.3

1.切换到/data 目录 cd /data 2.下载python源码Python-3.11.3.tgz wget https://www.python.org/ftp/python/3.11.3/Python-3.11.3.tgz tar -xzf Python-3.11.0.tgz cd Python-3.11.3 3.配置python的安装路径 和 执行openssl的路径 ./configure --prefix/usr/local/pyth…

Java筑基(三)

Java筑基(三) 一、final概念1、案例1:采用继承:2、案例2:final修饰的类不可以被继承:3、案例3:final修饰的类不能有子类,但是可以有父类4、final修饰构造方法5、final修饰普通方法6、…

头歌GCC编程工具集第1关:实验工具GCC与objdump的使用

任务要求 根据提示,在右侧编辑器中显示的bytes.c文件中的 Begin-End 之间补充代码(即设置一个数组的初始值),使其与如下显示的main.c文件一起编译、生成的程序在运行时输出“SUCCESS”。 程序源文件main.c的内容如下(务…

牛客前端面试高频八股总结(1)(附文档)

1.html语义化 要求使用具有语义的标签:header footer article aside section nav 三点好处: (1)提高代码可读性,页面内容结构化,更清晰 (2)无css时,时页面呈现出良好…

渗透工具CobaltStrike工具的下载和安装

一、CobalStrike简介 Cobalt Strike(简称为CS)是一款基于java的渗透测试工具,专业的团队作战的渗透测试工具。CS使用了C/S架构,它分为客户端(Client)和服务端(Server),服务端只要一个,客户端可有多个,多人连接服务端后…

Golang设计模式(四):观察者模式

观察者模式 什么是观察者 观察者模式(Observer Pattern):定义对象之间的一种一对多依赖关系,使得每当一个对象状态发生改变时,其相关依赖对象皆得到通知并被自动更新。观察者模式的别名包括发布-订阅(Publish/Subscribe&#xf…

音视频开发8 音视频中SDL的使用,SDL 在windows上环境搭建,SDL 使用 以及 常用 API说明,show YUV and play PCM

1.SDL简介 SDL(Simple DirectMedia Layer),是一个跨平台的C语言多媒体开发库。 支持Windows、Mac OS X、Linux、iOS、Android 提供对音频、键盘、鼠标、游戏操纵杆、图形硬件的底层访问 很多的视频播放软件、模拟器、受欢迎的游戏都在使用…

面试中算法(A星寻路算法)

一、问题需求: 迷宫寻路游戏中,有一些小怪物要攻击主角,现在希望你给这些小怪物加上聪 明的AI (Artificial Intelligence,人工智能),让它们可以自动绕过迷宫中的障碍物,寻找到主角的所在。 A星…

json web token及JWT学习与探索

JSON Web Token(缩写 JWT)是目前最流行的跨域认证解决方案 作用: 主要是做鉴权用的登录之后存储用户信息 生成得token(令牌)如下 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpZCI6MSwiaWF0IjoxNjg3Njc0NDkyLCJleHAiOjE2ODc3NjA4OTJ9.Y6eFG…

Django使用fetch实现登录

Django使用session管理(cookie)实现了一个用户登录和会话保持功能。如果需求不太复杂可以使用Django默认的登录功能。 1 安装django-cors-headers 首先需要安装django-cors-headers pip install django-cors-headers2 在settings中配置 需要按照djan…

用Dockerfile和Shell脚本来部署一个Go项目

如何使用Dockerfile和Shell脚本来部署一个Go项目。这种方法能够帮助我们自动化构建、测试和部署流程,提高开发效率。 **一、项目结构和代码** 首先,我们需要准备一个Go项目。假设我们的项目结构如下: my-go-app/ ├── main.go ├── D…

1107 老鼠爱大米

solution 记录每组的最大值&#xff0c;并比较组间的最大值胖胖鼠~ #include<iostream> using namespace std; int main(){int n, m, ans, fat -1, x;scanf("%d%d", &n, &m);for(int i 0; i < n; i){ans -1;for(int j 0; j < m; j){scanf(…

【C/C++】Makefile文件的介绍与基本用法

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

第三周:从错误中认识到管理

1. 约定两周时间&#xff0c;完成这个功能 在管理者分配好项目任务后&#xff0c;只是口头约定两周的时间&#xff0c;没有形成需求文档。对于需求&#xff0c;人与人的理解是不一样的&#xff0c;有些太过于抽象的东西&#xff0c;太难以描绘&#xff0c;只能一而再再而三的确…

【论文复现】LSTM长短记忆网络

LSTM 前言网络架构总线遗忘门记忆门记忆细胞输出门 模型定义单个LSTM神经元的定义LSTM层内结构的定义 模型训练模型评估代码细节LSTM层单元的首尾的处理配置Tensorflow的GPU版本 前言 LSTM作为经典模型&#xff0c;可以用来做语言模型&#xff0c;实现类似于语言模型的功能&am…

vue3的proxy如何取代object和defineproperty

在 Vue 2.x 中&#xff0c;为了响应式地追踪对象属性的变化&#xff0c;Vue 使用了 Object.defineProperty 方法。但是&#xff0c;Object.defineProperty 有一些限制&#xff0c;比如它不能追踪属性的添加或删除&#xff0c;也不能直接用于数组或对象原型链上的属性。 Vue 3.…

【Torch学习笔记】

作者&#xff1a;zjk 和 的区别是逐元素相乘&#xff0c;是矩阵相乘 cat stack 的区别 cat stack 是用于沿新维度将多个张量堆叠在一起的函数。它要求所有输入张量具有相同的形状&#xff0c;并在指定的新维度上进行堆叠。

【NumPy】关于numpy.mean()函数,看这一篇文章就够了

&#x1f9d1; 博主简介&#xff1a;阿里巴巴嵌入式技术专家&#xff0c;深耕嵌入式人工智能领域&#xff0c;具备多年的嵌入式硬件产品研发管理经验。 &#x1f4d2; 博客介绍&#xff1a;分享嵌入式开发领域的相关知识、经验、思考和感悟&#xff0c;欢迎关注。提供嵌入式方向…

Android11热点启动和关闭

Android官方关于Wi-Fi Hotspot (Soft AP) 的文章&#xff1a;https://source.android.com/docs/core/connect/wifi-softap?hlzh-cn 在 Android 11 的WifiManager类中有一套系统 API 可以控制热点的开和关&#xff0c;代码如下&#xff1a; 开启热点&#xff1a; // SoftApC…

Vue 父组件使用refs来直接访问和修改子组件的属性或调用子组件的方法

步骤 1: 在子组件中定义要被修改的属性或方法 首先&#xff0c;在子组件中定义你想要父组件能够修改或调用的属性或方法。例如&#xff0c;我们有一个名为MyChildComponent的子组件&#xff0c;它有一个名为childData的数据属性和一个名为updateData的方法。 // 子组件 MyChi…