Code Lab - 2

pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.10.2+cu102.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.10.2+cu102.html
pip install torch-geometric
pip install ogb

1. PyG Datasets

PyG有两个类,用于存储图以及将图转换为Tensor格式
        torch_geometry.datasets 包含各种常见的图形数据集
        torch_geometric.data 提供Tensor的图数据处理

1.1 从torch_geometric.datasets中读取数据集

# 每一个dataset都是多张图的list,单张图的类型为torch_geometric.data.Data
import torch
import os
from torch_geometric.datasets import TUDatasetroot = './enzymes'
name = 'ENZYMES'# The ENZYMES dataset
pyg_dataset= TUDataset('./enzymes', 'ENZYMES')# You can find that there are 600 graphs in this dataset
print(pyg_dataset)
print(type(pyg_dataset))# 对于第一张图
# print(pyg_dataset[0])
# print(pyg_dataset[0].num_nodes)
# print(pyg_dataset[0].edge_index)
# print(pyg_dataset[0].x)
# print(pyg_dataset[0].y)

1.2 ENZYMES数据集中类别数量和特征维度

# num_classes
def get_num_classes(pyg_dataset):num_classes = pyg_dataset.num_classesreturn num_classes
# num_features
def get_num_features(pyg_dataset):num_features = pyg_dataset.num_node_featuresreturn num_featuresnum_classes = get_num_classes(pyg_dataset)
num_features = get_num_features(pyg_dataset)
print("{} dataset has {} classes".format(name, num_classes))
print("{} dataset has {} features".format(name, num_features))

1.3 ENZYMES数据集中第idx张图的label和边的数量

def get_graph_class(pyg_dataset, idx):# y就是这张图的类别label = pyg_dataset[idx].y.item()return labelgraph_0 = pyg_dataset[0]
print(graph_0)
idx = 100
label = get_graph_class(pyg_dataset, idx)
print('Graph with index {} has label {}'.format(idx, label))def get_graph_num_edges(pyg_dataset, idx):num_edges = pyg_dataset[idx].num_edges/2 # 无向图return num_edgesidx = 200
num_edges = get_graph_num_edges(pyg_dataset, idx)
print('Graph with index {} has {} edges'.format(idx, num_edges))

2. Open Graph Benchmark (OGB)

OGB是基准数据集的集合,使用OGB数据加载器自动下载、处理和拆分,通过OGB Evaluator以统一的方式来评估模型性能

2.1 读取OBG的数据集(以ogbn-arxiv为例)

import ogb
import torch_geometric.transforms as T
from ogb.nodeproppred import PygNodePropPredDatasetdataset_name = 'ogbn-arxiv'
# 加载ogbn-arxiv数据集,并使用ToSparseTensor转换成Tensor格式
dataset = PygNodePropPredDataset(name=dataset_name,transform=T.ToSparseTensor())
print('The {} dataset has {} graph'.format(dataset_name, len(dataset)))# 第一张图
data = dataset[0]
print(data)def graph_num_features(data):num_features=data.num_featuresreturn num_featuresnum_features = graph_num_features(data)
print('The graph has {} features'.format(num_features))

3. GNN节点属性预测(节点分类)(以ogbn-arxiv数据集为例)

3.1 加载并预处理数据集

import torch
import pandas as pd
import torch.nn.functional as F
from torch_geometric.nn import GCNConv
import torch_geometric.transforms as T
from ogb.nodeproppred import PygNodePropPredDataset, Evaluatordevice = 'cuda' if torch.cuda.is_available() else 'cpu'
dataset_name = 'ogbn-arxiv'
# PygNodePropPredDataset读取节点分类的数据集
dataset = PygNodePropPredDataset(name=dataset_name,transform=T.ToSparseTensor())
data = dataset[0]# 转换成稀疏矩阵
data.adj_t = data.adj_t.to_symmetric()
print(type(data.adj_t))data = data.to(device)
# 用get_idx_split划分数据集为train,valid,test三部分
split_idx = dataset.get_idx_split()
print(split_idx)
train_idx = split_idx['train'].to(device)

3.2 GCN Model

class GCN(torch.nn.Module):## Note:
## 1. You should use torch.nn.ModuleList for self.convs and self.bns
## 2. self.convs has num_layers GCNConv layers
## 3. self.bns has num_layers - 1 BatchNorm1d layers
## 4. You should use torch.nn.LogSoftmax for self.softmax
## 5. The parameters you can set for GCNConv include 'in_channels' and 
## 'out_channels'. For more information please refer to the documentation:
## https://pytorch-geometric.readthedocs.io/en/latest/modules/nn.html#torch_geometric.nn.conv.GCNConv
## 6. The only parameter you need to set for BatchNorm1d is 'num_features'def __init__(self, input_dim, hidden_dim, output_dim, num_layers,dropout, return_embeds=False):super(GCN, self).__init__()# A list of GCNConv layersself.convs = torch.nn.ModuleList()for i in range(num_layers - 1):self.convs.append(GCNConv(input_dim, hidden_dim))input_dim = hidden_dimself.convs.append(GCNConv(hidden_dim, output_dim))# A list of 1D batch normalization layersself.bns = torch.nn.ModuleList()for i in range(num_layers - 1):self.convs.append(torch.nn.BatchNorm1d(hidden_dim))# The log softmax layerself.softmax = torch.nn.LogSoftmax()# Probability of an element getting zeroedself.dropout = dropout# Skip classification layer and return node embeddingsself.return_embeds = return_embedsdef reset_parameters(self):for conv in self.convs:conv.reset_parameters()for bn in self.bns:bn.reset_parameters()## Note:
## 1. Construct the network as shown in the figure
## 2. torch.nn.functional.relu and torch.nn.functional.dropout are useful
## For more information please refer to the documentation:
## https://pytorch.org/docs/stable/nn.functional.html
## 3. Don't forget to set F.dropout training to self.training
## 4. If return_embeds is True, then skip the last softmax layerdef forward(self, x, adj_t):for layer in range(len(self.convs)-1):x=self.convs[layer](x,adj_t)x=self.bns[layer](x)x=F.relu(x)x=F.dropout(x,self.dropout,self.training)out=self.convs[-1](x,adj_t)if not self.return_embeds:out=self.softmax(out)return out

3.3 训练和评估 

def train(model, data, train_idx, optimizer, loss_fn):model.train()optimizer.zero_grad()out = model(data.x,data.adj_t)# 计算训练部分的losstrain_output = out[train_idx]train_label = data.y[train_idx,0]loss = loss_fn(train_output,train_label)loss.backward()optimizer.step()return loss.item()# 注意data.y[train_idx]和data.y[train_idx,0]的区别
print(data.y[train_idx])
print(data.y[train_idx,0])
def test(model, data, split_idx, evaluator, save_model_results=False):model.eval()out = model(data.x,data.adj_t)y_pred = out.argmax(dim=-1, keepdim=True)# 使用OGB Evaluator进行评估train_acc = evaluator.eval({'y_true': data.y[split_idx['train']],'y_pred': y_pred[split_idx['train']],})['acc']valid_acc = evaluator.eval({'y_true': data.y[split_idx['valid']],'y_pred': y_pred[split_idx['valid']],})['acc']test_acc = evaluator.eval({'y_true': data.y[split_idx['test']],'y_pred': y_pred[split_idx['test']],})['acc']return train_acc, valid_acc, test_acc
args = {'device': device,'num_layers': 3,'hidden_dim': 256,'dropout': 0.5,'lr': 0.01,'epochs': 100,
}
model = GCN(data.num_features, args['hidden_dim'],dataset.num_classes, args['num_layers'],args['dropout']).to(device)
evaluator = Evaluator(name='ogbn-arxiv')# 初始化模型参数
model.reset_parameters()optimizer = torch.optim.Adam(model.parameters(), lr=args['lr'])
loss_fn = F.nll_lossfor epoch in range(1, args["epochs"]+1):loss = train(model, data, train_idx, optimizer, loss_fn)train_acc, valid_acc, test_acc = test(model, data, split_idx, evaluator)print(f'Epoch: {epoch:02d}, 'f'Loss: {loss:.4f}, 'f'Train: {100 * train_acc:.2f}%, 'f'Valid: {100 * valid_acc:.2f}% 'f'Test: {100 * test_acc:.2f}%')

4. GNN图属性预测(图分类)(以ogbn-arxiv数据集为例)

4.1 加载并预处理数据集

from ogb.graphproppred import PygGraphPropPredDataset, Evaluator
from torch_geometric.data import DataLoader
from tqdm.notebook import tqdm# PygGraphPropPredDataset读取图分类的数据集
dataset = PygGraphPropPredDataset(name='ogbg-molhiv')
split_idx = dataset.get_idx_split()# DataLoader
train_loader = DataLoader(dataset[split_idx["train"]], batch_size=32, shuffle=True, num_workers=0)
valid_loader = DataLoader(dataset[split_idx["valid"]], batch_size=32, shuffle=False, num_workers=0)
test_loader = DataLoader(dataset[split_idx["test"]], batch_size=32, shuffle=False, num_workers=0)

4.2 GCN Model

from ogb.graphproppred.mol_encoder import AtomEncoder
from torch_geometric.nn import global_add_pool, global_mean_poolclass GCN_Graph(torch.nn.Module):def __init__(self, hidden_dim, output_dim, num_layers, dropout):super(GCN_Graph, self).__init__()# encodersself.node_encoder = AtomEncoder(hidden_dim)# 通过GCNself.gnn_node = GCN(hidden_dim, hidden_dim,hidden_dim, num_layers, dropout, return_embeds=True)# 全局池化self.pool = global_mean_poolself.linear = torch.nn.Linear(hidden_dim, output_dim)def reset_parameters(self):self.gnn_node.reset_parameters()self.linear.reset_parameters()def forward(self, batched_data):x, edge_index, batch = batched_data.x, batched_data.edge_index, batched_data.batchembed = self.node_encoder(x)out = self.gnn_node(embed,edge_index)out = self.pool(out,batch)out = self.linear(out)return out

4.3 训练和评估

def train(model, device, data_loader, optimizer, loss_fn):model.train()for step, batch in enumerate(tqdm(data_loader, desc="Iteration")):batch = batch.to(device)# 跳过不完整的batchif batch.x.shape[0] == 1 or batch.batch[-1] == 0:passelse:# 过滤掉无标签的数据is_labeled = (batch.y == batch.y)optimizer.zero_grad()op = model(batch)train_op = op[is_labeled]train_labels = batch.y[is_labeled].view(-1)loss = loss_fn(train_op.float(),train_labels.float())loss.backward()optimizer.step()return loss.item()
def eval(model, device, loader, evaluator):model.eval()y_true = []y_pred = []for step, batch in enumerate(tqdm(loader, desc="Iteration")):batch = batch.to(device)if batch.x.shape[0] == 1:passelse:with torch.no_grad():pred = model(batch)y_true.append(batch.y.view(pred.shape).detach().cpu())y_pred.append(pred.detach().cpu())y_true = torch.cat(y_true, dim = 0).numpy()y_pred = torch.cat(y_pred, dim = 0).numpy()input_dict = {"y_true": y_true, "y_pred": y_pred}result = evaluator.eval(input_dict)return result
args = {'device': device,'num_layers': 5,'hidden_dim': 256,'dropout': 0.5,'lr': 0.001,'epochs': 30,
}model = GCN_Graph(args['hidden_dim'],dataset.num_tasks, args['num_layers'],args['dropout']).to(device)
evaluator = Evaluator(name='ogbg-molhiv')model.reset_parameters()
optimizer = torch.optim.Adam(model.parameters(), lr=args['lr'])
loss_fn = torch.nn.BCEWithLogitsLoss()for epoch in range(1, 1 + args["epochs"]):print('Training...')loss = train(model, device, train_loader, optimizer, loss_fn)print('Evaluating...')train_result = eval(model, device, train_loader, evaluator)val_result = eval(model, device, valid_loader, evaluator)test_result = eval(model, device, test_loader, evaluator)train_acc, valid_acc, test_acc = train_result[dataset.eval_metric], val_result[dataset.eval_metric], test_result[dataset.eval_metric]print(f'Epoch: {epoch:02d}, 'f'Loss: {loss:.4f}, 'f'Train: {100 * train_acc:.2f}%, 'f'Valid: {100 * valid_acc:.2f}% 'f'Test: {100 * test_acc:.2f}%')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/49206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云源 Python、npm、git、goproxy

阿里云源 Python、npm、git、goproxy 各种设置源的方式也都比较常见,但是根本记不住,每次都查感觉也不太好。 正好发现了个宝藏地址,看起来还挺全的,以后找源也可以先在这个地方翻翻,顺便就搞了几个放到一个脚本里边…

【Unity每日一记】SceneManager场景资源动态加载

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:uni…

elementui 修改日期选择器el-date-picker样式

1. 案例: 2. css /* 最外层颜色 */ .el-popper.is-pure {background: url("/assets/imgList/memuBG.png") no-repeat;border: none;background-size:100% 100%}/* 日期 1.背景透明 */ .el-date-picker{background: transparent; }/* 日期 2.标题、左右图…

关于css 的选择器和 css变量

css 选择器 常用的选择器 1. 后代选择器:也就是我们常见的空格选择器,选择的对象为该元素下的所有子元素 。例如,选择所有 元素下的 元素 div p{font-size:14px}2. 子元素选择器 ‘>’ 选择某元素下的直接子元素。例如,选择所…

数据分析师所要经历的三个阶段

数据分析师如今逐渐已经成为一个热门的岗位,在这个流量为王的年代,数据的重要性也日益增高,许多企业都是意识到了这一点,纷纷开始招募相关的数据型人才。 数据分析师的基本职业发展道路为:初级数据分析师-中级数据分析…

Java算法_ BST 中第 k 个最小元素 (LeetCode_Hot100)

题目描述:给定一个二叉搜索树的根节点 ,和一个整数 ,请你设计一个算法查找其中第 个最小元素(从 1 开始计数)。 获得更多?算法思路:代码文档,算法解析的私得。 运行效果 完整代码 /*** 2 * Aut…

LeetCode150道面试经典题-- 二叉树的最大深度(简单)

1.题目 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 2.示例 3.思路 深度优先遍历 一个二叉树要查询到最大深度,可以将问题转为从根节点出发,查看左右子树的最大深度&am…

并发编程5:如何执行任务?

目录 1、线程中执行任务的方式 2、Executor 框架 2.1 - 线程的执行策略 2.2 - 线程池 2.3 - Executor 的生命周期 2.4 - 延任务与周期任务 3、找出可利用的并行性-代码示例 3.1 - 单线程的 I/O 操作 3.2 - 携带任务结果的 Callable 与 Future(重要&#xf…

基于swing的教务管理系统java jsp学生教师信息mysql源代码

本项目为前几天收费帮学妹做的一个项目,Java EE JSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。 一、项目描述 基于swing的教务管理系统 系统有3权限:管…

c++ qt--信号与槽(一) (第三部分)

c qt–信号与槽(一) (第三部分) 一.用qt自带的方法添加信号槽 1.第一种 1.如何添加 2.在何处进行绑定 2.第二种 1.如何添加 2.在何处进行绑定 而且会在mainwindow.h中添加槽函数的声明,在mainwindow.cpp中添加槽函数的定义 在mainwindow…

【线性DP】模型总结(terse版)

【线性DP】模型总结 最长上升子序列 DP法 ​ dp[i]表示以i结尾的最长上升子序列的长度。 ​ 对于每个i&#xff0c;遍历j1~i-1,若a[j] < a[i], 则dp[i] max(dp[i], dp[j] 1); 二分法 ​ 可以优化时间复杂度。 ​ dp[]数组用来存储当前最长上升子序列。 ​ 若dp[]数…

伦敦银和伦敦金的区别

伦敦银河伦敦金并称贵金属交易市场的双璧&#xff0c;一般投资贵金属的投资者其实不是交易伦敦金就是交易伦敦银。相信经过一段时间的学习和投资&#xff0c;不少投资者都能分辨二者的区别。下面我们就来谈谈伦敦银和伦敦金有什么异同&#xff0c;他们在投资上是否有差别。 交易…

vue与vueComponent的关系

创建完组件之后 就会创建一个vueComponent构造函数 当注册成功这个组件并且在页面使用之后 就会创建一个vueComponent实例对象&#xff0c; 所以为了避免组件在使用过程中data对象中的值混乱 组件中的data要写成函数&#xff0c; 使得每次创建的组件实例对象都可以返回一…

Sui第四轮资助:16个团队瓜分

近日&#xff0c;Sui基金会公布了第四轮开发者资助名单&#xff0c;受助项目均是集中在DeFi、支付、基础设施、游戏、预言机等领域的Sui生态项目&#xff0c;他们是从2023年7月1日之前提交的申请中选出的。在此时间之后提交的任何项目目前正在审查中。 在前三轮资助中累积发放…

Linux存储学习笔记

相关文章 Linux 存储系列&#xff5c;请描述一下文件的 io 栈&#xff1f; - tcpisopen的文章 - 知乎 https://zhuanlan.zhihu.com/p/478443978 深入学习 Linux 操作系统的存储 IO 堆栈 - KaiwuDB的文章 - 知乎 https://zhuanlan.zhihu.com/p/636720297 linux存储栈概览 - st…

2023 Android 折叠屏适配详解,是时候点亮新技能了

自 2019 年三星发布了第一台&#xff08;柔宇不算&#xff09; Galaxy Z Fold 之后&#xff0c;Android 厂商们都陆续跟进了各自的可折叠方案&#xff0c;之后折叠屏手机市场一直保持快速增长&#xff0c;例如 2023 年上半年整体销量 227 万台&#xff0c;同比增长 102.0%。 虽…

pytorch 入门1-tensor 广播 view reshape

tensor 的四则运算broadcast import torch import numpy as np # 张量tensor 随机初始化 x torch.rand(4,3) print(x) y torch.randn(4,3) print(y)# 初始化全零 张量 a torch.zeros((4,4),dtypetorch.long) print(a) #初始化全一 张量 b torch.ones(4,4) print(b) c tor…

【tkinter 专栏】鼠标事件处理

文章目录 前言本章内容导图1. 鼠标事件2. 键盘事件3. 一次绑定多个事件处理程序4. 取消事件的绑定前言 本专栏将参考《Python GUI 设计 tkinter 从入门到实践》书籍(吉林大学出版社 ISBN: 9787569275001)所整理的 Python GUI 设计内容,结合笔者自身在项目实践过程中对于 GU…

Spring相关知识

0、Spring的核心就是AOP和IOC IOC&#xff1a; AOP&#xff1a;AOP&#xff08;Aspect Oriented Programming&#xff09;是面向切面编程&#xff0c;它是一种编程思想&#xff0c;是面向对象编程&#xff08;OOP&#xff09;的一种补充。面向对象编程将程序抽象成各个层次的…

5、css学习5(链接、列表)

1、css可以设置链接的四种状态样式。 a:link - 正常&#xff0c;未访问过的链接a:visited - 用户已访问过的链接a:hover - 当用户鼠标放在链接上时a:active - 链接被点击的那一刻 2、 a:hover 必须在 a:link 和 a:visited 之后&#xff0c; a:active 必须在 a:hover 之后&…