ACM(Association for Computing Machinery)数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络(GNN)等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系,并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。
1. ACM数据集的版本和来源
ACM数据集的版本较多,不同版本的数据来源和内容可能有所不同,常见的版本包括:
- ACM Citation Network Dataset:由Microsoft Academic Graph(MAG)或DBLP提取的ACM引用网络数据,包含论文及其引用关系。
- ACM Author-Paper Dataset:用于学术社交网络分析,包含作者、论文及其关系信息。
- ACM数据集(ACM-DBLP):用于异质图神经网络(Heterogeneous Graph Neural Networks, HGNN)研究,包括论文、作者和研究领域。
2. 数据结构
不同的ACM数据集包含不同的信息,以下是常见的数据组织形式:
(1) 节点类型
ACM数据集通常包含以下几类节点:
- Paper(论文):包括论文ID、标题、摘要、发表年份、会议等信息。
- Author(作者):包括作者ID、姓名、单位等信息。
- Conference/Venue(会议或期刊):论文发表的会议或期刊信息。
- Field(研究领域):论文所属的计算机科学研究方向。
(2) 边类型(关系)
- (Author, writes, Paper):作者撰写论文的关系。
- (Paper, cites, Paper):论文引用其他论文的关系。
- (Paper, published_in, Conference):论文发表在会议上的关系。
- (Paper, belongs_to, Field):论文所属的研究领域。
(3) 典型数据格式
ACM数据集通常以CSV、JSON、Graph(图数据格式,如Neo4j、DGL、PyG)存储。常见的数据示例如下:
论文表 (Papers.csv)
PaperID | Title | Year | Conference |
---|---|---|---|
P001 | "Deep Learning for NLP" | 2018 | NeurIPS |
P002 | "Graph Neural Networks" | 2019 | ICML |
P003 | "A Survey on Recommender Sys" | 2017 | WWW |
作者表 (Authors.csv)
AuthorID | Name | Affiliation |
---|---|---|
A001 | John Smith | MIT |
A002 | Alice Brown | Stanford |
A003 | Bob Johnson | Harvard |
论文-作者关系 (Paper_Author.csv)
PaperID | AuthorID |
---|---|
P001 | A001 |
P002 | A002 |
P002 | A003 |
论文引用关系 (Paper_Citation.csv)
CitingPaperID | CitedPaperID |
---|---|
P002 | P001 |
P003 | P001 |
3. ACM数据集的用途
ACM数据集常用于以下研究领域:
(1) 论文推荐系统
- 基于协同过滤的推荐:使用论文-作者-领域关系构建推荐模型。
- 基于图神经网络(GNN)的论文推荐:利用异构图神经网络(Heterogeneous GNN)建模论文、作者和领域之间的关系。
(2) 学术社交网络分析
- 研究作者合作关系,分析学术合作模式。
- 识别学术领域的关键作者、影响力最大论文等。
(3) 计算机科学研究趋势分析
- 通过论文发表年份和研究领域分析不同方向的发展趋势。
- 利用文本挖掘技术提取研究热点。
(4) 引文网络分析
- 分析论文的影响力和被引次数,研究学术传播模式。
- 计算论文PageRank值,发现高影响力论文。
(5) 机器学习与深度学习实验
- 异构图表示学习:Heterogeneous Graph Embedding (如metapath2vec)。
- 图神经网络:Graph Neural Networks (如 GCN, GAT, HAN) 在学术网络中的应用。
4. 相关研究与数据集下载
ACM数据集的不同版本可以从以下渠道获取:
- Microsoft Academic Graph (MAG):Microsoft Academic Graph - Microsoft Research
- DBLP (计算机科学论文库):dblp: computer science bibliography
- OGB (Open Graph Benchmark):Open Graph Benchmark | A collection of benchmark datasets, data-loaders and evaluators for graph machine learning in PyTorch.
- Graph Learning Benchmarks (GLB):https://graphlearning.io/
5. 代码示例
使用Python和NetworkX分析ACM引文网络的示例:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt# 读取数据
papers = pd.read_csv("Papers.csv") # 论文数据
authors = pd.read_csv("Authors.csv") # 作者数据
citations = pd.read_csv("Paper_Citation.csv") # 论文引用关系# 创建有向图
G = nx.DiGraph()# 添加论文节点
for _, row in papers.iterrows():G.add_node(row["PaperID"], label="Paper", title=row["Title"])# 添加引用关系
for _, row in citations.iterrows():G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites")# 绘制引文网络
plt.figure(figsize=(10, 8))
nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8)
plt.show()
该代码读取ACM数据集的论文和引文关系,并用 NetworkX 绘制引文网络。
数据集特点
- 异构性(Heterogeneity):ACM 数据集包含 论文-作者-会议-研究领域 之间的复杂关系,适用于 异构图分析。
- 高质量学术数据:数据来源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等权威数据库,适用于学术网络分析和推荐系统研究。
- 大规模 & 小规模数据版本:
- 大规模 ACM-MAG 数据集 适用于大规模引文网络分析(论文数百万级)。
- 小规模 ACM-DBLP 数据集 适用于 Heterogeneous Graph Neural Networks (HGNN) 研究(论文数万级)。
- 适用于机器学习 & 深度学习:
- 可用于 论文推荐系统、学术影响力分析、知识图谱构建。
- 可用于 图神经网络(GNN)训练,如 GCN、GAT、HAN 等。
常用子集
下载地址:ACM Dataset | Papers With Code
ACM数据集包含了发表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等顶级会议上的论文,并根据研究领域分为三大类:数据库(Database)、无线通信(Wireless Communication)和数据挖掘(Data Mining)。该数据集构建了一个异质图(heterogeneous graph),其中包含以下实体和关系:
-
论文(Paper):3025篇论文,每篇论文的特征通过关键词的词袋模型(bag-of-words)表示。
-
作者(Author):5835位作者,与论文之间存在撰写关系。
-
主题(Subject):56个主题,与论文之间存在分类关系。
数据集的核心特点:
-
异质图结构:
-
图中包含多种类型的节点(论文、作者、主题)和边(论文-作者、论文-主题)。
-
这种异质图结构适合用于图神经网络(GNN)等图数据分析任务。
-
-
论文特征:
-
每篇论文的特征通过关键词的词袋模型表示,即用一组关键词的向量来描述论文内容。
-
这种表示方法适用于文本挖掘、分类和推荐等任务。
-
-
类别划分:
-
论文被划分为三大类:数据库、无线通信和数据挖掘。
-
这种分类信息可用于监督学习任务,如论文分类或领域预测。
-
应用场景:
-
论文分类:基于论文的关键词特征和异质图结构,对论文进行领域分类。
-
作者推荐:通过分析作者与论文的关系,推荐潜在的合作者。
-
主题挖掘:从论文与主题的关系中挖掘热门研究领域或趋势。
-
图神经网络研究:作为异质图的典型数据集,用于验证图神经网络算法的性能。
数据集的挑战:
-
异质图复杂性:由于包含多种类型的节点和边,图的构建和分析较为复杂。
-
特征稀疏性:词袋模型表示的关键词特征可能较为稀疏,需要特征工程或嵌入表示来优化。
-
类别不平衡:三大类论文的数量可能不均衡,需注意分类任务中的数据平衡问题。
ACM数据集是学术论文推荐、学术网络分析和图机器学习研究的重要数据集,广泛用于学术社交网络分析、推荐系统、文本挖掘、知识图谱等领域。它不仅提供了学术论文的详细信息,还通过引文、作者和研究领域的关系构建了一个复杂的学术网络,适用于多种机器学习和数据挖掘任务。