KDD 2023 获奖论文公布,港中文、港科大等获最佳论文奖

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD)是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

今年,第29届 KDD 大会于上周在美国加州长滩圆满结束,大会包含研究方向(Research)和应用数据科学方向(Applied Data Science,ADS)两个 track,共公布了8篇获奖论文。

KDD最佳论文奖

研究方向

All in One: Multi-task Prompting for Graph Neural Networks

标题:All in One: 多任务提示用于图神经网络

作者:Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, Jihong Guan

内容:受自然语言处理(NLP)中提示学习的启发,提示学习在利用先验知识进行各种NLP任务方面展示了显著的有效性,我们研究图形提示的主题,目的是填补预训练模型和各种图形任务之间的差距。

在本文中,作者为图形模型提出了一种新的多任务提示方法。具体来说,首先使用提示词、词汇结构和插入模式统一了图形提示和语言提示的格式。通过这种方式,NLP中的提示想法可以无缝地引入图形领域。然后,为了进一步缩小各种图形任务与最先进的预训练策略之间的差距,作者进一步研究了各种图形应用的任务空间,并将下游问题重构为图形级任务。之后,作者引入元学习来有效地学习图形多任务提示的更好初始化。以便提示框架对不同的任务更可靠和通用。经实验,结果证明了该方法的优越性。

应用数据科学方向

Improving Training Stability for Multitask Ranking Models in Recommender Systems

标题:改进推荐系统中多任务排序模型的训练稳定性

作者:Jiaxi Tang, Yoel Drori, Daryl Chang, Maheswaran Sathiamoorthy, Justin Gilmer, Li Wei, Xinyang Yi, Lichan Hong, Ed H. Chi

内容:在本文中,作者分享了对改进YouTube推荐的真实世界多任务排序模型训练稳定性方面的发现和最佳实践,展示了导致模型训练不稳定的一些特性,并猜测原因。此外,根据作者对训练不稳定点附近的训练动态的观察,作者推测为什么现有的解决方案会失败,并提出了一种新的算法来缓解现有解决方案的局限性。在YouTube生产数据集上的实验表明,与几种常用的基线方法相比,所提出的算法可以显着改善训练稳定性而不损害收敛性。

KDD最佳学生论文奖

研究方向

Feature-based Learning for Diverse and Privacy-Preserving Counterfactual Explanations

标题:基于特征的学习方法用于生成多样且保护隐私的反事实解释

作者:Vy Vo, Trung Le, Van Nguyen, He Zhao, Edwin Bonilla, Gholamreza Haffari, Dinh Phung

内容:可解释的机器学习旨在理解长期以来因缺乏可解释性而臭名昭著的复杂黑盒系统的推理过程。一种繁荣的方法是通过反事实解释,它提供了建议,告诉用户可以做些什么来改变结果。反事实示例不仅必须反驳黑盒分类器的原始预测,还应满足实际应用的各种约束。多样性是讨论较少的关键约束之一,虽然多样的反事实解释是理想的,但同时满足一些其他约束在计算上具有挑战性。

此外,针对发布的反事实数据的隐私问题日益受到关注。为此,作者提出了一个基于特征的学习框架,可以有效处理反事实约束,并为有限的私密解释模型池贡献自身。作者展示了该方法在生成具有可行性和合理性的多样反事实解释方面的灵活性和有效性。与同等容量的对应部分相比,作者的反事实引擎更高效,而重新识别风险也最低。

KDD时间检验奖

研究方向

Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms

标题:Auto-WEKA: 分类算法的组合选择和超参数优化

作者:Chris Thornton ,Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown

内容:存在许多不同的机器学习算法,考虑到每个算法的超参数,总体上有令人难以置信的大量可能的替代方案。作者考虑同时选择学习算法并设置其超参数的问题,这超越了以前仅单独解决这些问题的工作。作者表明这个问题可以通过一个完全自动化的方法来解决,利用贝叶斯优化的最新创新。

具体而言,作者考虑了广泛的特征选择技术(组合3种搜索方法和8种评估方法)以及WEKA中实现的所有分类方法,跨越2种集成方法、10种元方法、27种基本分类器以及每个分类器的超参数设置。在来自UCI仓库、KDD Cup 09、MNIST数据集的变体和CIFAR-10的21个流行数据集上,作者展示的分类性能通常比使用标准选择/超参数优化方法好很多。

应用数据科学方向

Ad Click Prediction: A View From the Trenches

标题:广告点击预测:来自第一线的视角

作者:Hugh Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, Sharat Chikkerur, Dan Liu, Martin Wattenberg, Arnar Mar Hrafnkelsson, Tom Boulos, Jeremy Kubica

内容:预测广告点击率(CTR)是在数十亿美元的在线广告业中处于核心地位的大规模学习问题。作者介绍了一些案例研究和话题,这些内容来自部署的CTR预测系统的最近实验。这包括在传统监督学习框架下的改进,该框架基于FTRL-Proximal在线学习算法(具有出色的稀疏性和收敛特性)以及每坐标学习率。

作者还探讨了一些在实际系统中出现但乍一看似乎不在传统机器学习研究领域内的挑战。这包括用于内存节省的有用技巧、评估和可视化性能的方法、为预测概率提供置信度估计的实际方法、校准方法以及自动管理特征的方法。本文的目标是强调理论进步与该工业环境下的实际工程之间的密切关系,并展示将传统机器学习方法应用于复杂动态系统时出现的深层挑战。

​杰出论文奖

On the Predictive Power of Graph Neural Networks

标题:关于图神经网络的预测能力

作者:Weihua Hu

内容:在本论文中,作者旨在通过理解、改进和基准测试GNNs的预测能力来构建强大的预测性GNNs,预测能力指GNNs进行准确预测的能力。本文由三个部分组成。在第I部分中,作者为理解GNNs的预测能力开发了一个理论框架。具体关注表达能力,询问GNNs是否可以表达期望的图函数。作者使用理论框架为给定GNN是否足够强大提供洞见,以对数据中的地面真值目标函数建模。

作者还提出了一个可以证明对图的大多数函数建模的最大表达能力GNN模型。在配备了设计表达能力强的GNN模型的框架之后,在第II部分中,作者继续提高它们在未见/未标记的数据上的预测能力,即提高GNNs的泛化能力。出于实际应用的考虑,作者在两个常见的有限数据场景下开发了提高GNN泛化能力的方法:有限标签数据和有限边连接性。最后,在第III部分中,作者创建了新的图基准数据集,以解决现有基准的问题,并促进社区提高GNN的预测能力。

杰出论文奖(亚军)

Characterization and Detection of Disinformation Spreading in Online Social Networks

标题:在线社交网络中虚假信息传播的特征和检测

作者:Francesco Pierri

内容:在这项工作中,作者利用网络和计算机科学方法来解决在线社交网络中虚假信息传播的问题。关注Twitter和Facebook,研究在政治选举和新冠疫情等相关事件期间,虚假信息和其他恶意内容传播所涉及的机制和参与者,因为公众此时对可靠信息的需求更高。作者对主流和传统新闻网站发布的可靠信息与反复被曝光传播虚假信息、误导信息、恶作剧、假新闻和极端宣传的网站传播的不可靠信息进行了系统性比较。

作者建立了一个回归模型,考虑了人口统计学、社会经济和政治因素,发现在线虚假信息与疫苗结果之间存在显著关联。最后,基于上述分析的结果,作者部署了一种方法来准确分类Twitter上用户自然交互的新闻文章。按照用户根据分享内容塑造不同传播模式的直觉,训练和测试现成的机器学习分类器,可以对新闻文章的真实性进行分类,而无需查看其内容。

Efficient and Secure Message Passing for Machine Learning

标题:机器学习的高效和安全的消息传递

作者:Xiaorui Liu

内容:机器学习(ML)技术给人类社会带来了革命性影响,未来它们也将继续作为技术创新者发挥作用。为了扩大其影响,迫切需要解决机器学习中出现的新兴和关键挑战,如效率和安全问题。

本论文的主要目标是通过创新研究和原理方法找出解决这些挑战的解决方案。特别是,作者提出了多种具有高效消息传递的分布式优化算法,以缓解通信瓶颈并加速分布式ML系统中的ML模型训练。作者还提出了多种安全消息传递方案作为图神经网络的构建模块,旨在显着提高ML模型的安全性和鲁棒性。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“KDD”获取全部获奖论文+代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/41002.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP--Request详解

请求消息数据格式 请求行 请求方式 请求url 请求协议/版本 GET /login.html HTTP/1.1 请求头 客户端浏览器告诉服务器一些信息 请求头名称: 请求头值 常见的请求头: User-Agent:浏览器告诉服务器,我访问你使用的浏览器版本信息 可…

【日常积累】HTTP和HTTPS的区别

背景 在运维面试中,经常会遇到面试官提问http和https的区别,今天咱们先来简单了解一下。 超文本传输协议HTTP被用于在Web浏览器和网站服务器之间传递信息,HTTP协议以明文方式发送内容,不提供任何方式的数据加密,如果…

09- DMA(DirectMemoryAccess直接存储器访问)

DMA 09 、DMA(DirectMemoryAccess直接存储器访问)DMA配置流程 09 、DMA(DirectMemoryAccess直接存储器访问) DMA配置流程 dma.c文件 main.c文件 详见《stm32中文参考手册》表57。

tsconfig.json和jsconfig.json配置

{// 编译选项"compilerOptions": {// 生成代码的语言版本:将我们写的 TS 代码编译成哪个版本的 JS 代码// 命令行: tsc --target es5 11-测试TS配置文件.ts"target": "es5",// 指定要包含在编译中的 library"lib&quo…

3年 Android 开发的面试心经(后悔当初没有拿 N+1)

作者:勇闯天涯 当某人顺利通过大厂面试时,总会有人认为这是运气比较好罢了,但他们不曾得知对方之前受过多少苦和委屈,又付出了多少努力一步步去突破这些困境。正是因为他们的努力付出,在合适的时间与地点,用…

AlphaZero能否从围棋和国际象棋飞跃到量子计算?

一项新的研究表明,DeepMind惊人的游戏算法AlphaZero可以帮助释放量子计算的力量和潜力。 自两年多前出现以来,AlphaZero一再证明了其快速学习能力,将自己提升到围棋,国际象棋和将棋(日本象棋)的特级大师级别…

VHDL记录

文章目录 使用function名称作为“常量”numeric_std包集中使用乘法的注意项variable的使用对于entity设置属性的方法在entity声明中嵌入function的定义VHDL仿真读写文件File declaration/File handingFile readingFile writing小例子 使用函数 模块中打印出调试信息 使用functi…

RTC实验

一、RTC简介 RTC(Real Time Clock)即实时时钟,它是一个可以为系统提供精确的时间基准的元器件,RTC一般采用精度较高的晶振作为时钟源,有些RTC为了在主电源掉电时还可以工作,需要外加电池供电BCD码,四位二进制表示一位…

Java Persistence APl(JPA)——JPA是啥? SpringBoot整合JPA JPA的增删改查 条件模糊查询 多对一查询

目录 引出Jpa是啥?Jpa的使用创建实体类写dao接口类写服务类 crud增删改查增加修改根据id删除全查询分页查询 条件查询模糊查询单条件查询多条件查询模糊查询排序查询 多对一查询定义实体类auto主键策略下新增进行全查询测试 全部代码application.yml配置类pom配置文…

Java反射机制是什么?

Java反射机制是 Java 语言的一个重要特性。 在学习 Java 反射机制前,大家应该先了解两个概念,编译期和运行期。 编译期是指把源码交给编译器编译成计算机可以执行的文件的过程。在 Java 中也就是把 Java 代码编成 class 文件的过程。编译期只是做了一些…

iPhone(iPad)安装deb文件

最简单的方法就是把deb相关的文件拖入手机对应的目录,一般是DynamicLibraries文件夹 参考:探讨手机越狱和安装deb文件的几种方式研究 1、在 Mac 上安装 dpkg 命令 打包 deb 教程之在 Mac 上安装 dpkg 命令_xcode打包root权限deb_qq_34810996的博客-CS…

驱动DAY4 字符设备驱动分步注册和ioctl函数点亮LED灯

头文件 #ifndef __HEAD_H__ #define __HEAD_H__ typedef struct{unsigned int MODER;unsigned int OTYPER;unsigned int OSPEEDR;unsigned int PUPDR;unsigned int IDR;unsigned int ODR; }gpio_t; #define PHY_LED1_ADDR 0X50006000 #define PHY_LED2_ADDR 0X50007000 #d…

一百五十八、Kettle——Kettle各版本及其相关安装包分享(网盘链接,不需积分、不需验证码) 持续更新、持续分享

一、目的 最近因为kettle9.3的shim问题看了好多博客,都没有网盘分享。后来有一位博主分享了kettle9.2的shim安装包,已经很感谢他,但是是博客分享,下载还需要搞验证码下载码之类的。 kettle9.2的shim安装包下载好后,一…

图数据库_Neo4j基于docker服务版安装_Neo4j Desktop桌面版安装---Neo4j图数据库工作笔记0004

然后我们来看看如何用docker来安装Neo4j community server 首先去执行docker pull neo4j:3.5.22-community 去拉取镜像 然后执行命令就可以安装了 可以用docker ps查看一下 看看暴露了哪些端口 然后再看一下访问一下这个时候,要用IP地址了注意 然后再来看一下安装Desktop 去下…

Sigmastar SSC8826Q 2K行车记录仪解决方案

一、方案描述 行车记录仪是智能辅助汽车驾驶,和管理行车生活的车联网智能终端设备,利用智能芯片处理器、GPS定位、网络通信、自动控制等技术,将与行车生活有关的各项数据有机地结合在一起。 行车记录仪如今已经成了必不可少的车载用品之一&…

双向-->带头-->循环链表

目录 一、双向带头循环链表概述 1.什么是双向带头循环链表 2.双向带头循环链表的优势 3.双向带头循环链表简图 二、双向带头循环链表的增删查改图解及代码实现 1.双向带头循环链表的头插 2.双向带头循环链表的尾插 3.双向带头循环链表的头删 4.双向带头循环链表的尾删…

ATF(TF-A) 威胁模型汇总

安全之安全(security)博客目录导读 目录计划如下,相关内容补充中,待完成后进行超链接,敬请期待,欢迎您的关注 1、通用威胁模型 2、SPMC威胁模型 3、EL3 SPMC威胁模型 4、fvp_r 平台威胁模型 5、RSS-AP接口威胁模型 威胁建模是安全…

浅学实战:探索PySpark实践,解锁大数据魔法!

文章目录 Spark和PySpark概述1.1 Spark简介1.2 PySpark简介 二 基础准备2.1 PySpark库的安装2.2 构建SparkContext对象2.3 SparkContext和SparkSession2.4 构建SparkSession对象2.5 PySpark的编程模型 三 数据输入3.1 RDD对象3.2 Python数据容器转RDD对象3.3 读取文件转RDD对象…

IDEA的常用设置,让你更快速的编程

一、前言 在使用JetBrains的IntelliJ IDEA进行软件开发时,了解和正确配置一些常用设置是非常重要的。IDEA的强大功能和定制性使得开发过程更加高效和舒适。 在本文中,我们将介绍一些常用的IDEA设置,帮助您更好地利用IDEA进行开发。这些设置包…

Java面向对象——封装以及this关键字

封 装 封装是面向对象编程(OOP)的三大特性之一,它将数据和操作数据的方法组合在一个单元内部,并对外部隐藏其具体实现细节。在Java中,封装是通过类的访问控制修饰符(如 private、protected、public&#x…