数据挖掘及其近年来研究热点介绍

🎀个人主页: https://zhangxiaoshu.blog.csdn.net
📢欢迎大家:关注🔍+点赞👍+评论📝+收藏⭐️,如有错误敬请指正!
💕未来很长,值得我们全力奔赴更美好的生活!

前言

数据挖掘技术通过从数据中提取有价值的信息和知识,帮助人们更好地理解和利用数据,例如发现隐藏在数据背后的模式和规律、提供决策支持和预测能力、优化业务流程和资源利用、改进产品和服务质量以及识别欺诈和风险等,推动了现代社会的发展和进步,对于企业、政府、科研机构等各个领域都具有重要的意义。本文对数据挖掘技术的应用和挑战以及近年来研究热点进行简单介绍。


文章目录

  • 前言
  • 一、数据挖掘的介绍
  • 二、文献调研
    • 1. 数据挖掘近年来研究热点总结
    • 2.KDD、PAKDD近年来会议论文数据
  • 总结


一、数据挖掘的介绍

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等[1]。
在这里插入图片描述

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

二、文献调研

1. 数据挖掘近年来研究热点总结

近些年来,数据挖掘技术渗透到了生活的方方面面,本文在查阅了大量的资料和文献基础上,对于数据挖掘技术近些年来的热点研究方向和应用进行简单阐述。

多模态广告融合推荐算法研究;推荐系统的物品侧一般会有图像、声音、文本等多种模态的信息,这些信息可以从多个方面刻画物品。如何去表征这些多模态的信息,并且将这些信息融入到推荐模型中,尤其是融入到当前的用户兴趣模型中,去动态地识别图像和文本中最影响用户兴趣的部分,是我们面临的一大挑战。

融合多场景的推荐系统研究;微信中存在不同的推荐场景,基于用户兴趣、社交等不同维度,满足用户多方面的信息获取需求,通过充分利用不同场景和业务的数据,可以进行推荐系统的多场景多任务联合优化。

基于知识图谱的兴趣推理及其在推荐系统中的应用;推荐系统中,往往基于用户-物品的交互来进行推荐。知识图谱中蕴含的结构化知识可以辅助推荐系统的可解释性,并扩展推荐系统的多样性。现有的知识图谱辅助推荐的方法,多考虑建模物品之间的实体与关系,而较少考虑刻画兴趣点之间的复杂关系及其演化。基于知识图谱的兴趣推理与扩展技术,通过弱监督学习、知识图谱结构挖掘、常识推理、强化学习等技术,习得基于用户-物品交互背后的显示兴趣表示,生成可解释的兴趣扩展路径。

患者疾病模型和行为预测;由于新冠疫情的爆发,线上线下结合的治疗方式越来越受到重视,也产生了一系列相关的研究课题,包括并不限于:挖掘患者相关的医疗数据,进行疾病预测以及对应的疾病阶段预测;患者用药脱落风险预测,提高患者依从性;患者治疗后院外风险预测,是否会有并发症,抑郁等情况出现。研究这些课题,设计到医学数据挖掘,结合医学知识图谱和行为数据的预测模型、超长时间预测模型、少样本学习、医学预训练模型等技术。

医疗数据的主动学习/半监督学习;不同于自然图像,医疗图像(如 CT、MRI)往往为 3D 数据,存在标注难度大、标注信息难以获取、标注成本高昂等问题。我们希望通过主动学习从未标注数据中挑选“更有训练价值的”样本,并进一步通过半监督算法,在降低标注成本的前提下,使深度学习在医疗图像相关任务上取得更好的效果。

交通大数据分析;基于交通大数据,研究城市时空动态预测、网络空间分析、空间决策优化、大数据可视化的理论方法和技术,并在实际场景中创新应用,解决复杂现实问题。

游戏社交推荐算法优化;游戏社交推荐算法具有较多应用场景,如好友推荐、战队推荐、物品推荐、网络传播等,同时游戏社交数据纷繁复杂,包括玩家图片、社交网络、游戏数据等。如何设计有效的推荐算法,具有较高的研究价值。

2.KDD、PAKDD近年来会议论文数据

数据挖掘相关的顶会论文如KDD、PAKDD最近几年的热门主题主要在商业智能方向,即推荐系统和计算广告。本文整理了相关的推荐系统和计算广告方向的相关研究。

推理;因果推断是推荐系统近期的热点,可以为推荐效果提升、AB实验等带来可靠性分析。近年来的相关研究有:新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)、社会意识自监督的立体推荐系统(Socially-Aware Self-Supervised Tri-Training for Recommendation)、不可知反事实推理模型消除推荐系统的流行偏差(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System)等。

多任务、多目标、跨领域推荐场景;多任务、多领域推荐将不同的领域视作不同的任务,比如新闻推荐、视频推荐两个领域的数据可以联合起来训练。多领域推荐和跨领域推荐不同,多领域推荐旨在提升多个领域的效果,而跨领域推荐旨在提升目标领域的效果,一个有方向性一个无方向性。多任务推荐有极高的研究价值和实践价值。从研究角度讲,多任务推荐可以联合多个任务的推荐任务,更进一步提升推荐性能。从实践角度讲,引入额外任务的数据大概率对原有任务有所帮助,是一个一定有效果提升的方法。近年来的相关研究有:序列依赖多任务学习(Modeling the Sequential Dependence among Audience Multi-step Conversions withMulti-task Learning in Targeted Display Advertising)、混合场景多任务学习(Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendationand Advertising)、对抗特征迁移多任务学习(Adversarial Feature Translation for Multi-domain Recommendation)、迁移学习去偏(Debiasing Learning based Cross-domain Recommendation)等。

纠偏;纠偏,其实就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。构建一个稳定运行的推荐生态系统,纠偏的措施必不可少。近年来的相关研究有:反事实模型推断纠偏(Deconfounded Recommendation for Alleviating Bias Amplification)、动态推荐系统的热度纠偏(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias inRecommender System和Popularity Bias in Dynamic Recommendation)、大规模推荐系统纠偏(Contrastive Learning for Debiased Candidate Generation in Large-Scale RecommenderSystems)、跨域推荐纠偏(Debiasing Learning based Cross-domain Recommendation)等。

基于图的推荐系统;图神经网络落地推荐系统是近期的热点,是建模类图关系的有效工具。近年来的相关研究有:高效图神经网络训练(MixGCF: An Improved Training Method for Graph Neural Network-based RecommenderSystems)、面向冷启动推荐的异构信息网络多视图去噪图自动编码器(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks foCold-start Recommendation)、新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)。

冷启动;指数据挖掘需要数据的积累,而产品初期数据为空或者数据量太少导致所需的数据量达不到要求。因此冷启动就是积累第一批种子用户的过程。冷启动是推荐系统建立初期必然面对的问题,近年来的相关研究有:异构信息网络多视图去噪图自动编码器实现冷启动(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks forCold-start Recommendation)、半个性化的音乐流媒体应用冷启动推荐系统(A Semi-Personalized System for User Cold Start Recommendation on Music StreamingApps)、在线推荐系统的架构及其自适应网络的操作(Architecture and Operation Adaptive Network for Online Recommendations)。

序列推荐;在真实场景的推荐系统中,通常会使用所有数据来训练推荐模型,学到的user embedding可以表示用户的兴趣偏好。但是这样的用户表示可能会遗漏用户的序列行为信息,而序列推荐则旨在显式地建模用户的序列行为,提升推荐系统的效果。序列推荐近年来的相关研究有:基于序列多模态信息传输网络的电商微视频推荐系统(SEMlI: A Sequential Multi-Modal Information Transfer Network for E-Commerce Micro-Video Recommendations)。

兴趣推荐;兴趣点推荐近年来的相关研究有:基于元学习的下一代兴趣点推荐系统(Curriculum Meta-Learning for Next POI Recommendation)。
Embedding;Embedding可以认为是推荐算法的核心基石之一,Embedding的主要作用是将稀疏向量转换成稠密向量,便于上层深度神经网络处理。近年来的相关研究有:定制设备上的弹性embedding(Learning Elastic Embeddings for Customizing On-Device Recommenders)、无embedding表的推荐系统特征建模(Learning to Embed Categorical Features without Embedding Tables for Recommendation)、推荐系统中的偏好放大(Preference Amplification in Recommender Systems)、推荐系统中网络嵌入方法的综合分析(Where are we in embedding spaces?A Comprehensive Analysis on Network EmbeddingApproaches for Recommender System)等。

蒸馏;蒸馏是为了解决小型化的问题,近年来的相关研究有:基于拓扑蒸馏的推荐系统(Topology Distillation for Recommender System)。

对抗攻击;对抗攻击是机器学习场景当中,广泛存在的问题,同样也是推荐场景所要面对的问题之一。近年来的相关研究有:不完整及扰动数据攻击推荐系统(Data Poisoning Attack against Recommender System Using Incomplete and PerturbedData)、基于正则化信息的流形神经网络推荐系统(Lnitialization Matters: Regularizing Manifold-informed lnitialization for NeuralRecommendation Systems)、三元对抗学习在推荐系统中毒攻击中的应用(Triple Adversarial Learning for lnfluence based Poisoning Attack in RecommenderSystems)等。

计算广告;计算广告与推荐系统场景非常相似,近年来的相关研究有:策略、广告模型(A Unified Solution to Constrained Bidding in Online Display AdvertisingClustering for Private Interest-based Advertising)、对抗学习(Diversity driven Query Rewriting in Search Advertising)等。


总结

本文对数据挖掘的概念进行了一个初步的介绍,在此基础上,本文基于大量数据挖掘相关论文的基础上,对数据挖掘近年来在学术界、工业界的热点研究方向进行了总结,

文中图片大多来自论文和网络,如有侵权,联系删除,文中有不对的地方欢迎指正、补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/799959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jdk目录结构

jdk目录详解 JDK(Java Development Kit,Java开发包,Java开发工具)是一个写Java的applet和应用程序的程序开发环境。它由一个处于操作系统层之上的运行环境还有开发者 编译,调试和运行用Java语言写的applet和应用程序所需的工具组成。 JDK(J…

【数据结构】考研真题攻克与重点知识点剖析 - 第 6 篇:图

前言 本文基础知识部分来自于b站:分享笔记的好人儿的思维导图与王道考研课程,感谢大佬的开源精神,习题来自老师划的重点以及考研真题。此前我尝试了完全使用Python或是结合大语言模型对考研真题进行数据清洗与可视化分析,本人技术…

爱普生语音芯片的特点与应用市场

随着物联网与智能家居的普及,越来越多的电子产品有了语音播报的需求。但是很多客户没有类似的开发经验或者他们的产品内部只能承载一个蜂鸣器。这样的情况下要如何实现快速的产品升级呢?下面让我们来看一下差普生语音芯片是如果帮助客户的。目前爱普生语音芯片分为…

Redis 的主从复制、哨兵和cluster集群

目录 一. Redis 主从复制 1. 介绍 2. 作用 3. 流程 4. 搭建 Redis 主从复制 安装redis 修改 master 的Redis配置文件 修改 slave 的Redis配置文件 验证主从效果 二. Redis 哨兵模式 1. 介绍 2. 原理 3. 哨兵模式的作用 4. 工作流程 4.1 故障转移机制 4.2 主节…

记录一次内网渗透过程

0x01 前言: 一切以学习为主,记录一次小小的攻击过程 本次是通过外网漏洞撕开的口子,主要通过一下方式 拿到了目标资产 nday扫一扫 弱口令爆一爆 上传接口找一找 后台上传找一找 数据库弱口令 关注新day,有了立马在资产里面…

K8s学习三(Pod与探针)

深入学习Pod Pod配置文件 写一个自己的配置文件,nginx-po.yaml apiVersion: v1 #api文档版本 kind: Pod #资源类型对象,也可以配置为像Development,StatefulSet这一类的对象 metadata: # Pod相关的元数据,用于描述Pod的数据name: nginx-po…

深度比较Vue 3.0中的computed和watch属性用法与最佳实践

摘要:在Vue 3.0中,computed和watch属性是用于处理数据逻辑的重要工具。本文将详细对比这两个属性的工作原理、适用场景以及使用时的注意事项,旨在帮助开发者更有效地选择和使用它们。 一、computed属性 computed属性是Vue 3.0中用于计算数据…

【随笔】Git 高级篇 -- 相对引用2 HEAD~n(十三)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…

D. Constructing the Array Codeforces Round 642 (Div. 3)

题目链接:Problem - 1353D - Codeforceshttps://codeforces.com/problemset/problem/1353/D 题目大意: 往空的数组里从1~n填数字,每次填最长的空区间的中间位置(位置向下取整)。 思路: 用二分判断放每一个数…

【信贷后台管理之(五)】

文章目录 目录结构一、面包屑组件封装二、退出登录接口联调三、申请列表的菜单路由3.1 路由创建,表格编写3.2 列表接口调用3.3 出生日期转变3.4 申请状态3.5 申请列表的操作3.5.1 编辑删除提交操作3.5.2 禁用状态3.5.3 操作接口3.5.4 搜索查询3.5.5 申请列表分页功能…

探索Python爬虫:解析网页数据的神奇之旅

在当今数字化时代,信息的获取变得比以往任何时候都更加便捷。然而,即使在互联网上,获取数据也需要通过正确的工具和技术。Python爬虫就是这样一种强大的工具,它可以让我们轻松地从互联网上收集数据,并将其转化为有用的…

DFS-0与异或问题,有奖问答,飞机降落

代码和解析 #include<bits/stdc.h> using namespace std; int a[5][5]{{1,0,1,0,1}}; //记录图中圆圈内的值&#xff0c;并初始化第1行 int gate[11]; //记录10个逻辑门的一种排列 int ans; //答案 int logic(int x, int y, int op){…

vue中的treeselect下拉框显示不全的解决办法

:appendToBody“true” z-index“9000” 如图&#xff1a;页面中显示的下拉框信息展示不全&#xff0c;就看不见了&#xff0c;也没有滚动条 解决办法&#xff1a;在代码中添加属性【:appendToBody“true” z-index“9000”】 z-index 属性设置元素的堆叠顺序。拥有更高堆叠顺…

Redis: 持久化

文章目录 一、RDB持久化1、概念2、生成、载入RDB文件3、执行时机&#xff08;1&#xff09; 执行save命令&#xff08;2&#xff09;执行bgsave命令&#xff08;3&#xff09;Redis停机时&#xff08;4&#xff09;触发RDB条件 4、bgsave原理5、小结 二、AOF持久化1、概念2、AO…

蓝桥杯刷题-14-更小的数-区间DP⭐

蓝桥杯2023年第十四届省赛真题-更小的数 //区间DP #include <iostream> #include<bits/stdc.h> #define int long long using namespace std; const int N5e310; int f[N][N]; void solve(){string s;cin>>s;int ans0;for(int len2;len<s.size();len){for…

Linux从入门到精通 --- 3.用户、权限

文章目录 第三章&#xff1a;3.1 root用户3.1.1 su3.1.2 exit3.1.3 sudo 3.2 用户和用户组3.2.1 用户组管理创建用户组删除用户组 3.2.2 用户管理创建用户删除用户查看用户所属组修改用户所属组 3.2.3 getent一&#xff1a;二&#xff1a; 3.3 查看权限控制信息3.3.1 认知权限信…

zdpdjango_argonadmin使用Django开发一个美观的后台管理系统

初始代码 安装依赖 pip install -r requirements.txt生成管理员账户 迁移模型&#xff1a; python manage.py makemigrations python manage.py migrate创建超级用户&#xff1a; python manage.py createsuperuser启动服务 python manage.py runserver浏览器访问&#xf…

高项-案例分析练习(成本管理)

题目来源&#xff1a;信管网 案例一 某企业承接了某政府部门的系统集成项目&#xff0c;项目投标费用为5万元&#xff0c;预计每个子项目开发完成后的维护成本为50万元&#xff0c;项目初步的WBS分解结构如图所示。 题目一 【问题1】&#xff08;2分&#xff09; 假如估算出子…

多模态AI全解析:概念、应用与风险

大家好&#xff0c;在人工智能的快速发展浪潮中&#xff0c;多模态学习作为一项革命性技术&#xff0c;正逐渐改变着我们与机器交互的方式。 自OpenAI推出ChatGPT以来&#xff0c;人工智能已经从处理单一文本输入的单模态工具&#xff0c;迈向了能够理解和生成包括文本、图像、…

比 Nest.js 更优雅的 TS 控制反转策略 - 依赖查找

一、Cabloy5.0 内测预告 Cabloy5.0 采用 TS 对整个全栈框架进行了脱胎换骨般的大重构&#xff0c;并且提供了更加优雅的 ts 控制反转策略&#xff0c;让我们的业务开发更加快捷顺畅 1. 新旧技术栈对比&#xff1a; 后端前端旧版js、egg2.0、mysqljs、vue2、framework7新版ts…