【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

大家好,我是微学AI,今天给大家介绍一下人工智能124种任务大集合,任务集合主要包括4大类:自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态任务。
在这里插入图片描述

我这里整理了124种应用场景任务大集合,每个任务目录如下:

  1. 句子嵌入(Sentence Embedding):将句子映射到固定维度的向量表示形式。
  2. 文本排序(Text Ranking):对一组文本进行排序,以确定它们与给定查询的相关性。
  3. 分词(Word Segmentation):将连续的文本切分成单词或词块的过程。
  4. 词性标注(Part-of-Speech):对句子中的每个词汇标注其相应的词性。
  5. 标记分类(Token Classification):将输入的文本序列中的每个标记分类为预定义的类别。
  6. 命名实体识别(Named Entity Recognition):识别文本中具有特定意义的命名实体,如人名、地点、组织等。
  7. 关系抽取(Relation Extraction):从文本中抽取出实体之间的关系或联系。
  8. 信息抽取(Information Extraction):从非结构化文本中提取结构化的信息,如实体、关系和属性等。
  9. 句子相似度(Sentence Similarity):衡量两个句子之间的语义相似度或相关性。
  10. 文本翻译(Translation):将一种语言的文本转换为另一种语言的过程。
  11. 自然语言推理(NLI:Natural Language Inference):判断给定的前提和假设之间的逻辑关系,包括蕴含、矛盾和中立等。
  12. 情感分类(Sentiment Classification):将文本分为积极、消极或中性等情感类别。
  13. 人像抠图(Portrait Matting):从图像中准确地分离人物主体与背景。
  14. 通用抠图(Universal Matting):从图像中准确地分离目标物体与背景,不限于人像。
  15. 人体检测(Human Detection):检测图像或视频中的人体位置。
  16. 图像目标检测(Image Object Detection):在图像中检测和定位多个目标对象。
  17. 图像去噪(Image Denoising):降低图像中的噪声水平,改善图像质量。
  18. 图像去模糊(Image Deblurring):恢复模糊图像的清晰度和细节。
  19. 视频稳定化(Video Stabilization):对视频进行抖动校正,使其稳定且平滑。
  20. 视频超分辨率(Video Super-Resolution):通过增加视频的像素级别细节来提高其分辨率。
  21. 文本分类(Text Classification):将文本分类为预定义的类别或标签。
  22. 文本生成(Text Generation):根据给定输入生成连续文本的过程。
  23. 零样本分类(Zero-Shot Classification):将数据分类为模型从未在训练阶段见过的类别。
  24. 任务导向对话(Task-Oriented Conversation):进行与特定任务相关的对话和问答。
  25. 对话状态跟踪(Dialog State Tracking):跟踪多轮对话中的用户意图和系统状态的变化。
  26. 表格问答(Table Question Answering):根据表格数据回答相关问题。
  27. 文档导向对话生成(Document-Grounded Dialog Generation):基于文档内容生成相关对话回复。
  28. 文档导向对话重新排序(Document-Grounded Dialog Rerank):对生成的对话回复进行排序,以选择最佳回复。
  29. 文档导向对话检索(Document-Grounded Dialog Retrieval):从候选对话中检索与文档相关的最佳对话。
  30. 文本纠错(Text Error Correction):自动纠正文本中的拼写错误或语法错误。
  31. 图像字幕生成(Image Captioning):根据图像内容生成对图像的描述性文字。
  32. 视频字幕生成(Video Captioning):根据视频内容生成对视频的描述性文字。
  33. 图像人像风格化(Image Portrait Stylization):将图像中的人物主体应用艺术风格转换。
  34. 光学字符识别(OCR Detection):从图像中检测和识别文字。
  35. 表格识别(Table Recognition):从图像中自动识别表格结构和内容。
  36. 无线表格识别(Lineless Table Recognition):从无线表格图像中自动识别表格结构和内容。
  37. 文档视觉语义嵌入(Document-VL Embedding):将文档映射到视觉语义空间的向量表示形式。
  38. 车牌检测(License Plate Detection):在图像中检测和定位车辆的车牌区域。
  39. 填充掩码(Fill-Mask):根据上下文和部分信息填充给定的掩码。
  40. 特征提取(Feature Extraction):从输入数据中提取有意义的特征表示。
  41. 动作识别(Action Recognition):识别视频中的动作或行为。
  42. 动作检测(Action Detection):在视频中检测和定位特定动作或行为。
  43. 直播分类(Live Category):对直播视频进行分类,如体育、新闻、游戏等。
  44. 视频分类(Video Category):对视频进行分类,如电影、音乐、体育等。
  45. 多模态嵌入(Multi-Modal Embedding):将多种不同模态的数据映射到共享的向量空间。
  46. 生成式多模态嵌入(Generative Multi-Modal Embedding):将多模态数据映射到向量表示,并且能够生成与之相关的数据。
  47. 多模态相似度(Multi-Modal Similarity):衡量多模态数据(例如图像和文本)之间的相似性或相关性。
  48. 视觉问答(Visual Question Answering):根据给定的图像和问题回答相关问题。
  49. 视频问答(Video Question Answering):根据给定的视频和问题回答相关问题。
  50. 视频嵌入(Video Embedding):将视频序列映射到固定维度的向量表示形式。
  51. 文本到图像合成(Text-to-Image Synthesis):根据给定的文本描述合成相应的图像。
  52. 文本到视频合成(Text-to-Video Synthesis):根据给定的文本描述合成相应的视频。
  53. 人体二维关键点(Body 2D Keypoints):检测和跟踪图像中的人体关键点。
  54. 人体三维关键点(Body 3D Keypoints):在三维空间中检测和跟踪人体关键点。
  55. 手部二维关键点(Hand 2D Keypoints):检测和跟踪图像中的手部关键点。
  56. 卡片检测(Card Detection):在图像中检测和定位特定类型的卡片。
  57. 内容检查(Content Check):检查文本或图像中是否存在不良、敏感或违法内容。
  58. 人脸检测(Face Detection):检测图像或视频中的人脸位置。
  59. 人脸活体检测(Face Liveness):判断图像或视频中的人脸是否为真实的活体,而非照片或视频。
  60. 人脸识别(Face Recognition):识别图像或视频中的人脸,并将其与已知的身份进行匹配。
  61. 面部表情识别(Facial Expression Recognition):识别图像或视频中人脸的表情状态,如快乐、悲伤、愤怒等。
  62. 面部属性识别(Face Attribute Recognition):识别图像或视频中人脸的属性,如年龄、性别、种族等。
  63. 面部二维关键点(Face 2D Keypoints):检测和跟踪图像中的面部关键点。
  64. 面部质量评估(Face Quality Assessment):评估图像或视频中人脸图像的质量。
  65. 视频多模态嵌入(Video Multi-Modal Embedding):将多模态数据(如图像和文本)映射到共享的向量空间。
  66. 图像色彩增强(Image Color Enhancement):增强图像的色彩饱和度、对比度和亮度等。
  67. 虚拟试衣(Virtual Try-On):通过计算机生成的技术,将虚拟服装应用到真实人体图像上,以实现在线试穿效果。
  68. 图像上色(Image Colorization):将灰度图像恢复为彩色图像的过程。
  69. 视频上色(Video Colorization):将黑白视频恢复为彩色视频的过程。
  70. 图像分割(Image Segmentation):将图像分成多个不同的区域或对象。
  71. 图像驾驶感知(Image Driving Perception):利用计算机视觉技术提取图像中与驾驶相关的信息,如车道线、交通标志等。
  72. 图像深度估计(Image Depth Estimation):根据单目或双目图像估计场景中物体的深度或距离。
  73. 室内布局估计(Indoor Layout Estimation):根据室内图像估计房间的布局结构。
  74. 视频深度估计(Video Depth Estimation):根据视频中的帧间信息估计场景中物体的深度或距离。
  75. 全景深度估计(Panorama Depth Estimation):在全景图像中估计场景中物体的深度或距离。
  76. 图像风格迁移(Image Style Transfer):将一个图像的风格应用到另一个图像上,以生成具有新风格的图像。
  77. 面部图像生成(Face Image Generation):生成逼真的面部图像,可以用于人脸数据增强、数据生成等应用。
  78. 图像超分辨率(Image Super-Resolution):通过增加图像的像素级细节来提高其分辨率。
  79. 图像去块效应(Image Debanding):减少图像中由压缩引起的块状伪影或条纹噪声。
  80. 图像人像增强(Image Portrait Enhancement):改善图像中人物主体的外观、肤色等特征。
  81. 商品检索嵌入(Product Retrieval Embedding):将商品映射到向量表示形式,以支持商品相关性检索。
  82. 图像到图像生成(Image-to-Image Generation):根据给定的输入图像生成相应的输出图像。
  83. 图像分类(Image Classification):将图像分类为预定义的类别或标签。
  84. 光学字符识别(OCR Recognition):从图像中检测和识别印刷体或手写体的文字。
  85. 美肤(Skin Retouching):对人脸图像进行美化处理,去除皮肤瑕疵、磨皮等。
  86. 常见问题解答(FAQ Question Answering):根据常见问题回答用户的提问。
  87. 人群计数(Crowd Counting):根据图像或视频中的人群密度估计人数。
  88. 视频单目标跟踪(Video Single Object Tracking):在视频序列中跟踪单个目标对象。
  89. 图像人物再识别(Image ReID - Person):根据图像中的人物外观特征进行身份再识别。
  90. 文本驱动分割(Text-Driven Segmentation):根据给定的文本描述,对图像或视频中的对象进行分割。
  91. 电影场景分割(Movie Scene Segmentation):将电影或视频分割为不同的场景,每个场景代表一个独立的情节或事件。
  92. 商店分割(Shop Segmentation):将商店内的物体或区域从图像或视频中分割出来,用于商品展示、智能监控等应用。
  93. 图像修复(Image Inpainting):根据已有的图像内容,填补缺失或损坏的部分,恢复原始图像的完整性。
  94. 图像按范例绘制(Image Paint-By-Example):根据给定的范例图像,将其他图像修改为具有相似绘画风格或效果的图像。
  95. 可控图像生成(Controllable Image Generation):通过控制输入参数或向量,生成具有特定属性、风格或特征的图像。
  96. 视频修复(Video Inpainting):根据已有的视频内容,填补缺失或损坏的帧或区域,恢复原始视频的完整性。
  97. 视频人像抠像(Video Human Matting):将视频中的人物从背景中分割出来,以便进行后续的编辑或特效处理。
  98. 人体重建(Human Reconstruction):基于给定的图像、视频或传感器数据,重建人体的三维模型或姿态信息。
  99. 视频帧插值(Video Frame Interpolation):对给定的两个视频帧之间的帧进行生成,以增加视频的帧率或平滑过渡。
  100. 视频去隔行(Video Deinterlace):将隔行扫描的视频转换为逐行扫描,提高视频播放的质量和流畅度。
  101. 全身人体关键点检测(Human Wholebody Keypoint Detection):在图像或视频中检测和定位人体的关键点,例如头部、手、脚等。
  102. 静态手势识别(Hand Static):通过分析手掌形状、手指姿势等信息,识别图像或视频中的静态手势。
  103. 人脸、人体和手部检测(Face-Human-Hand Detection):检测和定位图像或视频中的人脸、人体和手部区域。
  104. 人脸情绪分析(Face Emotion):通过分析人脸表情,判断图像或视频中人脸所表达的情绪状态。
  105. 商品分割(Product Segmentation):将图像或视频中的商品或产品从背景中分割出来,用于商品识别、广告推荐等应用。
  106. 参考视频对象分割(Referring Video Object Segmentation):根据给定的参考图像或视频,对图像或视频中的对象进行分割。
  107. 视频摘要(Video Summarization):根据视频的内容和特征,生成视频的摘要或概览,提供视频浏览和检索的便利性。
  108. 图像天空变换(Image Sky Change):将图像中的天空部分替换为不同的天空背景,改变图像的氛围和环境。
  109. 翻译评估(Translation Evaluation):根据给定的翻译结果,评估其质量、准确性以及与原文的一致性。
  110. 视频对象分割(Video Object Segmentation):将视频中的对象从背景中分割出来,以便进行后续的编辑或特效处理。
  111. 视频多目标跟踪(Video Multi-Object Tracking):在视频中同时跟踪多个移动目标,实时定位和追踪目标的位置。
  112. 多视角深度估计(Multi-View Depth Estimation):通过多个视图或图像,估计场景中物体的三维深度信息。
  113. 少样本检测(Few-Shot Detection):在只有少量标注样本的情况下,进行目标检测任务,提高模型的泛化能力。
  114. 人体形状重塑(Body Reshaping):根据图像或视频中的人体区域,调整人体的形状、姿态或比例,改变人体外貌。
  115. 人脸融合(Face Fusion):将一个人的面部特征或表情融合到另一个人的头像上,生成具有两者特点的合成图像。
  116. 图像匹配(Image Matching):在图像库或数据库中,找到与给定图像最相似或匹配的图像。
  117. 图像质量评估 - 主观评分(Image Quality Assessment - MOS):通过主观评分的方法,评估图像的质量,反映人眼对图像的感知。
  118. 图像质量评估 - 降质度量(Image Quality Assessment - Degradation):通过客观度量的方法,评估图像在不同变换或压缩条件下的质量。
  119. 视觉高效调优(Vision Efficient Tuning):通过自动化的方法,快速调优和优化视觉模型和算法,提升计算效率和准确性。
  120. 三维目标检测(Object Detection 3D):在三维空间中,检测和定位目标物体的位置、尺寸和姿态。
  121. 坏图像检测(Bad Image Detecting):识别和检测出图像中存在的噪点、模糊、失真等不良或低质量的图像。
  122. Nerf重建精度评估(NeRF Reconstruction Accuracy):评估神经辐射场(NeRF)模型在建立3D场景重建时的准确性和质量。
  123. Siamese UIE:Siamese网络用于UIE任务,即输入用户界面元素识别或生成的相关问题。
  124. 数学公式识别(LatexOCR):图片中数学公式的latex识别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/35896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工业物联网数据桥接教程:Modbus 桥接到 MQTT

Modbus 介绍 Modbus 是一种串行通信协议,用于连接工业自动化设备,最初由 Modicon 公司开发,诞生于 1979 年,现在已成为通用的通讯标准之一,广泛用于工业自动化场景。 Modbus 采用主从模式,支持多种传输方…

PyTorch深度学习实战(11)——卷积神经网络

PyTorch深度学习实战(11)——卷积神经网络 0. 前言1. 全连接网络的缺陷2. 卷积神经网络基本组件2.1 卷积2.2 步幅和填充2.3 池化2.3 卷积神经网络完整流程 3. 卷积和池化相比全连接网络的优势4. 使用 PyTorch 构建卷积神经网络4.1 使用 PyTorch 构建 CNN…

Linux学习之sed多行模式

N将下一行加入到模式空间 D删除模式空间中的第一个字符到第一个换行符 P打印模式空间中的第一个字符到第一个换行符 doubleSpace.txt里边的内容如下: goo d man使用下边的命令可以实现把上边对应的内容放到doubleSpace.txt。 echo goo >> doubleSpace.txt e…

sealos安装k8s

一、前言 1、我前面文章有写过使用 kubeadm 安装的方式,大家可以去参考 (二)k8s集群安装,有一系列的k8s文章说明 2、安装k8s的方式有很多 kubeadmsealoskubespray等等 3、关于sealos来安装 k8s ,也是非常建议大家去…

Idea 反编译jar包

实际项目中,有时候会需要更改jar包源码来达到业务需求,本文章将介绍一下如何通过Idea来进行jar反编译 1、Idea安装decompiler插件 2、找到decompiler插件文件夹 decompiler插件文件夹路径为:idea安装路径/plugins/java-decompiler/lib 3、…

可独立创建应用的SaaS多租户低代码平台之租户的应用管理说明

在IT系统中,“租户”(tenant)通常用于指代一种多租户架构(multi-tenancy),它是一种软件架构模式,允许多个用户或组织共享相同的应用程序或系统实例,但彼此之间的数据和配置被隔离开来…

C#软件外包开发框架

C# 是一种由微软开发的多范式编程语言,常用于开发各种类型的应用程序,从桌面应用程序到移动应用程序和Web应用程序。在 C# 开发中,有许多框架和库可供使用,用于简化开发过程、提高效率并实现特定的功能。下面和大家分享一些常见的…

代驾小程序怎么做

代驾小程序是一款专门为用户提供代驾服务的手机应用程序。它具有以下功能: 1. 预约代驾:代驾小程序允许用户在需要代驾服务时提前进行预约。用户可以选择出发地点、目的地以及预计用车时间,系统会自动匹配最合适的代驾司机,并确保…

div 中元素居中的N种常用方法

本文主要记录几种常用的div盒子水平垂直都居中的方法。本文主要参考了该篇博文并实践加以记录说明以加深理解记忆 css之div盒子居中常用方法大全 本文例子使用的 html body结构下的div 盒子模型如下&#xff1a; <body><div class"container"><div c…

Springboot 实践(1)MyEclipse2019创建maven工程

项目讲解步骤&#xff0c;基于本机已经正确安装Java 1.8.0及MyEclipse2019的基础之上&#xff0c;Java及MyEclipse的安装&#xff0c;请参考其他相关文档&#xff0c;Springboot 实践文稿不再赘述。项目创建讲解马上开始。 一、首先打开MyEclipse2019&#xff0c;进入工作空间选…

Linux系统下安装Git软件

环境说明 Linux系统&#xff1a;CentOS 7.9 安装GCC等 JDK版本&#xff1a;jdk-8u202-linux-x64.tar.gz Maven版本&#xff1a;apache-maven-3.8.8-bin.tar.gz 在以上环境下安装Git&#xff08;git-2.41.0.tar.gz&#xff09;软件。 查看是否安装Git软件 查看Git版本&#…

如何建设指标管理平台,实现企业运营效率提升

随着企业数字化转型的深入推进&#xff0c;建设指标管理平台已经成为企业数字化转型的重要组成部分。 建设指标管理平台可以帮助企业更好地了解业务数据和业务指标&#xff0c;实现数据可视化和智能化分析&#xff0c;提高企业的决策效率和管理水平。 在过去&#xff0c;企业通…

最小路径和——力扣64

文章目录 题目描述动态规划题目描述 动态规划 class Solution {public:int minPathSum(vector<vector<int>>

Python爬虫(十一)_案例:使用正则表达式的爬虫

本章将结合先前所学的爬虫和正则表达式知识&#xff0c;做一个简单的爬虫案例&#xff0c;更多内容请参考:Python学习指南 现在拥有了正则表达式这把神兵利器&#xff0c;我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站&#xff1…

2023年国赛数学建模思路 - 案例:异常检测

文章目录 赛题思路一、简介 -- 关于异常检测异常检测监督学习 二、异常检测算法2. 箱线图分析3. 基于距离/密度4. 基于划分思想 建模资料 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 一、简介 – 关于异常…

软考高级之系统架构师之数据通信与计算机网络

概念 OSPF 在划分区域之后&#xff0c;OSPF网络中的非主干区域中的路由器对于到外部网络的路由&#xff0c;一定要通过ABR(区域边界路由器)来转发&#xff0c;既然如此&#xff0c;对于区域内的路由器来说&#xff0c;就没有必要知道通往外部网络的详细路由&#xff0c;只要由…

保持城市天际线(力扣)贪心 JAVA

给你一座由 n x n 个街区组成的城市&#xff0c;每个街区都包含一座立方体建筑。给你一个下标从 0 开始的 n x n 整数矩阵 grid &#xff0c;其中 grid[r][c] 表示坐落于 r 行 c 列的建筑物的 高度 。 城市的 天际线 是从远处观察城市时&#xff0c;所有建筑物形成的外部轮廓。…

html2canvas生成图片地址Base64格式转成blob在转成file(二进制)可正常发送(保姆教程,复制粘贴可用)

开始: 最终结果: 1. html2canvas方法生成的图片地址已Base64编码形式放在img标签src中可直接展示生成的图片(注意页面标签获取位置,还有个setTimeout页面渲染需要时间) setTimeout(function () {var result {};v…

Python 使用Hadoop 3 之HDFS 总结

Hadoop 概述 Hadoop 是一个由Apache 软件基金会开发的分布式基础架构。用户可以在不了解分布式底层细节的情况下&#xff0c;开发分布式程序&#xff0c;充分利用集群的威力进行高速运算和存储。 Hadoop 实现一个分布式文件系统&#xff08;Hadoop Distributed File Sy…

将本地项目上传至gitee的详细步骤

将本地项目上传至gitee的详细步骤 1.在gitee上创建以自己项目名称命名的空项目2.进入想上传的项目的文件夹&#xff0c;然后右键点击3. 初始化本地环境&#xff0c;把该项目变成可被git管理的仓库4.添加该项目下的所有文件5.使用如下命令将文件添加到仓库中去6.将本地代码库与远…