文章目录
- 一. 机器学习与深度学习
- 1. 机器学习
- 2. 深度学习
- 二. 计算机视觉
- 1. 基本概念和分类
- 2. 未来计算机视觉面临的主要挑战
- 三. 自然语言处理
- 1. 基本概念与分类
- 2. 自然语言处理面临的四大挑战
- 四. 知识图谱
- 1. 基本概念
- 2. 应用场景
- 五. SLAM技术
- 1. 基本概念
- 2. 主要分类
- 六. 人机交互
- 七. VR/AR/MR技术
- 1. 基本概念和应用场景
- 2. 主要技术与难点
- 八. 生物特征识别的基本概念与应用场景
- 1. 生物特征识别的两个阶段
- 2. 应用场景
一. 机器学习与深度学习
1. 机器学习
机器学习(Machine Learning,ML)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的
交叉学科
,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能技术的核心。
基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测
。
机器学习分类
- 根据学习模式将机器学习分类为
监督学习、无监督学习和强化学习
等。- 根据学习方法可以将机器学习分为传统机器学习和深度学习。
2. 深度学习
- 深度学习是学习样本数据的内在规律和表示层次,学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
深度学习是机器学习的一个子集,利用多层神经网络从大量数据中进行学习
。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果远远超过先前相关技术。- 深度学习在搜索技术、数据挖掘、 机器学习、机器翻译、自然语言处理、多媒体学习、语音识别、推荐和个性化技术及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了巨大的进步。
人工智能、机器学习、深度学习三者之间的相互包含关系如图所示。
二. 计算机视觉
1. 基本概念和分类
- 计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有人类提取、处理、理解和分析图像及图像序列的能力。
- 自动驾驶、机器人、图片理解、视频理解、智慧医疗等领域均需通过计算机视觉技术从视觉信号中提取并处理信息。
计算机视觉可分为计算机成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
2. 未来计算机视觉面临的主要挑战
- 一是如何在不同的应用领域与其他技术更好的结合,进而提高识别精度。计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并超过人类,如图像分类、目标检测、图像分割等,
但一些非常细粒度的分类,非常小和模糊的目标检测和分割,以及如何保证在复杂光照变化下分割结果的稳定性精度较低。
二是如何降低计算机视觉算法的开发时间和人力成本
,目前计算机视觉算法的开发需要大量人工标注
的数据,导致需要较长的研发周期才能达到应用领域要求的精度和耗时。- 三是如何加快新型算法的设计开发,随着新的成像软件和人工芯片的出现,
针对不同芯片和数据采集设备的计算机视觉算法的设计和开发也是挑战之一
。
三. 自然语言处理
1. 基本概念与分类
自然语言处理事计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通讯的各种理论和方法。自然语言处理是一门融语言学、计算机科学和数学于一体的科学,主要包含机器翻译、语义理解和问答系统
等。
机器翻译
机器翻译是指利用计算机技术实现从一种语言到另外一种语言的翻译过程。主要方法包括基于规则和实例的翻译方法、基于统计的翻译方法以及基于深度学习的方法。基于深度学习的机器语言翻译在日常口语等一些场景中的成功应用已经显现出巨大的潜力,对则上下文的语境表征和逻辑推理能力的发展以及知识图谱的不断扩充,机器翻译将在多轮对话翻译和长篇章翻译中取得巨大进展。
语义理解
语义理解是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程,侧重于对上下文的理解和对答案精准程度的把控。语义理解将在产品自动问答、智能客服等相关领域发挥重要作用,提高问答与对话系统的准确度。
问答系统
问答系统是信息检索系统的一种高级形式,他能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。分为开放领域的对话系统和特定领域的问答系统。
2. 自然语言处理面临的四大挑战
- 在词法、句法、语义、语用和语音等不同层面存在不确定性;
- 新的词汇、术语、语义和语法导致未知语言现象的不可预测性;
- 数据资源的不充分使其难以覆盖复杂的语言现象;
- 语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。
四. 知识图谱
1. 基本概念
- 知识图谱的概念是由谷歌公司于2012年5月17日首次提出,旨在描述客观世界的概念、实体、事件及其之间的关系,并作为构建下一代智能化搜索引擎的核心基础。通俗的讲,知识图谱就是把所有不同种类的信息链接到一起而得到一个
关系网络
。知识图谱提供了从关系的角度分析问题的能力。知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关 “属性—值”对。
不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。
通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角 度去分析问题的能力。
2. 应用场景
知识图谱应用场景广泛,可用于语义搜索、智能问答、个性化推荐等。
- 语义搜索
语义搜索是指搜索引擎的工作不在拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
语义搜索是知识图谱最典型的应用,它首先将用户输入的问句进行解析,找出问句中的实体和关系,理解用户问句的含义,然后再知识图谱中匹配查询语句,找出答案,最后通过一定形式将结果呈现到用户面前。
比如我们在百度中搜索“现任美国总统的夫人”,“现任美国总统”可能会被当做一个实体,关系是“夫人”,在知识图谱中进行查询找到对应的实体。
2. 智能问答
可以看做是语音搜索的延伸,语义搜索的结果会按照某种规则进行排序,依据一定的算法将最相关的排在前面,我们使用百度、谷歌搜索引擎进行搜索时,结果可能包含很多页,就是语义搜索的常见形式。智能问答,属于一问一答,只要一个答案,也就是将最相关的那个答案反馈给用户,如果像聊天一样不断地进行问答,问答不仅仅是在知识库中搜索,还要考虑前面的聊天内容,考虑的实体和关系更复杂,效果不如语义搜索。
- 个性化推荐或精准营销
个性化推荐系统通过收集用户的兴趣爱好、属性,产品的分类、属性、内容等,分析用户之间的社会关系,用户和产品的关联关系,利用个性化算法,推断出用户的喜好和需求,从而为用户推荐感兴趣的产品或内容。
- 公共安全保障领域
知识图谱也可用于
反欺诈、不一致性验证、组团欺诈
等公共安全保障邻域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。
五. SLAM技术
1. 基本概念
机器人想要自由行走,实现自主定位导航是关键
。自主定位导航包括定位、建图与路径规划
。同步定位与建图(Simultaneous Localization and Mapping,SLAM)技术是目前市场上使用较为广泛的室内自主定位与导航技术,采用该技术运动物体可以根据传感器的信息,一边计算自身位置,一边构建环境地图或环境模型
,这一过程解决了机器人等在未知环境下运动时的定位与地图构建问题,如图1- 10所示。
从20世纪80年代SLAM概念的提出到现在,SLAM技术已经走过了30多年的历程。SLAM系统使用的传感器在不断拓展,从早期的声呐,到 后来的2D/3D激光雷达,再到单目、双目、RGBD、ToF等各种相机,以及与惯性测量单元IMU等传感器的融合,SLAM的算法也从开始的基于滤波器
的方法(EKF、PF等)向基于优化
的方法转变,技术框架也从开始的单一线程向多线程
演进。
2. 主要分类
当前,SLAM构图根据传感器不同又分为基于视觉的VSLAM(Visual SLAM)和基于激光雷达的激光SLAM(Lidar SLAM),分别对应视觉导航和激光导航
。
- 视觉导航技术的优势在于成本较低,最基础的功能仅需要可以采集到清晰环境图像信息的摄像头及处理信息的计算单元, 搭载训练完成的AI模型即可实现。
- 激光导航技术通过向各个方向更多点位测距,可以二维地建图或三维建模,确定扫地机器人自身位置,同时还可以利用两点间的距离信息进行三角测距。
这两种技术各有千秋,现阶段市场中各占有一定的份额,主要还是看哪种技术适合某种特定应用。
六. 人机交互
人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域重要的外围技术。
人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、 绘图仪、显示器、头盔式显示器、音箱等输出设备。
新型的人机交互,还包括语音交互、情感交互、体感 交互及脑机交互等技术。
七. VR/AR/MR技术
1. 基本概念和应用场景
虚拟现实、增强现实、混合现实是以计算机为核心的新型视听技术。
结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验。
随着5G移动通讯技术的普及应用,通过VR/AR/MR技术构建基于移动端的真实场景虚拟叠加、虚拟环境对象无缝融合、全方位自然交互体验僵尸未来人工智能领域的一个发展趋势。
2. 主要技术与难点
VR/AR/MR从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术及技术标准与评价体系5个方面。
获取与建模技术研究如何
把物理世界或者人类的创意进行数字化和模型化
,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对
数字内容进行分析、理解、搜索和知识化方法
,其难点在于内容的语义表示和分析;交换与分发技术主要
强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等
,其核心是开放的内容交换和版权管理技术;展示与交互技术重点
研究符合人类习惯数字内容的各种显示技术及交互方法
,以期提高人对复杂信息的认知能力,其难点在于 建立自然和谐的人机交互环境;技术标准与评价体系重点研究虚拟现实/增强现实
基础资源、内容编目、信源编码
等的规范标准及相应的 评估技术。
目前VR/AR/MR技术面临的挑战主要体现在智能获取、普适设备、 自由交互和感知融合
4个方面。
在硬件平台与装置、核心芯片与器件、 软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。 随着5G移动通信技术的普及应用,通过VR/AR/MR技术构建基于移动端的真实场景虚拟叠加、虚实环境对象无缝融合、全方位自然交互体验等将是未来人工智能应用领域的一个发展趋势。
八. 生物特征识别的基本概念与应用场景
1. 生物特征识别的两个阶段
生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。
- 注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、话筒对说话声等声学信息进行采集,利用数据预处理及
特征提取技术
对采集的数据进行处理,得到相应的特征进行存储。- 识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进 行比对分析,完成识别。
从应用任务看,生物特征识别一般分为辨认与确认两种任务,
辨认是指从存储库中确定待识别人身份的过程,是一对多的问题
。确认是指将待识别人信息与存储库中特定单人信息进 行比对,确定身份的过程,是一对一的问题。
2. 应用场景
生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛应用。