人工智能第二课:认知服务和机器人框架探秘

这是《人工智能系列笔记》的第二篇,我利用周六下午完成课程学习。这一方面是因为内容属于入门级,并且之前我已经对认知服务和机器人框架比较熟悉。


如有兴趣,请关注该系列 https://aka.ms/learningAI 


640?wx_fmt=png


但是学习这门课程还是很有收获,这篇笔记时特别加了“探秘”两个字,这是因为他不仅仅是介绍了微软的认知服务和机器人框架及其如何快速开始工作,更重要的是也做了很多铺垫,例如在讲文本分析服务(Text Analytics)之前,课程用了相当长的篇幅介绍了文本处理的一些技术原理,毕竟无论是微软的认知服务,还是其他厂商的服务,或者你自己尝试去实现,其内部的原理都是类似的。


640?wx_fmt=png


我将给大家分享三个部分的内容

  1. 文本理解和沟通

  2. 计算机视觉

  3. 对话机器人


第一部分:文本理解和沟通

现在人工智能很火,花样也很多,可能大家不会想到,很早之前人类对于机器智能的研究,最主要就是在文本理解和处理这个部分,科学家们想要实现的场景主要如下


640?wx_fmt=jpeg


这跟人类本身的学习及成长是类似的,一旦机器掌握这些能力,其实就相当于具备了“听说读写”的能力。我据说微软二十年前创立研究院之处,主要的研究范围也是在这个领域,二十年过去了还在继续投资,不断优化这方面的能力,可见其作为人工智能的重要性。


640?wx_fmt=jpeg


其实这里提到的大部分过程,可以理解为通常意义上的自然语言处理(Natual Language Processing——NLP)的研究范畴。


640?wx_fmt=png


本次课程中使用python进行讲解,提到了一个关键的package:NLTK(Natual Language Toolkit),以及它的几个更加具体的库:freqdist 用来做字(词)频分析,stem用来做词干提取等等。


640?wx_fmt=png


下面是一些基本的用法


640?wx_fmt=png


也就是说,其实你用NLTK能做出绝大部分文本理解和处理的场景,当然如果你用微软的认知服务(Cognitive Service),则可以省去很多基础性的工作,而是直接专注在业务问题上。


640?wx_fmt=jpeg

前面三种服务都相对简单,通常你只需要开通,并且调用相关的API 即可,例如 Text Analytics 可用来检测文本语言,识别其中的实体,关键信息,以及情感分析。


640?wx_fmt=png


而Language understanding 则相对更加复杂一点,它的全称是Language understanding intelligence service (Luis),是有一套完整的定义、训练、发布的流程。换言之,Luis允许你自定义模型,而前面三者则是利用微软已经训练好的模型立即开始工作。申请Luis服务是在Azure的门户中完成的,而要进行模型定义和训练,则需要通过 https://luis.ai 这个网站来完成。


640?wx_fmt=jpeg


下面是我用来测试的一个模型的其中一个Intent (Luis能同时支持多种语言,甚至也能做到中英文混合文本的理解)


640?wx_fmt=png


Luis最大的一个使用场合可能是结合本文最后面提到的对话机器人来实现智能问答。


第二部分:计算机视觉


如果说文本智能是尝试学习人类的“听说读写”的能力,那么计算机视觉则是尝试模拟人类的眼睛,来实现“看”的能力。


640?wx_fmt=jpeg


图像分析其实就是好比人类看到一个物体(或者其影像),脑电波反射过来信号,使得你意识到你看到的是什么。


640?wx_fmt=jpeg


这个能力用到了预先训练好的模型。这个可以通过认知服务中的Computer Vision这个组件实现。


但是,即便是上面的模型已经包含了数以百万计的照片,但相对而言还是很小的一个集合。所以,如果你想实现自己的图像识别,可以使用认知服务中提供的Custom vision这个能力来实现。


Custom vision拥有一个同样很酷的主页:https://customvision.ai/ ,通过这个网站,你可以上传你预先收集好的照片,并且为其进行标记,通常情况下,每个标记至少需要5张照片,然后通过训练即可发布你的服务,并且用于后续的图像识别检测(例如某个图像是不是汽车,或者香蕉之类的)。


640?wx_fmt=png


人脸识别,则是特定领域的图像识别,这个应用也是目前在人工智能领域最火的一个,而也因为脸是如此重要,所以在认知服务中,有一个专门的API,叫Face API。


640?wx_fmt=png


使用这套API,可以做出来很有意思的应用,例如


640?wx_fmt=jpeg

从技术上说,图像(Image)是由一个一个有颜色的数据点构成的,这些数据点通常用RGB值表示。而视频(Video)则是由一幅一幅的图像(Image,此时称为帧)构成的。所以,计算机视觉既然能做到图像的识别和理解(虽然可能会有偏差),那么从技术上说,它也就具备了对视频进行识别和理解的能力,如果再加上之前提到的文本智能,它就能至少实现如下的场景:


  1. 识别视频中出现的人脸,以及他们出现的时间轴。如果是名人,也会自动识别出来,如果不是,支持标记,下次也能识别出来。

  2. 识别视频中的情感,例如从人脸看出来的高兴还是悲伤,以及欢呼声等环境音。

  3. 文本识别(OCR)——根据图像生成文字。

  4. 自动生成字幕,并支持翻译成其他语言。


640?wx_fmt=png


了解更多视频索引的功能,请参考 https://www.videoindexer.ai 



第三部分:对话机器人


我记得是在2016年的Build大会上,微软CEO Sayta 提出了一个新的概念:Conversation as a Platform, 简称CaaP,其具体的表现形式就是聊天机器人(chatbot)。


当时的报道,请参考 https://www.businessinsider.sg/microsoft-ceo-satya-nadella-on-conversations-as-a-platform-and-chatbots-2016-3/?r=US&IR=T 


640?wx_fmt=png


对话机器人这个单元,讲的就是这块内容。与人脸识别技术类似,机器人这个技术在这几年得到了长足的发展和广泛的应用,甚至到了妇孺皆知的地步。这里谈到的机器人,特指通过对话形式与用户进行交互,并且提供服务的一类机器人,广泛地应用于智能客服、聊天与陪伴、常见问题解答等场合。


创建一个对话机器人真的很简单,如果你有一个Azure订阅的话。微软在早些时候已经将机器人框架(Bot Framework)完全地整合到了Azure平台。


640?wx_fmt=jpeg


做一个机器人(Bot)其实真的不难,但要真的实现比较智能的体验,还真的要下一番功夫。目前比较常见的做法是,前端用Bot Framework定义和开发Bot(用来与用户交互),后台会连接Luis服务或QnA maker服务来实现智能体验,如下图所示。


我在11月份的Microsoft 365 DevDays(开发者大会)上面专门讲解了机器人开发,有兴趣可以参考 https://github.com/chenxizhang/devdays2018-beijing 的资料。


640?wx_fmt=png


机器人框架 (Bot Framework)的一个强大之处在于,你可以实现编写一次,处处运行,它通过频道(Channel)来分发服务。目前支持的频道至少有16种。


640?wx_fmt=png


我自己之前用过Web Chat,Microsoft Teams,以及Direct Line和Skype for Business等四种。一直对Cortana这个场景比较感兴趣,这次通过学习,终于把这个做成功了,还是挺有意思的。


这项功能,还有一个名称:Cortana Skills,目前需要用Microsoft Account注册这个Bot)。


640?wx_fmt=png



请通过 https://aka.ms/learningAI 或者扫描下面的二维码关注本系列文章《人工智能学习笔记》


640?wx_fmt=png


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/318611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

粉刷木板(ybtoj-单调队列)

题目描述 解析 头疼 定义dp[i]:只用前i块板的最大价值 对于新加入的一个木匠&#xff1a; 不难写出dp转移式&#xff1a; dp[i]max(dp[k](i-k)*p)k表示开始刷的前一个 其中i>s i-k<l; 要是这么转移会是n^2m 所以我就不废了。。。 其实离正解很接近了 把上面移一下项&am…

使用Dapper持久化IdentityServer4

最近研究dotnet core,微软将IdentityServer4作为推荐的服务授权和验证的组件,其独立性特别适合微服务或者分布式的服务扩展验证,所以非常受广大dotnet开发人员的青睐.默认的IdentityServer4默认使用内存对象的验证和授权,而在IdentityServer的官方推荐只有Entity Framework cor…

再不学习我们就out了

前不久我们组来了个Graduate Developer&#xff0c;刚毕业&#xff0c;经验不多&#xff0c;有一次闹了个乌龙&#xff0c;把Stage数据库直接删掉了……好在Azure有备份&#xff0c;不然就算Stage没有重要数据&#xff0c;也得花点时间重建&#xff0c;其他的开发、测试工作都得…

矩阵快速幂一篇通

文章目录概述快速幂解析代码矩阵运算定义加法乘法单位矩阵一、斐波拉契&#xff08;基础模板&#xff09;题目描述解析代码二、行为方案&#xff08;实际应用&#xff09;题目描述解析代码三、矩阵求和&#xff08;子矩阵作为矩阵元素&#xff09;题目描述解析代码四、最短路径…

玉米田(加加强版)【插头dp】

前言 水解警告&#xff0c;数据水勉强卡过的 正题 题目大意 n∗mn*mn∗m的网格里面有些格子被禁止&#xff0c;现在求选取若干个不相邻的格子的方案数。 1≤n≤120,1≤m≤211\leq n\leq 120,1\leq m\leq 211≤n≤120,1≤m≤21 解题思路 听说是插头dpdpdp然后想了一下觉得比插…

牛客题霸 [将字符串转化为整数] C++题解/答案

牛客题霸 [将字符串转化为整数] C题解/答案 题目描述 实现函数 atoi 。函数的功能为将字符串转化为整数 提示&#xff1a;仔细思考所有可能的输入情况。这个问题没有给出输入的限制&#xff0c;你需要自己考虑所有可能的情况。 题解&#xff1a; 题目很简单&#xff0c;但是…

用ABP入门DDD

前言ABP框架一直以来都是用DDD&#xff08;领域驱动设计&#xff09;作为宣传点之一。但是用过ABP的人都知道&#xff0c;ABP并不是一个严格遵循DDD的开发框架&#xff0c;又或者说&#xff0c;它并没有完整实现DDD的所有概念。但是反过来说&#xff0c;认真学过DDD的人会发现&…

多重背包的二进制优化(ybtoj-宝物筛选)

文章目录题目描述解析朴素算法代码二进制优化代码thanks for reading!题目描述 解析 朴素算法 首先考虑朴素算法 把数量为num的物体拆成num个子物体 其价值与重量是原物体的1&#xff0c;2&#xff0c;3…num倍 然后当成独立的物体求就行了 注意应该先枚举重量&#xff0c;再…

基于.NET Standard的分布式自增ID算法--Snowflake

概述本篇文章主要讲述分布式ID生成算法中最出名的Snowflake算法。搞.NET开发的&#xff0c;数据库主键最常见的就是int类型的自增主键和GUID类型的uniqueidentifier。那么为何还要引入snowflake呢&#xff1f;INT自增主键自增主键是解决主键生成的最简单方案&#xff0c;它有如…

2021“MINIEYE杯”中国大学生算法设计超级联赛(4)Display Substring(后缀数组+二分)

Display Substring #include<bits/stdc.h> using namespace std; typedef long long ll; // sa[i]: 排名是i位的是第几个后缀 // rk[i]: 第i个后缀的排名是多少 // height[i]: sa[i]与sa[i-1] const int N100010; char s[N]; int rk[N],sa[N],cnt[N],height[N]; int x[N]…

领域驱动设计,让程序员心中有码(二)

引子&#xff0c;软件工程没有银弹上一篇博文领域驱动设计&#xff0c;让程序员心中有码&#xff0c;抛出了一个问题&#xff0c;领域驱动设计真的是万能的良方吗&#xff1f;对于这个问题&#xff0c;大家的答案无疑是一致的&#xff0c;作为一种非常受软件行业欢迎的软件思想…

邮局-[IOI2000](四边形不等式)

概要 四边形不等式的核心在于缩小最优转移的范围 题目描述 传送门 解析 这道题说是不等式&#xff0c;但其实也可以感性理解 &#xff08;其实就是不想证明&#xff09; 定义pl[i][k]: i到n的村庄建造k座邮局时&#xff0c;第一座管辖的范围是i-pl[i][k] (也就是最优决策…

.NET Core实战项目之CMS 第九章 设计篇-白话架构设计

前面两篇文章给大家介绍了我们实战的CMS系统的数据库设计&#xff0c;源码也已经上传到服务器上了。今天我们就好聊聊架构设计&#xff0c;在开始之前先给大家分享一下这几天我一直在听的《从零开始学架构》里面关于架构设计的定义以及架构设计的三大原则&#xff0c;希望能对大…

今日头条Marketing API小工具(.Net Core版本)

前言由于工作原因&#xff0c;需要用到今日头条的Marketing API做一些广告投放的定制化开发。然后看现在网上也没多少关于头条Marketing API的文章&#xff0c;于是便就有了该篇文章。头条Marketing API主页地址&#xff1a;https://ad.toutiao.com/openapi/index.html。头条Ma…

.NET Core实战项目之CMS 第十章 设计篇-系统开发框架设计

这两天比较忙&#xff0c;周末也在加班&#xff0c;所以更新的就慢了一点&#xff0c;不过没关系&#xff0c;今天我们就进行千呼万唤的系统开发框架的设计。不知道上篇关于架构设计的文章大家有没有阅读&#xff0c;如果阅读后相信一定对架构设计有了更近一部的理解&#xff0…

分析现有 WPF / Windows Forms 程序能否顺利迁移到 .NET Core 3.0

今年五月的 Build 大会上&#xff0c;微软说 .NET Core 3.0 将带来 WPF / Windows Forms 这些桌面应用的支持。当然&#xff0c;是通过 Windows 兼容包&#xff08;Windows Compatibility Pack&#xff09;实现的。为了提前检查你的程序是否能在未来跑在 .NET Core 3.0 上&…

ML.NET 0.8特性简介

本周.NET生态圈内的更新源源不断&#xff0c;除了.NET Core 2.2&#xff0c;ASP.NET Core 2.2和Entity Framework Core 2.2之外&#xff0c;ML.NET 0.8也一并登上舞台。新的推荐场景ML.NET使用基于矩阵分解(Matrix Factorization)和场感知分解机(Field-aware Factorization Mac…

F-Lucky Pascal Triangle(Lucas+数位dp)

F-Lucky Pascal Triangle issue是fw题解 下面代码TLE了&#xff0c;但是此题数位dp的思想非常值得学习 Lucas的过程相当于把n,mn,mn,m在p进制下的每一位拿出来做组合数 Lucas(n,m,p)∏(nkmk)modp\text{Lucas}(n,m,p)\prod \dbinom {n_k}{m_k} \bmod pLucas(n,m,p)∏(mk​nk​…

树的合并(ybtoj-树上dp)

文章目录题目描述前言解析代码thanks for reading&#xff01;题目描述 前言 全网唯一AC&#xff01;&#xff01;&#xff01; 妙啊 而且还是完全自己想出来的做法 开心 &#xff08;APIO还是没白听&#xff09; 但是思路出来后代码实现十分坎坷 建两个图分别dfs3次那个地方…

.net core中的高效动态内存管理方案

.net core在新增的System.Buffers中引入了一大堆高效内存管理的类&#xff0c;如span和memory、内存池。本文今天这里介绍一个高效动态内存访问方案。ReadOnlySequenceSegment<T>在我们读取数据的过程&#xff0c;很多时候会出现如下场景&#xff1a;不知道数据实际大小一…