人工智能第二课:认知服务和机器人框架探秘

这是《人工智能系列笔记》的第二篇,我利用周六下午完成课程学习。这一方面是因为内容属于入门级,并且之前我已经对认知服务和机器人框架比较熟悉。


如有兴趣,请关注该系列 https://aka.ms/learningAI 


640?wx_fmt=png


但是学习这门课程还是很有收获,这篇笔记时特别加了“探秘”两个字,这是因为他不仅仅是介绍了微软的认知服务和机器人框架及其如何快速开始工作,更重要的是也做了很多铺垫,例如在讲文本分析服务(Text Analytics)之前,课程用了相当长的篇幅介绍了文本处理的一些技术原理,毕竟无论是微软的认知服务,还是其他厂商的服务,或者你自己尝试去实现,其内部的原理都是类似的。


640?wx_fmt=png


我将给大家分享三个部分的内容

  1. 文本理解和沟通

  2. 计算机视觉

  3. 对话机器人


第一部分:文本理解和沟通

现在人工智能很火,花样也很多,可能大家不会想到,很早之前人类对于机器智能的研究,最主要就是在文本理解和处理这个部分,科学家们想要实现的场景主要如下


640?wx_fmt=jpeg


这跟人类本身的学习及成长是类似的,一旦机器掌握这些能力,其实就相当于具备了“听说读写”的能力。我据说微软二十年前创立研究院之处,主要的研究范围也是在这个领域,二十年过去了还在继续投资,不断优化这方面的能力,可见其作为人工智能的重要性。


640?wx_fmt=jpeg


其实这里提到的大部分过程,可以理解为通常意义上的自然语言处理(Natual Language Processing——NLP)的研究范畴。


640?wx_fmt=png


本次课程中使用python进行讲解,提到了一个关键的package:NLTK(Natual Language Toolkit),以及它的几个更加具体的库:freqdist 用来做字(词)频分析,stem用来做词干提取等等。


640?wx_fmt=png


下面是一些基本的用法


640?wx_fmt=png


也就是说,其实你用NLTK能做出绝大部分文本理解和处理的场景,当然如果你用微软的认知服务(Cognitive Service),则可以省去很多基础性的工作,而是直接专注在业务问题上。


640?wx_fmt=jpeg

前面三种服务都相对简单,通常你只需要开通,并且调用相关的API 即可,例如 Text Analytics 可用来检测文本语言,识别其中的实体,关键信息,以及情感分析。


640?wx_fmt=png


而Language understanding 则相对更加复杂一点,它的全称是Language understanding intelligence service (Luis),是有一套完整的定义、训练、发布的流程。换言之,Luis允许你自定义模型,而前面三者则是利用微软已经训练好的模型立即开始工作。申请Luis服务是在Azure的门户中完成的,而要进行模型定义和训练,则需要通过 https://luis.ai 这个网站来完成。


640?wx_fmt=jpeg


下面是我用来测试的一个模型的其中一个Intent (Luis能同时支持多种语言,甚至也能做到中英文混合文本的理解)


640?wx_fmt=png


Luis最大的一个使用场合可能是结合本文最后面提到的对话机器人来实现智能问答。


第二部分:计算机视觉


如果说文本智能是尝试学习人类的“听说读写”的能力,那么计算机视觉则是尝试模拟人类的眼睛,来实现“看”的能力。


640?wx_fmt=jpeg


图像分析其实就是好比人类看到一个物体(或者其影像),脑电波反射过来信号,使得你意识到你看到的是什么。


640?wx_fmt=jpeg


这个能力用到了预先训练好的模型。这个可以通过认知服务中的Computer Vision这个组件实现。


但是,即便是上面的模型已经包含了数以百万计的照片,但相对而言还是很小的一个集合。所以,如果你想实现自己的图像识别,可以使用认知服务中提供的Custom vision这个能力来实现。


Custom vision拥有一个同样很酷的主页:https://customvision.ai/ ,通过这个网站,你可以上传你预先收集好的照片,并且为其进行标记,通常情况下,每个标记至少需要5张照片,然后通过训练即可发布你的服务,并且用于后续的图像识别检测(例如某个图像是不是汽车,或者香蕉之类的)。


640?wx_fmt=png


人脸识别,则是特定领域的图像识别,这个应用也是目前在人工智能领域最火的一个,而也因为脸是如此重要,所以在认知服务中,有一个专门的API,叫Face API。


640?wx_fmt=png


使用这套API,可以做出来很有意思的应用,例如


640?wx_fmt=jpeg

从技术上说,图像(Image)是由一个一个有颜色的数据点构成的,这些数据点通常用RGB值表示。而视频(Video)则是由一幅一幅的图像(Image,此时称为帧)构成的。所以,计算机视觉既然能做到图像的识别和理解(虽然可能会有偏差),那么从技术上说,它也就具备了对视频进行识别和理解的能力,如果再加上之前提到的文本智能,它就能至少实现如下的场景:


  1. 识别视频中出现的人脸,以及他们出现的时间轴。如果是名人,也会自动识别出来,如果不是,支持标记,下次也能识别出来。

  2. 识别视频中的情感,例如从人脸看出来的高兴还是悲伤,以及欢呼声等环境音。

  3. 文本识别(OCR)——根据图像生成文字。

  4. 自动生成字幕,并支持翻译成其他语言。


640?wx_fmt=png


了解更多视频索引的功能,请参考 https://www.videoindexer.ai 



第三部分:对话机器人


我记得是在2016年的Build大会上,微软CEO Sayta 提出了一个新的概念:Conversation as a Platform, 简称CaaP,其具体的表现形式就是聊天机器人(chatbot)。


当时的报道,请参考 https://www.businessinsider.sg/microsoft-ceo-satya-nadella-on-conversations-as-a-platform-and-chatbots-2016-3/?r=US&IR=T 


640?wx_fmt=png


对话机器人这个单元,讲的就是这块内容。与人脸识别技术类似,机器人这个技术在这几年得到了长足的发展和广泛的应用,甚至到了妇孺皆知的地步。这里谈到的机器人,特指通过对话形式与用户进行交互,并且提供服务的一类机器人,广泛地应用于智能客服、聊天与陪伴、常见问题解答等场合。


创建一个对话机器人真的很简单,如果你有一个Azure订阅的话。微软在早些时候已经将机器人框架(Bot Framework)完全地整合到了Azure平台。


640?wx_fmt=jpeg


做一个机器人(Bot)其实真的不难,但要真的实现比较智能的体验,还真的要下一番功夫。目前比较常见的做法是,前端用Bot Framework定义和开发Bot(用来与用户交互),后台会连接Luis服务或QnA maker服务来实现智能体验,如下图所示。


我在11月份的Microsoft 365 DevDays(开发者大会)上面专门讲解了机器人开发,有兴趣可以参考 https://github.com/chenxizhang/devdays2018-beijing 的资料。


640?wx_fmt=png


机器人框架 (Bot Framework)的一个强大之处在于,你可以实现编写一次,处处运行,它通过频道(Channel)来分发服务。目前支持的频道至少有16种。


640?wx_fmt=png


我自己之前用过Web Chat,Microsoft Teams,以及Direct Line和Skype for Business等四种。一直对Cortana这个场景比较感兴趣,这次通过学习,终于把这个做成功了,还是挺有意思的。


这项功能,还有一个名称:Cortana Skills,目前需要用Microsoft Account注册这个Bot)。


640?wx_fmt=png



请通过 https://aka.ms/learningAI 或者扫描下面的二维码关注本系列文章《人工智能学习笔记》


640?wx_fmt=png


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/318611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

洛谷P4322 最佳团伙(树上dp)

题目描述 洛谷传送门 题目描述 JSOI 信息学代表队一共有 N 名候选人,这些候选人从 1 到 N 编号。方便起见,JYY 的编号是 0 号。每个候选人都由一位编号比他小的候选人Ri推荐。如果 Ri0,则说明这个候选人是 JYY 自己看上的。 为了保证团队的…

CF587F-Duff is Mad【AC自动机,根号分治】

正题 题目链接:https://www.luogu.com.cn/problem/CF587F 题目大意 给出nnn个字符串sss。qqq次询问给出l,r,kl,r,kl,r,k要求输出sl..rs_{l..r}sl..r​在sks_ksk​中出现了多少次。 1≤n,q,∑∣si∣≤1051\leq n,q,\sum |s_i|\leq 10^51≤n,q,∑∣si​∣≤105 解题思路 考虑一…

牛客题霸 [最长重复子串] C++题解/答案

牛客题霸 [最长重复子串] C题解/答案 题目描述 一个重复字符串是由两个相同的字符串首尾拼接而成,例如abcabc便是长度为6的一个重复字符串,而abcba则不存在重复字符串。 给定一个字符串,请编写一个函数,返回其最长的重复字符子串…

codeforces1552 D. Array Differentiation(思维+暴力)

D. Array Differentiation 因为相减的顺序可以变化,所以这个环中数的正负性以及相减顺序其实是没有影响的,那么我们可以规定一个方向,然后再枚举所有可能的正负性。 设这环中点分别是 v1,v2,⋯vkv_1,v_2,⋯v_kv1​,v2​,⋯vk​,那…

粉刷木板(ybtoj-单调队列)

题目描述 解析 头疼 定义dp[i]:只用前i块板的最大价值 对于新加入的一个木匠&#xff1a; 不难写出dp转移式&#xff1a; dp[i]max(dp[k](i-k)*p)k表示开始刷的前一个 其中i>s i-k<l; 要是这么转移会是n^2m 所以我就不废了。。。 其实离正解很接近了 把上面移一下项&am…

P6563-[SBCOI2020]一直在你身旁【dp,单调队列】

正题 题目链接:https://www.luogu.com.cn/problem/P6563 题目大意 长度为nnn的序列aia_iai​&#xff0c;现在有一个随机[1,n][1,n][1,n]的整数&#xff0c;每次你可以花费aia_iai​询问这个数字是否大于iii&#xff0c;求猜出所有数至少要多少花费。 T≤500,∑n≤7000T\leq …

牛客题霸 [字符串的排列] C++题解/答案

牛客题霸 [字符串的排列] C题解/答案 题解&#xff1a; stl真好用&#xff0c;emmm。。。 代码&#xff1a; class Solution { public:vector<string> Permutation(string str) {if (str.empty()) return {};sort(str.begin(), str.end());vector<string>ans;i…

POJ - 3415 Common Substrings(长度不小于K的公共子串个数)

Common Substrings 后缀数组单调栈 题解1 题解2 题解3 #include<cstdio> #include<cstring> #include<iostream> using namespace std; typedef long long ll; // sa[i]: 排名是i位的是第几个后缀 // rk[i]: 第i个后缀的排名是多少 // height[i]: sa[i]与s…

跳房子(ybtoj-单调队列)

文章目录题目描述解析代码thanks for reading&#xff01;题目描述 洛谷传送门 跳房子&#xff0c;也叫跳飞机&#xff0c;是一种世界性的儿童游戏&#xff0c;也是中国民间传统的体育游戏之一。 跳房子的游戏规则如下&#xff1a; 在地面上确定一个起点&#xff0c;然后在起…

使用Dapper持久化IdentityServer4

最近研究dotnet core,微软将IdentityServer4作为推荐的服务授权和验证的组件,其独立性特别适合微服务或者分布式的服务扩展验证,所以非常受广大dotnet开发人员的青睐.默认的IdentityServer4默认使用内存对象的验证和授权,而在IdentityServer的官方推荐只有Entity Framework cor…

P5470-[NOI2019]序列【模拟费用流】

正题 题目链接:https://www.luogu.com.cn/problem/P5470 题目大意 两个长度为nnn的序列a,ba,ba,b&#xff0c;求出它们两个长度为KKK的子序列&#xff0c;且这两个子序列至少有LLL个位置下标相等。 求最大化两个子序列的和。 T≤10,1≤n≤2105,∑n≤106T\leq 10,1\leq n\leq…

牛客题霸 [数组中未出现的最小正整数] C++题解/答案

牛客题霸 [数组中未出现的最小正整数] C题解/答案 题目描述 给定一个无序数组arr&#xff0c;找到数组中未出现的最小正整数 例如arr [-1, 2, 3, 4]。返回1 arr [1, 2, 3, 4]。返回5 [要求] 时间复杂度为O(n)O(n)&#xff0c;空间复杂度为O(1)O(1) 题解&#xff1a; 如果…

再不学习我们就out了

前不久我们组来了个Graduate Developer&#xff0c;刚毕业&#xff0c;经验不多&#xff0c;有一次闹了个乌龙&#xff0c;把Stage数据库直接删掉了……好在Azure有备份&#xff0c;不然就算Stage没有重要数据&#xff0c;也得花点时间重建&#xff0c;其他的开发、测试工作都得…

矩阵快速幂一篇通

文章目录概述快速幂解析代码矩阵运算定义加法乘法单位矩阵一、斐波拉契&#xff08;基础模板&#xff09;题目描述解析代码二、行为方案&#xff08;实际应用&#xff09;题目描述解析代码三、矩阵求和&#xff08;子矩阵作为矩阵元素&#xff09;题目描述解析代码四、最短路径…

SPOJ687 Repeats(重复次数最多的连续子串)

Repeats hihoCoder 1419 后缀数组四重复旋律4(重复次数最多的连续子串) #include<bits/stdc.h> using namespace std;// sa[i]: 排名是i位的是第几个后缀 // rk[i]: 第i个后缀的排名是多少 // height[i]: sa[i]与sa[i-1] const int N50010; char s[N]; int rk[N],sa[N…

玉米田(加加强版)【插头dp】

前言 水解警告&#xff0c;数据水勉强卡过的 正题 题目大意 n∗mn*mn∗m的网格里面有些格子被禁止&#xff0c;现在求选取若干个不相邻的格子的方案数。 1≤n≤120,1≤m≤211\leq n\leq 120,1\leq m\leq 211≤n≤120,1≤m≤21 解题思路 听说是插头dpdpdp然后想了一下觉得比插…

牛客题霸 [将字符串转化为整数] C++题解/答案

牛客题霸 [将字符串转化为整数] C题解/答案 题目描述 实现函数 atoi 。函数的功能为将字符串转化为整数 提示&#xff1a;仔细思考所有可能的输入情况。这个问题没有给出输入的限制&#xff0c;你需要自己考虑所有可能的情况。 题解&#xff1a; 题目很简单&#xff0c;但是…

用ABP入门DDD

前言ABP框架一直以来都是用DDD&#xff08;领域驱动设计&#xff09;作为宣传点之一。但是用过ABP的人都知道&#xff0c;ABP并不是一个严格遵循DDD的开发框架&#xff0c;又或者说&#xff0c;它并没有完整实现DDD的所有概念。但是反过来说&#xff0c;认真学过DDD的人会发现&…

多重背包的二进制优化(ybtoj-宝物筛选)

文章目录题目描述解析朴素算法代码二进制优化代码thanks for reading!题目描述 解析 朴素算法 首先考虑朴素算法 把数量为num的物体拆成num个子物体 其价值与重量是原物体的1&#xff0c;2&#xff0c;3…num倍 然后当成独立的物体求就行了 注意应该先枚举重量&#xff0c;再…

P6800-[模板]Chirp Z-Transform【NTT】

正题 题目链接:https://www.luogu.com.cn/problem/P6800 题目大意 给出一个nnn此多项式PPP&#xff0c;对于k∈[0,m−1]k\in[0,m-1]k∈[0,m−1]所有的求P(ck)P(c^k)P(ck) 输出答案对998244353998244353998244353取模 1≤n,m≤1061\leq n,m\leq 10^61≤n,m≤106 解题思路 g(n)…