人工智能ai 学习_人工智能中强化学习的要点

人工智能ai 学习

As discussed earlier, in Reinforcement Learning, the agent takes decisions in order to attain maximum rewards. These rewards are the reinforcements through which the agent learns in this type of agent.

如前所述,在“ 强化学习”中 ,代理做出决策以获取最大的回报。 这些奖励是代理在此类代理中学习的增强。

The reinforcements are of two types:

钢筋有两种类型:

  1. Positive Reinforcement:

    积极加固:

    When the agent completes any task, if the feedback or the points for the task are in a positive response, then it is termed as the positive reinforcement. This type of reinforcement increases the performance of the agent as the agent now gets a hint that it has to make decisions and perform tasks in this particular manner to earn more rewards in the future also.

    当代理完成任何任务时,如果任务的反馈或要点处于积极响应中,则称为积极强化。 这种增强方式可以提高代理的性能,因为代理现在可以暗示它必须以这种特定方式做出决定并执行任务,以在将来也获得更多的回报。

  2. Negative Reinforcement:

    负加固:

    Whenever the agent fails to perform any task as required, in that case, the agent is provided with negative reinforcement. This can be thought as of giving punishment to a child for doing mischiefs. The negative reinforcements tell the agent that such type of performance or such type of decisions must be avoided in the future while solving similar types of problems.

    每当代理未能按要求执行任何任务时,在这种情况下,就会为代理提供负加固。 可以认为这是对孩子作恶的惩罚。 负面的补充告诉代理人,将来在解决类似类型的问题时,必须避免这种绩效或这种决策。

Factors on which the performance of the agent which learns through Reinforcements depend:

通过增援来学习的业务代表的绩效取决于以下因素:

  1. Input:

    输入:

    The Agent seeks the initial stage as the input from which it has to start. This is an important phase because all the observations and inferences will be drawn starting from this state, and the past state of the agent will not be considered.

    代理寻求初始阶段作为必须从其开始的输入。 这是重要的阶段,因为将从此状态开始绘制所有观察和推论,并且不会考虑代理的过去状态。

  2. Output:

    输出:

    The output state that the system will reach after solving a certain problem is not fixed as there are multiple ways of solving a problem and the agent can choose different solution whenever it tries to solve the same type of problem.

    系统解决某个问题后将达到的输出状态不是固定的,因为有多种解决方法,并且座席在尝试解决同一类型的问题时可以选择不同的解决方案。

  3. Training/Learning:

    培训/学习:

    The training phase or the Learning Phase is when the agent builds its Knowledge Base from the reward or punishment that it gets based on the output it produces. It is a very important phase in Reinforcement Learning because it helps the agent to understand and learn in the same way as humans. This implements the human behavior in agents which is the main target in Artificial Intelligence.

    培训阶段或学习阶段是指代理根据其产生的输出所获得的奖励或惩罚建立其知识库。 这是强化学习中非常重要的阶段,因为它可以帮助代理以与人类相同的方式来理解和学习。 这在代理中实现了人类行为,而代理是人工智能的主要目标。

翻译自: https://www.includehelp.com/ml-ai/main-points-of-reinforcement-learning-in-artificial-intelligence.aspx

人工智能ai 学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/546028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第四章 计算机软件安装与调试

*(%)^*&!*第一讲 系统BIOS和CMOS参数设置(1)一、BIOS、CMOS的基本概念1.BIOS的含义BIOS是只读存储器基本输入/输出系统的简写,是被雇花道计算机主板ROM芯片上的一组程序,为计算机提供最低级、最直接的硬件控制。2.CMOS的含义C…

连夜整理了几个开源项目,毕设/练手/私活一条龙!

一直以来,总有小伙伴问说:诶,有没有什么好的项目推荐啊,想参考使用。一般用途无非如下几种情况:自学练手:从书本和博客的理论学习,过渡到实践练手吸收项目经验,找工作写简历时能参考…

MPI编程简单介绍

第三章 MPI编程 3.1 MPI简单介绍 多线程是一种便捷的模型,当中每一个线程都能够訪问其他线程的存储空间。因此,这样的模型仅仅能在共享存储系统之间移植。一般来讲,并行机不一定在各处理器之间共享存储,当面向非共享存储系统开发…

英语电视节目网站

最近想练习一下英语听力,看到了一个网站,感觉好像还不错,播放比较流畅,语速相对来说比较慢,发音比较清晰。 链接:CSPAN 还有更多网站见:Broadband-Television BON CNC 英文在线广播&#x…

三位bcd加法计数器_两个8位BCD编号的加法| 8085微处理器

三位bcd加法计数器Problem statement: 问题陈述: To perform addition operation between two 8-bit BCD numbers using 8085 microprocessor. 使用8085微处理器在两个8位BCD编号之间执行加法运算。 Algorithm: 算法: Load the two numbers in HL pai…

第五章 计算机故障诊断与排除

*(%)^*&!*第一讲 计算机故障基础及电源类故障诊断和维护一、计算机故障的分类1.硬件故障硬件故障是指用户使用不当或由于电子元件故障而引起计算机硬件不能正常运行的故障。常见的硬件故障现象包括:(1)电源故障,导致没有供电或…

图灵奖演讲稿

刚刚读温伯格 的《理解专业程序员》,书中提到Floyd 图灵奖演讲中关于编程范式(programming paradigm )(also see here )的演讲稿值得每个与编程有关的人一读,所以搜索了一些图灵奖相关的一些网络资源。 图灵奖主页 部分图灵奖演讲稿 其他资…

最简单的6种防止数据重复提交的方法!(干货)

有位朋友,某天突然问磊哥:在 Java 中,防止重复提交最简单的方案是什么?这句话中包含了两个关键信息,第一:防止重复提交;第二:最简单。于是磊哥问他,是单机环境还是分布式…

JavaScript匿名函数与托付

<1> <html xmlns"http://www.w3.org/1999/xhtml"> <head><!-- C#匿名函数--><title></title><script type"text/javascript">var f1 function (x, y) { //【1】 定义一个匿名函数&#xff0c;用变量f1来指向它…

第六章 计算机性能测试

*(%)^*&!*第一讲 系统优化一、Windows XP系统的优化功能1.启动速度加速选择“开始→运行”选项&#xff0c;再出现的对话框中输入“msconfig”&#xff0c;然后单击“确定”按钮&#xff0c;弹出“系统配置实用程序”对话框。在启动选项卡中将不需要加载启动的程序前面的对…

c#读取整数空格_C ++程序声明,读取和打印动态整数数组

c#读取整数空格Prerequisite: new and delete operator in C 先决条件&#xff1a; C 中的new和delete运算符 Here, we will learn how to declare, read and print dynamically allocated array? 在这里&#xff0c;我们将学习如何声明&#xff0c;读取和打印动态分配的数组…

math for programmers(转载)

英文内容&#xff0c;来自http://steve-yegge.blogspot.com/2006/03/math-for-programmers.html 翻译版见这里 相关内容见c2.com 原文内容如下&#xff1a; Ive been working for the past 15 months on repairing my rusty math skills, ever since I read a biography o…

漫画:如何证明sleep不释放锁,而wait释放锁?

wait 加锁示例public class WaitDemo {private static Object locker new Object();public static void main(String[] args) throws InterruptedException {WaitDemo waitDemo new WaitDemo();// 启动新线程&#xff0c;防止主线程被休眠new Thread(() -> {try {waitDemo…

设计模式 之 建造者

建造者模式&#xff08;Builder Pattern&#xff09; 一听这个名字&#xff0c;你可能就会猜到一二分了。建造者简单理解就是造东西&#xff0c;仅仅只是建造者模式建造的不是一个简单的东西&#xff0c;是一个比較复杂的东西。就好像盖房子&#xff0c;须要打地基、砌墙、灌…

stl string 函数_使用C ++ STL中的string :: append()函数将文本追加到字符串

stl string 函数append() is a library function of <string> header, it is used to append the extra characters/text in the string. append()是<string>标头的库函数&#xff0c;用于在字符串中附加多余的字符/文本。 Syntax: 句法&#xff1a; string&…

ABCDE类IP地址的解释

A类地址第1字节为网络地址&#xff0c;其它3个字节为主机地址。另外第1个字节的最高位固定为0。 A类地址范围&#xff1a;1.0.0.0到127.255.255.255。 A类地址中的私有地址和保留地址&#xff1a; 10.0.0.0到10.255.255.255是私有地址&#xff08;所谓的私有地址就是在互联网上…

身体健康小窍门

身体健康对于每个人来说都是第一重要的&#xff0c;找到的一些健康小窍门&#xff0c;可能有帮助&#xff1a; 1&#xff09;单鼻呼吸&#xff08; 来源 &#xff09;&#xff1a;中午以前最好常练习用左鼻子呼吸&#xff0c;没事的时候你就用手很自然的托住右边面颊&#xf…

支付宝上市,让我损失了2000万(盘点这些年错过的机会)

选择大于努力&#xff01;这句话在之前&#xff0c;我只是用排除法来解释它&#xff08;如果你的选择是错的&#xff0c;那么走的越快就离目标越远&#xff09;&#xff0c;而如今几次亲身的经历&#xff0c;却给了我不同的答案...近几天支付宝上市的事儿&#xff0c;传的沸沸扬…

(转)深入理解最强桌面地图控件GMAP.NET --- 原理篇

前几篇介绍了一些国内地图的案例&#xff0c; 深入理解最强桌面地图控件GMAP.NET --- SOSO地图 深入理解最强桌面地图控件GMAP.NET --- 百度地图 我们以Google地图为例,这章介绍下地图加载的原理。 投影(Projection) 谷歌地图采用的是墨卡托投影法,这里转载&#xff08;http://…

运算符sizeof_C程序通过使用sizeof()运算符对数组元素进行计数

运算符sizeofsizeof() operator returns the total number of size occupied by a variable, since array is also a variable, we can get the occupied size of array elements. sizeof()运算符返回变量占用的大小总数&#xff0c;由于array也是变量&#xff0c;我们可以获取…