Apache Pulsar 在腾讯云上的最佳实践

导语

由 StreamNative 主办的 Pulsar Meetup Beijing 2023 在2023年10月14日完美落幕,本次活动大咖云集,来自腾讯、滴滴、华为、智联招聘、RisingWave 和 StreamNative 的行业专家们一起,深入探讨 Pulsar 在生产环境中的最佳应用实践,共享 Pulsar 社区的最新发展和动态。

本次 Meetup,腾讯云高级工程师林宇强为大家带来了议题为《Apache Pulsar 在腾讯云上的最佳实践》的精彩演讲,接下来的篇幅将从系统架构、设计思路、寻址服务、跨集群迁移、跨地域容灾几个方面详细为大家介绍 Apache Pulsar 在腾讯云上的最佳实践。

Pulsar 系统架构

上图是一个很常见的 Pulsar 部署架构,ZK 采用了腾讯云 TSE ZK;对接内部的配置中心、CICD 平台可以实现标准化部署,其余的 Bookie 和 Broker 和开源自建的部署模式差别不大。

这里需要介绍下腾讯云自研部分的诊断三件套:Metrics,Trace,日志采集。

Metrics:Broker 自研采集→上报 Monitor 集群 Topic →Pulsar Sink 聚合预处理→腾讯云监控。这里值得说明的是我们在 Broker 和云监控之间加了一层 Pulsar Broker 集群(Monitor 集群)作为缓冲,并使用 Pulsar 自带的 Sink 来进行 Metrics 数据的预处理,因为该监控链路是地域级别,比如广州地区只部署一套,而对外提供业务服务的 Broker 集群数则规模较多,总的 Topic 数规模大,故而需要中间增加一层来缓解对云监控的压力,这是量变引发质变的结果。

Trace:Broker 自研采集→Trace 日志→Filebeat 上报→APM,这也是演进的结果。原先的架构是 Skywalking 采集→内存排队上报→APM,这种架构看似简单,但是当 Broker 的流量规模到达一定程度时,Trace 产生的速度高于上报的速度,导致内存不断增长进而 OOM,因此 Trace 最终也是回归原始,放弃 Skywalking,利用磁盘承受住短时的洪峰。当然,也有一部分业务持续高流量,造成上报永远追不上 Trace 日志的产生,这种情况下也只有两种做法:对于对消息轨迹不强求的业务,关闭 Trace 上报;对于流量大并且对轨迹仍然有要求的,只能通过升配的方式,调大 Filebeat 的可用核心数硬抗。

CLS日志采集:Metrics 和 Trace 由于和 Broker 自身的逻辑有强耦合,我们只能针对 Broker 进行定制化开发。但是日志采集是个普适性功能,因此我们直接采用腾讯云 CLS 来实现我们的目的:日志采集汇总,根据环境、地区、集群分类,关键字监控,日志长时间存档,关键字告警等。

Lookup Service:Lookup Service 是个地域级别的模块,每个地区只部署一套,用于同一个地区所有 Broker 集群的路由、寻址功能,这个模块后续会重点介绍。

设计背景及思路

介绍完 Pulsar 系统架构,接下来介绍一下我们在腾讯云场景下所面临的问题及解决思路。

● 完全容器化:包括 ZK、BK、Broker 以及其他周边设施,全部部署在容器平台上。

● 多环境、多地区:这是云服务提供商相比常规的业务。我们不仅有测试、预发、线上环境,线上环境还有多个地区,比如北京、上海、广州、新加坡、香港等,每个地区分别有多个集群。

● 多可用区(同城多机房):云自身自带同城多机房,因此可以很方便做同城多活的容灾。

● 集群数量多、Topic 规模大:集群数量多、Topic 多,这对应的我们要设计标准化部署流程,前面讲到的监控链路也是在这个背景下的产物。

● 产品形态多种多样:产品形态对应的是部署架构上的差别,租户、Broker、Bookie 之间的部署关系。

●  虚拟网络,接入方式多样:这是云服务提供商必然要面对的多网络平面的问题。

● 支持集群热迁移:在客户端 url 不变的前提下,将租户从集群1迁移到集群2,这也是云服务提供商所需的产品能力,比如将一个集群从标准版升级到专业版,那么就对应租户和底层物理资源分配上的迁移。

容器化

虽然 Pulsar Broker 可以称作为云原生消息队列,但是实际上,Broker在运行时是有状态的,比如:Topic 和 Broker 之间的归属关系。

因此我们在进行容器化的时候,整体的思路就是让 Pod 和 VM 尽可能划上等号,于是我们做了以下设计:

● 固定 IP:IP 不会随着 Pod 的销毁重建而随机变化。

● Pod 与 Node 网络拉平:针对腾讯云的场景,Client 一定不是运行在 Broker 部署的容器集群上,如果不拉平的话,Lookup 时就得考虑容器网络(Overlay)和基础网络(Underlay)之间的映射关系,会让 Lookup 变得很复杂。

● 云盘:Pod 中挂的数据盘为云盘,真正的计算存储分离。

● 与 CVM 共存:每个 Pod 独占一台 CVM,两者 CPU 和内存参数对等,这样能最大程度保证 Pulsar 运行时的物理隔离性,当然,这也是腾讯云 EKS(TKE Serverless)天然提供的能力。另外,在容器化迁移过程中,同一个集群必然存在 Pod 节点和 CVM 节点同时存在,因此也需要考虑这二者之间的相容性。

● 优雅停机:Pod 销毁时,需要确保触发 Pulsar 的 Shutdown 逻辑,否则对 Client 来说就会变得强烈感知,这也是容器场景和 CVM 场景在 CICD 流程上的差异导致需要注意的地方。

● Liveness probe 调优:Liveness probe 也有一个有意思的点,由于 k8s 自身的各种健康检查机制其实都是依赖于一个超时时间,如果 Broker 启动阶段不能在约定超时时间内返回正确的结果,k8s 容易误判为失败,造成 Broker 无限重启。举个例子:假设某个 Broker 集群有几万个 Topic,那么其 Broker 启动时间可能需要耗时90s以上,如果 Liveness 设置超时时间低于该值,就需要特别注意。当然,这也是我们集群规模多导致,我们的不同集群可能是不同的业务场景在使用,因此很多类似的参数都需要针对性调优。

● Helm 编排:Pulsar 的部署步骤其实比较繁杂,Bookie 部署、Bookie 初始化、Broker 部署、Broker 初始化,以及所需的 Secret、ConfigMap、网络模块等,要讲这么多模块有序的编排起来,Helm 当然是最好的选择。

Topic 规模大

Topic 数多会引发以下问题:

● ZK 元数据过多,负载高

● 启动变慢,K8s 就绪误判

● Broker 重启爆炸半径大

● Lookup 性能变差

● 监控采集聚合引发质变

产品形态多样

腾讯云 Pulsar 提供多种产品形态,对应底层就是部署架构的多样性,当然,这会对应最终每个实例的售卖价格和腾讯云本身的成本。

● 共享版:Bookie 和 Broker 都是共享的,本质和一个公司自建一个集群给公司内所有业务团队共用是一个模型,共享版下的一个实例对应 Pulsar 的一个租户。

● 专业版:Bookie 和 Broker 都是独占的,且该集群只有一个租户,该租户独占完整的所有物理资源。

接入方式

腾讯云 Pulsar 提供了多种网络接入方式,网络接入即 Broker 和 Client 之间的网络连通关系。

内网接入

内网接入在本质上和常规的公司内自建使用类似,Broker 和 Client 都处在同一个内网之中,且二者之间是完全互通的,Client 连接的 IP 也都是 Broker 的节点原始 IP,无任何网络转换。

VPC 接入

VPC 即虚拟私有网络,每个用户可以创建多个VPC,每个VPC下又可以创建多个子网。想了解更多可查看:私有网络 产品概述-产品简介-文档中心-腾讯云

两个 VPC 之间通常是无法互通的,比如图上的10.0.0.0/8和192.168.0.0/16,除非使用云联网、对等连接等 VPC 之间的互通产品,但是这个不在我们的讨论范围。

如图所示,Broker 部署在10.0.0.0/8,而 Client 在192.168.0.0/16,那么这时候,Client 想要访问 Broker 就变得不可能。

在云网络场景,VPC 提供了云虚拟网关(仅内部组件)来支持两个 VPC 之间的互通,我们便称之为跨网络平面互通。

当然,其本质就是做网络映射,比如:

● Broker1:在10.0.0.0/8的 IP 是10.2.0.1,我们通过云虚拟网关创建 Broker1 在192.168.0.0/16的 IP 为192.168.1.1,那么当 Client 在10.0.0.0/8中就需要用10.2.0.1访问Broker1,当 Client 在192.168.0.0/16中就要用192.168.1.1来访问 Broker1。

● 由于 Pulsar Client 的连接协议是先 Lookup 后直连的方式(这个可以参照后面的 Lookup 寻址时序图),就对 Broker 的 Lookup 接口提高了要求,Broker 就需要自动化地判定:

1.  当 Client 来自于10.0.0.0/8网络,返回10.2.0.1

2.  当 Client 来自于192.168.0.0/16网络,返回192.168.1.1

这也就是 Pulsar 这个服务在云服务场景所要面对的问题。

公网接入

前面介绍了 VPC 接入,其实公网接入和 VPC 接入也是类似的。

唯一的差别是:

● VPC 接入:Broker 和 Client 处在两个不同的内网网络平面。

● 公网接入:Broker 部署在内网,而 Client 来自于公网,可以直接把公网看作一个特殊的 VPC 就很好理解了。

寻址服务

下面我们来介绍下腾讯云的寻址服务的思路来源,也是寻址服务的价值所在。

RocketMQ 架构参考

我们看下 RocketMQ 的服务,其架构分为 NameServer 和 Broker。

● NameServer 保存了集群的元数据:Topic 和 Broker 之间的归属关系,这样就可以动态地配置 Topic 和 Broker 之间的从属关系,也可以将 Topic 在不同的 Broker 集群之间调度。

● RocketMQ 同 Pulsar 一样,也有类似 Lookup 的寻址流程,只不过 RocketMQ Client 寻址的请求对象是 NameServer,而 Pulsar Client 寻址的请求对象是 Broker,从这方面看来,架构上可以理解为 Pulsar Broker 相当于是 RocketMQ NameServer 和 RocketMQ Broker 结合到了一起。

优缺点:

Pulsar 这样做部署架构简单,不会额外多出一个 NameServer 服务,但是同样也失去了 Topic 在物理集群之间的调度能力。

RocketMQ 虽然多出了一个模块,但是其提供的集群调度能力,是一种非常重要的运维能力。

这种调度能力,恰恰是云服务所需要的,有了这种调度能力,我们的云服务才能对集群有可运维性和灵活的资源调度方式。

多网络 Lookup

如前面所说,在云服务场景,针对 Pulsar Broker,我们需要提供的内网、VPC、公网三种网络接入场景,和 Pulsar Broker 本身提供的 Lookup 能力的矛盾。使用寻址模块,便有以下好处:

● 将多网络接入这种云服务场景收敛在寻址服务内核中,而 Broker 仍然只提供最纯粹的内网服务,更好地保持 Broker 的原始能力以及与开源的衔接。

● 动态地增减接入点(即不同的网络接入方式的概念名称),对于一个 Pulsar 集群来说增加、减少一个内网、VPC、公网接入点时,不需要对 Broker 做任何变动。

● 实现扩缩容的自动化和无感知化,Broker 的扩缩容,等同的也需要对该集群的所有接入点中的网络映射进行扩缩容变更,由于寻址模块的存在,这部分全部收敛在该模块,Broker 的扩缩容不需要对存量节点做任何变动。

Lookup 时序

前面介绍了很多寻址模块和寻址流程,这里来重点介绍下 Pulsar-Client 的寻址时序,来补充下对前面的介绍,以及科普下 Pulsar Client 的机制:

● 第一步:获取 Topic 分区数:Client→CLB→Broker,一对多指的是该请求落到 CLB 后面的任意一台 Broker 都能对等返回正确结果。

● 第二步:单分区 Topic Lookup:针对单个分区进行 Lookup,询问该 Topic 当前的 Owner Broker 地址,同样是一对多,不同 Broker 之间提供对等服务。

● 第三步:基于第二步返回的该 Topic 分区的 Owner Broker 地址,进行直连,随后进行消息收发。一对一,特指此时的直连必须精准连接 Broker 集群中的某台 Broker,比如 Broker-2,连接别的 Broker 则会连接失败。

这就是 Pulsar-Client 初始化一个 Producer/Consumer 的步骤。

我们的寻址模块切入点在哪呢?

就是第一和第二步,如图所示,在这两个步骤中间加入一层代理层,这样就可以在寻址返回结果上针对多网络接入、Topic 和物理集群从属关系调度上做一些篡改,以达到我们的目的。

集群间调度

上图是我们加入寻址模块后,Pulsar 架构上的改变,整个架构就变得和 RocketMQ 有点类似,有一个中央元数据服务用来管理 Topic 资源和物理计算资源之间的关系。

跨集群迁移

前面铺垫了这么多,介绍了寻址模块以及架构上的优化,接下来介绍下在此之上我们所做的产品化能力——跨集群迁移。

跨集群迁移特指一个租户从物理集群1迁移到物理集群2,两个集群同时提供服务,在线热切换,Client 轻微感知。

如图所示,整个流程也很简单,寻址服务保存了租户和物理集群的路由关系,路由关系一变更,即集群迁移变更。

基于 Pulsar Lookup 寻址的协议,路由关系的切换粒度可以做到租户粒度、Namespace 粒度、Topic 粒度、分区粒度。

切换的方式:路由切换+Topic unload

机制上来说,这个切换流程很简单,难点在前置准备工作上:

● 元数据迁移:租户、Namespace、Policies、Topic、订阅、Token 等。

● 消息双向同步:切换过程中两个集群同时提供服务,为了提供可回滚能力,发送的消息需要在两个集群之间双向同步,保证两个集群都有完整的所有消息。

● 进度同步:每个 Topic 的订阅消费进度不同,需要定时同步,尽量较少切换过程中的重复消费。

消息同步

消息同步比较简单,我们采用了 Pulsar 自带的 GEO-Replicator 功能,这里不再赘述。

进度同步

这里简单介绍下进度同步的机制。

1.  消息迁移:在消息同步阶段(GEO-Replicator)会在消息头部携带消息的源集群里的消息 IP。

2.  定时同步:定时将源集群的消费进度同步到目标集群,基于 Compact topic 同步和持久化。

3.  进度缓存:目标集群读取 Compact topic 中的消费进度信息,将消费进度加载到内存。

4.  投递过滤:在 Pulsar 的投递流程 Dispatcher 处理过程中,过滤掉本要投递,但是已经在源集群进度中投递过的。

跨地区容灾

跨地区容灾,也是我们基于寻址服务的架构改进后,所开发出的产品化能力。

本质和跨集群迁移类似,但是由于跨地区的网络时延问题,在侧重点上有所不同:

如图所示,假设我们的 Pulsar 实例在广州地区,Client 也在广州地区,但是由于不可抗力,导致广州地区的 Pulsar 实例全部宕机,并且短时间内无法迅速恢复,我们可以暂时将 Client 的流量切到上海地区的容灾实例,来保证 Client 在线业务的迅速恢复。

● 同一时间只有一个集群提供服务。

● 短时间、临时性切换:由于跨地区时延的不可控(特别是国外地区),容灾机制一定是临时的,待广州地区恢复后,理应尽快将流量回切。

● 元数据定时同步:因为我们无法预测广州集群何时宕机,且该场景的使用频度较低,这是一种权衡的结果。

● 消息、进度不同步:面对的是广州集群全部宕机,此时广州集群磁盘中的数据暂时无法读取,另一个原因就是跨地区时延大,做实时消息同步的性价比太低。

● 切换:基于域名解析切换,因为广州和上海的寻址服务互相独立隔离,这个时候如果广州集群有堆积,那部分只能继续堆积着,等广州地区恢复了才有机会重新消费。

● 回切:由于上海集群只是用来紧急容灾,在广州集群恢复后,必定要重新切回广州,回切的过程中比较重要的就是上海集群上堆积的消息,需要回写到广州,这个过程中不可避免会出现一部分重复消费和消费顺序错乱(同一分区内)。

该方案是面对地区级别灾难场景下的容灾,因为每个地区本身已经是多可用区部署(同城多机房),因此整个地区不可用的概率较低,因此跨地区容灾的整个产品设计侧重主要用于应急,而不是为了像跨集群迁移一样的热切换,需要做到非常严格的双向同步。

总结

我们先从腾讯云 Pulsar 的整体架构讲起,介绍了在腾讯云的场景下所需要面对的问题,引出了寻址模块(Lookup Service),并介绍了寻址模块的引入对于 Pulsar 的部署架构上的优化。随后介绍了 Lookup Service 解决的两个核心问题:多网络 Lookup 和集群间调度,并保证对客户端接入的无感知和对架构的低侵入性。由于寻址模块的存在,我们便能基于它做进一步的产品化能力,跨集群迁移和跨地区容灾,从而能够在不同级别的灾难场景下都能提供相应的修复措施和运维能力。

未来,我们还会继续在容灾能力、Pulsar 周边生态对接、存储优化等方面继续努力,以提供成本更低、稳定性更高的 Pulsar 产品。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/129369.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NoSQL数据库使用场景以及架构介绍

文章目录 一. 什么是NoSQL?二. NoSQL分类三. NoSQL与关系数据库有什么区别四. NoSQL主要优势和缺点五. NoSQL体系框架 其它相关推荐: 系统架构之微服务架构 系统架构设计之微内核架构 鸿蒙操作系统架构 架构设计之大数据架构(Lambda架构、Kap…

轧钢厂安全生产方案:AI视频识别安全风险智能监管平台的设计

一、背景与需求 轧钢厂一般都使用打包机对线材进行打包作业,由于生产需要,人员需频繁进入打包机内作业,如:加护垫、整包、打包机检修、调试等作业。在轧钢厂生产过程中,每个班次生产线材超过300件,人员在一…

docker打包container成image,然后将image上传到docker hub

第一步&#xff1a;停止正在运行的容器 docker stop <container_name> eg: docker stop xuanjie_mlir 第二步&#xff1a;将对应的container打包成image docker commit <container_id> <镜像名&#xff1a;版本> eg&#xff1a;docker commit 005672e6d97a…

ChinaSoft 论坛巡礼 | 安全攸关软件的智能化开发方法论坛

2023年CCF中国软件大会&#xff08;CCF ChinaSoft 2023&#xff09;由CCF主办&#xff0c;CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办&#xff0c;将于2023年12月1-3日在上海国际会议中心举行。 本次大会主题是“智能化软件创新推动数字经济与社…

京东数据平台:2023年9月京东智能家居行业数据分析

鲸参谋监测的京东平台9月份智能家居市场销售数据已出炉&#xff01; 9月份&#xff0c;智能家居市场销售额有小幅上涨。根据鲸参谋电商数据分析平台的相关数据显示&#xff0c;今年9月&#xff0c;京东平台智能家居的销量为37万&#xff0c;销售额将近8300万&#xff0c;同比增…

XUbuntu22.04之解决桌面突然放大,屏幕跟着鼠标移动问题(一百九十)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

【基带开发】AD9361 复乘 com_cmpy_a12_b12

IP核 tb_com module tb_com();reg ad9361_l_clk,rst; initial beginad9361_l_clk0;forever #4.545 ad9361_l_clk~ad9361_l_clk; end initial beginrst1;#9.09 rst0; end wire [63 : 0] m_fll_phase_shift_dout; // fll 输出 dout // FLL Phase Shift com_cmpy_a12_b12 FLL_P…

QT在线安装5.15之前的版本(下载速度飞快)

使用最新的QT在线安装器&#xff0c;安装QT版本时只能安装5.15以及之后的版本&#xff0c;安装QT5.15之前的版本只能通过离线安装的方式&#xff0c;离线安装后还要自己去配置QT&#xff0c;离线安装还有个问题的&#xff0c;后续维护比较麻烦&#xff0c;QT的维护工具还要自己…

记一次并发问题 Synchronized 失效

记一次并发问题 Synchronized 失效 场景&#xff1a;为避免信息提交重复&#xff0c;给事务方法增加了synchronized修饰符&#xff0c;实际场景中仍然无法完全避免重复&#xff0c;原因是因为在第一个线程执行完synchronized代码段后&#xff0c;此时spring还未完成事务提交&a…

JMM讲解

一&#xff1a;为什么要有JMM&#xff0c;它为什么出现&#xff1f; CPU的运行并不是直接操作内存而是先把内存里面的数据读到缓存&#xff0c;而内存的读和写操作的时候会造成不一致的问题。JVM规范中试图定义一种Java内存模型来屏蔽掉各种硬件和操作系统的内存访问差异&…

WPF布局控件之WrapPanel布局

前言&#xff1a;博主文章仅用于学习、研究和交流目的&#xff0c;不足和错误之处在所难免&#xff0c;希望大家能够批评指出&#xff0c;博主核实后马上更改。 概述&#xff1a; 后续排序按照从上至下或从右至左的顺序进行&#xff0c;具体取决于方向属性的值。WrapPanel 位…

海上风电应急救援vr模拟安全培训提高企业风险防范能力

相比传统的发电厂&#xff0c;海上风电作业积累的经验少&#xff0c;风险高&#xff0c;因此为了规范施工人员的行为和操作&#xff0c;保障生产安全进行&#xff0c;开展海上风电VR安全培训具有重要意义。 有助于提高员工的安全意识 通过模拟真实的海上风电作业环境&#xff0…

怎样做好金融投资翻译

我们知道&#xff0c; 金融投资翻译所需的译文往往是会议文献、年终报表、信贷审批等重要企业金融资料&#xff0c;其准确性事关整个企业在今后一段时期内的发展战略与经营成效。尤其像年报&#xff0c;对于上市公司来说更是至关重要的。那么&#xff0c;怎样做好金融投资翻译&…

英国 AI 安全峰会前瞻:为什么是现在,为什么在英国

撰文&#xff1a;Ingrid Lunden 来源&#xff1a;TechCrunch 图片来源&#xff1a;由无界AI生成 人工智能的前景和危害是如今的热门话题。有人说人工智能将拯救我们&#xff0c;可以帮助诊断一些恶性疾病、弥补教育领域的数字鸿沟等。但也有人担心它在战争、安全、错误信息等方…

微信小程序中使用GIF

前言 最近在微信小程序开发时遇到了一个非常复杂的动画&#xff0c;如果要手搓的话需要用canvas一点点弄&#xff0c;比较麻烦&#xff0c;于是打算做一个gif来实现动画效果 根据需求&#xff0c;动画只需播放一次即可&#xff0c;并且设置了一个重播按钮&#xff0c;点击即可重…

【Unity编辑器扩展】艺术字/自定义图片字体生成工具

艺术字在游戏中很常用&#xff0c;由于普通字体样式过于平淡&#xff0c;制作花里胡哨的文字图片作为游戏字体使用&#xff0c;这就是艺术字。 不依赖第三方工具&#xff0c;仅使用Unity自带的Custom Font 一张艺术字图集就能实现这个功能&#xff0c;但是为了便于使用&#…

【机器学习】二、决策树

目录 一、决策树定义&#xff1a; 二、决策树特征选择 2.1 特征选择问题 2.2 信息增益 2.2.1 熵 2.2.2 信息增益 三、决策树的生成 3.1 ID3算法 3.1.1理论推导 3.1.2代码实现 3.2 C4.5 算法 3.2.1理论推导 ​ 3.2.2代码实现 四、决策树的剪枝 4.1 原理 4.2 算法思路&#xff1a…

uniapp循环对象列表---点击列表切换选中不同状态

目录 源码图片最后 源码 <template><view><ul><li v-for"(item, index) in list" click"toggleSelection(index)" :class"{selected: selectedIndex index}">{{ item }}<view :class"{selected: selectedInde…

【Linux】 ps 命令使用

ps &#xff08;英文全拼&#xff1a;process status&#xff09;命令用于显示当前进程的状态&#xff0c;类似于 windows 的任务管理器。 语法 ps [选项] ps命令 -Linux手册页 著者 ps最初由布兰科兰克斯特撰写<lankestefwi.uva.nl>。迈克尔K约翰逊<johnsonmred…

【强化学习】15 —— TRPO(Trust Region Policy Optimization)

文章目录 前言TRPO特点策略梯度的优化目标使用重要性采样忽略状态分布的差异约束策略的变化近似求解线性搜索算法伪代码广义优势估计代码实践离散动作空间连续动作空间 参考 前言 之前介绍的基于策略的方法包括策略梯度算法和 Actor-Critic 算法。这些方法虽然简单、直观&…