unity3d 动态合批设置_Unity3D SkinnedMeshRenderer合批优化

2ff34e647e2e3cdfd8dca593e17d9b0a.png

最近做了性能优化相关的工作,其中一些是关于战斗模块的渲染的。主要是对场景中使用的基于SkinnedMeshRenderer的网格进行了一些合批优化(降DC),记录如下。项目使用的Unity版本为5.6.4p1。

游戏中的战斗模块是这样的:战斗逻辑由服务器承担,战斗瞬间完成,将战斗过程发给客户端,客户端负责播放;

场景中有敌我双方最多12个方阵(双方各2排3列),每个方阵由12个小兵组成(3排4列);

战斗基于回合制,敌我各个方阵依次攻击,攻击时会出列,冲到目标方阵前,攻击完成后返回;

小兵使用的是带动画的3D模型,使用AnimationController控制动作;

每个方阵的小兵是完全一致的(含模型、贴图、动作)

综上,使用战场管理器根据后端发来的战斗数据,改变各个方阵的position以及控制AnimationController来实现战斗过程的播放。

战斗模块中的渲染部分,从最初的版本到目前的一个可接受的版本,总共经历了多次迭代,以下详细记录,本文中使用的截图非项目截图(单个模型面数小于项目中使用的面数,此处使用的模型来自AssetStore,仅供演示使用)。本文的工程可以在github上看到所有源码。

原始版本

每个方阵12个小兵,实实在在地放了12个SkinnedMeshRenderer(后边简称为SMR),在方阵的脚本中保存了所有的AnimationController(后边简称AC),当方阵要移动时则移动所有的SMR,播放动画时同时为所有AC设置状态。

此方案每方阵共计12个SMR和12个AC。

两轮迭代

迭代一:共享网格

每个方阵放1个带SMR的小兵模型,每帧Bake网格,同时有12个MeshRenderer,其MeshFilter指向的Mesh即SMR每帧Bake出的Mesh。考虑到SMR的AC会控制SMR及父节点的运动,保留了所有的AC,仅仅把实际用来展示的SMR换成了普通的MeshRenderer。

此方案每方阵共计1个SMR和12(或13)个AC,节省了一些骨骼动画的计算。所有的MeshRenderer使用相同的网格和材质,但是由于单个模型顶点数的原因无法合批绘制。

迭代二:GPU Instancing

每个方阵1个带SMR的小兵模型,每帧需要Bake,并将Bake的Mesh使用Graphics.DrawMeshInstanced在指定的位置绘制12份。这一操作需要系统支持GPU Instancing并且材质(shader)也要支持。大概是在shader中增加以下的代码。1#pragma multi_compile_instancing

在顶点着色器的输入的结构体中增加:1UNITY_VERTEX_INPUT_INSTANCE_ID

在顶点着色器函数中增加:1UNITY_SETUP_INSTANCE_ID(v);

其中v是顶点着色器的输入。这里是本文中使用的支持Instancing的shader。

最后不要忘了将材质是否支持GPU Instancing属性设置为true。

此方案每方阵共计1个SMR和1个AC,但需要系统和材质支持GPU Instancing。12个小兵只需一个DrawCall即可绘制出来。当整个方阵移动时,需要手动更新这些Instancing的变换矩阵。

目前项目中使用了结合了迭代一和迭代二的方案,首先会根据系统和材质是否支持GPU Instancing做出判断,如果支持则使用迭代二的方案,否则使用迭代一的方案。

备选方案:GPU Instancing的共享网格

如果系统支持GPU Instancing且使用迭代二中支持GPU Instancing的材质,在使用迭代一共享网格方案时也可以合批(按照GPU Instancing处理,可以突破最大顶点数对合批的限制)。

与迭代二相比,这种备选方案不需要计算Instance绘制时的变换矩阵,但是却依赖AC来控制各小兵中SMR及其父级节点的变换。

方案汇总

在一台支持GPU Instancing的机器上对比四种方案如下:方案A方案B方案C方案D原始版本迭代一迭代二备选方案

以下依次是方案ABCD场景statistics:

方案A:

9f1e7c1257cb206656bf3b8d58715cc6.png

方案B:

12d0157c64b11ad82899a846061fc06f.png

方案C:

10b3e390649fe4af7f6183c2bf199631.png

方案D:

e68dac271c5f2ae091c730751ef6ef69.png

可以看到基本上方案A和方案B是同一个level的,方案C和方案D是同一个level,FPS由于一直波动所以截取到的数值只能表现出大概的趋势。

下边依次是方案ABCD绘制Frame截图(使用FrameDebugger截取):

方案A:

dc37d07f83198da1590184f1db474776.png

方案B:

a33a2f630a5922cbc37752fe8f0ad97d.png

方案C:

ce4fee673415a28c7baea9936e6177e5.png

方案D:

118ac1ce27f58a09e685dd0bb8007312.png

可以看到,方案B中因为超出300顶点这一限制所以无法合批,但是修改材质之后(方案D),支持GPU Instancing,不再受此限制的约束。

包含以上四个方案的项目工程都放在github。

一些弯路

除了前边的一些方案之外,还曾经走过一些弯路。在使用基于共享网格的迭代一方案时,发现会因为顶点数量超出限制而导致网格和材质都相同的多次绘制无法合批。就想到使用Mesh.Combine来合并网格,初始化时合并一次并在每帧更新顶点和变换矩阵,或者每帧合并。

使用这种方案,确实可以合批降低DC,但是大大增加了CPU的计算负荷,相比之下整体性能降低,在移动平台上FPS不升反降。于是抛弃了此方案。

其它思路

另外有一些思路,做了一些简单尝试,但是未落实成具体方案:

实时三渲二

使用另外的相机将小兵模型绘制到RenderTexture,然后将此RT作为纹理,在场景中使用12个2D的Sprite来显示。

目前项目中使用的是正交相机且固定相机位置,此方案是可行的。但是后期需求变化可能会替换为透视相机且相机允许转动,每个小兵呈现出的2D图像不同,这一方案将失效。

抛开无法满足未来需求这一点,还有其它的一些因素需要考虑,这种绘制方式可能增加额外的性能开销,如多了一个相机和RT,各个Sprite的空间位置关系、绘制层级控制,小兵与HUD的绘制层级控制等。

几何着色器

在shader中增加几何着色器(Geometry shader),以控制将一个模型的顶点(三角形)绘制出更多份。由于项目最终是部署到Android和iOS平台,所以很快放弃了这一思路。

如果将来会有PC或者主机平台的项目,或许可以尝试。将原来的坐标转换(MVP矩阵变换)的工作从顶点着色器中移出,放入几何着色器。并且几何着色器中将输入的顶点(三角形)绘制多份,最终送达片段着色器一并绘制。由于对于Unity及图形学的研究尚浅,不知这种方案是否可以实现,如果真的可以实现,也不了解这种方法是否会带来更大的性能开销,待后续有时间再研究研究这个。

Animation Instancing

最后一个方案是Animation Instancing,这种方法是在网上看到的(链接),由于与项目中的需求有些差异,并且时间关系也没有去做更多的探索。这种方案可以针对更高要求的SMR合批绘制,不限制各个SMR必须有相同的动作。预先生成动画保存到纹理中,然后运行时读取纹理来播放动画,大幅降低了CPU的负载(提升了少量GPU的负荷和内存占用),整体的渲染性能大大提升。但是目前无法支持动画状态切换,不过作者表示很快会支持这一功能。

REFERENCE

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/556876.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java类的加载顺序_java类加载先后顺序

这里讲的不是类加载机制,是类的加载先后顺序。话不多说了,先设定以下场景:package com.jingdong;public class A {public static void main(String[] args){System.out.println(Ib.b);B bnew B();b.ibTest();}}public class B implements Ib{private D d;private C …

MyBatis:模糊查询的4种实现方式

1、根据姓名模糊查询员工信息 1.1、方式一 步骤一:编写配置文件 步骤二:测试 步骤三:分析 此种方式需要在调用处手动的去添加“%”通配符。 1.2、方式二 说明: 使用方式一可以实现模糊查询,但是有一点不方便的地…

java 阻塞 socket_java socket非阻塞I/O

1 非阻塞(Nonblocking)体系结构在这一部分,我将从理论的角度来解释非阻塞体系的结构及其工作原理。这部“喜剧”(当然,如果你喜欢的话也可以称做戏剧)的“人物”如下:●服务器端:接收请求的应用程序。●客户端:向…

java mod函数的使用方法_java 数学计算的具体使用

java.lang.Math 库提供了常用的数学计算工具常量final double E 2.7182818284590452354; // 自然对数底数final double PI 3.14159265358979323846; // 圆周率final double DEGREES_TO_RADIANS 0.017453292519943295; // 角度转弧度final double RADIANS_TO_DEGREES 57.295…

java的debug模式_java第六章:debug模式介绍及大量实例练习

1.Debug模式1.1什么是Debug模式【理解】是供程序员使用的程序调试工具,它可以用于查看程序的执行流程,也可以用于追踪程序执行过程来调试程序。1.2Debug模式操作流程【应用】如何加断点选择要设置断点的代码行,在行号的区域后面单击鼠标左键即…

注解RequestMapping中的URI路径最前面到底需不需要加斜线?

注解RequestMapping中的URI路径最前面到底需不需要加斜线? 您有没有这样的困惑:在协同开发过程中,使用RequestMapping,或者是GetMapping,或者是PostMapping这类注解时,有的程序员加了斜线,有的程序员没有…

java ajax jquery分页插件_jquery ajax分页插件的简单实现

说到基于jQuery的ajax分页插件,那我们就先看看主要的代码结构:1、首先定义一个pager对象:var sjPager window.sjPager {opts: {//默认属性pageSize: 10,preText: "pre",nextText: "next",firstText: "First"…

java thrift连接池_由浅入深了解Thrift之客户端连接池化

一、问题描述在上一篇《由浅入深了解Thrift之服务模型和序列化机制》文章中,我们已经了解了thrift的基本架构和网络服务模型的优缺点。如今的互联网圈中,RPC服务化的思想如火如荼。我们又该如何将thrift服务化应用到我们的项目中哪?实现thrif…

Vue 进阶组件实战应用 -- 父子组件传值的应用实例(子父组件传值的两种触发方式)

基础的子组件和父组件通信已经搞定了,可以看此博客 父子组件传值基础应用 需求 现在需求是在一个父页面引用子组件,不只是要实现基本的父子组件传值。并且子组件给父组件传值的触发条件要在父页面触发。 目前小编采用的方式是使用ref 属性this.emit 方法…

学习Spring Boot:(一)入门

微服务 微服务其实是服务化思路的一种最佳实践方向,遵循SOA(面向服务的架构)的思路,各个企业在服务化治理上面的道路已经走得很远了,整个软件交付链上各个环节的基础设施逐渐成熟了,微服务就诞生了。 微服务…

学习Spring Boot:(二)启动原理

前言 主要了解前面的程序入口 SpringBootApplication 这个注解的结构。 正文 参考《SpringBoot揭秘 快速构建微服务体系》第三章的学习,总结下。 SpringBootApplication背后的秘密 Target(ElementType.TYPE) Retention(RetentionPolicy.RUNTIME) Documented In…

学习Spring Boot:(四)应用日志

前言 应用日志是一个系统非常重要的一部分,后来不管是开发还是线上,日志都起到至关重要的作用。这次使用的是 Logback 日志框架。 正文 Spring Boot在所有内部日志中使用Commons Logging,但是默认配置也提供了对常用日志的支持&#xff0c…

学习Spring Boot:(五)使用 devtools热部署

前言 spring-boot-devtools 是一个为开发者服务的一个模块,其中最重要的功能就是自动应用代码更改到最新的App上面去。原理是在发现代码有更改之后,重新启动应用,但是比速度比手动停止后再启动还要更快,更快指的不是节省出来的手工…

学习Spring Boot:(六) 集成Swagger2

前言 Swagger是用来描述和文档化RESTful API的一个项目。Swagger Spec是一套规范,定义了该如何去描述一个RESTful API。类似的项目还有RAML、API Blueprint。 根据Swagger Spec来描述RESTful API的文件称之为Swagger specification file,它使用JSON来表…

java的队列实现方法_Java实现队列的三种方法集合

数组实现队列//数组实现队列class queue{int[] a new int[5];int i 0;//入队操作public void in(int m) {a[i] m;}// 出队列操作 取出最前面的值 通过循环遍历把所有的数据向前一位public int out() {int index 0;int temp a[0];for(int j 0;j < i;j) {a[j] a[j 1];…

php 简转繁体,php如何实现简体繁体转换

思路&#xff1a;根据中文简体、繁体对应的数据表&#xff0c;将其整理成一个以简体字为键&#xff0c;繁体字为值的一个一维数组&#xff0c;类似下面这样的一个数组结构&#xff1a;$dataarray(侧>側,厂>廠);在线学习视频分享&#xff1a;php视频教程好了&#xff0c;根…

学习Spring Boot:(八)Mybatis使用分页插件PageHelper

首先Mybqtis可以通过SQL 的方式实现分页很简单&#xff0c;只要在查询SQL 后面加上limit #{currIndex} , #{pageSize}就可以了。 本文主要介绍使用拦截器的方式实现分页。 实现原理 拦截器实现了拦截所有查询需要分页的方法&#xff0c;并且利用获取到的分页相关参数统一在s…

学习Spring Boot:(九)统一异常处理

前言 开发的时候&#xff0c;每个controller的接口都需要进行捕捉异常的处理&#xff0c;以前有的是用切面做的&#xff0c;但是SpringMVC中就自带了ControllerAdvice &#xff0c;用来定义统一异常处理类&#xff0c;在 SpringBoot 中额外增加了 RestControllerAdvice。 使用…

php7 ast,PHP7 的抽象语法树(AST)带来的变化

什么是抽象语法树&#xff1f;抽象语法树(abstract syntax tree&#xff0c;AST)是源代码的抽象语法结构的树状表示&#xff0c;树上的每个节点都表示源代码中的一种结构&#xff0c;这所以说是抽象的&#xff0c;是因为抽象语法树并不会表示出真实语法出现的每一个细节&#x…

学习Spring Boot:(十)使用hibernate validation完成数据后端校验

前言 后台数据的校验也是开发中比较注重的一点&#xff0c;用来校验数据的正确性&#xff0c;以免一些非法的数据破坏系统&#xff0c;或者进入数据库&#xff0c;造成数据污染&#xff0c;由于数据检验可能应用到很多层面&#xff0c;所以系统对数据校验要求比较严格且追求可…