今天让我们完结高级OpenGL的部分:
Instancing
很多时候,在场景中包含有大量实例的时候,光是调用GPU的绘制函数这个过程都会带来非常大的开销,因此我们需要想办法在每一次调用GPU的绘制函数时尽可能多地绘制,这个过程就是我们的实例化。
具体来说,我们来看调用glDrawArraysInstanced函数的代码:
float quadVertices[] = {// 位置 // 颜色-0.05f, 0.05f, 1.0f, 0.0f, 0.0f,0.05f, -0.05f, 0.0f, 1.0f, 0.0f,-0.05f, -0.05f, 0.0f, 0.0f, 1.0f,-0.05f, 0.05f, 1.0f, 0.0f, 0.0f,0.05f, -0.05f, 0.0f, 1.0f, 0.0f, 0.05f, 0.05f, 0.0f, 1.0f, 1.0f
};
这是我们的顶点数组,二维的位置坐标和三维的RGB颜色值。
#version 330 core
layout (location = 0) in vec2 aPos;
layout (location = 1) in vec3 aColor;out vec3 fColor;uniform vec2 offsets[100];void main()
{vec2 offset = offsets[gl_InstanceID];gl_Position = vec4(aPos + offset, 0.0, 1.0);fColor = aColor;
}
这个就是我们的顶点着色器,能够看到我们有一个uniform偏移量数组,我们用gl_InstanceID作为数组的索引。就像我们之前所言,gl_InstanceID是一个自增的内建变量,我们使用这个变量可以省去一个for循环的过程,当然,前提是我们调用glDrawArraysInstanced函数。
glBindVertexArray(quadVAO);
glDrawArraysInstanced(GL_TRIANGLES, 0, 6, 100);
我们调用glDrawArraysInstanecd和glDrawArrays的方式没有区别,只是多了一个实例的数目,这里我们是100,这样的话我们的gl_InstanceID就会从0自增到100。
虽然这种直接在着色器里定义好偏差数组的做法非常的方便快捷,但是显然在真正的应用中,我们需要的实例数量还会不断提高。作为定义在着色器里的uniform类型变量是有自己的数据的上限的,这个时候我们就需要去寻找新的方法来解决这个问题,这个新的方法就是实例化数组。
我们用一个代码实例就能知道效果如何:
// generate a list of 100 quad locations/translation-vectors
// ---------------------------------------------------------glm::vec2 translations[100];int index = 0;float offset = 0.1f;for (int y = -10; y < 10; y += 2){for (int x = -10; x < 10; x += 2){glm::vec2 translation;translation.x = (float)x / 10.0f + offset;translation.y = (float)y / 10.0f + offset;translations[index++] = translation;}}
在这里我们定义了一个大小为100的二维向量数组,他们的每一个值都不一样。
unsigned int instanceVBO;glGenBuffers(1, &instanceVBO);glBindBuffer(GL_ARRAY_BUFFER, instanceVBO);glBufferData(GL_ARRAY_BUFFER, sizeof(glm::vec2) * 100, &translations[0], GL_STATIC_DRAW);glBindBuffer(GL_ARRAY_BUFFER, 0);
我们专门生成一个VBO对象去把这些值加载进缓冲中。
float quadVertices[] = {// positions // colors-0.05f, 0.05f, 1.0f, 0.0f, 0.0f,0.05f, -0.05f, 0.0f, 1.0f, 0.0f,-0.05f, -0.05f, 0.0f, 0.0f, 1.0f,-0.05f, 0.05f, 1.0f, 0.0f, 0.0f,0.05f, -0.05f, 0.0f, 1.0f, 0.0f,0.05f, 0.05f, 0.0f, 1.0f, 1.0f};
这是我们具体的顶点数组,每个顶点有两个属性:位置和颜色,其实一个是二维向量一个是三维向量。
unsigned int quadVAO, quadVBO;glGenVertexArrays(1, &quadVAO);glGenBuffers(1, &quadVBO);glBindVertexArray(quadVAO);glBindBuffer(GL_ARRAY_BUFFER, quadVBO);glBufferData(GL_ARRAY_BUFFER, sizeof(quadVertices), quadVertices, GL_STATIC_DRAW);glEnableVertexAttribArray(0);glVertexAttribPointer(0, 2, GL_FLOAT, GL_FALSE, 5 * sizeof(float), (void*)0);glEnableVertexAttribArray(1);glVertexAttribPointer(1, 3, GL_FLOAT, GL_FALSE, 5 * sizeof(float), (void*)(2 * sizeof(float)));// also set instance dataglEnableVertexAttribArray(2);glBindBuffer(GL_ARRAY_BUFFER, instanceVBO); // this attribute comes from a different vertex bufferglVertexAttribPointer(2, 2, GL_FLOAT, GL_FALSE, 2 * sizeof(float), (void*)0);glBindBuffer(GL_ARRAY_BUFFER, 0);glVertexAttribDivisor(2, 1); // tell OpenGL this is an instanced vertex attribute.
这里我们定义并配置我们的VAO对象和VBO对象,注意我们的VBO的配置过程中,我们把location为0和1的数据交给了我们的quadVBO,而到了location为2的第三个对象实例化数据,我们切换VBO对象为instanceVBO,然后我们还调用了glVertexAttribDivisor函数:这个函数用于告诉GPU我们的实例ID(就是那个内建变量gl_InstanceID)每隔一个实例更新一次(2代表location,1则是隔1个实例自增一次)。
搭配上我们的顶点着色器的定义:
#version 330 core
layout (location = 0) in vec2 aPos;
layout (location = 1) in vec3 aColor;
layout (location = 2) in vec2 aOffset;out vec3 fColor;void main()
{fColor = aColor;gl_Position = vec4(aPos + aOffset, 0.0, 1.0);
}
效果如图:
现在让我们来上点强度,我们把需要渲染的模型的数量提高N个数量级:我们来生成一个小行星带的效果。
小行星带,显然难的不是行星而是行星带比较难处理,当我们想象行星带时,我们很容易想到大量的碎石,显然这些碎石的数量远远大小我们的Uniform的数据大小上限(非常大的数量级)。
unsigned int amount = 100000;glm::mat4* modelMatrices;modelMatrices = new glm::mat4[amount];srand(static_cast<unsigned int>(glfwGetTime())); // initialize random seedfloat radius = 150.0;float offset = 25.0f;for (unsigned int i = 0; i < amount; i++){glm::mat4 model = glm::mat4(1.0f);// 1. translation: displace along circle with 'radius' in range [-offset, offset]float angle = (float)i / (float)amount * 360.0f;float displacement = (rand() % (int)(2 * offset * 100)) / 100.0f - offset;float x = sin(angle) * radius + displacement;displacement = (rand() % (int)(2 * offset * 100)) / 100.0f - offset;float y = displacement * 0.4f; // keep height of asteroid field smaller compared to width of x and zdisplacement = (rand() % (int)(2 * offset * 100)) / 100.0f - offset;float z = cos(angle) * radius + displacement;model = glm::translate(model, glm::vec3(x, y, z));// 2. scale: Scale between 0.05 and 0.25ffloat scale = static_cast<float>((rand() % 20) / 100.0 + 0.05);model = glm::scale(model, glm::vec3(scale));// 3. rotation: add random rotation around a (semi)randomly picked rotation axis vectorfloat rotAngle = static_cast<float>((rand() % 360));model = glm::rotate(model, rotAngle, glm::vec3(0.4f, 0.6f, 0.8f));// 4. now add to list of matricesmodelMatrices[i] = model;}
我们生成10万个模型变换矩阵,然后将其坐标设置为绕着圆心的圆上。
#version 330 core
layout (location = 0) in vec3 aPos;
layout (location = 2) in vec2 aTexCoords;
layout (location = 3) in mat4 aInstanceMatrix;out vec2 TexCoords;uniform mat4 projection;
uniform mat4 view;void main()
{TexCoords = aTexCoords;gl_Position = projection * view * aInstanceMatrix * vec4(aPos, 1.0f);
}
这里我们把模型变化矩阵作为一个变量传进顶点着色器,注意我们传的是一个mat4变量,而顶点着色器的大小上限是一个vec4变量(mat4是4个vec4),所以我们需要进行一些额外的处理。
// configure instanced array// -------------------------unsigned int buffer;glGenBuffers(1, &buffer);glBindBuffer(GL_ARRAY_BUFFER, buffer);glBufferData(GL_ARRAY_BUFFER, amount * sizeof(glm::mat4), &modelMatrices[0], GL_STATIC_DRAW);// set transformation matrices as an instance vertex attribute (with divisor 1)// note: we're cheating a little by taking the, now publicly declared, VAO of the model's mesh(es) and adding new vertexAttribPointers// normally you'd want to do this in a more organized fashion, but for learning purposes this will do.// -----------------------------------------------------------------------------------------------------------------------------------for (unsigned int i = 0; i < rock.meshes.size(); i++){unsigned int VAO = rock.meshes[i].VAO;glBindVertexArray(VAO);// set attribute pointers for matrix (4 times vec4)glEnableVertexAttribArray(3);glVertexAttribPointer(3, 4, GL_FLOAT, GL_FALSE, sizeof(glm::mat4), (void*)0);glEnableVertexAttribArray(4);glVertexAttribPointer(4, 4, GL_FLOAT, GL_FALSE, sizeof(glm::mat4), (void*)(sizeof(glm::vec4)));glEnableVertexAttribArray(5);glVertexAttribPointer(5, 4, GL_FLOAT, GL_FALSE, sizeof(glm::mat4), (void*)(2 * sizeof(glm::vec4)));glEnableVertexAttribArray(6);glVertexAttribPointer(6, 4, GL_FLOAT, GL_FALSE, sizeof(glm::mat4), (void*)(3 * sizeof(glm::vec4)));glVertexAttribDivisor(3, 1);glVertexAttribDivisor(4, 1);glVertexAttribDivisor(5, 1);glVertexAttribDivisor(6, 1);glBindVertexArray(0);}
我们可以看到,我们生成VBO之后,我们从指向模型变换矩阵的数组指针开始,我们需要单独取出每个子碎石的VAO来绑定庞大的模型变换矩阵数组,我们从layout=3的位置开始一行一行地读取,然后每一个实例都要更新一个实例ID,因为一个顶点数据的最大大小为vec4,所以我们需要四个顶点数据组成完整的mat4变量。这样做的意思其实就是我们将多达十万个mat4的数据量直接一次性全部传入缓存中,这样的话我们只用单独Draw Call一次就可以绘制所有的碎石。
效果如图:
Anti Aliasing
抗锯齿已经是一个经久不衰的老问题了:
很喜欢闫老师的一句话:世界上所有的失真现象都可以归结为采样率不足。
SSAA事实上某种程度来说也算是一种针对抗锯齿的通解,用更高的算力开销来从根本上解决问题,但是我们如果想要真正体现出思想优越之处的做法,那就得从头开始做。
为了理解什么是多重采样(Multisampling),以及它是如何解决锯齿问题的,我们有必要更加深入地了解OpenGL光栅器的工作方式。
光栅器是位于最终处理过的顶点之后到片段着色器之前所经过的所有的算法与过程的总和。光栅器会将一个图元的所有顶点作为输入,并将它转换为一系列的片段。顶点坐标理论上可以取任意值,但片段不行,因为它们受限于你窗口的分辨率。顶点坐标与片段之间几乎永远也不会有一对一的映射,所以光栅器必须以某种方式来决定每个顶点最终所在的片段/屏幕坐标。
是的,多重采样的本质就是提高每个像素的采样点数量,这样我们可以更清晰地了解具体某个像素有多少个采样点被采样,从而体现出颜色的层次并大大减少锯齿数量。
明白了我们的多重采样的基本原理之后,让我们回到OpenGL之中的抗锯齿技术。
我们的OpenGL之中已经帮我们定义好了MSAA方法,所以我们只需要在生成窗口系统时去显示地写明我们的采样缓冲数量即可,需要注意的是,这里的缓冲是包含所有的帧缓冲,也就是除了颜色缓冲以外还有深度缓冲和模板缓冲。
由于后续的OpenGL课程中并没有展开对抗锯齿算法的详细介绍与具体优化,我也就不再浪费篇幅。