Lora模型训练的参数-学习笔记

任何一个lora都会有三重属性,易调用性、泛化性和还原性,任何一个lora只能完美满足其中的两项;

  • 易调用性:在已调用lora后,还需要多少提示词才能让该lora完全生效;
  • 泛化性:能不能还原lora训练素材中的局部特征,能不能和其他lora、模型、标签兼容生效;
  • 还原性:在lora完全生效之后生成图片和训练素材之间的相似度

但具体训练的目标和思路,之后再说,先记录一下对训练参数的认识。

虽然我认为训练参数,其实在lora训练中,并不是最重要的。

最重要的还是训练素材,优秀的、符合要求的训练素材,才是炼丹成功的前提和关键。

训练模型,也像是炒菜,训练素材是菜。

至于训练参数,在我看来,不过是炒菜时的佐料。

如果自己的训练素材是一坨屎,那么即使掌握了训练参数,也不过是在屎上雕花...

阿弥陀佛,有点儿粗俗了。

但不懂训练参数也很麻烦,毕竟就算你有一堆昂贵的食材,却在炒菜的时候下料过猛,那也会破坏食材的鲜美。

学习的过程,已经是吃的百家饭,完全记不得到底谁家饭更香....

模型保存精度

一个字节(Byte)=8位

一个float32的数值=32位(bit)=4个字节(Byte)=4B

那么一个1000x1000的矩阵=10^6个数值=4*10^6B ≈ 4*10^3KB≈4MB

如果是float16的数值,就表示一个数值只占2B,所以整体的参数占内存就少一半

详解FP16和BF16的区别

batchsize

epoch\iteration\batchsize之间的关系

一个epoch:表示所有样本都训练过1次

一个iteration:表示一次反向传播,逐层对参数进行迭代

一个batchsize:表示有多少个样本进行前向计算后,再进行的一次反向传播

深度学习中的batch理解:https://blog.csdn.net/Dontla/article/details/104373682

一般来说,假设样本总数是all

  • 如果batchsize=1,表示一个样本经过1次前向计算,就立刻开始1次反向传播,逐层迭代参数
  • 那么一个epoch就会有 all 次iteration
  • 如果batchsize=10,表示一个样本经过1次前向计算,直到10个样本都完成了10次前向计算后,把这10个样本各自更新的值相加后,再开始1次反向传播,逐层迭代参数
  • 如果batchsize=all,表示一个样本经过1次前向计算,直到所有样本都完成了所有的前向计算后,把所有样本各自更新的值相加后,再开始1次反向传播,逐层迭代参数

batchsize=1,所有样本(例如500个样本)就要经过500次的前向计算+500次的反向传播

batchsize=500,500个样本只要经过500次的前向计算+1次的反向传播

虽然看上去,batchsize越大,好像耗时更短。

但实际如果是从训练结果的收敛上看。batchsize=1反而要比batchsize=500的快,为什么呢?。

batchsize=1的训练过程

这里需要知道,batchsize=1时的计算过程

  • 1次反向传播是要经过逐层的迭代参数计算,所以1次反向传播速度,要比前向传播久
  • 但是,根据统计概率来说,1个样本的值,与另外样本的值变化差距会比较大,也就是说,如果batchsize=1,那么每次的反向传播,参数都会有比较大的改变,这会导致两个影响:
  • 影响1:收敛速度比较快,参数变化大,但经过所有样本的依次迭代,它最终有可能会收敛到某个范围(未必会收敛到极值)
  • 影响2:可能不会收敛,因为每个样本都对参数进行了更新,那么很难收敛到极值(可能会震荡在某个范围)
  • 解决它不能收敛到极值的方式:降低学习率

batchsize=all的训练过程

如果是batchsize=all时的计算过程,

  • 每次反向传播时,参数迭代的变化不会太大,即每次收敛速度相对更慢,需要更多轮的epoch迭代,才能达到与batchsize=minibatch时的相同精度:
  • 根据概率统计,每次迭代时,虽然是经过所有样本前向计算后才进行一次反向传播逐层迭代,但因为所有样本的均值差异并不大,这就导致了两次迭代的参数变量不会太大,相当于每次反向传播的迭代收敛比较慢,对于初始的随机参数来说,要收敛到极值就需要比较多次(多次epoch)的反向传播迭代,耗时更长。
  • 但也有个优点,就是可以收敛到极值,在训练集上几乎不会产生震荡,这会对训练数据产生过拟合,泛化能力低
  • 但是如果batchsize太大,一次将十万条数据扔进模型,很可能会造成内存溢出,而无法正常进行训练。

batchsize=minibatch的训练过程

batchsize=小批量minibach时的计算过程

  • 相对于batchsize=1,minibatch可以降低震荡效果,适当拟合
  • 相对于batchsize=all,minibatch可以适当提高收敛速度,避免过拟合,避免爆显存

在合理范围内,增大batch size的好处

1)内存利用率提高了,大矩阵乘法的并行化效率提高。
2)跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。
3)在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。
随着 Batch_Size 增大,处理相同数据量的速度越快。
随着 Batch_Size 增大,达到相同精度所需要的 epoch 数量越来越多。

盲目增大 Batch_Size 有何坏处

1Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
2)太大的batch size 容易陷入sharp minima,泛化性不好。
3Batch_Size 太大,收敛太慢,算法在 200 epoch 内不收敛。

如何平衡batchsize的大小?

batchsize太大或者太小都不好。所以 batch size 的值越大,梯度也就越稳定,而 batch size 越小,梯度具有越高的随机性,但如果 batch size 太大,对于内存的需求就更高,同时也不利于网络跳出局部极小点。所以,我们需要设置一个合适的batchsize值,在训练速度和内存容量之间寻找到最佳的平衡点。

batchsizeepoch的平衡

①一般在Batchsize增加的同时,我们需要对所有样本的训练次数(也就是后面要讲的epoch)增加(以增加训练次数达到更好的效果)这同样会导致耗时增加,因此需要寻找一个合适的batchsize值,在模型总体效率和内存容量之间做到最好的平衡。

②由于上述两种因素的矛盾,batchsize增大到某个时候,达到时间上的最优。由于最终收敛精度会陷入不同的局部极值,因此batchsize增大到某些时候,达到最终收敛精度上的最优。

batchsizelearning_rate的平衡

大的batch_size往往建议可以相应取大点learning_rate, 因为梯度震荡小,大learning_rate可以加速收敛过程,也可以防止陷入到局部最小值

而小batch_size用小learning_rate迭代,防止错过最优点,一直上下震荡没法收敛(这也是一个小trick

batchsizelearningrate这块,有专家说,没有超过几十倍的batchsize,不需要调学习率)

补充认识:学习率

图片简单(特征明显相近),把学习率低一些,因为开高了容易无法收敛,容易震荡。

图片复杂,把学习率开高一些,因为学习路程比较大,要加速(如果学习率很低,那就需要更多次的参数迭代,才能收敛到某个区域的精度)

问题5:文本编码器TE对学习率的敏感度,要远高于噪声预测器UNET

补充认识潜在扩散模型LDM

正如前文所述,扩散模型主要用来生成高质量的图像。稳定扩散模型(StableDiffusion)可以视为一种特殊的扩散模型,学术上叫做潜在扩散模型(Latent Diffusion model),相关概念来自于论文《 High-Resolution Image Synthesis with Latent Diffusion Models》。简单来说,原始的扩散模型通常会消耗更多的内存,因此创建了潜在扩散模型,可以在被称为潜在低维度特征空间进行扩散过程。更进一步,扩散模型是机器学习模型,它被训练来在带有高斯噪声的图像上逐步进行去噪,以获得高质量图像。而潜在扩散模型被训练成在低纬度的特征空间上进行同样的过程。

一般来说,潜在扩散模型LDM含有三个组件:

  • text encoder 文本编码器,这里主要指基于CLIP的文本编码器
  • autoencoder 自编码器,这里主要指Variational Auto Encoder,也被简称为VAE
  • Unet 扩散模型

本文先从最基础的text encoder讲起,主要介绍其在扩散过程中的用途。

CLIP Text Encoder作用

补充认识CLIP

SD使用的是OpenAi的CLIP预训练模型,即别人训练好的拿来就用。CLIP的训练 用到了Text-Image配对的数据集,大概4亿张,主要是通过网络爬取图片以及相应的标签。

CLIP的作用,就是将文本转换为语言信息并使其与图像信息在UNet中采用Attention更好的偶合到一起,成为了文本和图像之间的连接通道。

(简单来说:CLIP是一个已经被训练好的模型,文本和图像已经训练出一一对应的关系)

补充认识SD中是如何应用CLIP

CLIP的网络结构由两部分组成:图像 Image Encoder + 文字 Text Encoder。

其中Text Encoder用来提取文本特征, Image Encoder用来提取图像特征。

Stable Diffusion中只用到了Text Encoder模块。

CLIP Text Encoder模型将输入的文本Prompt进行编码,转换成Text Embeddings(文本的语义信息),作为UNet网络的Context输入,并在UNet网络中的CrossAttention模块中,结合提取特征F对生成图像的内容进行一定程度的控制与引导;

(我们需要给出提示词Prompt, 然后利用CLIP模型将文本转换成嵌入表示Context,作为UNet的一个输入。

CLIP text Encoder 以文本作为输入,并在潜在特征空间中生成文本嵌入(text embeddings);我们也可以通过CLIP模型对图像进行特征编码一样。

补充认识UNET&&Text_encoder

UNet模型是一种用于图像分割的深度学习模型,它基于卷积神经网络(CNN)构建。UNet模型的特点是采用编码器-解码器结构,编码器用于提取图像特征,解码器则用于将特征图恢复到与原始图像相同的尺寸,从而进行像素级的分类。此外,UNet模型还引入了跳跃连接,将编码器的特征图与解码器的特征图进行拼接,以提高分割的精度

通常来说一个U-Net包含两个输入:

‒ Noisy latent/Noise : 该Noisy latent主要是由VAE编码器产生并在其基础上添加了噪声;

(或者如果我们想仅根据文本描述来创建随机的新图像,则可以采用纯噪声作为输入。)

‒ Text embeddings: 基于CLIP的将文本输入提示转化为文本语义嵌入(embedding)

https://zhuanlan.zhihu.com/p/521151393

所以大模型本身的CLIP已经能够对准备用来训练lora的素材:图片和提示词,大模型已经可以产生一个对应关系了。

但现在lora要自己再专门去做这个(图片和提示词)素材的一一对应训练,然后把自己训练出来的参数,更新到大模型里边。

lora训练的提示词参数(即上述的文本向量)和图片特征的参数(即上述的图片向量)是分别需要进行迭代训练的。

这里边的训练效果,我猜测:

  • (整体对应)把共性的图像特征,一一对应所有图片的相同触发词。
  • (局部对应)把相似的图像特征,再一一对应符合该特征图片提示词。

就好像中国人:符合全体中国人民。

但汉族:对应的是中国人中的汉族人民

于是在训练过程中,同时迭代提示词的参数向量,这个提示词的参数向量不仅仅是受到大模型的影响,同时会收到lora模型的影响。

那因为大模型本身就有标签(即提示词)跟图像的对应关系,比如1horse=一只马的图片。

但如果在lora训练中,加强了1horse和一只鹿图片的对应训练。

那么SD在用lora生成图片的时候,就需要考虑这个horse,到底是受大模型影响比较严重,还是受lora模型影响比较严重。【很想测试一下,训练一只鹿的图片,但标签都是马horse,试试指鹿为马】

那么就要考虑一个问题:怎样提高lora对提示词的敏感程度?

什么意思呢?

其实就是,这个提示词要怎么跟lora关系更大?

是不是让lora的提示词参数向量,训练的拟合程度更高一些??比如降低文本编码器的学习率,同时降低Unet编码器的学习率,提高batchsize,然后增多它们的迭代步数。

这样是不是就可以拟合程度更高?

哦?所以其实拟合程度高,是指的提示词受lora影响比较大,受模型影响比较小?

那至于上边的text_encoder_lr,和unet_lr,它们之间是没有关系的。

text_encode_lr其实是用来调节提示词的向量参数,unet_lr是用来图片特征向量的?我不太确定

这是一篇,我认为写的肥肠适合入门观看的理解入门,太棒了!!!:https://jishuzhan.net/article/1777179120795389953

  • Unet为什么要加噪再去噪,有什么意义?

加噪再去噪,本质上其实是用多重高斯分布去拟合真实的图像分布,然后用拟合好的多重高斯分布,去重新生成一张新的图片。

  • Unet去噪的过程,跟text encoder生成的文本向量有什么关系呢?

又是一篇惊喜好文!!!!讲解非常详细的Unethttps://zhuanlan.zhihu.com/p/696562930

Text embbeding在Unet的去噪的过程,参与进来了。

虽然不确定会怎么影响,但问题不大,至少知道是参与进来了。

问题6:优化器是干嘛用的 ?(不考虑,默认用)

  • 问题7:学习率调度器是干嘛用的?

其实就是学习率的改变函数,之前基础的学习率都是固定的。

但在训练过程中,我们一般更倾向于让学习率在训练初期能够比较大,加快前期的训练速度。然后在临近拟合或者是到训练后期能让学习率逐渐变小,避免训练结果出现震荡,难以拟合达到局部最优。

另外学习率的合理设置,比如余弦退火学习器啥的,可以避免训练陷入局部最优点。

所以提供了很多种学习率随训练过程产生变化的函数,就叫做学习率调度器。

问题8:什么是学习率周期。-不重要,不管他

NetworkRank(维度)和Alpha

问题9:NetworkRank(维度)和NetworkAlpha有什么用?

NetworkRank(维度):抽取出来训练的行列,直接影响lora模型的大小

如果设置为128,lora模型的大小约为144M(标准)

最小值如果是8,炼出来的lora模型只有不到10M

如果图片简单,那么rank太高,容易出现过拟合(AI会学习到很多无关紧要的细节和画风等等)

【跟B站花了钱的某个博主说的不一致】

其实NetworkRank越大,用于训练的画面信息、lora训练中会改变更多的大模型参数就会越多,所以lora影响力越大,大模型因为被lora改变了,所以大模型对生成的图片影响力更小,这就导致lora会更容易出现过拟合!

如果NetworkRank越小,用于训练的画面信息,更新大模型的参数就越小,那么大模型影响就更多一些,一定程度上可以避免lora过拟合。

不同的Lora类型,对rank是有限制的,洛哈哈Loha&locon可以简单了解一下

NetworkAlpha:调节Lora对原大模型影响作用的参数。

Alpha和Rank的比值等于使用Lora时的“减弱权重”程度

(什么是减弱权重程度)

因为Lora是整个神经网络训练过程中比较小的一部分,如果它变得太小,机器就学不到东西,看不到明显效果。

所以一开始就固定设置Lora训练的部分,权重值很大

Lora在学习过程中,权重是恒定速率减弱的,会让原本固定的Lora权重值渐渐变小。

那这个NetworkAlpha就是用来调节它在训练过程中的减弱率。——有待商榷

Rank表示Lora抽取出来学习的数据维度(参数)(在一定程度上与数据量的大小成正相关,表示数据量大小)

Rank越大,那lora权重就会更大。

(因为你学习的数据量大,那lora改变大模型的参数量就会比较大,导致lora更拟合。所以换个说法,就会让lora权重大)

Alpha越大,那Lora权重就会越小,因为Alpha是。

所以Alpha/Rank→意味着lora权重的改变程度。

类似于一种整体的学习率。

  • 那如果scaling = Alpha/Rank,scaling越大,表示权重变化程度比较大,这种情况下训练速度比较快,同时也比较容易出现震荡,难以收敛。
  • 这就需要将学习率learning_rate降低,才可以避免震荡,实现一个比较好的收敛效果。
  • 那如果scaling = Alpha/Rank,scaling越小,表示权重变化程度比较小,这种情况下训练速度比较慢,有可能难以实现拟合(欠拟合)。
  • 这就需要将学习率learning_rate提高,才可以加快学习速度,实现适当的拟合。【这也是为什么秋叶的炼丹炉在alpha旁给出的提醒:使用较小的alpha,需要提升学习率】

单张重复次数

单张重复次数,到底有什么用?

我可否认为是单张图片重复多次,相当于是一个文件夹里有10张这个图片。

【姑且这么认为吧】

一般来说,要求泛化能力强的文件夹,重复次数不宜过多。

但要求拟合能力强的文件夹,重复次数可以多一些。

关于学习速率的参数:

混合精度-fp16\fp32,浮点数

默认fp16,差别不大,但速度更快

缓存潜变量Cache Latents和缓存潜变量到磁盘

潜变量:潜变量就是被VAE转化为向量的数据

缓存潜变量

开启缓存潜变量,就会先一次性转换后缓存到显存里,

如果不开启,就会每训练一次,就转换一次(拖慢训练速度)

缓存潜变量到磁盘

开启缓存潜变量到磁盘,可以保存到本地,进行连续训练(它会在单次训练里稍微降速,因为需要读取本地磁盘)

开启xformers

交叉注意力cross attention:xformers,降低显存需求并显著提高速度

内存高效注意率:压缩显存使用,低配用户可以考虑降低爆显存风险(但效果比xformers差一些)

VRAM是什么?显存吗?

控制台参数认识:生成速度、训练速度

1.6 it/s,每秒可以跑多少步数,或多少迭代数iteration/second

34 s/it,每步或每次迭代需要多少秒。

BatchSize和Rank都会影响生成或训练速度。

avr_loss=0.134,平均损失函数数值

loss越低,AI拟合越高

训练过程loss应该是逐渐降低,但如果loss只在小数点3、4位进行小范围变动,大概率就是过拟合了

如果loss在训练过程中忽高忽低,就是欠拟合

【不同训练集的loss值标准不同,重点关注loss的变化过程】

但有时候Loss值丢失NaN,因为有些参数过于极端,导致爆显存

  • 比如text_encoder_lr,如果设置的太高,就会出现梯度爆炸的情况,Loss无法收敛越来越大

什么是正则化?

刚做完正则化训练的课,有个很惊奇的发现,之后有时间了,再抽空去梳理吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/872698.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杜甫很 忙

我 我希望大家别再乱搞了

Windows终端远程登陆Linux服务器(SSH+VScode)

W i n d o w s 终端远程登陆 L i n u x 服务器( S S H V S c o d e ) \huge{Windows终端远程登陆Linux服务器(SSHVScode)} Windows终端远程登陆Linux服务器(SSHVScode) 文章目录 写在前面通过SSH远程连接L…

golang程序性能提升改进篇之文件的读写---第一篇

背景:接手的项目是golang开发的(本人初次接触golang)经常出现oom。这个程序是计算和io密集型,调用流量属于明显有波峰波谷,但是因为各种原因,当前无法快速通过serverless或者动态在高峰时段调整资源&#x…

「邀您参会」首个中国可观测日即将盛大开幕

在云计算领域不断探索与创新的背景下,亚马逊云科技与观测云今日宣布,将联合举办中国可观测日(Observability Day)活动,旨在深化双方合作,共同推动中国可观测性的发展。 中国站首站,选址上海&am…

软件测试——非功能测试

工作职责: 1.负责产品系统测试,包括功能测试、性能测试、稳定性测试、用户场景测试、可靠性测试等。 2.负责测试相关文档的编写,包括测试计划、测试用例、测试报告等。 3.负责自动化测试框架、用例的维护。 岗位要求: 1.熟练…

【启明智显方案分享】工业级HMI芯片MODEL3\MODEL4应用于电梯系统多媒体

一、方案概述 本方案采用工业级HMI芯片MODEL3或MODEL4作为核心处理器,结合7寸以上高清显示屏,为电梯系统提供多媒体解决方案。该方案不仅能够显示日期、时间、楼层信息等基础信息,还能播放广告、通知、视频等多媒体内容,增强电梯…

HTTPS请求头缺少HttpOnly和Secure属性解决方案

问题描述: 建立Filter拦截器类 package com.ruoyi.framework.security.filter;import com.ruoyi.common.core.domain.model.LoginUser; import com.ruoyi.common.utils.SecurityUtils; import com.ruoyi.common.utils.StringUtils; import com.ruoyi.framework.…

友讯随身WiFi和格行随身WiFi真实测评!彩屏款随身WiFi谁更胜一筹?随身WiFi哪个最好用?随身WiFi哪个口碑最好?哪个性价比更高?

在众多随身WiFi品牌中,友讯(D-Link)与格行(Gexing)都是彩屏款随身WiFi因其相似的设计和各自独特的品牌背景,常常让消费者难以抉择。今天,我们就来一场真实测评,深入剖析这两款彩屏随…

求解答word图标变白

把WPS卸载了之后就变成白色了,然后在注册表中把word的地址改成office word的地址之后图标变成这样了,怎么办

Talk|清华大学袁天远:PreSight - 利用NeRF先验帮助自动驾驶场景在线感知

本期为TechBeat人工智能社区第605期线上Talk。 北京时间7月3日(周三)20:00,清华大学博士生—袁天远的Talk已经准时在TechBeat人工智能社区开播! 他与大家分享的主题是: “PreSight - 利用NeRF先验帮助自动驾驶场景在线感知”,他向大家介绍了新…

【XSS】

文章目录 0x01 简介0x02 XSS Payload用法XSS攻击平台及调试JavaScript 0x03 XSS构造技巧XSS漏洞防御策略 跨站脚本攻击,Cross Site Script。(重点在于脚本script) 分类 反射型、存储型DOM型 漏洞原理:通过插入script篡改“HTML”…

AI 生成时代,现有编程语言还够用吗?

7月14日下午,知乎「AI 先行者沙龙」在深圳南山举行,本次沙龙以 “探航” 为主题,粤港澳大湾区数字经济研究院基础软件中心首席科学家、MoonBit 平台负责人张宏波受邀发表主旨演讲——《AI 生成时代,现有编程语言还够用吗&#xff…

PyTorch论文

2019-12 PyTorch: An Imperative Style, High-Performance Deep Learning Library 设计迎合4大趋势: 1. array-based (Tensor) 2. GPU加速 3. 自动求导 (Auto Differentiation) 4. 拥抱Python生态 4大设计原则: 1. 使用算法和数据开发者熟悉的Python做编…

华为USG6000V防火墙NAT智能选举

目录 一、拓扑图 二、要求 三、配置思路及方法 要求1:通过多对多的NAT实现上网功能 思路:基础IP地址配置按照之前的进行配置,接着在策略里配置多对多的NAT 要求2:分公司设备可以通过总公司的移动链路和电信链路访问到Dmz区的…

stm32入门-----GPIO口输入的学习与使用

目录 前言 一、硬件介绍 1.按键 2.传感器模块 二、按键控制LED灯亮灭 1.电路连线图 2. 工程文件添加 3.GPIO口读取函数介绍 (1)输入数据的读取 (2)输出数据的读取 4.代码编写 (1)按键模块 …

智能制造 v3.13.16 发布,ERP、MES 更新

智能制造一体化管理系统 [SpringBoot2 - 快速开发平台],适用于制造业、建筑业、汽车行业、互联网、教育、政府机关等机构的管理。包含文件在线操作、工作日志、多班次考勤、CRM、ERP 进销存、项目管理、EHR、拖拽式生成问卷、日程、笔记、工作计划、行政办公、薪资模…

java:aocache 与Spring Aop兼容问题

本文适用于所有AspectJ与Spring AOP混用的场景。 Spring AOP 是基于动态代理的实现AOP,基于 JDK代理和CGLib代理实现运行时织入(runtime weaving)。 Spring AOP的切面定义沿用了ASpectJ的注解体系,所以在Spring体系中注解定义切面…

this关键字、static关键字(静态变量、静态方法、静态代码块)、代码块、包

一、this关键字 1、使用区域:定义类时在类的方法中使用,包括构造方法和成员方法 2、特点:表示Java程序运行时正在调用此方法的对象 3、使用范围: (1)引用当前对象中的成员变量 典例:用于区…

MySQL-事务、日志

事务 特性 原子性 是指事务开始后,必须成功执行完所有的操作才会结束,否则会回滚到事务刚开始前。 拿转账来说,一个成功的 A向B转账100元的过程 会涉及如下过程: A:从数据库读取A的余额;A的余额-100&am…

QT小细节

QT小细节 1 QTextToSpeech1.1 cmake1.2 qmake QT6 6.7.2 1 QTextToSpeech 从下图可以看到,分别使用qmake或者cmake编译情况下的,QTextToSpeech的使用方法 QTextToSpeech官方链接,也可以直接在QT Creator的帮助中搜索 1.1 cmake 将上图中的…