【大模型理论篇】通用大模型架构分类及技术统一化

1. 背景    

        国内的 “百模大战” 以及开源大模型的各类评测榜单令人眼花缭乱,极易让人陷入迷茫。面对如此众多的大模型,我们该如何审视和选择呢?本文将从大模型架构的角度,对常见的开源大模型架构进行汇总与分析。资料来源于公开的学术论文、技术报告、企业官网、技术讨论等。经过深入分析可以发现,尽管参与大模型研发的机构众多,但大模型的结构大致可分为几个主要类别:Encoder-Decoder、Causal Decoder、Prefix Decoder。接下来,我们将对这几个大类模型进行一定的介绍,并由此引出当前业内常用大模型的架构分析。

         首先,有必要介绍一篇文章【1】,提出了统一语言模型预训练概述。模型参数在语言模型目标(即双向语言模型、单向语言模型和序列到序列语言模型)之间共享。使用不同的自注意力掩码来控制每个词符对上下文的访问。

 统一预训练语言模型架构描述        

        输入向量\{x_i\}_{i=1}^{|x|}首先被打包成H_0 = [x_1, \cdots, x_{|x|}],然后使用一个 L 层的Transformer将其编码为不同抽象级别的上下文表示H^l = [h_1^l, \cdots, h_{|x|}^l],其中H^l = \text{Transformer}_l(H^{l-1}), l \in [1, L]。在每个Transformer模块中,多个自注意力头被用来聚合前一层的输出向量。对于第 l 个Transformer层,自注意力头A_l的输出通过以下方式计算:

Q = H^{l-1}W_Q^l, \quad K = H^{l-1}W_K^l, \quad V = H^{l-1}W_V^l

M_{ij} = \left\{\begin{matrix} 0, \text{allow to attend} & \\ -\infty , \text{prevent from attending} & \end{matrix}\right.

A_l = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}} + M\right)V^l

        其中,前一层的输出H^{l-1} \in \mathbb{R}^{|x| \times d_h}通过参数矩阵W_Q^lW_K^lW_V^l \in \mathbb{R}^{d_h \times d_k} 线性投影为查询、键和值的三元组,掩码矩阵M \in \mathbb{R}^{|x| \times |x|}决定了一对tokens是否可以彼此关注。使用不同的掩码矩阵 M来控制计算tokens的上下文表示时可以关注的上下文,例如双向语言模型的情况,掩码矩阵的元素全为0,表示所有tokens都可以互相访问。

        Encoder-Decoder: 输入双向注意力,输出单向注意力。目前,只有少数LLM是基于编码器-解码器架构构建的(如T5)。在输入端(编码器)双向语言模型允许所有词元相互关注。能够编码来自两个方向的上下文信息。如公式M_{ij}所示,自注意力掩码矩阵M为全零矩阵,因此每个词元都可以关注输入序列中的所有位置。

        Causal Decoder:因果解码器架构采用单向注意力掩码(从左到右),以确保每个输入token只能关注过去的token和它本身。GPT、LLaMA系列模型均是基于此架构,也是目前主流的大模型架构。单向语言模型使用从左到右的语言模型目标。以从左到右的语言模型为例,每个词元的表示仅编码其左侧上下文词元及其自身。例如,在预测“x1 x2 [MASK] x4”中被遮蔽的词元时,只能使用x1、x2和该词元本身。通过对自注意力掩码矩阵M_{ij}使用一个三角矩阵来实现这一点,其中自注意力掩码的上三角部分设为−∞,其余元素设为0,如上图所示。

        Prefix Decoder: 输入双向注意力,输出单向注意力。前缀解码器架构(又称非因果解码器)修改了因果解码器的屏蔽机制,使其能够对前缀tokens进行双向关注,并仅对生成的tokens进行单向关注(如 GLM)。对于预测,第一个(源)片段中的标记可以在片段内从两个方向相互关注,而第二个(目标)片段中的标记只能关注目标片段中的左向上下文以及自身和源片段中的所有标记。例如,给定源片段 t1 t2 及其目标片段 t3 t4 t5,将输入 “[SOS] t1 t2 [EOS] t3 t4 t5 [EOS]” 输入到模型中。虽然 t1 和 t2 都可以访问包括 [SOS] 和 [EOS] 在内的前四个标记,但 t4 只能访问前六个标记。

        【2】中讨论了大模型的零样本泛化能力,即它们可以执行各种未经过明确训练的任务。然而,最先进的模型所使用的架构和预训练目标有很大差异。在文中对建模选择及其对零样本泛化的影响进行了大规模评估。特别是,对三种模型架构(因果 / 非因果仅解码器和编码器 - 解码器)进行实验,使用两种不同的预训练目标(自回归和掩码语言建模)进行训练。因此对于模型架构的讨论和对零样本泛化能力的影响,可以参考理解,进一步摸清不同的模型架构的特点。

        【3】也对这三类大模型架构进行了讨论,可以参考理解。

【17】中给出了当前业内主流大模型的架构配置分析表(L表示层数,N表示注意力头数,H表示隐藏状态的大小),可以看到因果类型模型占据绝对比例,并且结构上很多模型基本一致,甚至参数设置都趋同。(08.29更新)

2. 常见大模型架构

        在第一部分,我们介绍了目前流行的大模型架构主要分为三类:Encoder-Decoder、Causal Decoder、Prefix Decoder,并且对每一类架构做了关键差异的分析。而其中,又以Decoder-only架构最为主流,比如当前的GPT、Llama、Qwen、ChatGLM等系列模型。因此,接下来,我们主要是针对Decoder-only类型的大模型做进一步讨论分析。

2.1 GPT系列模型结构

        在文章《GPT系列预训练模型原理讲解》中,我们已经系统性讲解了GPT-1、GPT-2、GPT-3、GPT-3.5(InstructGPT)等模型的结构和各自特点。GPT系列模型,主要涉及:

  • 输入嵌入(Input Embeddings)

    • 将输入文本中的每个词或子词转换为向量表示。包括词嵌入(Word Embedding)和位置嵌入(Position Embedding),后者用于保留序列中的位置信息。
  • 多头自注意力机制(Multi-head Self-Attention Mechanism)

    • 自注意力机制是Transformer模型的核心。它允许模型在处理每个词时,关注输入序列中的其他词。多头自注意力机制则通过并行计算多个不同的注意力头,使模型能够关注序列中的不同部分,并捕捉丰富的上下文信息。
  • 前馈神经网络(Feed-Forward Neural Network, FFN)

    • 在每个Transformer层中,注意力机制的输出会通过一个全连接的前馈神经网络进行进一步处理。这个网络通常包含两层线性变换和ReLU激活函数。
  • 残差连接和层归一化(Residual Connections and Layer Normalization)

    • 每个自注意力模块和前馈网络模块都包含残差连接(即跳跃连接),将输入直接添加到输出以避免梯度消失。层归一化则有助于加快训练速度和提高模型的稳定性。
  • 层堆叠(Layer Stacking)

    • GPT模型由多个Transformer层堆叠而成,每一层都由一个多头自注意力模块、一个前馈神经网络模块及其相应的残差连接和层归一化组成。层数通常决定了模型的深度和表示能力。
  • 输出层(Output Layer)

    • 最终的隐藏状态会被映射到词汇表大小的向量,用于预测下一个词。这个映射通常通过一个线性层和一个softmax函数来实现,以计算每个词的生成概率。
  • 自回归机制(Autoregressive Mechanism)

    • GPT采用自回归方式生成文本,这意味着在生成序列中的每个词时,模型只能访问之前生成的词。这种机制通过掩码操作来实现,确保模型在生成第 t 个词时只能看到前 t-1 个词。

        详细内容这里不再赘述,有兴趣可以看下我们之前的技术分析文章。GPT系列大模型,是典型的Decoder-only模型【4,5,6,7】。

       GPT模型架构概览         

2.2 Llama系列模型结构

        在《关于LLaMA 3.1 405B》、《LLaMA3结构关键模块分析》两篇文章中,我们对Llama大模型的架构、关键模块都进行了详细的介绍。Llama大模型的整体结构与GPT基本保持一致,同样涉及上述提到的关键模块内容。但它进一步做了改进,分别为:新增Pre-Norm、Layer Norm换成了RMSNorm、  Self-Attension采用了Group Query Attention、Positional Embedding采用了ROPE、FFN结构采用了SwiGLU。

        首先是Pre-Norm,归一化模块置于注意力和前馈层之前。Pre-norm 可以使每一层的输入分布更加稳定。有助于防止梯度在反向传播过程中出现剧烈的变化,减少梯度消失或爆炸的风险。

        其次是位置嵌入不同,Llama 使用旋转位置嵌入。注意力机制不同,Llama 使用分组多查询注意力。前馈网络(FFN)中的激活函数是 SwiGLU。这些模块的算法原理介绍,可以参考 《LLaMA3结构关键模块分析》,另外也可以参考讲解视频【8】。

        此外,【9】专门讨论了GPT模型与LLama模型的差异,也可以关注。除了我们讨论的关键模块,还针对具体的分类能力、架构的学习效能做了对比。        

GPT模型与Llama模型架构差异对比

2.3 Qwen2模型结构

        关于Qwen2-72b大模型的资料,来自于阿里云官方分享以及其官方技术报告【10, 11】。

Qwen2-72b模型架构图

        从模型架构图来看,Qwen2与Llama模型结构一致,使用的关键模块也都一样。可能与Llama的差异,主要就是参数量设置以及使用的训练预料不同。【12】中提到通义千问基于LLaMA结构调整,其中tied embeddibg改为untied embedding,然后在其他层去除bias,在QKV的注意力机制层加入bias 。不过这种小范围的参数调整不影响大的层面学习,本质上还是一样的结构。不过在【13】中提到Llama-3 不能有效地处理多语言提示,暗示Qwen可能在提示词的处理方便可能会更优。

        以下是Qwen2的参数列表。

{"architectures": ["Qwen2ForCausalLM"],"attention_dropout": 0.0,"bos_token_id": 151643,"eos_token_id": 151645,"hidden_act": "silu","hidden_size": 8192,"initializer_range": 0.02,"intermediate_size": 29568,"max_position_embeddings": 32768,"max_window_layers": 80,"model_type": "qwen2","num_attention_heads": 64,"num_hidden_layers": 80,"num_key_value_heads": 8,"rms_norm_eps": 1e-06,"rope_theta": 1000000.0,"sliding_window": 131072,"tie_word_embeddings": false,"torch_dtype": "bfloat16","transformers_version": "4.40.1","use_cache": true,"use_sliding_window": false,"vocab_size": 152064
}

2.4 ChatGLM模型结构

        本章节会重点对GLM模型进行展开分析讲解,以便更好地理解该模型底层原理。

2.4.1 ChatGLM模型介绍

        ChatGLM是智谱AI的大模型。受 GPT-3 的启发,该团队提出了通用语言模型(GLM)架构,其特点是具有自回归空白填充目标,并在 2021 年开源了 GLM-10B 模型。随后推出了GLM-130B的千亿参数大模型。与此同时,一个较小的版本 ChatGLM-6B 在同一天开源。2024GLM-4已通过 GLM-4 API对外提供服务。 

        【14】介绍了在 ChatGLM 中采用和开发的预训练和后训练技术,包括模型架构、预训练数据、对齐等。预训练数据。预训练语料库由来自不同来源的多语言(主要是英语和中文)文档组成,包括网页、维基百科、书籍、代码和论文。数据处理流程主要包括三个阶段:去重、过滤和tokenization。去重阶段通过去除重复或相似的文档来提高数据多样性,包括精确去重和模糊去重。过滤阶段通过去除包含攻击性语言、占位符文本、源代码等的噪声文档来提高数据质量。tokenization阶段将文本转换为一系列token。预训练数据中的token数量直接影响模型训练速度。采用字节级字节对编码(BPE)算法分别学习中文和多语言token,并将它们与 tiktoken 中的 cl100k_base tokenizer的token合并为一个大小为 150,000 的统一词汇表。在最终的训练集中,对不同的来源进行重新加权,以增加像书籍和维基百科这样的高质量和教育性来源的比例。预训练语料库由大约十万亿个token组成。数据质量和多样性对于构建有效的大型语言模型非常重要。

        GLM 系列大型语言模型基于 Transformer 构建。GLM-130B 采用 DeepNorm 作为层归一化策略,并在 FFN 中使用旋转位置编码(RoPE)以及带有 GeLU 激活函数的门控线性单元。在 GLM-4 模型中,架构上的关键模块技术与Llama有所趋同

  • 除 QKV 外无偏置:为了提高训练速度,去除所有偏置项,除了注意力层的查询(Query)、键(Key)和值(Value)(QKV)中的偏置。这样做在长度外推方面略有改进。
  • RMSNorm 和 SwiGLU:采用 RMSNorm 和 SwiGLU 分别替代 LayerNorm 和 ReLU。这两种策略具有更好的模型性能。
  • 旋转位置嵌入(RoPE):将 RoPE 扩展为二维形式以适应 GLM 中的二维位置编码。
  • 分组查询注意力(GQA):用分组查询注意力(GQA)替代多头注意力(MHA),以减少推理过程中的 KV 缓存大小。鉴于 GQA 比 MHA 使用更少的参数,增加了 FFN 的参数数量以保持相同的模型大小。

        模型的上下文长度从 2K(ChatGLM)扩展到 32K(ChatGLM2 和 ChatGLM3),再到 128K 和 1M(GLM-4)。这种扩展通过上下文扩展(位置编码扩展和在长文本上的持续训练实现),还通过长上下文对齐实现,使 GLM-4 能够有效地处理长上下文。预训练为大型语言模型奠定基础,而后训练进一步细化这些模型以与人类偏好对齐,例如理解人类意图、遵循指令和促进多轮对话。对于 GLM-4,对齐主要通过有监督微调(SFT)和基于人类反馈的强化学习(RLHF)实现。不过目前针对RLHF对于模型的性能影响在业内有一些争议。对于第一代模型(ChatGLM-6B 和 ChatGLM-130B),提示 - 响应对主要由模型开发人员标注。对于后续模型,对齐数据是内部标注数据和从第三方获取的专有数据的组合,并受到相对严格的质量控制措施。

2.4.2 GLM模型介绍      

        GLM (General Language Model) 是一种预训练语言模型,它结合了自回归和填充缺失的方法,称为“Autoregressive Blank Infilling”。该模型的核心思想是通过一个混合的自回归和填充策略进行预训练,以提高模型在生成和理解文本方面的能力【15,16】。   

关键特点:

  • 自回归 (Autoregressive) 生成:

    GLM 结合了自回归的生成方式,即从左到右逐步生成文本。这使得模型能够在生成过程中考虑到上下文信息,从而生成连贯的文本。
  • 填充缺失 (Blank Infilling):

    在预训练阶段,模型会随机掩盖一些词或片段,并要求模型填充这些空白。这种方法类似于 BERT 的掩码语言模型,但不同之处在于 GLM 可以在不同位置填充多个连续的空白,而不仅仅是单个词汇。
  • 统一的框架:

    GLM 的框架将生成和理解结合在一起,既可以用于生成任务(如文本生成)又可以用于理解任务(如问答、文本分类等)。这种统一的预训练目标使得 GLM 在不同的下游任务中表现优异。
GLM Pretraining:

GLM 预训练过程如下:

(a) 原始文本为 [x1, x2, x3, x4, x5, x6],从中选取了两个片段 [x3] 和 [x5, x6]。

(b) 在 Part A 中,将选取的片段替换为 [M],并在 Part B 中对这些片段进行打乱。

(c) GLM 自回归地生成 Part B。每个片段在输入时前置 [S],在输出时后置 [E]。二维位置编码用于表示片段间和片段内的位置。

(d) 自注意力掩码中,灰色区域表示被掩盖部分。Part A 的标记可以互相注意(蓝色框),但不能关注 Part B。Part B 的标记可以关注 Part A 及其在 Part B 中的前置部分(黄色和绿色框分别对应两个片段)。[M] 表示 [MASK], [S] 表示 [START], [E] 表示 [END]。

        在这里,给定输入文本 x=[x1, …, xn],从中采样多个文本片段 {s1, …, sm},其中每个片段 si 对应于文本 x 中一系列连续的标记 [s_i,1; … ; s_i,li]。每个片段都被替换为一个 [MASK] token,从而形成一个被破坏的文本 x_{corrupt}。在预测片段中的缺失token时,模型可以访问被破坏的文本和之前预测的片段。这些片段的顺序会被随机打乱。形式上,设 Zm 为长度为 m 的索引序列 [1, 2, , …, m] 的所有可能排列的集合,而s_z < i 为[s_{z_1},...,s_{z_{i-1}}],则预训练目标定义为:

        在 Part A 中,将采样的片段替换为 [M],并在 Part B 中打乱这些片段。输入 x 被分为两部分:Part A 是被破坏的文本 x_{corrupt},Part B 包含被掩盖的片段。GLM 以自回归方式生成 Part B。每个片段在输入时前置 [S],在输出时后置 [E]。二维位置编码用于表示片段间和片段内的位置。为了实现自回归生成,每个片段在输入和输出时分别填充特殊标记 [START] 和 [END]。通过这种方式,GLM 自动在一个统一的模型中学习到一个双向编码器(用于 Part A)和一个单向解码器(用于 Part B)。对该模型有兴趣的话,可以看看原论文。

        综上所述,虽然目前各厂家都在力推自己的大模型,但是从模型架构来看,差异并不大,从当前的形势看,可能会越来越统一。反而在输入token的长度、输出文本的长度、多任务能力、多模态能力、垂直领域的商用能力等这类功能层面的能力提升,各厂家会逐步形成了自身的壁垒。

3. 参考文献 

【1】Unified Language Model Pre-training for Natural Language Understanding and Generation

【2】What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?

【3】Exploring Architectures and Configurations for Large Language Models

【4】gpt-4-research

【5】A brief on GPT-2 and GPT-3 models

【6】The GPT-3 Architecture

【7】The Transformer architecture of GPT models

 【8】LLaMA explained: KV-Cache, Rotary Positional Embedding, RMS Norm, Grouped Query Attention, SwiGLU

【9】Towards Optimal NLP Solutions: Analyzing GPT and LLaMA-2 Models

【10】QWEN TECHNICAL REPORT    

【11】预训练一个72b模型需要多久(阿里云开发者公众号)

【12】LLM大语言模型-ChatGPT、LLaMA、ChatGLM、文心一言、通义千问

【13】Hello Qwen2

【14】ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

【15】GLM: General Language Model Pretraining with Autoregressive Blank Infilling

【16】acl-GLM: General Language Model Pretraining with Autoregressive Blank Infilling

【17】大语言模型-RUC AI BOX

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/52924.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024全国大学生数学建模国赛,成员如何分工协作?

文末获取2024国赛数学建模思路代码&#xff0c;9.5开赛后第一时间更新 大家知道&#xff0c;数学建模竞赛是需要一个团队的三个人在三天或四天的时间内&#xff0c;完成模型建立&#xff0c;编程实现和论文写作的任务&#xff0c;对许多第一次参加建模或者建模经验比较欠缺的团…

Android 使用原生相机Camera在预览界面进行识别二维码或者图片处理

1 项目需求 最近项目中有个需求:使用原生相机在预览界面进行识别二维码和图片处理。其实这个需求不是很难,难在对预览画面的处理过程。 自己针对这个需求写了一个工具类,便于后续进行复盘,同时也分享给有类似需求的伙伴们。 2 遇到的问题 2.1 二维码识别成功率低 使用…

由浅入深学习 C 语言:Hello World【提高篇】

目录 引言 1. Hello World 程序代码 2. C 语言角度分析 Hello World 程序 2.1. 程序功能分析 2.2 指针 2.3 常量指针 2.4 指针常量 3. 反汇编角度分析 Hello World 程序 3.1 栈 3.2 函数用栈传递参数 3.3 函数调用栈 3.4 函数栈帧 3.5 相关寄存器 3.6 相关汇编指令…

优化学习管理:Moodle和ONLYOFFICE文档编辑器的完美结合

目录 前言 一、什么是 Moodle 1、简单快速插入表单字段 3、免费表单模板库 4、开启无缝协作 三、在Moodle中集成ONLYOFFICE文档 四、在Moodle安装使用ONLYOFFICE 1、下载安装 2、配置服务器 3、在Moodle中使用ONLYOFFICE 文档活动 五、未来展望 写在最后 前言 在当今教育科技飞…

JVM垃圾回收算法:标记-清除算法 、复制算法、 标记-整理算法、 分代收集算法

文章目录 引言I 标记回收算法(Mark-Sweep)算法不足II 复制算法(Copying)III 标记整理算法(Mark-Compact)IV 分代收集(以上三种算法的集合体)内存划分新生代算法:Minor GC老年代算法V 查看JVM堆分配引言 垃圾回收(Garbage Collection,GC) Java支持内存动态分配、…

Flask+LayUI开发手记(六):树型表格的增删改查

树型表格的增删改查功能与数据表格的是完全一致&#xff0c;就是调用layui-form表单组件实现数据输入再提交&#xff0c;比较大的区别是树型节点的编辑&#xff0c;都需要有上级节点的输入&#xff0c;而这个上级节点的展示&#xff0c;必须是以树型方式展示出来。当然&#xf…

语音控制开关的语音识别ic芯片方案

语音控制开关是一种基于语音识别技术的设备&#xff0c;它通过内置的语音识别芯片&#xff0c;将用户的语音指令转化为电信号&#xff0c;从而实现对设备的控制。例如在智能家居设备上的应用&#xff0c;通常需要连接到家庭的Wi-Fi网络上&#xff0c;以便与智能手机或智能音箱等…

golang RSA 解密前端jsencrypt发送的数据时异常 crypto/rsa: decryption error 解决方法

golang中 RSA解密前端&#xff08;jsencrypt&#xff09;发来的密文后出现 "crypto/rsa: decryption error" &#xff0c; 这个问题首先需要确认你的私匙和公匙是否匹配&#xff0c; 如果匹配 那检查入参数据类型&#xff0c; 前端发送来的rsa加密后的数据一般都是…

bbr 随机 phase 的麻烦与 inflight 守恒算法的动机

bbr 有个要点&#xff0c;要把 probebw 的 phase 错开&#xff1a; static void bbr_reset_probe_bw_mode(struct sock *sk) {struct bbr *bbr inet_csk_ca(sk);bbr->mode BBR_PROBE_BW;bbr->cycle_idx CYCLE_LEN - 1 - prandom_u32_max(bbr_cycle_rand);bbr_advance…

Java项目:基于SpringBoot+mysql在线拍卖系统(含源码+数据库+答辩PPT+毕业论文)

一、项目简介 本项目是一套基于SSM框架mysql在线拍卖系统 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能完善、界面美观、操作简单、功能齐全、…

Java 面试题:HTTP版本演变--xunznux

文章目录 HTTP版本演变HTTP/0.9HTTP/1.0HTTP/1.1新引入&#xff1a;问题&#xff1a;长连接是什么&#xff1a;管道网络传输&#xff1a;队头阻塞是什么&#xff1f;解决http队头阻塞的方法&#xff1a;HTTP1.1常见性能问题为解决HTTP1.1性能问题而提出的常见优化手段 HTTP/21、…

【河北航空-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 1. 暴力破解密码&#xff0c;造成用户信息泄露 2. 短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉 3. 带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造…

RS485与USB3.1电路

USB2.0最高也就480M&#xff0c;而USB3.0轻松到达5Gbps&#xff1a; DTU远程控制&#xff1a; DTU&#xff08;数据传输单元&#xff09;通常用于将数据从现场设备传输到远程服务器&#xff0c;常用于物联网、工业控制、远程监控等场景。它可以通过GPRS/4G、Wi-Fi、以太网等方…

Python网络爬虫模拟登录与验证解析

内容导读 使用Selenium模拟登录 使用Cookies登录网站 模拟表单登录网站 爬虫识别简单的验证码 实例解析 一、使用Selenium模拟登录 1、为什么要模拟登录 在互联网上存在大量需要登录才能访问的网站&#xff0c;要爬取这些网站&#xff0c;就需要学习爬虫的模拟登录。对…

TC-RAG: Turing-Complete RAG--图灵完备的检索增强

摘要&#xff1a; 在提升领域特定的大语言模型&#xff08;LLMs&#xff09;的方法中&#xff0c;检索增强生成&#xff08;RAG&#xff09;技术作为一种有前景的解决方案&#xff0c;可以缓解诸如幻觉、知识过时以及在高度专业化查询中专业知识有限等问题。然而&#xff0c;现…

WPF- vs中的WPF应用项目模板 如何自己实现

读书笔记 1. 单个 c#文件的 空白window应用程序 (只展示了一个button按钮) 2.C#文件 和xml文件 的空白window程序 .xml文件作为程序的资源 (只一个button按钮) 3. xmal和c#共同编译 形如使用VS 创建WPF应用项目模板 1.新建一个wpf空白项目 ,添加一个主c#文件 和xaml文件(属…

【C++ Primer Plus习题】7.2

问题: 解答: #include <iostream> using namespace std;#define MAX 10int input(float* grade, int len) {int i 0;for (i 0; i < len; i){cout << "请输入第" << i 1 << "个高尔夫成绩(按0结束):";cin >> grade[i]…

【二叉树进阶】--- 前中后序遍历非递归

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏&#xff1a; 算法Journey 本篇博客我们将来了解有关二叉树前中后序遍历的非递归版本。 &#x1f3e0; 前序遍历 要迭代非递归实现二叉树的前序遍历&#xff0c;首先还…

【Android】MotionLayout实现动画效果

【Android】MotionLayout实现开场动画 在移动应用开发中&#xff0c;动画不仅仅是美化界面的工具&#xff0c;它更是提升用户体验的关键手段。Android 平台一直以来都提供了丰富的动画框架&#xff0c;但随着应用复杂性的增加&#xff0c;开发者对动画的需求也变得更加复杂和多…