人工智能（一）架构

一、引言

人工智能这个词不是很新鲜，早就有开始研究的，各种推荐系统、智能客服都是有一定的智能服务的，但是一直都没有体现出多高的智能性，很多时候更像是‘人工智障’。

但是自从chatGpt3被大范围的营销和使用之后，人工智能逐渐体现出来他的智能性和高度的推理分析能力，虽然还是比不上有经验的业界选手，但是完全可以指导刚刚入行的业界菜鸟。

他的范围也不再局限于软件行业，财务、法律、人事等等各种各样的行业都开始进行学习使用。但是大家对于他的实现原理和架构还是没有了解，只是听各种特征过程、神经网络、token、大模型之类的专业术语就感觉好像是两个世界的知识一样，其实只是因为AI已经被研究了很久，积累的底层比较多。

作者经过一段时间的研究学习，对于AI也有了自己的一些理解，在这里进行分享，希望读者可以解开心中的疑惑，并且做好未来AI的学习应对。

二、架构

人工智能的使用场景很多，对话、机器人、文本分析、视频图像处理等等。一方面既然是因为chatGpt，人工智能这个词又被炒热了，另外一方面对话分析又非常具有人工智能代表性，毕竟授人以鱼不如授人以渔，对话传递知识明显是更加智能的体现。作者就以对话模型作为分析的场景。

在作者看来他的架构是这样的：

1、神经网络

神经网络是一种受人脑结构和功能启发的计算模型，它试图模拟生物神经系统的信息处理方式。基本的神经网络由大量的节点（或称为“神经元”）组成，这些节点通常被组织成多层。每个节点接收来自前一层节点的输入，对这些输入进行加权求和，然后通过一个非线性激活函数生成输出，该输出随后传递给下一层节点。

2、深度学习框架

深度学习框架是一种软件库或工具，它提供了构建、训练和部署深度学习模型所需的模块和接口。这些框架通常包含了预定义的多种神经网络层、优化算法、损失函数以及其他有助于简化深度学习模型开发的工具。代表性的有TensorFlow、PyTorch

3、Transformer模型

Transformer模型是一种基于自注意力机制的深度学习模型，Transformer模型在自然语言处理（NLP）领域取得了革命性的进展，尤其是在机器翻译、文本摘要、问答系统和文本生成等任务中表现出色。

Encoder (左侧): 编码器接收输入并构建其表示（其特征）。这意味着对模型进行了优化，以从输入中获得理解。
Decoder (右侧): 解码器使用编码器的表示（特征）以及其他输入来生成目标序列。这意味着该模型已针对生成输出进行了优化。

4、数据集

通常是从互联网上收集的大规模文本数据，包括书籍、文章、网页、新闻、论坛帖子、社交媒体内容等，经过清洗和预处理，更适合于模型训练，比如：

评论,情感"这部电影的剧情紧凑，特效震撼，非常推荐！",正面"演员的表演非常自然，导演把握得很好，值得一看。",正面"电影节奏太慢，情节也比较散乱，不太喜欢。",负面"虽然期待已久，但看完之后感觉很失望，剧情缺乏新意。",负面"音乐和摄影都很出色，给人留下深刻印象。",正面"特效做得很糟糕，完全破坏了观影体验。",负面

5、标记器Tokenizer

将文本数据转换为模型能够理解的格式，就像计算机只会理解0、1一样，模型识别数据也只能识别数字，那就需要将数据集转换成模型认识的数字，他分为以下几步：

分词（Tokenization）：将文本字符串分割成更小的单元，这些单元可以是单词、子词（subwords）、字符等。例如，句子 "Hello, world!" 可能被分割成 ["Hello", ",", "world", "!"]。
编码（Encoding）：将分词后的单元转换为数值ID，这些ID对应于模型的词汇表中的索引。例如，"Hello" 可能被转换为词汇表中的ID 1234。
添加特殊标记（Special Tokens）：为了满足特定模型的要求，可能需要在序列的开始、结束或其他位置添加特殊标记，如 [CLS]、[SEP]、[PAD] 等。
截断和填充（Truncation and Padding）：将序列截断或填充到模型所需的固定长度。

6、模型训练

主要是通过导入大量的数据，进行处理之后给模型源代码进行训练，训练之后模型就有了权重。在作者看来，经过训练之后的权重就像是小孩学习之后有自己的判断能力，他的用处主要是：

预测/推断：训练后的权重捕捉了模型从训练数据中学习到的模式和关系。当新的输入数据被送入模型时，这些权重被用来计算预测结果，无论是分类标签、回归值还是其他类型的输出。
决策制定：在实际应用中，如自动驾驶、医疗诊断、股票交易等，训练后的模型可以根据其权重来做出决策或提供建议。
特征理解：在某些情况下，训练后的权重可以帮助我们理解模型是如何处理输入数据的，哪些特征对于预测结果更为重要

预训练是训练模型前的一个操作：随机初始化权重，在没有任何先验知识的情况下开始训练。训练可能需要几周的时间。这是一个简单的例子：

import jiebaimport tensorflow as tffrom tensorflow.keras.preprocessing.text import Tokenizerfrom tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Embedding, LSTM, Dense
# 假设loadset是一个函数，用于加载数据集# 这里我们用一个占位符函数代替实际的加载过程def loadset():    # 这里应该是加载数据集的代码    # 返回数据和标签    return ["这是一个例句。", "这是另一个例句。"], [0, 1]
# 加载数据集texts, labels = loadset()
# 使用jieba进行分词texts = [" ".join(jieba.cut(text)) for text in texts]
# 使用Tokenizer进行词汇映射tokenizer = Tokenizer(num_words=10000)tokenizer.fit_on_texts(texts)sequences = tokenizer.texts_to_sequences(texts)
# 对序列进行填充以保证相同长度data = pad_sequences(sequences, maxlen=100)
# 构建模型model = Sequential()model.add(Embedding(10000, 128, input_length=100))model.add(LSTM(64))model.add(Dense(1, activation='sigmoid'))
# 编译模型model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
# 训练模型model.fit(data, labels, epochs=10, batch_size=32)

微调是在模型经过预训练后完成的训练。要执行微调，首先需要获取一个经过预训练的语言模型，然后使用特定任务的数据集执行额外的训练。

Transformers提供了一个 Trainer 类在数据集上微调任何预训练模型。

from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArgumentsfrom datasets import load_dataset
# 加载预训练的tokenizer和模型tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=2)
# 加载数据集，这里以'huggingface/datasets'中的'glue'数据集的'sst2'任务为例# 你可以替换为你自己的中文数据集dataset = load_dataset('glue', 'sst2')
# 对数据集进行预处理def preprocess_function(examples):    return tokenizer(examples['sentence'], padding='max_length', truncation=True)
encoded_dataset = dataset.map(preprocess_function, batched=True)
# 定义训练参数training_args = TrainingArguments(    output_dir='./results',          # 输出目录    num_train_epochs=3,              # 训练轮数    per_device_train_batch_size=16,  # 每个设备的训练batch大小    per_device_eval_batch_size=64,   # 每个设备的评估batch大小    warmup_steps=500,                # 预热步数    weight_decay=0.01,               # 权重衰减    logging_dir='./logs',            # 日志目录    logging_steps=10,)
# 初始化Trainertrainer = Trainer(    model=model,    args=training_args,    train_dataset=encoded_dataset['train'],    eval_dataset=encoded_dataset['validation'],)
# 开始训练trainer.train()

三、使用

模型的使用以前在c端都是智能客服和学习机、推荐系统之类的角色，即使智能性上升也很难做出质的改变。

至于机器人的确也是很大的使用方向，智能性提升，机器人才能发挥用武之地，但是作者认为目前的工业水准还不足以支撑机器人的智能行动，还是会局限在简单动作

除了模型对话之外，主要还是要学习使用AI工具，比如制作视频图片等等，很多公司都用模型和音频软件打通，然后由用户对工具输入指令并且不断微调，这个过程会减少人力成本，毕竟软件和软件对接操作，总归比人和软件交互友好。

至于技术人员对AI的使用，神经网络算法、深度学习框架已经偏向于基石，一方面是对参与者的要求很高，一方面是很难进行优化研究，我们以后的目光应该集中在大模型的使用和训练微调。

有初步理解的读者应该能明白，数据集的质量和引导性对于模型的智能效果影响是很大的，所以各种使用场景、专业知识、工作环境的数据就会影响模型的运转的效率和准确性。

未来的使用方向一定是ToB的，还有内部环境使用，就像作者公司内部已经使用模型进行代码检查了，使用起来主要是把改动代码传递给模型，让他按照固定的输出模板进行评论

这个过程最复杂的反而是输入文本（Prompt）的不断调整。举个例子，你让模型做代码检查，总不能说，你给我检查一下吧，你要告诉模型扮演的角色，输出什么（比如代码可读性、可维护性和可扩展性的改进；优化建议，考虑时间复杂性和性能；不要检查代码注释和其他代码样式问题等等），答案需要是一个特定模板的json，这样才可以解析，因为还有拿这个给去做画面展示呢。模型的交互也是多次的，毕竟代码改动很多，但是模型输入长度是有限制的。

后续还要进行模型微调，比如公司的基础组件、工具类的数据描述，不然AI代码检查就不理解这些，总是猜测这种代码有没有问题

所以一方面是AI工具的学习使用，一方面是模型的训练微调，两个方向是后面AI的主流