教务系统网站怎么做/chrome手机版

教务系统网站怎么做,chrome手机版,在五八同城做网站多少钱,佛山大型的网站制作Hugging Face预训练GPT微调ChatGPT(微调入门!新手友好!) 在实战中,⼤多数情况下都不需要从0开始训练模型,⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。 在各种⼤模型开源库中,最…

Hugging Face预训练GPT微调ChatGPT(微调入门!新手友好!)

在实战中,⼤多数情况下都不需要从0开始训练模型,⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。

在各种⼤模型开源库中,最具代表性的就是Hugging FaceHugging Face是⼀家专注于NLP领域的AI公司,开发了⼀个名为Transformers的开源库,该开源库拥有许多预训练后的深度学习模型,如BERT、GPT-2、T5等。Hugging FaceTransformers开源库使研究⼈员和开发⼈员能够更轻松地使⽤这些模型进⾏各种NLP任务,例如⽂本分类、问答、⽂本⽣成等。这个库也提供了简洁、⾼效的API,有助于快速实现⾃然语⾔处理应⽤。

从Hugging Face下载⼀个GPT-2并微调成ChatGPT,需要遵循的步骤如下。

image-20250319144401279

1.安装Hugging Face Transformers库

pip install transformers

2.载入预训练GPT-2模型和分词器

import torch # 导⼊torch
from transformers import GPT2Tokenizer # 导⼊GPT-2分词器
from transformers import GPT2LMHeadModel # 导⼊GPT-2语⾔模型
model_name = "gpt2" # 也可以选择其他模型,如"gpt2-medium" "gpt2-large"等
tokenizer = GPT2Tokenizer.from_pretrained(model_name) # 加载分词器
tokenizer.pad_token = '' # 为分词器添加pad token
tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids('')
device = "cuda" if torch.cuda.is_available() else "cpu" # 判断是否有可⽤的GPU
model = GPT2LMHeadModel.from_pretrained(model_name).to(device) # 将模型加载到设备上(CPU或GPU)
vocab = tokenizer.get_vocab() # 获取词汇表
print("模型信息:", model)
print("分词器信息:",tokenizer)
print("词汇表⼤⼩:", len(vocab))
print("部分词汇示例:", (list(vocab.keys())[8000:8005]))

3.准备微调数据集

from torch.utils.data import Dataset  # 导入PyTorch的Dataset# 自定义ChatDataset类,继承自PyTorch的Dataset类
class ChatDataset(Dataset):def __init__(self, file_path, tokenizer, vocab):self.tokenizer = tokenizer  # 分词器self.vocab = vocab  # 词汇表# 加载数据并处理,将处理后的输入数据和目标数据赋值给input_data和target_dataself.input_data, self.target_data = self.load_and_process_data(file_path)# 定义加载和处理数据的方法def load_and_process_data(self, file_path):with open(file_path, "r") as f:  # 读取文件内容lines = f.readlines()input_data, target_data = [], []for i, line in enumerate(lines):  # 遍历文件的每一行if line.startswith("User:"):  # 如以"User:"开头,移除"User: "前缀,并将张量转换为列表tokens = self.tokenizer(line.strip()[6:], return_tensors="pt")["input_ids"].tolist()[0]tokens = tokens + [self.tokenizer.eos_token_id]  # 添加结束符input_data.append(torch.tensor(tokens, dtype=torch.long))  # 添加到input_dataelif line.startswith("AI:"):  # 如以"AI:"开头,移除"AI: "前缀,并将张量转换为列表tokens = self.tokenizer(line.strip()[4:], return_tensors="pt")["input_ids"].tolist()[0]tokens = tokens + [self.tokenizer.eos_token_id]  # 添加结束符target_data.append(torch.tensor(tokens, dtype=torch.long))  # 添加到target_datareturn input_data, target_data# 定义数据集的长度,即input_data的长度def __len__(self):return len(self.input_data)# 定义获取数据集中指定索引的数据的方法def __getitem__(self, idx):return self.input_data[idx], self.target_data[idx]file_path = "/kaggle/input/hugging-face-chatgpt-chat-data/chat.txt"  # 加载chat.txt数据集
chat_dataset = ChatDataset(file_path, tokenizer, vocab)  # 创建ChatDataset对象,传入文件、分词器和词汇表# 打印数据集中前2个数据示例
for i in range(2):input_example, target_example = chat_dataset[i]print(f"示例 {i + 1}:")print("输入:", tokenizer.decode(input_example))print("输出:", tokenizer.decode(target_example))

4.准备微调数据加载器

from torch.utils.data import DataLoader  # 导入DataLoadertokenizer.pad_token = ''  # 为分词器添加pad token
tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids('')# 定义pad_sequence函数,用于将一批序列补齐到相同长度
def pad_sequence(sequences, padding_value=0, length=None):# 计算最大序列长度,如果length参数未提供,则使用输入序列中的最大长度max_length = max(len(seq) for seq in sequences) if length is None else length# 创建一个具有适当形状的全零张量,用于存储补齐后的序列result = torch.full((len(sequences), max_length), padding_value, dtype=torch.long)# 遍历序列,将每个序列的内容复制到张量result中for i, seq in enumerate(sequences):end = len(seq)result[i, :end] = seq[:end]return result# 定义collate_fn函数,用于将一个批次的数据整理成适当的形状
def collate_fn(batch):# 从批次中分离源序列和目标序列sources, targets = zip(*batch)# 计算批次中的最大序列长度max_length = max(max(len(s) for s in sources), max(len(t) for t in targets))# 使用pad_sequence函数补齐源序列和目标序列sources = pad_sequence(sources, padding_value=tokenizer.pad_token_id, length=max_length)targets = pad_sequence(targets, padding_value=tokenizer.pad_token_id, length=max_length)# 返回补齐后的源序列和目标序列return sources, targets# 创建DataLoader
chat_dataloader = DataLoader(chat_dataset, batch_size=2, shuffle=True, collate_fn=collate_fn)# 检查Dataloader输出
for input_batch, target_batch in chat_dataloader:print("Input batch tensor size:", input_batch.size())print("Target batch tensor size:", target_batch.size())breakfor input_batch, target_batch in chat_dataloader:print("Input batch tensor:")print(input_batch)print("Target batch tensor:")print(target_batch)break

5.对GPT-2进行微调

import torch.nn as nn
import torch.optim as optim# 定义损失函数,忽略pad_token_id对应的损失值
criterion = nn.CrossEntropyLoss(ignore_index=tokenizer.pad_token_id)# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.0001)# 进行500个epoch的训练
for epoch in range(500):for batch_idx, (input_batch, target_batch) in enumerate(chat_dataloader):  # 遍历数据加载器中的批次optimizer.zero_grad()  # 梯度清零input_batch, target_batch = input_batch.to(device), target_batch.to(device)  # 输入和目标批次移至设备outputs = model(input_batch)  # 前向传播logits = outputs.logits  # 获取logits# 计算损失loss = criterion(logits.view(-1, len(vocab)), target_batch.view(-1))loss.backward()  # 反向传播optimizer.step()  # 更新参数if (epoch + 1) % 100 == 0:  # 每100个epoch打印一次损失值print(f'Epoch: {epoch + 1:04d}, cost = {loss:.6f}')

6.用约束解码函数生成回答

# 定义集束解码函数
def generate_text_beam_search(model, input_str, max_len=50, beam_width=5):model.eval()  # 将模型设置为评估模式(不计算梯度)# 对输入字符串进行编码,并将其转换为张量,然后将其移动到相应的设备上input_tokens = tokenizer.encode(input_str, return_tensors="pt").to(device)# 初始化候选序列列表,包含当前输入序列和其对数概率得分(我们从0开始)candidates = [(input_tokens, 0.0)]# 禁用梯度计算,以加速预测过程with torch.no_grad():# 迭代生成最大长度的序列for _ in range(max_len):new_candidates = []# 对于每个候选序列for candidate, candidate_score in candidates:# 使用模型进行预测outputs = model(candidate)# 获取输出logitslogits = outputs.logits[:, -1, :]# 获取对数概率得分的top-k值(即beam_width)及其对应的tokenscores, next_tokens = torch.topk(logits, beam_width, dim=-1)final_results = []# 遍历top-k token及其对应的得分for score, next_token in zip(scores.squeeze(), next_tokens.squeeze()):# 在当前候选序列中添加新的tokennew_candidate = torch.cat((candidate, next_token.unsqueeze(0).unsqueeze(0)), dim=-1)# 更新候选序列的得分new_score = candidate_score - score.item()# 如果新的token是结束符(eos_token),则将该候选序列添加到最终结果中if next_token.item() == tokenizer.eos_token_id:final_results.append((new_candidate, new_score))# 否则,将新的候选序列添加到新候选序列列表中else:new_candidates.append((new_candidate, new_score))# 从新候选序列列表中选择得分最⾼的top-k个序列candidates = sorted(new_candidates, key=lambda x: x[1])[:beam_width]# 选择得分最⾼的候选序列best_candidate, _ = sorted(candidates, key=lambda x: x[1])[0]# 将输出token转换回文本字符串output_str = tokenizer.decode(best_candidate[0])# 移除输入字符串并修复空格问题input_len = len(tokenizer.encode(input_str))output_str = tokenizer.decode(best_candidate.squeeze()[input_len:])return output_str# 测试模型
test_inputs = ["what is the weather like today?","can you recommend a good book?"
]# 输出测试结果
for i, input_str in enumerate(test_inputs, start=1):generated_text = generate_text_beam_search(model, input_str)print(f"测试 {i}:")print(f"User: {input_str}")print(f"AI: {generated_text}")
测试1:
User: what is the weather like today?<|endoftext|>
AI: you need an current time for now app with app app app app
测试2:
User: Can you recommend a good book?<|endoftext|>
AI: ockingbird Lee Harper Harper Taylor

模型的回答虽然称不上完美,但是,我们⾄少能够看出,微调数据集中的信息起到了⼀定的作⽤。第⼀个问题问及天⽓,模型敏锐地指向“app”(应⽤)这个存在于训练语料库中的信息,⽽查看“应⽤”确实是我们希望模型给出的答案。回答第⼆个问题时,模型给出了语料库中所推荐图书的作者的名字“Lee Harper”,⽽书名“To kill a Mockingbird”中的mockingbird是⼀个未知token,模型把它拆解成了三个token。具体信息如下。

tokenizer.encode('Mockingbird')[44/76, 8629, 16944]
tokenizer.decode(44)'M'
tokenizer.decode(8629)'ocking'
tokenizer.decode(16944)'bird'

因此,在解码时,出现了ockingbird这样的不完整信息,但是其中也的确包含了⼀定的语料库内部的知识。

⽽微调则针对特定任务进⾏优化。这⼀模式的优势在于,微调过程通常需要较少的训练数据和计算资源,同时仍能获得良好的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898502.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis BitMap 用户签到

Redis Bitmap Bitmap&#xff08;位图&#xff09;是 Redis 提供的一种用于处理二进制位&#xff08;bit&#xff09;的特殊数据结构&#xff0c;它基于 String 类型&#xff0c;每个 bit 代表一个布尔值&#xff08;0 或 1&#xff09;&#xff0c;可以用于存储大规模的二值状…

Nodejs使用redis

框架&#xff1a;koa&#xff0c;通过koa-generator创建 redis: 本地搭建&#xff0c;使用默认帐号&#xff0c;安装说明地址以及默认启动设置&#xff1a;https://redis.io/docs/latest/operate/oss_and_stack/install/install-redis/install-redis-on-linux/ 中间件&#x…

调研报告:Hadoop 3.x Ozone 全景解析

Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。 Ozone 不仅能存储数十亿个不同大小的对象,还支持在容器化环境(比如 Kubernetes)中运行。 Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口…

AI学习——卷积神经网络(CNN)入门

作为人类&#xff0c;我们天生擅长“看”东西&#xff1a;一眼就能认出猫狗、分辨红绿灯、读懂朋友的表情……但计算机的“眼睛”最初是一片空白。直到卷积神经网络&#xff08;CNN&#xff09;​的出现&#xff0c;计算机才真正开始理解图像。今天&#xff0c;我们就用最通俗的…

⭐算法OJ⭐二叉树的前序遍历【树的遍历】(C++实现)Binary Tree Preorder Traversal

⭐算法OJ⭐二叉树的中序遍历【树的遍历】&#xff08;C实现&#xff09;Binary Tree Inorder Traversal Given the root of a binary tree, return the preorder traversal of its nodes’ values. Example 1: Input: root [1,null,2,3] Output: [1,2,3]Explanation: Exam…

计算机二级MS之Excel

声明&#xff1a;跟着大猫和小黑学习随便记下一些笔记供大家参考&#xff0c;二级考试之前将持续更新&#xff0c;希望大家二级都能轻轻松松过啦&#xff0c;过了二级的大神也可以在评论区留言给点建议&#xff0c;感谢大家&#xff01;&#xff01; 文章目录 考题难点&#x…

【Linux】VMware Workstation Pro 17 安装教程

目录 安装 VMware Workstation Pro 17 一、CDS Repository 获取安装包 二、网盘获取安装包 三、Broadcom官方获取安装包 后续安装过程没啥特殊要求 安装 VMware Workstation Pro 17 目前VMware Workstation pro 17已经对个人用户免费开放使用。 Broadcom官网地址&#x…

如何在云端平台上建立 30,000 名用户的网页 MMO游戏环境-2 (服务器)

接续上一篇「如何在云端平台上建立 30,000 名用户的网页 MMO游戏环境」&#xff0c;接下来讨论模拟连结上的问题。 最初计划使用35台伺服器来完成这个实验&#xff0c;希望能够有大量的用户连接&#xff0c;以验证真实的连接状况。然而&#xff0c;我们高估了这方面&#xff0c…

架构设计的灵魂交响曲:系统设计各维度的深度解析与实战指南

引言: 系统设计的背景与重要性 在快速变化的技术环境中&#xff0c;数字化转型成为企业生存与发展的核心驱动力。系统设计能力不仅是技术团队的核心竞争力&#xff0c;也是推动业务创新和提升整体效率的关键因素。根据Gartner的研究&#xff0c;超过70%的数字化转型项目未能实…

C语言指针(详细总结)

目录 1.初始C指针 几个重要的概念&#xff1a; 指针的加减 &与* 二级指针 2.指针与数组 指针数组 数组指针变量 一维数组与二维数组传参的本质 ​编辑​编辑 ​编辑 3.指针与函数 函数指针数组 4.指针与结构体 5.野指针以及常见的内存管理错误 常见的内存错…

介绍一下TiDB、RocksDb、levelDB、LSM 树、SSTable。

LSM 树&#xff08;Log-Structured Merge-Tree&#xff09; 核心原理&#xff1a;通过将随机写转换为顺序写优化写入性能&#xff0c;适用于写密集型场景。数据首先写入内存中的 MemTable&#xff08;有序结构&#xff0c;如跳表&#xff09;&#xff0c;当达到阈值后转为 Imm…

ESP32 BLE 初步学习笔记

前言 蓝牙作为一个庞大的知识体系&#xff0c;其学习和运用对于初学者来说显得有些复杂且凌乱。我整理了这段时间的学习笔记&#xff0c;涵盖了协议栈、工作流程、参数等内容。在实际应用中&#xff0c;我们主要使用 GAP 和 GATT&#xff0c;协议栈中的其他部分只需了解即可。…

代码随想录算法训练营第五十二天 |101. 孤岛的总面积102. 沉没孤岛103. 水流问题104.建造最大岛屿

101. 孤岛的总面积 卡码网&#xff1a;101. 孤岛的总面积(opens new window) 题目描述 给定一个由 1&#xff08;陆地&#xff09;和 0&#xff08;水&#xff09;组成的矩阵&#xff0c;岛屿指的是由水平或垂直方向上相邻的陆地单元格组成的区域&#xff0c;且完全被水域单…

Simple-BEV的bilinear_sample 作为view_transformer的解析,核心是3D-2D关联点生成

文件路径models/view_transformers 父类 是class BiLinearSample(nn.Module)基于https://github.com/aharley/simple_bev。 函数解析 函数bev_coord_to_feature_coord的功能 将鸟瞰图3D坐标通过多相机&#xff08;针孔/鱼眼&#xff09;内外参投影到图像特征平面&#xff0…

A/B测试入门指南

目录 一、什么是A/B测试1.1 A/A测试1.2 多变量测试 二、A/B测试应用场景三、A/B测试基本流程四、A/B测试面试真题4.1 【是什么】4.2 【为什么】4.3 【怎么做】 五、应用实战 一、什么是A/B测试 A/B 测试是一种常见的实验方法&#xff0c;用于比较两个或多个方案的效果&#xff…

自己构建的交叉编译器找不到PATH_MAX

接上篇centos6.10 编译gcc11.5 x64到aarch64交叉工具链 -CSDN博客 PATH_MAX找不到&#xff0c;不仅在编译gcc的过程中遇到&#xff0c;而且临时改gcc源码添加#define PATH_MAX 4096 宏定义后勉强通过gcc全量编译。这个新的gcc编译使用了PATH_MAX宏的代码还是会找不到。这个问题…

vscode查看文件历史git commit记录

方案一&#xff1a;GitLens 在vscode扩展商店下载GitLens 选中要查看的文件&#xff0c;vscode界面右上角点击GitLens的图标&#xff0c;选择Toggle File Blame 界面显示当前打开文件的所有修改历史记录 鼠标放到某条记录上&#xff0c;可以看到记录详情&#xff0c;选中O…

IREE AI编译器编译测试流程指南

iree onnx demo 计划协议系列博客,记录学习iree编译器的过程. 今天第一篇博客,记录安装和测试iree 文章目录 iree onnx demo下载安装ireepython环境安装编译测试1. [前端] onnx模型转MLIR文件2. [后端] MLIR文件转可执行文件3. [执行] 执行测试编译后的文件 关于后端设备的介…

破解验证码新利器:基于百度OCR与captcha-killer-modified插件的免费调用教程

破解验证码新利器&#xff1a;基于百度OCR与captcha-killer-modified插件的免费调用教程 引言 免责声明&#xff1a; 本文提供的信息仅供参考&#xff0c;不承担因操作产生的任何损失。读者需自行判断内容适用性&#xff0c;并遵守法律法规。作者不鼓励非法行为&#xff0c;保…

JSON 解析中需要清理的危险字符

在代码中 replace(chr(0), "") 的作用是删除 JSON 响应中可能存在的空字符&#xff08;Null character&#xff09;。以下是详细解释&#xff1a; 1. chr(0) 是什么&#xff1f; chr(0) 表示 ASCII 码为 0 的字符&#xff0c;即空字符&#xff08;Null Character&am…