基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理

基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理

bicheng/2025/4/5 0:23:59/文章来源:https://blog.csdn.net/jining11/article/details/146283684

在基于LLamaFactory微调完具备思维链的DeepSeek模型之后（详见《深入探究LLamaFactory推理DeepSeek蒸馏模型时无法展示＜think＞思考过程的问题》），接下来就需要针对微调好的模型或者是原始模型（注意需要有一个本地的模型文件，全量微调就是saves下面的文件夹，如果是LoRA，还需要进行一步导出模型的操作），实现快速高效的模型推理。本文将详细分享如何基于Transformer框架，通过多GPU并行实现DeepSeek模型的非流式批量推理，并解决在实践中遇到的关键技术挑战如输出结果错乱、tokenizer编码参数、tokenizer解码输出、推理效果不一致、开启多卡多进程推理等等。

文章目录

单卡并行
- 源码解读
- 实现细节
- - 如何通过设置padding_side解决输出结果错乱的问题
  - tokenizer编码时的参数设置会如何影响最终效果
  - - 核心参数及其作用
    - 推荐使用场景
  - 如何准确提取tokenizer解码时的输出部分
  - 如何通过调整transformer库版本解决推理效果不一致的问题
多卡并行
- 源码解读
- 实现细节
- - 如何在无Dataloader的前提下解决多卡并行的问题
  - 如何解决多线程推理结果反而变慢的问题

🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/75574.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于OpenCV的指纹验证：从原理到实战的深度解析

基于OpenCV的指纹验证：从原理到实战的深度解析

指纹识别的技术革命与OpenCV的轻量级方案在生物特征识别领域，指纹识别始终以独特性和稳定性占据核心地位。随着OpenCV等开源视觉库的普及，这项看似"高大上"的技术正逐步走向民用化开发。本文将突破传统算法框架，提出一套基于OpenC…

阅读更多...

十五届蓝桥杯省赛Java B组（持续更新..）

十五届蓝桥杯省赛Java B组（持续更新..）

目录十五届蓝桥杯省赛Java B组第一题：报数第二题：类斐波那契数第三题：分布式队列第四题：食堂第五题：最优分组第六题：星际旅行第七题：LITS游戏第八题：拼十字十五届蓝桥杯省赛Java B…

阅读更多...

多模态学习（八）：2022 TPAMI——U2Fusion: A Unified Unsupervised Image Fusion Network

多模态学习（八）：2022 TPAMI——U2Fusion: A Unified Unsupervised Image Fusion Network

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber9151265 目录一.摘要 1.1 摘要翻译 1.2 摘要解析二.Introduction 2.1 Introduciton翻译 2.2 Introduction 解析三. related work 3.1 related work翻译 3.2 relate work解析四…

阅读更多...

电脑屏幕亮度随心控，在Windows上自由调整屏幕亮度的方法

电脑屏幕亮度随心控，在Windows上自由调整屏幕亮度的方法

调整电脑屏幕的亮度对于保护视力和适应不同环境光线条件非常重要。无论是在白天强光下还是夜晚昏暗环境中，合适的屏幕亮度都能让您的眼睛更加舒适。本文中简鹿办公小编将向您介绍几种在 Windows 系统中调整屏幕亮度的方法。方法一：使用快捷键大多数笔…

阅读更多...

AF3 OpenFoldDataset类looped_samples方法解读

AF3 OpenFoldDataset类looped_samples方法解读

AlphaFold3 data_modules 模块的 OpenFoldDataset 类的 looped_samples 方法用于循环采样数据，确保数据能被不断地提供，适用于 PyTorch 的 DataLoader 在训练过程中迭代读取数据。dataset_idx 指定了当前要处理的数据集（即 self.datasets[dataset_idx]）源代码： def loo…

阅读更多...

lua表table和JSON字符串互转

lua表table和JSON字符串互转

--print("local ssxc{\n"..string.gsub(str,":","").."\n}") Utils {} ---------------------------------------------------------------------------------- -- Lua-Table 与 string 转换 local function value2string(value, isA…

阅读更多...

请谈谈分治算法，如何应用分治算法解决大规模问题？

请谈谈分治算法，如何应用分治算法解决大规模问题？

分治算法实战解析与前端应用指南分治算法本质剖析分治算法的核心在于"分而治之"，其工作流程可分解为三个关键阶段： 分解阶段（Divide）：将复杂问题拆分为若干个相互独立的子问题攻克阶段（Conqu…

阅读更多...

基于BusyBox构建ISO镜像

基于BusyBox构建ISO镜像

1. 准备 CentOS 7.9 3.10.0-957.el7.x86_64VMware Workstation 建议：系统内核<3.10.0 使用busybox < 1.33.2版本 2. 安装busybox # 安装依赖 yum install syslinux xorriso kernel-devel kernel-headers glibc-static ncurses-devel -y# 下载 wget https://…

阅读更多...

Node.js 与 MySQL：深入理解与高效实践

Node.js 与 MySQL：深入理解与高效实践

Node.js 与 MySQL：深入理解与高效实践引言随着互联网技术的飞速发展，Node.js 作为一种高性能的服务端JavaScript运行环境，因其轻量级、单线程和事件驱动等特点，受到了广大开发者的青睐。MySQL 作为一款开源的关系型数据库管理系统，以其稳定性和可靠性著称。本文将深入…

阅读更多...

Android学习总结之handler源码级

Android学习总结之handler源码级

一、核心类关系与线程绑定（ThreadLocal 的核心作用） 1. Looper 与 ThreadLocal 的绑定每个线程的 Looper 实例通过 ThreadLocal<Looper> sThreadLocal 存储，确保线程隔离： public final class Looper {// 线程本地存储&…

阅读更多...

群体智能优化算法-算术优化算法（Arithmetic Optimization Algorithm, AOA，含Matlab源代码）

群体智能优化算法-算术优化算法（Arithmetic Optimization Algorithm, AOA，含Matlab源代码）

摘要算术优化算法（Arithmetic Optimization Algorithm, AOA）是一种新颖的群体智能优化算法，灵感来源于加、减、乘、除四种基本算术运算。在优化过程中，AOA 通过乘除操作实现全局探索，通过加减操作强化局部开发&#…

阅读更多...

广告推荐算法：COSMO算法与A9算法的对比

广告推荐算法：COSMO算法与A9算法的对比

COSMO算法与A9算法的概念解析 1. A9算法定义与背景： A9算法是亚马逊早期为电商平台研发的核心搜索算法，主要用于优化商品搜索结果的排序和推荐，其核心逻辑围绕产品属性与关键词匹配展开。自2003年推出以来，A9通过分析商品标题…

阅读更多...

EasyExcel 数据字典转换器实战：注解驱动设计

EasyExcel 数据字典转换器实战：注解驱动设计

一、场景痛点与解决方案 1. 问题背景在 Excel 导入导出场景中，开发者常面临以下问题： 数据可读性差：数据库存储的字典值（如 1、true）直接导出时难以理解双向转换复杂：导入时需将用户输入的标签反向解析…

阅读更多...

五种音频器件综合对比——《器件手册--音频器件》

五种音频器件综合对比——《器件手册--音频器件》

目录音频器件简述 1. 扬声器（Speakers） 2. 麦克风（Microphones） 3. 放大器（Amplifiers） 4. 音频接口（Audio Interfaces） 5. 音频处理器（Audio Processors&#xff09…

阅读更多...

红宝书第二十九讲：详解编辑器和IDE：VS Code与WebStorm

红宝书第二十九讲：详解编辑器和IDE：VS Code与WebStorm

红宝书第二十九讲：详解编辑器和IDE：VS Code与WebStorm 资料取自《JavaScript高级程序设计（第5版）》。查看总目录：红宝书学习大纲一、核心区别：编辑器与IDE 代码编辑器（如VS Code&#xff09…

阅读更多...

虚拟电商-话费充值业务（五）充值成功逻辑和网络异常重试逻辑

虚拟电商-话费充值业务（五）充值成功逻辑和网络异常重试逻辑

一、网络异常重试逻辑编写如果在对接供应商的过程中出现了网络异常，我们需要做一个补偿机制，在任务类型枚举类：TaskTypeEnum中有一种业务状态码是针对远程调用失败的步骤一：在对接供应商的方法：SupplierServiceImp…

阅读更多...

从零构建大语言模型全栈开发指南：第四部分：工程实践与部署-4.3.3低代码开发：快速构建行业应用（电商推荐与金融风控案例）

从零构建大语言模型全栈开发指南：第四部分：工程实践与部署-4.3.3低代码开发：快速构建行业应用（电商推荐与金融风控案例）

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路文章大纲从零构建大语言模型全栈开发指南-第四部分：工程实践与部署4.3.3 低代码开发：快速构建行业应用（电商推荐与金融风控案例）1. 低代码与AI结合的核心价值2. 电商推荐系统案例2.1 技术架构与实现2.2 性能…

阅读更多...

Table as Thought论文精读

Table as Thought论文精读

标题：Table as Thought: Exploring Structured Thoughts in LLM Reasoning 作者：Zhenjie Sun, Naihao Deng, Haofei Yu, Jiaxuan You 单位：University of Illinois Urbana-Champaign, University of Michigan 摘要： llm的推理…

阅读更多...

ubuntu18 server版花屏问题

ubuntu18 server版花屏问题

新搞了一台dellT150的塔式服务器，装的ubuntu18 server版。开机后遇到花屏，或者卡在开机界面的问题，和售后技术沟通这个情况是ubuntu自带的显卡驱动包兼容问题。需要做如下设置： 解决： 1.开机，连续按下e…

阅读更多...

【MySQL】理解MySQL的双重缓冲机制：Buffer Pool与Redo Log的协同之道

【MySQL】理解MySQL的双重缓冲机制：Buffer Pool与Redo Log的协同之道

在数据库系统中，内存与磁盘的读写性能差距始终是需要解决的核心问题。当注意到Redo Log和Buffer Pool都采用"先写内存再刷盘"的设计时，一个自然的问题浮现：既然两者都需要维护内存数据并定期持久化，为何需要双重缓冲机制…

阅读更多...

最新文章