通义千问Qwen模型运行异常解决记录:FlashAttention only supports Ampere GPUs or newer

通过langchain调用Qwen/Qwen-1_8B-Chat模型时,对话过程中出现报错提示:

ERROR: object of type 'NoneType' has no len()
Traceback (most recent call last):
File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/base.py", line 385, in acallraise eFile "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/base.py", line 379, in acallawait self._acall(inputs, run_manager=run_manager)File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/llm.py", line 275, in _acallresponse = await self.agenerate([inputs], run_manager=run_manager)File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/llm.py", line 142, in ageneratereturn await self.llm.agenerate_prompt(File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 506, in agenerate_promptreturn await self.agenerate(File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 466, in agenerateraise exceptions[0]File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 569, in _agenerate_with_cachereturn await self._agenerate(File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_community/chat_models/openai.py", line 519, in _ageneratereturn await agenerate_from_stream(stream_iter)File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 85, in agenerate_from_streamasync for chunk in stream:File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_community/chat_models/openai.py", line 490, in _astreamif len(chunk["choices"]) == 0:
TypeError: object of type 'NoneType' has no len()

很疑惑,其他LLM模型都能正常运行,唯独Qwen不行。
查了很多资料,众说纷纭,未解决。
于是仔细看报错信息,最后一行报错说 File “/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_community/chat_models/openai.py”, line 490有问题,那就打开490行附近,看看源码:

if not isinstance(chunk, dict):chunk = chunk.dict()
if len(chunk["choices"]) == 0:continue
choice = chunk["choices"][0]

应该就是这个chunk里面没有choices导致的报错。
那我们把这个chunk打印一下,看看他里面有些什么,于是修改这个文件代码为:

if not isinstance(chunk, dict):chunk = chunk.dict()
print(f'chunk:{chunk}')
if len(chunk["choices"]) == 0:continue
choice = chunk["choices"][0]

再次运行,看到chunk的输出为:

chunk:{'id': None, 'choices': None, 'created': None, 'model': None, 'object': None, 'system_fingerprint': None, 'text': '**NETWORK ERROR DUE TO HIGH TRAFFIC. PLEASE REGENERATE OR REFRESH THIS PAGE.**\n\n(FlashAttention only supports Ampere GPUs or newer.)', 'error_code': 50001}

终于看到真正的错误信息了:NETWORK ERROR DUE TO HIGH TRAFFIC. PLEASE REGENERATE OR REFRESH THIS PAGE:FlashAttention only supports Ampere GPUs or newer。
看样子真正出问题的点在flash-attention上。
翻看huggingface上通义千问的安装说明:

依赖项(Dependency)
运行Qwen-1.8B-Chat,请确保满足上述要求,再执行以下pip命令安装依赖库
pip install transformers==4.32.0 accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed另外,推荐安装flash-attention库(当前已支持flash attention 2),以实现更高的效率和更低的显存占用。
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention && pip install .
# 下方安装可选,安装可能比较缓慢。
# pip install csrc/layer_norm
# pip install csrc/rotary

按照文档,flash-attention是安装好了的,问题应该不是出在安装上面。
在qwenlm的issue上看到说要卸载flash-atten:https://github.com/QwenLM/Qwen/issues/438
然后在huggingface社区看到对这个问题的解释:https://huggingface.co/Qwen/Qwen-7B-Chat/discussions/37:

flash attention是一个用于加速模型训练推理的可选项,且仅适用于Turing、Ampere、Ada、Hopper架构的Nvidia GPU显卡(如H100、A100、RTX 3090、T4、RTX 2080),您可以在不安装flash attention的情况下正常使用模型进行推理。

再一核对我自己的GPU,了然了,原来是我的GPU不适用于flash attention!
所以,解决方案就是:

pip uninstall flash-atten

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/633763.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统下安装Vcpkg,并使用Vcpkg安装、编译OpenSceneGraph

环境:CentOS7 内存:8g(内存过少编译osg时会出现内存不足导致编译失败的情况,内存设置为4G时失败了,我直接加到了8g,所以就以8g为准了) 安装和配置vcpkg cd ~/ git clone https://www.github.com/microsoft/vcpkg cd …

《Effective C++》条款02、条款03、条款20、条款21阅读笔记:关于static、const、constexpr的思考

《Effective C++》条款02、条款03、条款20、条款21阅读笔记:关于static、const、constexpr的思考 —— 杭州 2024-01-15 文章目录 《Effective C++》条款02、条款03、条款20、条款21阅读笔记:关于`static`、`const`、`constexpr`的思考1.《Effective C++》条款03、条款04、条…

Redis持久化方案RDB和AOF

Redis两种持久化方案 RDB持久化AOF持久化 RDB持久化 RDB全称Redis Database Backup file(Redis数据备份文件),也被叫做Redis数据快照。简单来说就是把内存中的所有数据都记录到磁盘中。当Redis实例故障重启后,从磁盘读取快照文…

2024年pmp的考试时间是什么时候?

2024最新考试时间已经出来了:分别是 3月、6月、8月、11月,四次,具体考试日期还需要关注官网的进一步通知。 一、PMP报考条件 年龄满足 22 周岁有官方授权的培训机构给的 35个PDU(学时) 就能报名。 是不是相当于没有…

13 STM32-随机数发生器 (RNG)

13.1 随机数发生器 (RNG)简介 RNG 处理器是一个以连续模拟噪声为基础的随机数发生器,在主机读数时提供一个 32 位的随机数. RNG 提供由模拟量发生器产生的 32 位随机数,两个连续随机数的间隔为 40 个 PLL48CLK 时钟信号周期 13.2 RNG框图 随机数发生器采用模拟电路…

SpringCloud整合Zookeeper代替Eureka案例

文章目录 本期代码下载地址zookeeper简介zookeeper下载安装新建服务提供者测试 新建消费者测试 本期代码下载地址 地址:https://github.com/13thm/study_springcloud/tree/main/days4 zookeeper简介 zookeeper是一个分布式协调工具,可以实现注册中心功能 关闭Lin…

您已启用软件包 GPG 签名检查,这样很好。不过您尚未安装任何 GPG 公钥。请下载您希望安装的软件签名公钥并安装

安装tesseract时提示该错误 [rootlocalhost data]# yum -y install tesseract 已加载插件:fastestmirror, langpacks您已启用软件包 GPG 签名检查,这样很好。不过您尚未安装任何 GPG 公钥。请下载您希望安装的软件签名公钥并安装。假设公钥已下载&#…

C语言第二弹---C语言基本概念(下)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】 C语言基本概念 1、字符串和\02、转义字符3、语句和语句分类3.1、空语句3.2、表达式语句3.3、函数调⽤语句3.4、复合语句3.5、控制语句 4、注释4.1、注释的两种形…

MySQL存储函数与存储过程习题

创建表并插入数据: 字段名 数据类型 主键 外键 非空 唯一 自增 id INT 是 否 是 是 否 name VARCHAR(50) 否 否 是 否 否 glass VARCHAR(50) 否 否 是 否 否 ​ ​ sch 表内容 id name glass 1 xiaommg glass 1 2 xiaojun glass 2 1、创建一个可以统计表格内记录…

【数据结构和算法】删除链表的中间节点

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 三、代码 四、复杂度分析 前言 这是力扣的 2095 题,难度为中等,解题方案有很多种…

SpringBoot整合Redis实现缓存信息监控

SpringBoot整合Redis可以通过RedisTemplate和Redisson两种方式。 1. RedisTemplate获取Redis信息 根据Connection获取Redis缓存信息 // 方式1:获取Redis缓存全部信息 Properties info redisTemplate.getRequiredConnectionFactory().getConnection().info(); // …

php 源码解读函数解释

zend_hash_num_elements获取一个哈希表中元素的数量扩展Z_TYPE获取变量类型ZEND_HASH_FOREACH_VAL_IND对比第一个参数是否在第二个map里类型array_in()

Pytest参数化-你不知道的使用技巧

前言 unittest单元测试框架使用DDT进行数据驱动测试,那么身为功能更加强大且更加灵活的Pytest框架怎么可能没有数据驱动的概念呢?其实Pytest是使用pytest.mark.parametrize装饰器来实现数据驱动测试的,那么今天我们就简单来说说在它是如何进…

[通知]rust跟我学八:获取指定目录下的所有文件全路径 已上线

大家好,我是带剑书生,开源库get_local_info的作者。目前我的付费专栏已经上线,用于介绍在实现get_local_info过程中,遇到该问题所使用的解决方法,喜欢的朋友可以去订阅了,19.9元,非常便宜的价格…

华为/华三设备巡检常用命令分享

驻场的网络工程师经常会开展网络设备的月度巡检、季度巡检,给各位朋友分享我平时在巡检过程中经常用到的巡检命令,华为华三的设备大部分可以通用。 一、查看硬件状态、IOS版本信息检查 display clock #系统时间 display version #查看版本信息&#…

shopee店铺选品规划:如何在Shopee平台上进行店铺选品规划

在如今激烈竞争的电商市场上,一个有效的选品策略对于卖家来说至关重要。在Shopee平台上进行店铺选品规划时,卖家可以遵循以下步骤来制定一个成功的选品策略。 先给大家推荐一款shopee知虾数据运营工具知虾免费体验地址(复制浏览器打开&#…

高德地图绘制 GPX 数据路线

高德地图绘制 GPX 数据路线 .gpx 文件是在分享地图路径时最常用的一种数据格式。里面包含了路径点的相关信息,每个点还有可能拥有自己的时间、距离等信息。 一直想自己导出自己的 gpx 路线,然后导入到地图中查看这个路线的具体信息,今天细致…

CentOS 7上安装Anaconda 详细教程

目录 1. 下载Anaconda安装脚本2. 校验数据完整性(可选)3. 运行安装脚本4. 遵循安装指南5. 选择安装位置6. 初始化Anaconda7. 激活安装8. 测试安装9. 更新Anaconda10. 使用Anaconda 1. 下载Anaconda安装脚本 首先需要从Anaconda的官方网站下载最新的Anac…

千万不要在方法上打断点!千万不要!

我上周遇到了一个莫名其妙的搞心态的问题,浪费了我好几个小时。 气死我了,拿这几个小时来敲(摸)代(摸)码(鱼)不香吗? 主要是最后问题的解决方式也让我特别的无语&#…

C#设计模式教程(2):工厂方法模式

工厂方法模式是一种创建型设计模式,它定义了一个用于创建对象的接口,但让子类决定实例化哪一个类。工厂方法使一个类的实例化延迟到其子类。 C# 代码实现 以下是C#中实现工厂方法模式的一个简单示例: 首先,定义一个抽象产品(Product)类,它是所有具体产品的基类。 pu…