XLA中生成Causal Mask上三角-inf矩阵

transformers生成CausalAttentionMask的上三角-inf矩阵:
参考transformers源码

import torch
import torch_xla
import torch_xla.core.xla_model as xm
import osos.environ['PJRT_DEVICE']='IPU'
# os.environ['PJRT_DEVICE']='GPU'
# os.environ['XLA_FLAGS']='--xla_dump_to=gen_AttnFwd-XLA_GPU'tgt_len = 10
dtype=torch.float32
device = xm.xla_device()# src/transformers/modeling_attn_mask_utils.py#AttentionMaskConverter::_make_causal_mask
mask = torch.full((tgt_len, tgt_len), torch.finfo(dtype).min, device=device)
mask_cond = torch.arange(mask.size(-1), device=device)
mask.masked_fill_(mask_cond < (mask_cond + 1).view(mask.size(-1), 1), 0)
mask = mask.to(dtype)
print(mask)
# print(mask.size())
# print(mask[3][3])"""
2024-11-07 07:16:18.824506: F tensorflow/compiler/xla/service/hlo_computation.cc:70] Check failed: nullptr != root (nullptr vs. 0)
Aborted (core dumped)
"""'''
module @SyncTensorsGraph.25 {func.func @main() -> tuple<tensor<10x10xf32>> {%0 = mhlo.constant dense<[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]> : tensor<10xi64>%1 = "mhlo.broadcast_in_dim"(%0) {broadcast_dimensions = dense<1> : tensor<1xi64>} : (tensor<10xi64>) -> tensor<10x10xi64>%2 = mhlo.constant dense<[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]> : tensor<10xi64>%3 = "mhlo.broadcast_in_dim"(%2) {broadcast_dimensions = dense<0> : tensor<1xi64>} : (tensor<10xi64>) -> tensor<10x10xi64>%4 = mhlo.compare  LT, %1, %3 : (tensor<10x10xi64>, tensor<10x10xi64>) -> tensor<10x10xi1>%5 = mhlo.constant dense<false> : tensor<i1>%6 = "mhlo.broadcast_in_dim"(%5) {broadcast_dimensions = dense<> : tensor<0xi64>} : (tensor<i1>) -> tensor<10x10xi1>%7 = mhlo.compare  NE, %4, %6 : (tensor<10x10xi1>, tensor<10x10xi1>) -> tensor<10x10xi1>%8 = mhlo.constant dense<0.000000e+00> : tensor<f32>%9 = "mhlo.broadcast_in_dim"(%8) {broadcast_dimensions = dense<> : tensor<0xi64>} : (tensor<f32>) -> tensor<10x10xf32>%10 = mhlo.constant dense<-3.40282347E+38> : tensor<f32>%11 = "mhlo.broadcast_in_dim"(%10) {broadcast_dimensions = dense<> : tensor<0xi64>} : (tensor<f32>) -> tensor<10x10xf32>%12 = "mhlo.select"(%7, %9, %11) : (tensor<10x10xi1>, tensor<10x10xf32>, tensor<10x10xf32>) -> tensor<10x10xf32>%13 = "mhlo.tuple"(%12) {xla_shape = "(f32[10,10]{1,0})"} : (tensor<10x10xf32>) -> tuple<tensor<10x10xf32>>return %13 : tuple<tensor<10x10xf32>>}
}
''''''
XLA_GPU甚至给出了完整的mhlo实现:
gen_AttnFwd-XLA_GPU/module_0000.SyncTensorsGraph.25.sm_8.0_gpu_after_optimizations.txtHloModule SyncTensorsGraph.25, entry_computation_layout={(f32[])->(f32[10,10]{1,0})}fused_computation {iota.3 = s64[10,10]{1,0} iota(), iota_dimension=1iota.2 = s64[10]{0} iota(), iota_dimension=0constant_5 = s64[] constant(1)broadcast.7 = s64[10]{0} broadcast(constant_5), dimensions={}add.0 = s64[10]{0} add(iota.2, broadcast.7)broadcast.6 = s64[10,10]{1,0} broadcast(add.0), dimensions={0}compare.1 = pred[10,10]{1,0} compare(iota.3, broadcast.6), direction=LTconstant_3 = pred[] constant(false)broadcast.4 = pred[10,10]{1,0} broadcast(constant_3), dimensions={}compare.0 = pred[10,10]{1,0} compare(compare.1, broadcast.4), direction=NEconstant_0 = f32[] constant(0)broadcast.3 = f32[10,10]{1,0} broadcast(constant_0), dimensions={}param_0.1 = f32[] parameter(0)broadcast.2 = f32[10,10]{1,0} broadcast(param_0.1), dimensions={}ROOT select.0 = f32[10,10]{1,0} select(compare.0, broadcast.3, broadcast.2)
}ENTRY SyncTensorsGraph.25 {p0.13 = f32[] parameter(0)fusion = f32[10,10]{1,0} fusion(p0.13), kind=kLoop, calls=fused_computationROOT tuple.24 = (f32[10,10]{1,0}) tuple(fusion)
}-----
INFO:torch_xla:Letting libtpu.so load fail during _XLAC import. libtpu.so will be loaded from `libtpu` Python package when the ComputationClient is created.
2024-11-07 11:50:41.174644: I tensorflow/compiler/xla/service/service.cc:173] XLA service 0x905c190 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:
2024-11-07 11:50:41.174714: I tensorflow/compiler/xla/service/service.cc:181]   StreamExecutor device (0): NVIDIA A100-SXM4-80GB, Compute Capability 8.0
2024-11-07 11:50:41.175641: I tensorflow/compiler/xla/pjrt/gpu/se_gpu_pjrt_client.cc:194] Using BFC allocator.
2024-11-07 11:50:41.175713: I tensorflow/compiler/xla/pjrt/gpu/gpu_helpers.cc:105] XLA backend allocating 75175958937 bytes on device 0 for BFCAllocator.
2024-11-07 11:50:42.013482: I tensorflow/compiler/xla/service/dump.cc:485] HloModule dump enabled with path prefix: , suffix: before_optimizations
2024-11-07 11:50:42.037845: I tensorflow/tsl/platform/default/subprocess.cc:304] Start cannot spawn child process: No such file or directory
tensor([[ 0.0000e+00, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38,-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00, -3.4028e+38, -3.4028e+38, -3.4028e+38,-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00, -3.4028e+38, -3.4028e+38,-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00, -3.4028e+38,-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,0.0000e+00, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,0.0000e+00,  0.0000e+00, -3.4028e+38, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,0.0000e+00,  0.0000e+00,  0.0000e+00, -3.4028e+38, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00, -3.4028e+38],[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00]],device='xla:0')'''

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59618.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA2024下安装kubernetes插件并配置进行使用

【1】安装插件 其实2024.2.3下默认已经安装了kubernetes插件&#xff0c;如果你发现自己IDEA中没有&#xff0c;在市场里面检索并下载即可。 【2】kubernetes配置 ① 前置工作 首先你要准备一个config文件和一个kubectl.exe 。 config文件类似如下&#xff1a; apiVersi…

H7-TOOL的CAN/CANFD助手增加帧发送成功标识支持, 继续加强完善功能细节

2.27版本固件正式携带此功能&#xff0c;包括之前做的负载率检测和错误信息展示也将集成到这个版本固件中。 对于接收&#xff0c;我们可以直接看到效果&#xff0c;而发送不行&#xff0c;所以打算在发送的地方展示下发送成功标识。CAN发送不像串口&#xff0c;需要等待应答后…

微调LLM时,full、freeze、lora区别

LLama-Factory支持full、freeze、lora三种微调&#xff0c;区别&#xff1a; Full微调&#xff1a;Full微调是指在微调过程中更新整个模型的所有参数。这意味着所有的层和参数都会被更新&#xff0c;并且在微调期间都会参与训练。Full微调通常用于对模型进行全面的调整&#xf…

CSP/信奥赛C++刷题训练:经典广搜例题(4):洛谷P1746 :离开中山路

CSP/信奥赛C刷题训练&#xff1a;经典广搜例题&#xff08;4&#xff09;&#xff1a;洛谷P1746 &#xff1a;离开中山路 题目背景 《爱与愁的故事第三弹shopping》最终章。 题目描述 爱与愁大神买完东西后&#xff0c;打算坐车离开中山路。现在爱与愁大神在 x 1 , y 1 x_1…

CST汽车天线仿真(双向混合求解)

CST从2018版本开始具有双向混合求解&#xff0c;到2019版已经通用微波工作室的各个求解器之间的双向混合。具体的混合对象如下图&#xff1a; 对天线的安装和耦合仿真&#xff0c;意味着对复杂结构&#xff08;天线&#xff09;和电大尺寸环境&#xff08;安装平台&#xff0c;…

booleader的工作原理

Bootloader 的工作原理 在嵌入式系统中&#xff0c;Bootloader 是系统上电或复位时执行的第一个程序&#xff0c;它负责将嵌入式系统的主程序&#xff08;通常是操作系统或用户应用程序&#xff09;加载到内存中并启动运行。Bootloader 是嵌入式系统中的一个关键组件&#xff…

【鸿蒙】HarmonyOS NEXT应用开发快速入门教程之布局篇(下)

系列文章目录 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器&#xff08;上&#xff09; 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器&#xff08;下&#xff09; 【鸿蒙】HarmonyOS NEXT应用开发快速入门教程之布局篇&#xff08;上&#xff09; 【…

[Code]U-Mamba

U-MambaEnc-2d.py # 导入必要的模块 import torch import torch.nn as nn import torch.nn.functional as F# 定义一个上采样层类&#xff0c;继承自 nn.Module class UpsampleLayer(nn.Module):# 初始化方法&#xff0c;定义层的结构和所需的超参数def __init__(self, …

RAG框架(Retrieval-Augmented Generation)和BM25

目录 RAG框架(Retrieval-Augmented Generation)和BM25 一、RAG框架概述 二、BM25算法概述 三、RAG框架与BM25的关系 四、举例说明 RAG框架(Retrieval-Augmented Generation)和BM25 RAG框架(Retrieval-Augmented Generation)和BM25之间存在密切的关系,尤其是在信息…

【HCIP园区网综合拓扑实验】配置步骤与详解(未施工完,持续更新中)

一、实验要求 实验拓扑图如上图所示 1、按照图示的VLAN及IP地址需求&#xff0c;完成相关配置 2、要求SW1为VLAN 2/3的主根及主网关 SW2为vlan 20/30的主根及主网关 SW1和SW2互为备份 3、可以使用super vlan 4、上层通过静态路由协议完成数据通信过程 5、…

css-flex布局属性

flex 布局的优势 flex 布局的子元素不会脱离文档流flex 是一种现代的布局方式&#xff0c;是 W3C 第一次提供真正用于布局的 CSS 规范 弹性盒子、子元素 弹性盒子&#xff1a;指的是使用 display:flex 或 display:inline-flex 声明的父容器 声明&#xff1a;使用 display:fl…

C++设计模式结构型模式———外观模式

文章目录 一、引言二、外观模式三、总结 一、引言 外观模式是一种结构型设计模式&#xff0c; 能为程序库、 框架或其他复杂类提供一个简单的接口。也就是说&#xff0c;该模式的目的用于隔离接口&#xff0c;换句话说&#xff0c;就是扮演中间层的角色&#xff0c;把本来结合…

软件设计师:排序算法总结

一、直接插入 排序方式&#xff1a;从第一个数开始&#xff0c;拿两个数比较&#xff0c;把后面一位跟前面的数比较&#xff0c;把较小的数放在前面一位 二、希尔 排序方式&#xff1a;按“增量序列&#xff08;步长&#xff09;”分组比较&#xff0c;组内元素比较交换 假设…

Tips:如何选择最佳邮件群发工具?

在数字营销的世界中&#xff0c;电子邮件仍然是与客户沟通的最有效方式之一。无论是推广新产品、发送新闻简报&#xff0c;还是进行客户关系管理&#xff0c;邮件群发工具都扮演着至关重要的角色。然而&#xff0c;市场上有如此多的选择&#xff0c;如何才能找到最适合您业务需…

智算中心建设热潮涌动 AI服务器赋能加速

在数字化浪潮汹涌的今天&#xff0c;人工智能新技术新发展日新月异。智算作为数字经济时代的新生产力&#xff0c;正逐步成为推动经济社会高质量发展的新引擎。 智算中心&#xff1a;算力时代的“新基建” 近年来&#xff0c;随着人工智能技术的迅猛发展和广泛应用&#xff0c;…

vue输入中文,获取英文首字母缩写

背景&#xff1a;要求输入中文的时候&#xff0c;系统给出对应的首字母大写&#xff0c;作为拼音。 例如&#xff1a;输入“博客”&#xff0c;输出‘BK’ 等等…… 经查&#xff1a;使用 js-pinyin 这个第三方插件即可实现 1. 下载依赖 npm install js-pinyin 或者 yarn ad…

如何构建一个呼叫中心客服部门

如何构建一个呼叫中心客服部门 作者&#xff1a;开源呼叫中心系统 FreeIPCC&#xff0c;Github地址&#xff1a;https://github.com/lihaiya/freeipcc 一、引言 呼叫中心客服部门是现代企业与客户之间沟通的重要桥梁&#xff0c;其构建不仅关乎企业的客户服务质量&#xff0…

【Python进阶】Python中的网络爬虫策略:高效数据抓取与解析

1、网络爬虫概论与Python环境配置 1.1 网络爬虫基本概念与工作原理 网络爬虫&#xff0c;如同在网络世界中勤劳的蚂蚁&#xff0c;自动地在网络空间里穿梭游走&#xff0c;寻找并收集散布在网络各个角落的信息宝藏。它是一种自动化程序&#xff0c;遵循一定的规则&#xff0c…

【机器学习】随机森林算法

随机森林&#xff08;Random Forest&#xff09;是一种集成学习算法&#xff0c;它结合了多个决策树的输出&#xff0c;以提高预测的准确性和稳定性。随机森林被广泛应用于分类和回归任务中&#xff0c;尤其适用于数据特征之间存在非线性关系或噪声的情况。 在本文中&#xff…

十四届蓝桥杯STEMA考试Python真题试卷第二套第三题

来源:十四届蓝桥杯STEMA考试Python真题试卷第二套编程第三题 通过这道字符串处理的解析,重点学习字典的 get() 方法和 map() 函数的应用。我们同时也给出了“一行代码”的实现方案,令人惊叹的是到两种实现方法的代码行数差不多是10:1。这次,我们更推荐一行代码的实现方式,…