LWM(LargeWorldModel)大世界模型-可文字可图片可视频-多模态LargeWorld-详细安装记录

说明

Large World Model(LWM)是一个通用的大环境多模态自回归模型,它利用了一个技术名为RingAttention,通过在大型的多样化视频和图书数据集上的训练,实现了对语言、图像和视频的理解与生成能力。
在github上已有4.2k star!
在这里插入图片描述

  • github主页:https://largeworldmodel.github.io/
  • 代码仓库:https://github.com/LargeWorldModel/LWM
  • huggingface:https://huggingface.co/LargeWorldModel

功能概述

LWM主要解决的问题是,当前的语言模型在理解那些难以用言语描述的世界方面存在短板,并且在处理复杂、长篇任务时表现不佳。视频序列提供了语言和静态图像中缺失的宝贵时间信息,这对于与语言的联合建模而言十分有吸引力。这些模型可以发展对人类文本知识和物理世界的理解,为人类提供更广泛的AI能力。但是,从数百万个视频和语言序列的标记中学习面临着内存限制、计算复杂性和数据集有限等挑战。为了解决这些挑战,LWM整合了大量多样化视频和图书的数据集,使用RingAttention技术在长序列上可扩展地训练,并逐步将环境大小从4K增加到1M标记。

应用场景

LWM可以在以下情况下使用:

  • 知识检索与回答问题:LWM能够在1M的环境中准确地检索事实,这使其能够回答基于覆盖范围极广数据的复杂问题,例如,在长达一小时的YouTube视频中找到特定信息。
  • 与图像的对话:LWM不仅能够理解和生成语言,还可以与图像“对话”。这意味着它可以理解图像内容,并根据图像内容生成文本回应。
  • 从文本生成视频和图像:LWM能够将文本描述转换成图像或视频,这在内容创作、游戏开发和其他需要将文本想法可视化的领域具有巨大应用潜力。

安装步骤

  • 先创建虚拟环境:
conda create -n lwm python=3.10
conda activate lwm
  • 安装pytorch和cudnn
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
  • 如果上步骤没有安装起cudnn,可以按以下方式手动安装cudnn
    在nvidia下载对应的cudnn压缩包文件:https://developer.download.nvidia.com/compute/cudnn/redist/cudnn/linux-x86_64/
    这里下载的是:https://developer.download.nvidia.com/compute/cudnn/redist/cudnn/linux-x86_64/cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
    上传到服务器,解压,安装:
tar -xvf  cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xzsudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include 
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64 
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

安装完成后,可进入python环境,查看各版本:

import torch
# pytorch版本
torch.__version__
# cuda版本
torch.version.cuda
# cudnn版本
torch.backends.cudnn.version()
  • 安装jax0.4.23版本
    直接执行安装:
pip install -U "jax[cuda12_pip]==0.4.23"

如果后续运行报错,尝试使用whl文件安装:
在网站https://storage.googleapis.com/jax-releases/jax_cuda_releases.html下载对应jax版本的whl:https://storage.googleapis.com/jax-releases/cuda12/jaxlib-0.4.23+cuda12.cudnn89-cp310-cp310-manylinux2014_x86_64.whl
然后上传服务器,安装:

pip install jaxlib-0.4.23+cuda12.cudnn89-cp310-cp310-manylinux2014_x86_64.whl
  • 安装项目依赖
    下载项目源码,进入项目目录,安装依赖:
pip install -r requirements.txt
  • 下载模型
    从https://huggingface.co/LargeWorldModel/LWM-Chat-32K-Jax/tree/main下载模型,放到服务器上
    也可使用huggingface镜像站点直接下载,运行python代码:
import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
os.system('huggingface-cli download --resume-download LargeWorldModel/LWM-Chat-32K-Jax --local-dir ~/software/lwm-model')

项目运行

修改scripts/run_vision_chat.sh中的模型路径,将自己的输入视频传入:

export llama_tokenizer_path="/root/software/lwm-model/tokenizer.model"
export vqgan_checkpoint="/root/software/lwm-model/vqgan"
export lwm_checkpoint="/root/software/lwm-model/params"
export input_file="/root/software/seasons_of_china.mp4"

然后“–mesh_dim=‘!1,-1,32,1’”这句要删除
然后运行:bash run_vision_chat.sh
然后报错:
在这里插入图片描述

GPU不足,看到issue上有说到这个配置:
在这里插入图片描述

暂无对应设备,作罢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/695713.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot与Netty:构建高性能的网络应用

点击下载《Spring Boot与Netty:构建高性能的网络应用》 1. 前言 本文将详细探讨如何在Spring Boot应用中集成Netty,以构建高性能的网络应用。我们将首先了解Netty的原理和优势,然后介绍如何在Spring Boot项目中集成Netty,包括详…

JAVA高并发——单例模式和不变模式

文章目录 1、探讨单例模式2、不变模式 由于并行程序设计比串行程序设计复杂得多,因此我强烈建议大家了解一些常见的设计方法。就好像练习武术,一招一式都是要经过学习的。如果自己胡乱打,效果不见得好。前人会总结一些武术套路,对…

体验LobeChat搭建私人聊天应用

LobeChat是什么 LobeChat 是开源的高性能聊天机器人框架,支持语音合成、多模态、可扩展的(Function Call)插件系统。支持一键免费部署私人 ChatGPT/LLM 网页应用程序。 地址:https://github.com/lobehub/lobe-chat 为什么要用Lobe…

OpenAI Sora引领AI跳舞视频新浪潮:字节跳动发布创新舞蹈视频生成框架

OpenAI的Sora已经引起广泛关注,预计今年AI跳舞视频将在抖音平台上大放异彩。下面将为您详细介绍一款字节跳动发布的AI视频动画框架。 技术定位:这款框架采用先进的diffusion技术,专注于生成人类舞蹈视频。它不仅能够实现人体动作和表情的迁移…

2.21学习总结

1.【模板】ST 表 2.Balanced Lineup G 3.景区导游 4.最近公共祖先(LCA) 倍增思想:主要用于LCA问题,RMQ问题。在进行 递推 时,如果 状态空间很大,通常的 线性递推 无法满足 时间 与 空间复杂度 的要求&…

Chrome浏览器安装Axure-Chrome-Extension插件

Chrome浏览器打开Axure生成的HTML静态文件页面时,会显示如下图AXURE RP EXTENSION FOR CHROME,这是因为Chrome浏览器没有安装Axure插件Axure-Chrome-Extension导致的。 解决方法: 插件下载地址:https://download.csdn.net/downlo…

通过盲注脚本复习sqllabs第46关order by 注入

在MySQL支持使用ORDER BY语句对查询结果集进行排序处理,使用ORDER BY语句不仅支持对单列数据的排序,还支持对数据表中多列数据的排序。语法格式如下 select * from 表名 order by 列名(或者数字) asc;升序(默认升序) select * from 表名 or…

交换瓶子【第七届】【省赛】【A组】

题目描述 有N个瓶子,编号 1 ~ N,放在架子上。 比如有5个瓶子: 2 1 3 5 4 要求每次拿起2个瓶子,交换它们的位置。 经过若干次后,使得瓶子的序号为: 1 2 3 4 5 对于这么简单的情况,显然&#…

Java练习(第3天)使用StringJoiner类进行字符串连接

一、问题描述 给定2个或多个字符串,将其连接成为一个字符串,并输出连接后字符串的长度。字符串之间用逗号或引号分隔。 样例输入1: Ram Shyam 样例输出1: Ram,Shyam 9 样例输入2(要求接在输出1之后):…

C#_索引器

索引器的作用:令对象可像数组一般被索引 索引器 internal class TestClass {public int[] arr { 1, 2, 3, 4, 5 };public string this[int index] // 前者为返回类型,后者为索引类型// 返回类型代表get函数的返回值类型、set函数的value类型&#xff0…

(done) 什么是正定矩阵?Positive Definite Matrices

正定矩阵的定义:https://baike.baidu.com/item/%E6%AD%A3%E5%AE%9A%E7%9F%A9%E9%98%B5/11030459 正定矩阵的作用、验证视频:https://www.bilibili.com/video/BV1Ag411M76G/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c…

下一代自动化爬虫神器--playwright,所见即所得,不用逆向不要太香!!!

文章目录 1.Playwright介绍2.与 Selenium 和 pyppeteer 相比,Playwright 具有以下几个区别和优势3.在爬虫中使用 Playwright 的好处4.环境安装5.屏幕录制6.保留记录cookie信息7.playwright代码编写详解1.第一个Playwright脚本(1)同步模式&…

【鼎捷数字化生意经】总说数字化转型?!怎么做才能带来远超你的想象的经济效益呢?他们来告诉你!

编者按: 转型一直在提,2018—2023年,实现数字化转型的企业仅占中国企业的10%,其中实现领军重塑的企业仅占2%。数据看起来并没有那么乐观! 新竞争格局下,企业需要直面挑战,定义新前沿&#xff0…

C++动态分配内存知识点!

个人主页:PingdiGuo_guo 收录专栏:C干货专栏 大家好呀,又是分享干货的时间,今天我们来学习一下动态分配内存。 文章目录 1.动态分配内存的思想 2.动态分配内存的概念 2.1内存分配函数 2.2动态内存的申请和释放 2.3内存碎片问…

⭐北邮复试刷题LCR 018. 验证回文串__双指针 (力扣119经典题变种挑战)

LCR 018. 验证回文串 给定一个字符串 s ,验证 s 是否是 回文串 ,只考虑字母和数字字符,可以忽略字母的大小写。 本题中,将空字符串定义为有效的 回文串 。 示例 1: 输入: s “A man, a plan, a canal: Panama” 输出: true 解释…

如何选择护眼台灯?孩子学习必选五大宝藏台灯推荐!

因为护眼台灯能提供充足明亮的光照,以及很好的保护眼睛预防近视效果,所以现在的儿童青少年书桌上都会有一盏护眼台灯。但是也有很多家长为孩子选择护眼台灯后,反馈护眼台灯的质量参差不齐,很难避免会购买到劣质产品,这…

2023年12月 Python(五级)真题解析#中国电子学会#全国青少年软件编程等级考试

Python等级考试(1~6级)全部真题・点这里 一、单选题(共25题,共50分) 第1题 下面代码的输出结果是?( ) dict1 = {1: 10, 2: 20, 3: 30} dict2 <

【安卓基础1】初识Android

&#x1f3c6;作者简介&#xff1a;|康有为| &#xff0c;大四在读&#xff0c;目前在小米安卓实习&#xff0c;毕业入职 &#x1f3c6;本文收录于 安卓学习大全&#xff0c;欢迎关注 &#x1f3c6;安卓学习资料推荐&#xff1a; 视频&#xff1a;b站搜动脑学院 视频链接 &…

Git笔记——2

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言 一、撤销修改__情况一 二、撤销修改__情况二 三、撤销修改__情况三 四、删除文件 五、理解分支 六、创建、切换和合并分支初体验 七、删除分支 八、合并冲突 总…

idea maven创建kotlin项目

第一步&#xff1a;打开idea 第二步&#xff1a;添加依赖 <repositories><repository><id>mavenCentral</id><url>https://repo1.maven.org/maven2/</url></repository></repositories><build><sourceDirectory>…