python+pygame+opencv+gpt实现虚拟数字人直播(一)

AI技术突飞猛进,不断的改变着人们的工作和生活。数字人直播作为新兴形式,必将成为未来趋势,具有巨大的、广阔的、惊人的市场前景。它将不断融合创新技术和跨界合作,提供更具个性化和多样化的互动体验,成为未来的一种趋势。

前言

马斯克称:“人工智能将在我们所看到的人类进化和文明的未来发挥非常深远的作用。未来我们会拥有大量的机器人,到时候,全球的生产效率将会提高到令人难以置信的水平。”,机器人可以完成行走、上下楼、下蹲、拿取物品等动作,也已具备了保护自身和周围人安全的能力,未来还可以做饭、修剪草坪、帮助照看老人,或在工厂里面替代人类从事枯燥和有危险的工作。

不久前的世界互联网大会数字文明尼山对话上,阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团董事长兼首席执行官张勇也表示,AI的发展将会带来更多的就业机会。站在智能化新时代,所有行业都值得基于人工智能技术重做一遍。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

只不过效率提升的同时,迎面而来的也是人类与AI的近距离博弈。在AIGC时代影响下,人们已经可以用非常低的成本用上ChatGPT、StableDiffusion以及 Mid-journey等AI产品。很多岗位面临着替代的风险,文字工作者、画师、广告设计,甚至是带货主播等。

虽然网上有些公司已实现了虚拟数字人技术,但收费都不菲。这里使用python尝试玩一下虚拟数字人直播,作为有趣的探索和低成本的实现。如果探索可行,可以自己搞一个虚拟数字人直播玩玩儿,挂在自己的抖音上二十四小时在线,岂不美哉!

python实现的虚拟数字人直播

利用AI技术除了虚拟数字人直播外,AR 导购、虚拟试穿、虚拟主播、3D 样板间等新玩法的出现,实现了直播电商在观看体验、直播效率、商业价值上的全面提速。在不同的应用场景下,人工智能和真人主播可以互补互助,为消费者提供多元的观看体验,例如人工智能的语言处理可以更快速地理解和回应用户的问题和需求,而真人主播则可以在直播过程中与用户进行情感上的交流互动,拉近直播间与用户间的距离。 

数字人直播的惊天优势

利用数字人直播新媒体平台,可以让数字人直播24小时随时开播、自动带货。

数字人直播帮助本地生活商家实现爆破式增长。

数字人直播深度还原真人形象告别出镜难题。

数字人直播文案一键输入3S出片短视频产量指数级增长。

数字人直播可利用GPT互动功能,GPT直播生成内容自动互动,回复不重样。

利用文心一言、讯飞星火或chatGPT等人工智能语音交互技术,让数字人直播真正的走向实战,成为可能。

Python实现的技术方案

Python可以用于实现虚拟数字人,使其具备动画和说话的能力。

一个可行的技术方案探索:

1. 人物建模和动画:使用计算机图形学技术,可以使用Python库如Pygame、Pyglet、OpenGL等创建人物的3D模型,并为其添加动画效果。可以使用3D建模软件(如Blender)创建人物模型,并使用Python编写脚本来控制模型的动画。

2. 语音合成:使用Python库如pyttsx3、gTTS等,可以将文本转换为语音。这些库提供了API,可以将文本输入,并生成相应的语音输出。

3. 对话系统:使用Python的自然语言处理(NLP)和机器学习技术,可以构建一个对话系统,使虚拟数字人能够理解和生成自然语言的对话。可以使用NLP库如NLTK、SpaCy等来处理自然语言,并使用机器学习库如TensorFlow、PyTorch等来训练对话模型。

4. 用户界面:使用Python的GUI库如Tkinter、PyQt等,可以创建一个用户界面,使用户能够与虚拟数字人进行交互。可以在界面上显示虚拟人物的动画,并提供文本框或语音输入来与其进行对话。

方案介绍

1. 人物建模和动画: 使用计算机图形学技术创建人物的2D或3D模型,可以使用Blender等建模软件进行建模。将人物的不同面部表情和动作设计为不同的图像帧或动画序列。或自己录制,或从网上剪辑需要的人物视频和图片素材。

2. 精灵类的使用: - 创建一个继承自pygame.sprite.Sprite的虚拟数字人类。  在虚拟数字人类中,使用pygame.image.load()加载人物的图像帧或动画序列。  使用pygame.Surface.blit()方法在屏幕上绘制当前的图像帧。

3. 面部表情和动作切换: - 在虚拟数字人类中,定义方法来切换人物的面部表情和动作。 - 使用pygame.time.set_timer()来定时触发表情和动作的切换,创建一个定时器事件。

4. 发音和语音合成: - 使用Python的语音合成库,如pyttsx3、gTTS等,或百度、科大讯飞等的语音接口,将文本转换为语音。 - 定义方法来触发虚拟数字人的发音,根据需要播放相应的语音。

5. 用户交互: - 创建一个pygame窗口,用于显示虚拟数字人和与用户进行交互。  使用pygame.event.get()监听用户的事件,例如键盘输入或鼠标点击。 - 根据用户的输入,调用相应的方法来切换人物的面部表情、动作和发音。让用户的聊天内容文字发给GPT,形成内容并通过文字转语音回复给用户,同时配合不同的动作和表情。

环境依赖

1.下载安装python3,Python 官网:Welcome to Python.org

2.安装依赖的模块: pygame,pygame-pgu,opencv,rembg

pip install rembg -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install opencv-python

3.替换pip安装的资源镜像(否则下载模块很慢)

pip  config set  global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
4.图片和语音素材

5.讯飞离线语音合成工具

素材制作

可以使用3D建模软件(如Blender)创建人物模型,这里简单起见,部分素材从网上搜索下载到的,仅用于学习研究目的,如有侵权请联系我。

Rembg是一款图片背景去除工具. 这里我先简单介绍下它的特点。

  • 开源、免费

  • 基于 Python 开发

  • 后台引擎是用于显著对象检测的深度网络架构 U²-Net(后文有简单介绍)

  • 安装简单

背景图片

人物图片

 

代码实现

加载图片背景

#背景实现
class BackGround(pygame.sprite.Sprite):def __init__(self):super().__init__()self.image = pygame.image.load('./image/background.png').convert()self.image = pygame.transform.scale(self.image, (WIDTH, HEIGHT))self.rect = self.image.get_rect()self.ready_to_move = 0self.index = 0def update(self, *args):pass

提取视频图片帧

从一段视频中提取视频图片帧。

在pygame中,Sprite精灵通常使用图像来实现动画效果。尽管pygame本身不直接支持加载和播放mp4格式的视频文件,但可以通过一些额外的库来实现加载和播放视频的功能。 一个常用的库是 moviepy ,它是一个用于视频编辑和处理的Python库。可以使用 moviepy 库将mp4视频文件转换为一系列图像帧,然后使用这些图像帧来创建Sprite精灵动画。

下面是一个示例:

import pygame
from moviepy.editor import VideoFileClip# 加载mp4视频并提取图像帧
video = VideoFileClip("animation.mp4")
frames = [pygame.image.fromstring(video.get_frame(t), video.size, "RGB") for t in range(0, int(video.duration*video.fps))]# 初始化pygame
pygame.init()
screen = pygame.display.set_mode(video.size)# 创建Sprite精灵对象
class AnimatedSprite(pygame.sprite.Sprite):def __init__(self, frames):super().__init__()self.frames = framesself.current_frame = 0self.image = self.frames[self.current_frame]self.rect = self.image.get_rect()def update(self):self.current_frame = (self.current_frame + 1) % len(self.frames)self.image = self.frames[self.current_frame]# 创建精灵对象并添加到精灵组
sprite = AnimatedSprite(frames)
sprite_group = pygame.sprite.Group(sprite)clock = pygame.time.Clock()# 游戏循环
running = True
while running:for event in pygame.event.get():if event.type == pygame.QUIT:running = Falsesprite_group.update()screen.fill((0, 0, 0))sprite_group.draw(screen)pygame.display.flip()clock.tick(30)pygame.quit()

提取视频帧并保存为png格式的图片,同时去除背景:

# 加油动作手势def comeOn(self):# 加载mp4视频并提取图像帧video = VideoFileClip("./mp4/1.mp4")# Get the video dimensionsvideo_width, video_height = video.size# 创建一个pygame surface#surface = pygame.Surface((video_width, video_height))#frames = [pygame.image.fromstring(np.array(video.get_frame(t)).tobytes(), video.size, "RGB") for t in range(0, int(video.duration*video.fps))]# Create a pygame surface with alpha channelsurface = pygame.Surface((video_width, video_height), pygame.SRCALPHA)# Convert each frame of the video to an image with transparencyframes = []for t in range(int(video.duration * video.fps)):frame = video.get_frame(t)pygame.surfarray.blit_array(surface, frame.swapaxes(0, 1))# 将帧保存为PNG图像image = pygame.surfarray.array3d(surface).swapaxes(0, 1)image = np.uint8(image)pil_image = Image.fromarray(image)#去除图片的白色背景image = remove(pil_image)#保存png图片image.save(f"framet_{t}.png")# Convert PIL Image to pygame surfacepygame_image = pygame.image.fromstring(image.tobytes(), image.size, image.mode).convert_alpha()frames.append(pygame_image)self.frames = framesprint("frames count:"+str(len(self.frames)))self.current_frame = 0self.image = self.frames[self.current_frame]self.state = "comeOn"self.start = time.time()

也可以使用opencv提取mp4视频中的图片帧,代码示例:

import cv2# 打开视频文件
video = cv2.VideoCapture('2.mp4')# 设置帧计数器
frame_count = 0while True:# 读取视频的每一帧ret, frame = video.read()# 如果没有读到帧,说明视频已经结束if not ret:break# 保存帧图片cv2.imwrite(f'output/frame_{frame_count}.jpg', frame)# 帧计数器自增frame_count += 1# 释放视频对象
video.release()

实现过程

# -*- coding: utf-8 -*-
# @Author : yangyongzhen
# @Email : 534117529@qq.com
# @File : mqttclienttool.py
# @Project : study
import pygame
from moviepy.editor import VideoFileClip
import numpy as np
import time
from PIL import Image
from rembg import remove
import cv2# 常量 屏幕大小
WIDTH, HEIGHT = 500, 900
print(cv2.__version__)
# 初始化操作
pygame.init()
pygame.mixer.init()
# 创建窗口
screen = pygame.display.set_mode((WIDTH, HEIGHT))# 设置窗口标题
pygame.display.set_caption('虚拟数字人--关注作者:blog.csdn.net/qq8864')# 添加背景音乐
pygame.mixer.music.load('./sound/bgLoop.wav')
pygame.mixer.music.set_volume(0.5)  # 音量
#pygame.mixer.music.play(-1, 0)
# 添加系统时钟
FPS = 30
clock = pygame.time.Clock()
# 创建用户自定义事件,每隔1000毫秒触发一次事件
USER_EVENT = pygame.USEREVENT
pygame.time.set_timer(USER_EVENT, 1000)# 加载字体文件
font_path = "./font/SIMYOU.ttf"  # 替换为你的字体文件路径
font_size = 24
font = pygame.font.Font(font_path, font_size)# ========虚拟数字人主角==========
# class Hero(pygame.sprite.Sprite)
# class BackGround(pygame.sprite.Sprite)
# 虚拟人主角 (静默状态保持微笑和3秒眨一次眼睛)
class VirtualMan(pygame.sprite.Sprite):def __init__(self, speed):super().__init__()self.image = pygame.image.load('./image/man.png')self.image_index = 0self.readt_to_change = 0self.rect = self.image.get_rect()self.rect.width *= 0.5self.rect.height *= 0.5self.image = pygame.transform.scale(self.image, (self.rect.width, self.rect.height))self.rect.x, self.rect.y = 0, 100self.speed = speedself.frames = Noneself.current_frame = 0self.state = "idle"def update(self, *args):#这里用上下左右、空格几个按键来测试虚拟数字人的不同动作keys = pygame.key.get_pressed()if keys[pygame.K_UP]:#加油动作手势self.comeOn()if keys[pygame.K_DOWN]:#欢迎动作手势self.welcome()if keys[pygame.K_LEFT]:#说话动作和表情self.say()if keys[pygame.K_RIGHT]:#停下来self.stop()if keys[pygame.K_SPACE]:#欢迎动作手势self.goodbye()if self.state == "comeOn":   self.current_frame = (self.current_frame + 1) % len(self.frames)self.image = pygame.transform.scale(self.frames[self.current_frame], (self.rect.width, self.rect.height))#print("current_frame:"+str(self.current_frame))if self.current_frame == 0:self.frames.clear()self.state = "idle"print("idle")self.end = time.time()print("time:"+str(self.end - self.start))img = pygame.image.load('./image/man.png')self.image = pygame.transform.scale(img, (self.rect.width, self.rect.height))pass# 加油动作手势def comeOn(self):# 加载mp4视频并提取图像帧#video = VideoFileClip("./mp4/1.mp4")frames = []'''video = cv2.VideoCapture("./mp4/1.mp4")# 设置帧计数器frame_count = 0while True:# 读取视频的每一帧ret, frame = video.read()# 如果没有读到帧,说明视频已经结束if not ret:break# 保存帧图片#cv2.imwrite(f'output/frame_{frame_count}.png', frame)#OpenCV转换成PIL.Image格式pil_image = Image.fromarray(cv2.cvtColor(frame,cv2.COLOR_BGR2RGB))image = remove(pil_image)image.save(f"framet_{frame_count}.png")# Convert PIL Image to pygame surfacepygame_image = pygame.image.fromstring(image.tobytes(), image.size, image.mode).convert_alpha()frames.append(pygame_image)# 帧计数器自增frame_count += 1# 释放视频对象video.release()'''for i in range(0,75):img = pygame.image.load(f"./doc/img2/framet_{i}.png")frames.append(img)self.frames = framesprint("frames count:"+str(len(self.frames)))self.current_frame = 0self.image = self.frames[self.current_frame]self.state = "comeOn"self.start = time.time()#再见动作手势def goodbye(self):pass#欢迎动作手势def welcome(self):pass#停止所有动作def stop(self):pass#开始说话def say(self):pass#sound = pygame.mixer.Sound('./sound/nihao.wav')#sound.play()#背景
class BackGround(pygame.sprite.Sprite):def __init__(self):super().__init__()self.image = pygame.image.load('./image/background.png').convert()self.image = pygame.transform.scale(self.image, (WIDTH, HEIGHT))self.rect = self.image.get_rect()self.ready_to_move = 0self.index = 0def update(self, *args):pass# 初始化精灵组
bg_sprite = pygame.sprite.Group()
man_sprite = pygame.sprite.Group()# 定义人物
man = VirtualMan(4)
man_sprite.add(man)bg1 = BackGround()
bg_sprite.add(bg1)
# 保持游戏运行状态(游戏循环)
while True:# ===========游戏帧的刷新===========clock.tick(FPS)#print("Runtime:", pygame.time.get_ticks(), "ms")# 检测事件for event in pygame.event.get():# 检测关闭按钮被点击的事件if event.type == pygame.QUIT:# 退出pygame.quit()exit()if event.type == USER_EVENT:man.say()passelse:try:passexcept Exception as e:print(e)# screen.fill((0,0,0))for group in [bg_sprite, man_sprite]:group.update()group.draw(screen)#screen.fill((0,0,0))    #生成一个屏幕  pygame.display.flip()#pygame.display.update()#app.paint()             #将pgu容器的内容画出

其他资源 

【代码抠图】4行Python代码帮你消除图片背景 - 知乎

【Python】推荐三个好玩的图像处理库_python rembg_赵卓不凡的博客-CSDN博客

百度安全验证

无需Photoshop!Rembg:图像背景自动去除工具_研道鸠摩智的博客-CSDN博客

数字人涌入直播间,虚拟主播的未来到底如何?

光生资讯 |虚拟数字人直播火热,前景广阔但仍需改进_进行_用户_问题

【Python】推荐三个好玩的图像处理库_python rembg_赵卓不凡的博客-CSDN博客

Python自动化:一款基于AI的自动图片背景去除软件 - 墨天轮

rembg 模型库放置位置设置_桑榆肖物的博客-CSDN博客

Matting库rembg使用测评 - 知乎

Python OpenCV 详解_pythonopencv-CSDN博客

Python+OpenCV计算机视觉全面基础概述(上篇) - 知乎

Py之cv2:cv2库(OpenCV,opencv-python)的简介、安装、使用方法(常见函数、方法等)最强详细攻略_顺其自然~的博客-CSDN博客

OpenCV视频操作 · OpenCV-Python初学自码 · 看云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/94820.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 安全 - SUID机制

文章目录 一、文件权限位二、SUID简介 一、文件权限位 (1) $ ls -l text.txt -rw-rw-r-- 1 yl yl 0 Sep 28 16:25 text.txt其中第一个字段-rw-rw-r–,我们可以把它分为四部分看: -rw-rw-r--(1)- &a…

服务器文件备份

服务器上,做好跟应用程序有关的文件备份(一般备份到远程的盘符),有助于当服务器发生硬件等故障时,可以对系统进行进行快速恢复。 下面以Windows服务器为例,记录如何做文件的备份操作。 具体操作如下&#…

day 10.4

服务器 头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QLine> #include <QTcpServer> #include <QTcpSocket> #include <QMessageBox>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Wid…

解决dockerfile创建镜像时pip install报错的bug

项目场景&#xff1a; 使用docker-compose创建django容器 问题描述 > [5/5] RUN /bin/bash -c source ~/.bashrc && python3 -m pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple: 0.954 Looking in indexes: https://…

Folium笔记:HeatMap

在地图上生成热力图 0 举例 import folium from folium.plugins import HeatMap# 创建一个地图对象 m folium.Map(location(1.34084, 103.83637), zoom_start13)# 创建一个坐标点的数据集 data [(1.431656, 103.827896),(1.424789, 103.789902),(1.325781, 103.860446),(1.…

web漏洞-PHP反序列化

目录 PHP反序列化序列化反序列化原理涉及技术利用危害CTF靶场 PHP反序列化 序列化 将对象转换成字符串 反序列化 相反&#xff0c;将字符串转换成对象。 数据格式的转换对象的序列化有利于对象的保存和传输&#xff0c;也可以让多个文件共享对象。 原理 未对用户输入的序列化字…

JVM篇---第二篇

系列文章目录 文章目录 系列文章目录一、简述一下JVM的内存模型二、说说堆和栈的区别三、什么时候会触发FullGC一、简述一下JVM的内存模型 1.JVM内存模型简介 JVM定义了不同运行时数据区,他们是用来执行应用程序的。某些区域随着JVM启动及销毁,另外一 些区域的数据是线程性独…

用稳定扩散生成4K PBR纹理【SDXL】

我正在继续去年开始使用 Three.JS 构建 3D 场景和草图的工作。 当时&#xff0c;DALL-E 和 Stable Diffusion 等 AI 图像生成器刚刚真正起飞。 我成功地在本地运行稳定扩散&#xff0c;并使用它为我正在构建的 3D 世界中的地形、建筑物和其他环境生成纹理。 当时我使用的是稳…

解决每次重启ganache虚拟环境,十个账号秘钥都会改变问题

很多时候 我们启动一个 ganache 环境 然后 通过私钥 在 MetaMask 中 导入用户 但是 当我们因为 电脑要关机呀 或者 ETH 消耗没了呀 那我们就不得不重启一个ganache虚拟环境 然后 你在切一下网络 让它刷新一下 你就会发现 上一次导入的用户就没有了 这是因为 你每次 ganache…

第2篇 机器学习基础 —(1)机器学习方式及分类、回归

前言&#xff1a;Hello大家好&#xff0c;我是小哥谈。机器学习是一种人工智能的分支&#xff0c;它使用算法和数学模型来使计算机系统能够从经验数据中学习和改进&#xff0c;而无需显式地编程。机器学习的目标是通过从数据中发现模式和规律&#xff0c;从而使计算机能够自动进…

React封装自定义表单校验方法

一、表单校验 为什么要封装自定义表单校验方法&#xff0c;因为在后台管理系统中&#xff0c;通常我们会涉及到用户的添加或则信息的修改&#xff0c;这时候通常就涉及表单的相关校验。但通常一个系统中的表单校验针对同一个字段来说是统一的。因此我们就需要将对应的校验字段的…

STM32复习笔记(五):FSMC连接外部SRAM

目录 Preface&#xff1a; &#xff08;一&#xff09;原理相关 &#xff08;二&#xff09;CUBEMX配置 &#xff08;三&#xff09;轮询方式读写 &#xff08;四&#xff09;DMA方式读写 Preface&#xff1a; STM32F4有一个FSMC&#xff08;Flexible Static Memory Contr…

侯捷 C++ STL标准库和泛型编程 —— 9 STL周围

最后一篇&#xff0c;完结辽&#xff01;&#x1f60b; 9 STL周围 9.1 万用Hash Function Hash Function的常规写法&#xff1a;其中 hash_val 就是万用Hash Function class CustumerHash { public:size_t operator()(const Customer& c) const{ return hash_val(c.fna…

BASH shell脚本篇5——文件处理

这篇文章介绍下BASH shell中的文件处理。之前有介绍过shell的其它命令&#xff0c;请参考&#xff1a; BASH shell脚本篇1——基本命令 BASH shell脚本篇2——条件命令 BASH shell脚本篇3——字符串处理 BASH shell脚本篇4——函数 在Bash Shell脚本中&#xff0c;可以使用…

【C++】String -- 详解

⚪C语言中的字符串 C 语言中&#xff0c;字符串是以 \0 结尾的一些字符的集合&#xff0c;为了操作方便&#xff0c;C 标准库中提供了一些 str 系列的库函数&#xff0c;但是这些库函数与字符串是分离开的&#xff0c;不太符合 OOP 的思想&#xff0c;而且底层空间需要用户自己…

Is This The Intelligent Model(这是智能模型吗)

Is This The Intelligent Model 这是智能模型吗 Ruoqi Sun Academy of Military Science Defense Innovation Institute, Beijing, 100091, China E-mail: ruoqisun7163.com The exposed models are called artificial intelligent models[1-3]. These models rely on knowled…

讲讲项目里的仪表盘编辑器(二)

应用场景 正常来说&#xff0c;编辑器应用场景应该包括&#xff1a; 编辑器-预览 编辑器 最终运行时 怎么去设计 上一篇推文&#xff0c;我们已经大概了解了编辑器场景。接下来&#xff0c;我们来看预览时的设计 编辑器-预览 点击预览按钮&#xff0c;执行以…

[Unity][VR]Oculus透视开发图文教程1-Passthrough应用XR项目设置

Oculus现在已向开发者公布了如何使用自己的设备Camera,本系列课程就来手把手地告诉你如何在Unity中使用这个特性。 第一步,既然用的是Quest的特性,那就需要先引入Quest的Unity开发SDK。并且完成基本的VR开发项目设置。 新建Unity项目后,在编辑器界面先点击Window,打开资…

虹科分享 | 为工业机器人解绑,IO-Link wireless无线通讯技术可实现更加轻量灵活的机器人协作

背景 机器人是一种能够半自主或全自主工作的智能机器。中国电子学会组织发布的《中国机器人产业发展报告&#xff08;2022年&#xff09;显示&#xff0c;近些年&#xff0c;我国机器人市场规模持续快速增长&#xff0c;“机器人”应用不断拓展深入&#xff0c;预计五年年均增…

YOLOv5、YOLOv8改进:RepVGG结构

1.简介 论文参考&#xff1a;最新RepVGG结构: Paper 我们所说的“VGG式”指的是&#xff1a; 没有任何分支结构。即通常所说的plain或feed-forward架构。 仅使用3x3卷积。 仅使用ReLU作为激活函数。 主要创新点为结构重参数化。在训练时&#xff0c;网络的结构是多分支进…