字幕导出
zh_recogn是一个专注于中文语音识别的字幕生成工具,基于魔塔社区Paraformer模型。它不仅支持音频文件,还能处理视频文件,输出标准的SRT字幕格式。这个项目提供了API接口和简单的用户界面,使得用户可以根据自己的需求灵活使用。
该项目仅支持中文语音识别。对于非中文语音,您可以利用基于 OpenAI Whisper 和 Faster-Whisper 的项目,如 pyvideotrans 或 stt 来进行识别,目的是为了弥补国外模型在中文支持方面的不足。
地址:https://github.com/jianchang512/zh_recogn
语音助手
项目介绍:一个开源项目,旨在将小爱音箱接入 ChatGPT 和豆包,实现个性化语音助手功能。
通过结合 ChatGPT 自然语言处理能力,MiGPT 可以增强小爱音箱的智能互动功能,如回答问题、角色扮演、流式响应和长短期记忆。
此外,它还支持自定义 TTS 语音和控制智能家居设备,支持通过 Docker 或 Node.js 进行安装和配置。
项目地址:https://github.com/idootop/mi-gpt
AI 搜索引擎
网站介绍:一个开源 AI 搜索引擎,它使用 Together AI 进行 LLM 推理,结合 Mixtral 8x7B 和 Llama-3 模型,利用 Bing 获取搜索结果。
TurboSeek 处理用户查询,获取并存储上下文,生成响应和相关问题,基于 Next.js 和 Tailwind 构建。
网站网址:点击打开 (https://www.turboseek.io/)
图像转视频
项目介绍:一个基于深度学习的图像到视频合成项目,旨在实现一致且可控的角色动画生成。
主要功能包括人脸重演、动作驱动的图像生成等,利用输入的视频关键点来控制源图像的姿态,同时保持源图像的身份特征。
项目地址:点击打开 (https://github.com/novitalabs/AnimateAnyone)