wsj0数据集原始文件.wv1.wv2转换成wav文件

文章目录

      • 准备
      • 一、获取WSJO数据集
      • 二、安装sph2pipe
      • 三、转换代码
      • 四、结果展示

​ 最近做语音分离实验需要用到wsj0-2mix数据集,但是从李宏毅语音分离教程里面获取的wsj0-2mix只有一部分。从网上获取到了完整的WSJO数据集后,由于原始的语音文件后缀是wv1或者wv2,创建wsj0-2mix需要wav文件,所以需要通过工具进行转换。网上的教程使用后只能生成一堆空文件夹,无法生成转换后的wav文件。因此,在成功解决这个问题后,把采用的方法分享一下,按照下列步骤能完美进行转换。

准备

  • 平台:Windows
  • 工具:
    • python
    • sph2pipe
  • 数据集:WSJO

一、获取WSJO数据集

官网可以申请该数据集,想要的可以私信或者发加q3280461976

二、安装sph2pipe

大家按照之前网上的方法只能生成一堆空文件夹就是因为没有安装sph2pipe。按照下列步骤操作

  1. 下载sph2pipe(https://www.ldc.upenn.edu/language-resources/tools/sphere-conversion-tools),选择版本2.5,2.1在Windows下已经无法运行

image-20231129160431454

  1. 配置环境变量,如下将sph2pipe.exe的路径加入你电脑的系统变量Path里面,

    image-20231129161056053

  2. 找到你下载的文件,可以看到里面有一个exe文件

image-20231129160558692

  1. 验证sph2pipe能否成功运行,首先运行cmd或者powershell,保证当前目录里面含有sph2pipe.exe文件,输入sph2pipe,有如下提示就可以了

image-20231129160803574

  1. 下面就可以使用sph2pipe进行类型转换

三、转换代码

下面就是转换代码,详细说一下你需要改哪些地方,特别是第三点,非常重要!!!

  1. root_dir:改成你下载的wsj0的根目录文件,代码里面有例子
  2. my_path:改成你想要保存转换后wav文件存储的路径
  3. cmd = "E: \sph2pipe_v2.5.tar \sph2pipe_v2.5\sph2pipe -f wav " + speech_dir + " " + target_dir:把E: \sph2pipe_v2.5.tar \sph2pipe_v2.5改成你sph2pipe.exe存在的路径,注意代码中是“\ \”(双斜杠),
"""
# example:
# 11-1.1/wsj0/si_tr_s/01t/01to030v.wv1 is converted to wav and
# stored in YOUR_PATH/wsj0/si_tr_s/01t/01to030v.wav
"""
import os# 你下载的wsj0的根目录 例子:E:\\csr_1_comp_LDC93S6A\\csr_1_comp,
root_dir = ""# the disc number
disc_dir = []
for list_disc in os.listdir(root_dir):if list_disc not in ["text", "11-13.1"]: #doc file and 11-13.1 file do not contain .wv files# the data dir for each discdisc_dir.append(os.path.join(root_dir, list_disc, "wsj0"))# 转换后的文件想要保存的位置
my_path = ""
if not os.path.exists(my_path):os.mkdir(my_path)
# # the sub_data dir for each disc
for i, list_sub_data in enumerate(disc_dir):for sub_data_dir in os.listdir(list_sub_data):if (not sub_data_dir.startswith("si")) and (not sub_data_dir.startswith("sd")):continues_dir = os.path.join(my_path, sub_data_dir)if not os.path.exists(s_dir):os.mkdir(s_dir)if sub_data_dir[0][0] == 's':datatype_dir = os.path.join(list_sub_data, sub_data_dir)for list_spk in os.listdir(datatype_dir):spk_dir = os.path.join(s_dir, list_spk)spk_dir_abs = os.path.join(datatype_dir, list_spk)if not os.path.exists(spk_dir):os.mkdir(spk_dir)for wv_file in os.listdir(spk_dir_abs):if (not wv_file.endswith('.wv1')) and (not wv_file.endswith('.wv2')):continuespeech_dir = os.path.join(spk_dir_abs, wv_file)if wv_file.split('.')[1] == "wv1":target_name = wv_file.split(sep='.')[0] + '.wav'elif wv_file.split('.')[1] == 'wv2':target_name = wv_file.split(sep='.')[0] + '_1.wav'target_dir = spk_dir + '\\' + target_name# 一定要注意!!! sph2pipe -f wav前面的路径必须包含上面讲到的sph2pipe.exe,你只需要根据你sph2pipe.exe存放的位置修改这段路径:E:\\sph2pipe_v2.5.tar\\sph2pipe_v2.5cmd = "E:\\sph2pipe_v2.5.tar\\sph2pipe_v2.5\\sph2pipe -f wav " + speech_dir + " " + target_diros.system(cmd)

四、结果展示

  1. 编译器窗口:如果你没有按照sph2pipe,终端输出的就是一堆红色乱码,然后生成的文件夹都是空的

    image-20231129162213776

  2. 生成文件,比如我打开第一个sd_dt_05,完美转换

image-20231129162310664image-20231129162508838

image-20231129162528077

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/181744.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么在NAS里找照片?教你一招,精准定位

每次拍照 咔咔一顿拍 好多文档 咔咔一顿存 需要到的时候 却依稀只记得时间和部分关键词 那么怎么快速在NAS里精准定位 找到“命中注定”的它呢 嘿还真有 铁威马的Terra Search 精准搜索 快速定位 So easy! 01 什么是Terra Search Terra Search 通过建立数据…

中国信通院发布《中国算力发展指数白皮书》(2023)

加gzh“大数据食铁兽”,回复“20231129”,获取材料完整版 导读 2023 年白皮书在 2022 年的基础上,加强了全球和我国算力发展的研究,客观评估我国整体、各省份及各城市现阶段的算力发展水平进一步给出我国算力二十强市榜单&…

网关路由器双栈配置中的IPv6相关选项解析

1、引言 讲知识往往是枯燥无味的,我们先从问题入手。家庭网关(光猫)、路由器是我们每个人或多或少都有所接触的2种设备。现在一般都是光纤入户,通常每个家庭配备一个光猫和一台家用路由器。 目前有许多网络服务已经提供了IPv6支…

ASUS(华硕) B760M-AYW WIFI D4_解决wifi不能使用

1、最近新购买了一套 diy电脑主机,选用的是 ASUS B760M-AYW WIFI D4电脑主板 win10 系统,到货后 发现右下角电脑图标处及网络适配器中 没有wifi选项 首先 在官网和旗舰店客服处,确认了 该主板 有集成wifi模块,鲨鱼鳍天线未安装…

Motion Plan之带动力学约束路径搜索

Motion Plan之搜索算法笔记 Motion Plan之基于采样的路径规划算法笔记 为什么要动力学规划: 前面几章介绍的路径规划,我们只是认为机器人是质点,这节课要说的就是,如何在考虑机器人的运动学模型下再去找一个安全可行的路径。考虑…

后端项目连接数据库-添加MyBatis依赖并检测是否成功

一.在pom.xml添加Mybatis相关依赖 在Spring Boot项目中&#xff0c;编译时会自动加载项目依赖&#xff0c;然后使用依赖包。 需要在根目录下pom.xml文件中添加Mybatis依赖项 <!-- Mybatis整合Spring Boot的依赖项 --> <dependency><groupId>org.mybatis.s…

UE Web Remote Control

前言 最近在研究UE自启WEB服务和网页通信以此来通过网页与UE进行数据交互&#xff0c;这样最好的方式就是可以摒弃掉整个繁琐的通信连接流程如TCP UDP&#xff0c;但是找到的一些方法都不是很适用&#xff0c;尤其是WEBUI这个插件它只适合内嵌到UE本身才能完成交互&#xff0c;…

LeetCode(37)矩阵置零【矩阵】【中等】

目录 1.题目2.答案3.提交结果截图 链接&#xff1a; 73. 矩阵置零 1.题目 给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,1,1],[1,0,1],[1,1,1]…

仓储货架生产厂家|拥有编码器+激光传感器的海格里斯HEGERLS料箱式四向穿梭车

随着高新科技的迅猛发展&#xff0c;仓储物流行业已慢慢朝着无人化、自动化、智能化、密集化方向快速发展&#xff0c;用户的需求量也随之日益提升。在众多仓储物流设备中&#xff0c;四向穿梭车越来越得到各大中小企业所青睐和投入使用。四向穿梭车不但具有良好的可延性与适配…

2022年土地出让数据,超多字段,附数据可视化

分享一个土地出让数据&#xff0c;详细信息如下&#xff1a; 数据名称: 2022年土地出让数据 数据格式: Shp、excel 数据时间: 2022年 数据几何类型: 点 数据坐标系: WGS84坐标系 数据来源&#xff1a;网络公开数据 部分字段如下&#xff1a; 如需获取可搜“吧唧数…

【面试心经】——上海广升智能科技有限公司

介绍 本文记录的是2018.5月份应聘上海广升linux 开发岗位的经历。 福利待遇&#xff1a; BOSS 岗位薪资&#xff1a;15K ~25K。 每月一天带薪病假或事假。 国家规定外有额外4天年假。 每年两次旅游&#xff0c;上半年国外&#xff0c;下半年国内。 每年两次调薪机会&…

Ultipa参加国际科学会议KGSWC2023

近日&#xff0c;领先的国际科学会议 KGSWC 2023&#xff0c;在西班牙萨拉戈萨大学召开&#xff0c;Ultipa Graph参加。 KGSWC2023是第五届伊比利亚-美洲会议和第四届印度-美洲知识图谱与语义网大会的联合论坛。自2019年成立以来&#xff0c;KGSWC一直是一个重要的学术活动&am…

测试工程师核心软技能「情绪管理」

大家好呀&#xff0c;我是楼仔。 我之前经常提到一句话&#xff1a;大多数时候所谓的“技术之玻璃天花板”&#xff0c;其实只是缺乏软技能而已。 所以粉丝朋友们&#xff0c;我们除了需要关注技术&#xff0c;更需要注重软技能的提高。 关于软技能相关的文章&#xff0c;之…

婚恋小程序APP一站式开发搭建丨幸福全方位婚恋一线牵丨相亲交友婚恋小程序使用手册丨实名认证丨语音交友丨源码交付,支持二开丨同城交友

1: 如何在相亲交友婚恋小程序寻找属于自己的幸福 打开相亲交友婚恋小程序&#xff0c; 在首页遇到自己喜欢的人&#xff0c; 点击详情&#xff0c; 然后点击喜欢&#xff0c; 如果对方也喜欢你&#xff0c; 互相喜欢成功&#xff0c; 可以在缘分页看到对方的微信&#xff0c; 添…

基于YOLOv8深度学习的PCB板缺陷检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源&#xff0c;可关注公-仲-hao:【阿旭算法与机器学习】&#xff0c;共同学习交流~ &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推荐--…

Android Studio Giraffe-2022.3.1-Patch-3安装注意事项

准备工作&#xff1a; android studio下载地址&#xff1a;https://developer.android.google.cn/studio/releases?hlzh-cn gradle下载地址&#xff1a;https://services.gradle.org/distributions/ 比较稳定的网络环境&#xff08;比较android studio相关的依赖需要从谷歌那边…

Redis集群模式

Redis集群主要有三种模式 主从复制模式&#xff08;Master-Slave&#xff09;、哨兵模式&#xff08;Sentinel&#xff09;和Cluster模式 主从复制模式&#xff1a;适用于数据备份和读写分离场景&#xff0c;配置简单&#xff0c;但在主节点故障时需要手动切换。哨兵模式&…

Google分析中的基础概念

当提到Google分析时&#xff0c;我们通常指的是一种用于跟踪和分析网站和应用程序数据的工具。在使用Google分析之前&#xff0c;了解其基础概念对于正确配置和有效使用该工具非常重要。 1、帐户&#xff08;Account&#xff09;&#xff1a;帐户是Google分析中的最高层级。一…

【网络安全】-安全常见术语介绍

文章目录 介绍1. 防火墙&#xff08;Firewall&#xff09;定义通俗解释 2. 恶意软件&#xff08;Malware&#xff09;定义通俗解释 3. 加密&#xff08;Encryption&#xff09;定义通俗解释 4. 多因素认证&#xff08;Multi-Factor Authentication&#xff0c;MFA&#xff09;定…

WordPress 外链跳转插件

WordPress 外链跳转插件是本站开发的一款WordPress插件&#xff0c;能对文中外链添加一层过滤&#xff0c;有效防止追踪&#xff0c;以及提醒用户。 类似于知乎、CSDN打开其他链接的提示。 后台可以设置白名单 学习资料源代码&#xff1a;百度网盘 密码&#xff1a;123