如何在 Python 中将语音转换为文本

一、说明

   学习如何使用语音识别 Python 库执行语音识别,以在 Python 中将音频语音转换为文本。想要更快地编码吗?我们的Python 代码生成器让您只需点击几下即可创建 Python 脚本。现在就现在试试!

二、语言AI库

2.1 相当给力的转文字库

   语音识别是计算机软件识别口语中的单词和短语并将其转换为人类可读文本的能力。在本教程中,您将学习如何使用SpeechRecognition 库在 Python 中将语音转换为文本。

   因此,我们不需要从头开始构建任何机器学习模型,这个库为我们提供了各种知名公共语音识别 API(例如 Google Cloud Speech API、IBM Speech To Text 等)的便捷包装。

   请注意,如果您不想使用 API,而是直接对机器学习模型进行推理,那么一定要查看本教程,其中我将向您展示如何使用当前最先进的机器学习模型在Python中执行语音识别。

   另外,如果您想要其他方法来执行 ASR,请查看此语音识别综合教程。

   另请学习:如何在 Python 中翻译文本。

2.2 安装过程

   好吧,让我们开始使用以下命令安装库pip:

pip3 install SpeechRecognition pydub

   好的,打开一个新的 Python 文件并导入它:

import speech_recognition as sr

   这个库的好处是它支持多种识别引擎:

  • CMU Sphinx(离线)
  • 谷歌语音识别
  • 谷歌云语音API
  • 维特人工智能
  • 微软必应语音识别
  • Houndify API
  • IBM 语音转文本
  • Snowboy 热词检测(离线)
       我们将在这里使用 Google 语音识别,因为它很简单并且不需要任何 API 密钥。

2.3 转录音频文件

   确保当前目录中有一个包含英语演讲的音频文件(如果您想跟我一起学习,请在此处获取音频文件):

filename = "16-122828-0002.wav"

   该文件是从LibriSpeech数据集中获取的,但您可以使用任何您想要的音频 WAV 文件,只需更改文件名,让我们初始化我们的语音识别器:

# initialize the recognizer
r = sr.Recognizer()

   下面的代码负责加载音频文件,并使用 Google 语音识别将语音转换为文本:

# open the file
with sr.AudioFile(filename) as source:# listen for the data (load audio to memory)audio_data = r.record(source)# recognize (convert from speech to text)text = r.recognize_google(audio_data)print(text)

   这将需要几秒钟才能完成,因为它将文件上传到 Google 并获取输出,这是我的结果:

I believe you're just talking nonsense

   上面的代码适用于小型或中型音频文件。在下一节中,我们将为大文件编写代码。

2.4 转录大型音频文件

   如果您想对长音频文件执行语音识别,那么下面的函数可以很好地处理这个问题:

# importing libraries 
import speech_recognition as sr 
import os 
from pydub import AudioSegment
from pydub.silence import split_on_silence# create a speech recognition object
r = sr.Recognizer()# a function to recognize speech in the audio file
# so that we don't repeat ourselves in in other functions
def transcribe_audio(path):# use the audio file as the audio sourcewith sr.AudioFile(path) as source:audio_listened = r.record(source)# try converting it to texttext = r.recognize_google(audio_listened)return text# a function that splits the audio file into chunks on silence
# and applies speech recognition
def get_large_audio_transcription_on_silence(path):"""Splitting the large audio file into chunksand apply speech recognition on each of these chunks"""# open the audio file using pydubsound = AudioSegment.from_file(path)  # split audio sound where silence is 500 miliseconds or more and get chunkschunks = split_on_silence(sound,# experiment with this value for your target audio filemin_silence_len = 500,# adjust this per requirementsilence_thresh = sound.dBFS-14,# keep the silence for 1 second, adjustable as wellkeep_silence=500,)folder_name = "audio-chunks"# create a directory to store the audio chunksif not os.path.isdir(folder_name):os.mkdir(folder_name)whole_text = ""# process each chunk for i, audio_chunk in enumerate(chunks, start=1):# export audio chunk and save it in# the `folder_name` directory.chunk_filename = os.path.join(folder_name, f"chunk{i}.wav")audio_chunk.export(chunk_filename, format="wav")# recognize the chunktry:text = transcribe_audio(chunk_filename)except sr.UnknownValueError as e:print("Error:", str(e))else:text = f"{text.capitalize()}. "print(chunk_filename, ":", text)whole_text += text# return the text for all chunks detectedreturn whole_text```&emsp;&emsp;  <font face="楷体"   size=4>注意:您需要安装Pydub才能pip使上述代码正常工作。上述函数使用模块split_on_silence()中的函数pydub.silence在静音时将音频数据分割成块。该min_silence_len参数是用于分割的最小静音长度(以毫秒为单位)。silence_thresh是阈值,任何比这更安静的东西都将被视为静音,我将其设置为平均dBFS - 14,keep_silence参数是在检测到的每个块的开头和结尾处留下的静音量(以毫秒为单位)。这些参数并不适合所有声音文件,请尝试根据您的大量音频需求尝试这些参数。之后,我们迭代所有块并将每个语音音频转换为文本,然后将它们加在一起,这是一个运行示例:path = "7601-291468-0006.wav"
print("\nFull text:", get_large_audio_transcription_on_silence(path))
注意:您可以在此处7601-291468-0006.wav获取文件。输出:```python
audio-chunks\chunk1.wav : His abode which you had fixed in a bowery or country seat. 
audio-chunks\chunk2.wav : At a short distance from the city. 
audio-chunks\chunk3.wav : Just at what is now called dutch street. 
audio-chunks\chunk4.wav : Sooner bounded with proofs of his ingenuity. 
audio-chunks\chunk5.wav : Patent smokejacks. 
audio-chunks\chunk6.wav : It required a horse to work some. 
audio-chunks\chunk7.wav : Dutch oven roasted meat without fire. 
audio-chunks\chunk8.wav : Carts that went before the horses. 
audio-chunks\chunk9.wav : Weather cox that turned against the wind and other wrongheaded contrivances. 
audio-chunks\chunk10.wav : So just understand can found it all beholders. Full text: His abode which you had fixed in a bowery or country seat. At a short distance from the city. Just at what is now called dutch street. Sooner bounded with proofs of his ingenuity. Patent smokejacks. It required a horse to work some. Dutch oven roasted meat without fire. Carts that went before the horses. Weather cox that turned against the wind and other wrongheaded contrivances. So just understand can found it all beholders.

因此,该函数会自动为我们创建一个文件夹,并放置我们指定的原始音频文件块,然后对所有这些文件运行语音识别。

如果您想将音频文件分割成固定的间隔,我们可以使用以下函数:

# a function that splits the audio file into fixed interval chunks
# and applies speech recognition
def get_large_audio_transcription_fixed_interval(path, minutes=5):"""Splitting the large audio file into fixed interval chunksand apply speech recognition on each of these chunks"""# open the audio file using pydubsound = AudioSegment.from_file(path)  # split the audio file into chunkschunk_length_ms = int(1000 * 60 * minutes) # convert to millisecondschunks = [sound[i:i + chunk_length_ms] for i in range(0, len(sound), chunk_length_ms)]folder_name = "audio-fixed-chunks"# create a directory to store the audio chunksif not os.path.isdir(folder_name):os.mkdir(folder_name)whole_text = ""# process each chunk for i, audio_chunk in enumerate(chunks, start=1):# export audio chunk and save it in# the `folder_name` directory.chunk_filename = os.path.join(folder_name, f"chunk{i}.wav")audio_chunk.export(chunk_filename, format="wav")# recognize the chunktry:text = transcribe_audio(chunk_filename)except sr.UnknownValueError as e:print("Error:", str(e))else:text = f"{text.capitalize()}. "print(chunk_filename, ":", text)whole_text += text# return the text for all chunks detectedreturn whole_text

上述函数将大音频文件分割成 5 分钟的块。您可以更改minutes参数以满足您的需要。由于我的音频文件不是那么大,我尝试将其分成 10 秒的块:

print("\nFull text:", get_large_audio_transcription_fixed_interval(path, minutes=1/6))

输出:

audio-fixed-chunks\chunk1.wav : His abode which you had fixed in a bowery or country seat at a short distance from the city just that one is now called. 
audio-fixed-chunks\chunk2.wav : Dutch street soon abounded with proofs of his ingenuity patent smokejacks that required a horse to work some. 
audio-fixed-chunks\chunk3.wav : Oven roasted meat without fire carts that went before the horses weather cox that turned against the wind and other wrong 
head.
audio-fixed-chunks\chunk4.wav : Contrivances that astonished and confound it all beholders. Full text: His abode which you had fixed in a bowery or country seat at a short distance from the city just that one is now called. Dutch street soon abounded with proofs of his ingenuity patent smokejacks that required a horse to work some. Oven roasted meat without fire carts that went before the horses weather cox that turned against the wind and other wrong head. Contrivances that astonished and confound it all beholders.

2.5 从麦克风读取

   这需要在您的计算机上安装PyAudio ,以下是根据您的操作系统安装的过程:

  • windows

   你可以直接pip 安装它:

$ pip3 install pyaudio
  • Linux
       您需要先安装依赖项:
$ sudo apt-get install python-pyaudio python3-pyaudio
$ pip3 install pyaudio
  • 苹果系统
       你需要先安装portaudio,然后你可以直接 pip 安装它:
$ brew install portaudio
$ pip3 install pyaudio

   现在让我们使用麦克风来转换我们的语音:

import speech_recognition as srwith sr.Microphone() as source:# read the audio data from the default microphoneaudio_data = r.record(source, duration=5)print("Recognizing...")# convert speech to texttext = r.recognize_google(audio_data)print(text)

   这将从您的麦克风中听到 5 秒钟,然后尝试将语音转换为文本!

   它与前面的代码非常相似,但是我们在这里使用该Microphone()对象从默认麦克风读取音频,然后我们使用函数duration中的参数record()在5秒后停止读取,然后将音频数据上传到Google以获取输出文本。

   您还可以使用函数offset中的参数在几秒record()后开始录制offset。

   此外,您可以通过将language参数传递给recognize_google()函数来识别不同的语言。例如,如果您想识别西班牙语语音,您可以使用:

text = r.recognize_google(audio_data, language="es-ES")

   在此 StackOverflow 答案中查看支持的语言。

三、结论

   正如您所看到的,使用这个库将语音转换为文本非常容易和简单。这个库在野外被广泛使用。查看官方文档。

   如果您也想在 Python 中将文本转换为语音,请查看本教程。

   另请阅读: 如何使用 Python 识别图像中的光学字符。快乐编码!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/648824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

类和对象 第三部分第二小节:空指针访问成员函数

C中空指针也可以调用成员函数的&#xff0c;但是也要注意有没有用到this指针&#xff0c;如果有用到this指针&#xff0c;需要加以保证代码的健壮性 代码案例 出现报错 报错原因&#xff1a;因为新建的指针是空&#xff0c;所以this指代的对象为空&#xff0c;因此没有成员变量…

【数据库学习】Flyway

1&#xff0c;功能 数据库版本管理&#xff1b; 实现管理并跟踪数据库变更&#xff0c;支持数据库版本自动升级。 2&#xff0c;使用 1&#xff09;java使用 添加依赖 <dependency><groupId>org.flywaydb</groupId><artifactId>flyway-core</a…

Flume1.9基础学习

文章目录 一、Flume 入门概述1、概述2、Flume 基础架构2.1 Agent2.2 Source2.3 Sink2.4 Channel2.5 Event 3、Flume 安装部署3.1 安装地址3.2 安装部署 二、Flume 入门案例1、监控端口数据官方案例1.1 概述1.2 实现步骤 2、实时监控单个追加文件2.1 概述2.2 实现步骤 3、实时监…

无人机路径优化(八):五种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划(提供MATLAB代码)

一、五种算法&#xff08;DBO、LO、SWO、COA、GRO&#xff09;简介 1、蜣螂优化算法DBO 蜣螂优化算法&#xff08;Dung beetle optimizer&#xff0c;DBO&#xff09;由Jiankai Xue和Bo Shen于2022年提出&#xff0c;该算法主要受蜣螂的滚球、跳舞、觅食、偷窃和繁殖行为的启发…

华为路由器IPv6基础配置

1. R2的两个接口均采用静态IPv6地址配置方法 2. R1的GigabitEthernet0/0/3接口采用无状态 地址配置 3. R3的GigabitEthernet0/0/3接口采用DHCPv6 的方式配置IPv6地址 R1配置 ipv6 #全局使能IPv6 interface GigabitEthernet0/0/0ipv6 enable ipv6 address auto link-local #为…

vue项目打包部署到服务器并使用cdn加速

配置 vue.config.js文件 const isProd process.env.NODE_ENV production module.exports {// 其他配置chainWebpack: config > {// 生产环境下使用CDNif (isProd) {config.plugin(html).tap(args > {args[0].cdn assetsCDNreturn args})}},// 生产环境下替换路径为c…

conda管理python安装包与虚拟环境的相关命令汇总

conda的简单介绍 Anaconda&#xff0c;是一个开源的Python发行版本&#xff0c;包含了conda、Python以及一大堆安装好的工具包及依赖项。 conda是Anaconda中的一个开源的、Python包和环境的管理工具&#xff0c;包含于Anaconda的所有版本当中。因此使用conda需要先安装Anacon…

【Druid 登陆异常】

Druid 登陆异常 问题描述&#xff1a;页面登陆将请求参数放到请求体中导致无法通过request.getParameter 方式 服务加载流程 通过 DruidStatViewServletConfiguration 中方法 statViewServletRegistrationBean 初始化StatViewServlet 通过 com.alibaba.druid.support.jakarta…

【Android】在WSA安卓子系统中进行新实验性功能试用与抓包(2311.4.5.0)

前言 在根据几篇22和23的WSA抓包文章进行尝试时遇到了问题&#xff0c;同时发现新版Wsa的一些实验性功能能优化抓包配置时的一些步骤&#xff0c;因而写下此篇以作记录。 Wsa版本&#xff1a;2311.40000.5.0 本文出现的项目&#xff1a; MagiskOnWSALocal MagiskTrustUserCer…

统计字符串中的英文字母、中文、数字、标点符号的个数的练习题

题目&#xff1a; 统计字符串中的英文字母、中文、数字、标点符号的个数的练习题 实现思路&#xff1a; 1.初始化: 定义一个HashMap&#xff08;名为map&#xff09;来存储四种字符的统计结果。这四种字符分别是&#xff1a;英文字母、中文、数字和标点符号。 2.遍历字符串: 使…

索引是越多越好吗?

索引并不是“越多越好”。虽然索引对于提高数据库查询的速度至关重要&#xff0c;但过多的索引也会带来一些负面影响。理解索引的适当使用和潜在的代价是数据库设计和性能调优的关键部分。以下是索引数量的权衡&#xff1a; 索引的优势&#xff1a; 提高查询速度&#xff1a;索…

Ultraleap 3Di示例Interactable Objects组件分析

该示例代码位置如下&#xff1a; 分析如下&#xff1a; Hover Enabled&#xff1a;悬停功能&#xff0c;手放在这个模型上&#xff0c;会触发我们手放在这个模型上的悬停功能。此时当手靠近模型的时候&#xff0c;手的模型的颜色会发生改变&#xff0c;反之&#xff0c;则不会…

工具记录篇

个人喜欢&#xff0c;但是很少用到的工具&#xff0c;记录一下。20240126起草 那些找不到官网的、官网现版本不好用的 就用某度云和blue奏云盘存&#xff08;限制100M以内&#xff09;了。 部分内容是从各大网站上看到的&#xff0c;小破站、系统迷、52pj等。 本帖是方便自己使…

Java服务端使用freemarker+wkhtmltoimage生成Echart图片

目录 1.通过 freemarker 将ftl转成html 1.1 freemarker 手册: 1.2 添加freemarker maven依赖 1.3 添加 echart-test.ftl 模版文件 1.4 添加 FreemarkerTool 工具类 1.5 添加测试main方法 1.6 运行,生成echart-test-时间戳.html 文件 2. 通过wkhtmltoimage将html 转为p…

数位dp,HDU 4151 The Special Number

一、题目 1、题目描述 In this problem, we assume the positive integer with the following properties are called ‘the special number’: 1) The special number is a non-negative integer without any leading zero. 2) The numbers in every digit of the special nu…

763. 划分字母区间 - 力扣(LeetCode)

题目描述 给你一个字符串 s 。我们要把这个字符串划分为尽可能多的片段&#xff0c;同一字母最多出现在一个片段中。 注意&#xff0c;划分结果需要满足&#xff1a;将所有划分结果按顺序连接&#xff0c;得到的字符串仍然是 s 。 返回一个表示每个字符串片段的长度的列表。…

股票交易维度和概念

股票&#xff1a;股份公司为筹集资金而发行给各个股东作为持股凭证并借以取得股息和红利的一种有价证券 好处&#xff1a;分红、送股配股、交易收益、本金少、易变现、避免货币贬值 金融标的投资风险与收益 股票分类 蓝筹股 经营业绩长期稳定增长的大公司&#xff0c;一般是…

IaC基础设施即代码:Terraform 连接 azure Blob 实现多资源管理

目录 一、实验 1.环境 2.Terraform 连接 azure Blob 3.申请虚拟网络资源 4.申请子网资源 5.申请安全组资源 6.申请公网IP与网络接口资源 7.申请虚拟机资源 8.申请负载均衡器 9.销毁资源 二、问题 1.存储无法删除 一、实验 1.环境 &#xff08;1&#xff09;主机 表…

【mongoDB】文档 CRUD

目录 1.插入文档 批量插入&#xff1a; 2.查询文档 3.更新文档 4.删除文档 deleteOne() deleteMany() findOneAndDelete() 1.插入文档 可以使用 insert () 方法或者 save() 方法向集合中插入文档 语法如下&#xff1a; db.collection_name.insert(document) collectio…

6.2第三次作业

综合练习&#xff1a;请给openlab搭建web网站 网站需求&#xff1a; 1.基于域名www.openlab.com可以访问网站内容为welcome to openlab!!! 2.给该公司创建三个子界面分别显示学生信息&#xff0c;教学资料 和缴费网站&#xff0c;基于&#xff0c;www.openlab.com/data网站…