语音识别中强制对齐_一种在线语音文本对齐系统及方法

专利名称:一种在线语音文本对齐系统及方法

技术领域:

本发明涉及电视字幕显示领域,特别涉及一种在线语音文本对齐系统及方法。

背景技术:

一个国家电视字幕节目的比例,反应了一个国家的人文水平,反应了社会对残疾人的关怀程度。目前,日本,美国英国等很多国家的电视节目都已经加配字幕。而国内有字幕加配的节目是少之又少。即使有少量字幕加配,仅仅限于录播的节目,而且字幕的加配是专业人员手工完成,花费了大量的时间和精力,对于直播的节目的字幕加配,是通过专业人员在节目直播时根据节目播出的速度,一条条的加配。

现有技术在线语音文本方法的系统的核心模块是基于隐含马尔可夫模型的对齐模块。它的主要作用是产生每个文本句子和在线输入的相应的实时的时间对应关系。而传统的对齐方法则是则获取所有语音的情况下同时,由于对齐的文本中可能有不完全正确的地方,在新闻字幕中主要表现为部分现场新闻的新闻采访(同期声)没有对应的文本。传统的对齐方法是无法在在线的情况下处理这些错误的。传统的语音文本对齐方法,为了处理文本流中错误段,一般是在获取所有的语音之后,离线完成的,因而无法兼顾对带错误的文本的处理和实时语音输入对齐结果的实时获取。

发明内容

为了克服现有技术的不足,本发明提供了一种对在线语音文本对齐系统及方法。本发明的对齐系统及方法采用分而治之的思想,通过长文本流分割成短句,将长的语音流和文本流的对齐问题转化成短句文本和短语音流的对齐问题;同时具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能。本发明所提出的系统及方法,可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。

为了达到上述目的,本发明提供的一种在线语音文本对齐系统,包括 一文本处理模块,用于将原始的文本流作预处理和句子分割,并将分割后的文本句子送入强制对齐模块和错误恢复模块。

一错误检测模块,用于检测并判断是否是错误对齐,即文本与语音不匹配的情况如果发生错误,则通知错误恢复模块进行错误恢复。

一错误恢复模块,用于根据在线输入语音信号和文本句子信息,进行错误纠正,即对在线输入语音信号进行识别,在文本中寻取识别结果的最优匹配点,并将文本位置反馈给强制对齐模块。及 一强制对齐模块,用于根据在线输入语音信号和文本句子信息,输出当前句子的语音与文本的对齐结果;如果收到错误恢复模块的文本位置反馈信息,则跳过出现错误的文本段,并从最优匹配点的句子开始,输出句子的语音与文本的对齐结果。

其中,所述强制对齐模块包括特征提取模块、搜索空间构建模块和对齐解码模块。

所述特征提取模块,用于将在线输入语音信号进行特征提取,并按从前往后顺序的、逐帧的将语音特征送入对齐解码模块。

所述搜索空间构建模块,用于将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。

所述对齐解码模块,用于将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间

输出句子的语音与文本的对齐结果。

其中,所述近似最优句子结束时间

通过以下方法得到对于每一帧数据使用动态规划对齐, Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)}; 其中,Q(t,s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分;swe是期望估计其最优结束时间

的当前句子的词尾状态节点; 在t时刻,当有路径到达swe时(或称swe为活跃状态时),即统计此时所有活跃的状态的上的路径假设数目δ(*)是指示函数,将所有的路径假设按照其得分排序;统计swe上所有的路径假设Qk(t,swe)k=1…K;记路径假设Qk(t,swe)在所有N(t)个路径中排名Rank为Rk(t,swe);则swe上的路径假设在N(t)个路径中排名中的样本期望定义状态的活跃程度为A(t,swe)取最大值的时刻即是近似最优句尾时间

其中,所述错误检测模块利用语音速率估计和声学置信度估计两种策略判断是否是错误对齐 首先通过之前的句子估计话者的说话速率估计出的句子末尾的位置tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许的说话人速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误。

其次使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请求。

其中,所述错误恢复模块包括语言模型估计模块、差值模块、语音识别模块及文本对齐和相似度计算模块。

所述语言模型估计模块,用于使用最大似然估计的方法将文本句子信息估计成一个三元文法语言模型Pref(w3|w1,w2),并与语音识别模块中的背景语言模型PLM(w3|w1,w2)通过差值模块以线性插值的方式合并在一起,得到插值估计后的语言模型为 所述语音识别模块按从前往后,逐帧顺序的将送入的语音信号进行语音识别,并将语音识别的结果送入文本对齐和相似度计算模块。

所述文本对齐和相似度计算模块,用于将语音识别的结果在音节层次上和文本信息进行对齐,首先初步确定语音识别的结果在文本流中的位置范围,其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到匹配的文本位置,并将该文本位置反馈给强制对齐模块。

本发明提供的一种在线语音文本对齐方法,包括以下步骤 (1)根据实际应用要求的需要,文本处理模块对原始的文本流预处理和句子分割。

(2)将文本流送入错误恢复模块,和已有知识源一起构建错误恢复模块;在错误恢复模块中,文本流将用作自适应语言模型的估计,然后和背景语言模型进行插值构建新的语言模型。

(3)强制对齐模块使用已经训练好的声学模型和当前句子的文本内容构建对齐的搜索空间,转步骤(4)。

(4)强制对齐模块将在线输入语音信号的进行特征提取,并按从前往后逐帧顺序的,在搜索空间与相应的文本的对齐。

(5)同时错误检测模块判断当前句子是否为一个错误对齐,如果不是错误对齐,则转步骤(6);如果是错误对齐,则转步骤(7)。本发明检测句子末尾的方法是传统的基于维特比对齐的方法的改进,并不是获取在全局意义上的句子末尾时间估计τ*,而是通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,swe),估计在局部意义下的句子末尾时间

(6)输出当前句子的对齐结果;如果所有的句子已经对齐完,过程结束;否则转回步骤(3),处理下一个句子。

(7)启动错误恢复模块,通过在线输入语音信号进行识别,在文本中寻取最优匹配点,如果找到合适的匹配,返回步骤(3)。

其中,所述步骤(1)和步骤(2)是相互独立的,两者没有先后次序。

其中,所述步骤(4)包括以下子步骤 (41)特征提取模块将在线输入语音信号进行特征提取,并按从前往后逐帧的、顺序的将语音特征送入对齐解码模块。

(42)搜索空间构建模块将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。

(43)对齐解码模块将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间

输出句子的语音与文本的对齐结果。

其中,所述近似最优句子结束时间

通过以下方法得到对于每一帧数据使用动态规划对齐, Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)}; 其中,Q(t,s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分;swe是期望估计当前句子的最优结束时间

的词尾状态节点。

在t时刻,当有路径到达swe(或称swe为活跃状态)时,即统计此时所有活跃的状态si的上的路径假设数目δ(*)是指示函数,将所有的路径假设按照其得分排序;统计swe上所有的路径假设Qk(t,swe)k=1…K记路径假设Qk(t,swe)在所有N(t)个路径中排名(Rank)为Rk(t,swe)。那么swe上的路径假设在N(t)个路径中排名中的样本期望定义状态的活跃程度为A(t,swe)取到最大值的时刻即是近似最优句尾时间

其中,所述步骤(5)包括以下子步骤 (51)错误检测模块通过之前的句子估计话者的说话速率估计出的句子末尾的位置tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许的说话人速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误。

(52)错误检测模块使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请求。

其中,所述步骤(7)包括以下子步骤 (71)语音识别模块按从前往后逐帧顺序的将送入的语音信号进行语音识别,并将语音识别的结果送入文本对齐和相似度计算模块。

(72)文本对齐和相似度计算模块根据输入的文本信息在音节层次上和文本信息进行对齐,首先初步确定语音识别的结果在文本流中的位置,其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到匹配的文本位置,并将该文本位置反馈给强制对齐模块。

本发明的优点在于 1、本发明提供的在线语音文本对齐系统及方法可以实时的产生在线输入语音流和对应的文本的对齐结果。

2、本发明提供的在线语音文本对齐系统及方法通过长文本流分割成短句,将长的语音流和文本流的对齐问题转化成短句文本和短语音流的对齐问题;同时具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能。

图1本发明在线语音文本对齐系统整体框图; 图2是本发明强制对齐模块框图; 图3是本发明错误恢复模块框图; 图4是本发明在线语音和文本对齐方法流程图; 图5是本发明实施例搜索空间构建示例图; 图6是本发明实施例使用束搜索的搜索空间和实时的最佳句子结束时间的估计图。

具体实施例方式 下面通过具体实施例,并结合附图详细说明本发明。

本实施例采用的在线语音文本对齐系统,如图1所示,包括文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。

其中,强制对齐模块,如图2所示,包括特征提取模块、搜索空间构建模块和对齐解码模块。

其中,错误恢复模块,如图3所示,包括语言模型估计模块、语言模型插值模块模块、语音识别模块及文本对齐和相似度计算模块。

利用上述系统的在线语音文本对齐方法,步骤包括(如图4所示) (1)根据实际应用要求的需要,将原始的文本流进行预处理,包括特殊的符号的处理(数字,字母,标点等)和分割成句子。在目前的情况下,文本句子的分割的准则是按照文本中中文标点(句号,和逗号)的位置进行分割,比如电视字幕产生应用需要将原始的文本流分割成适合于显示在电视字幕上的句子(一般是4-13个字)。

(2)错误恢复模块的核心是一个语音识别器和一个文本对齐的模块。语音识别器的构建的一般过程,包括基于隐含马尔可夫模型的声学模型,语言模型,发音词典,解码搜索空间。由于需要对齐的文本,对于错误纠正时的语音识别过程来说是非常有效的知识源。因此,需要将对齐的文本也纳入到错误对齐模块中来。具体的说,利用这些文本使用一个最大似然估计的方法估计一个三元文法语言模型Pref(w3|w1,w2)。并和原有的语音识别系统中的背景语言模型PLM(w3|w1,w2)通过线性插值的方式合并在一起。得到插值估计后的语言模型为 (3)强制对齐模块将当前句子的文本内容进行字到音的转换,使用已经训练好的声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。一个构建好的搜索空间的例子如图5所示。将在线输入语音信号的进行特征提取,并按从前往后逐帧的、顺序的将特征送入对齐解码模块中,和对应的隐含马尔可夫模型状态对齐。在传统的基于马尔可夫模型的语音对齐的过程中,是等待在将所有的文本和获取的所有语音进行对齐完成后,选取全局的最优路径,每个句子的对应的结束时间由最优路径决定。如图6所示的粗线所示的就是最优路径,而τ*则是离线估计的最优决策时间。但是。在很多应用中(比如电视字幕加配),所期望的则是一个实时的结果输出,即当语音进行到相应的文本句子末尾时,系统即能立即估计数句子的结束时间

所以我们提出了一个方法,用于近似最优句子结束时间

该方法适用于使用束搜索(Beam Search)的语音识别器。在语音识别器中,为了提高识别器的效率,通常使用束搜索,同时剪枝掉不可能的搜索空间。如图所示,两条粗线所夹的中间区域就是束搜索时通过的位置。我们提出的近似方法基于以下基本假设,即在τ*附近,句子末尾所处的搜索空间是最活跃的 为此,定义下列变量Q(t,s)为在时刻t落在状态s上的最佳的得分。swe是我们期望估计其最优结束时间的词尾节点。

对于每一帧数据使用动态规划(维特比)对齐 Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)}。

在t时刻,当有路径到达swe时,即统计此时所有活跃的状态的上的路径假设数目δ(*)是指示函数,并将所有的路径假设得分排序。统计swe上路径假设Qk(t,swe)k=1…K,路径假设Qk(t,swe)在所有N(t)个路径中排名为Rk(t,swe),那么可以估计swe上的路径假设在N(t)个路径中排名中期望定义状态的活跃程度为A(t,swe)取到最大值的时刻即是近似最优句尾时间

我们估计的最优的句尾时间

是句尾空间最活跃的时刻,A(t,swe)取到最大值的时刻。

(4)自动的错误检测采取两个串行的策略完成,说话人语音速率估计和声学置信度估计。首先通过估计说话人语音速率来完成的初步的检测。该方法认为如果文本和语音不匹配,那么处理中的语音的在搜索空间中的路径就被剪枝,因此在文本对应的正常的语音时间内,不匹配的语音不能对齐到相应的句子末尾。方法如下,通过之前的句子估计说话人的说话速率即说话人平均每说一个汉字所需要的平均时间。因此估计出的句子的结束时间tend=Rspeech·Ncharacter·(1+δ),其中Ncheracter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用来容许估计的说话人速率的变化。如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误。其次使用声学置信度估计的方式做二次确认。即在进行对齐解码的同时在计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度。最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误。

(5)及时输出对齐的结果,即当前句子文本和语音在时间上的对应关系,输出的形式为三元组。

(6)将在线输入语音信号的进行端点检测和语音句子分割。并按从前往后逐帧顺序的送入错误矫正模块进行语音识别。语音识别的结果在音节层次上和文本流进行对齐,对齐采用了两遍策略,第一遍是初步确定语音识别的结果在文本流中的位置,第二遍则是在初步确定的范围内精细计算当前语音识别结果和文本的相似度。当相似度超过一定阈值的时候,则认为找到了合适的匹配。

权利要求

1、一种在线语音文本对齐系统,其特征在于,所述系统包括

一文本处理模块,用于将原始的文本流作预处理和句子分割,并将分割后的文本句子送入强制对齐模块和错误恢复模块;

一错误检测模块,用于检测并判断是否是错误对齐和文本与语音不匹配的情况,如果发生错误,则通知错误恢复模块进行错误恢复;

一错误恢复模块,用于根据在线输入语音信号和文本句子信息,进行错误纠正,即根据在线输入语音信号进行识别,在文本中寻取最优匹配点,并将文本位置反馈给强制对齐模块;及

一强制对齐模块,用于根据在线输入语音信号和文本句子信息,输出当前句子的语音与文本的对齐结果;如果收到错误恢复模块的文本位置反馈信息,则跳过出现错误的文本段,并从最优匹配点的句子开始,输出句子的语音与文本的对齐结果。

2、根据权利要求1所述的在线语音文本对齐系统,其特征在于,所述强制对齐模块包括特征提取模块、搜索空间构建模块和对齐解码模块;

所述特征提取模块,用于将在线输入语音信号进行特征提取,并按从前往后逐帧地、顺序地将语音特征送入对齐解码模块;

所述搜索空间构建模块,用于将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间;

所述对齐解码模块,用于将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间

,输出句子的语音与文本的对齐结果。

3、根据权利要求2所述的在线语音文本对齐系统,其特征在于,所述近似最优句子结束时间

通过以下方法得到对于每一帧数据使用动态规划维特比对齐,

Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)};

其中,Q(t,s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分;swe是期望估计其最优结束时间

的当前句子的词尾状态节点;在t时刻,当有路径到达活跃状态swe时,即统计此时所有活跃的状态si的上的路径假设数目其中,δ(*)是指示函数,将所有的路径假设按照其得分排序;统计sωe上所有的路径假设Qk(t,swe)k=1…K;记路径假设Qk(t,swe)在所有N(t)个路径中排名为Rk(t,swe);则swe上的路径假设在N(t)个路径中排名中的样本期望定义状态的活跃程度为A(t,swe)取最大值的时刻即是近似最优句尾时间

4、根据权利要求1所述的在线语音文本对齐系统,其特征在于,所述错误检测模块利用语音速率估计和声学置信度估计两种策略判断是否是错误对齐

首先通过之前的处理过的句子估计话者的说话速率,即说话人平均说一个汉字所需要的时间,估计出当前句子的结束时间tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许说话人速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误;

其次使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请,否则输出当前句的结果。

5、根据权利要求1所述的在线语音文本对齐系统,其特征在于,所述错误恢复模块包括语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块;

所述语言模型估计模块,用于使用最大似然估计的方法将文本句子信息估计成一个三元文法语言模型Pref(w3|w1,w2),并与语音识别模块中的背景语言模型PLM(w3|w1,w2)通过差值模块以线性插值的方式合并在一起,得到插值估计后的语言模型为

其中α为插值权重,通过经验确定;

所述语音识别模块按从前往后的顺序逐帧地对送入的语音信号进行语音识别,并将语音识别的结果送入文本对齐和相似度计算模块;

所述文本对齐和相似度计算模块,用于将输入的文本在音节层次上和语音识别的结果进行对齐,首先初步确定语音识别的结果在输入文本流中的位置范围,其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到匹配的文本位置,并将该文本位置反馈给强制对齐模块。

6、一种在线语音文本对齐方法,该方法包括以下步骤

(1)根据实际应用要求的需要,文本处理模块对原始的文本流预处理和句子分割;

(2)将文本流送入错误恢复模块,和已有知识源一起构建错误恢复模块;在错误恢复模块中,文本流将用作自适应语言模型的估计,然后和背景语言模型进行插值构建新的语言模型;

(3)强制对齐模块使用已经训练好的声学模型和当前句子的文本内容构建对齐的搜索空间,转步骤(4);

(4)强制对齐模块将在线输入语音信号的进行特征提取,并按从前往后逐帧顺序的,在搜索空间与相应的文本的对齐;

(5)同时错误检测模块判断当前句子是否为一个错误对齐,如果不是错误对齐,则转步骤(6);如果是错误对齐,则转步骤(7);

(6)输出当前句子的对齐结果;如果所有的句子已经对齐完,过程结束;否则转回步骤(3),处理下一个句子;

(7)启动错误恢复模块,通过在线输入语音信号进行识别,在文本中寻取最优匹配点,如果找到合适的匹配,返回步骤(3)。

7、根据权利要求6所述的在线语音文本对齐方法,其特征在于,所述步骤(4)包括以下子步骤

(41)特征提取模块将在线输入语音信号进行特征提取,并按从前往后逐帧地、顺序地将语音特征送入对齐解码模块;

(42)搜索空间构建模块将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间;

(43)对齐解码模块将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间

,输出句子的语音与文本的对齐结果。

8、根据权利要求7所述的在线语音文本对齐方法,其特征在于,所述近似最优句子结束时间

通过以下方法得到对于每一帧数据使用动态规划维特比对齐,

Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)};

其中,Q(t,s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分;swe是期望估计其最优结束时间

的当前句子的词尾状态节点;

在t时刻,当有路径到达活跃状态swe时,即统计此时所有活跃的状态si的上的路径假设数目其中,δ(*)是指示函数,将所有的路径假设按照其得分排序;统计swe上所有的路径假设Qk(t,swe)k=1…K;记路径假设Qk(t,swe)在所有N(t)个路径中排名为Rk(t,swe);则swe上的路径假设在N(t)个路径中排名中的样本期望定义状态的活跃程度为A(t,swe)取最大值的时刻即是近似最优句尾时间

9、根据权利要求6所述的在线语音文本对齐方法,其特征在于,所述步骤(5)包括以下子步骤

(51)错误检测模块通过之前的句子估计说话人的的说话速率

估计出当前句子的结束时间tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许说话人速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误;

(52)错误检测模块使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请求;否则输出当前句子的对齐结果。

10、根据权利要求6所述的在线语音文本对齐方法,其特征在于,所述步骤(7)包括以下子步骤

(71)语音识别模块按从前往后逐帧顺序地将送入的语音信号进行语音识别,并将语音识别的结果送入文本对齐和相似度计算模块;

(72)文本对齐和相似度计算模块将语音识别的结果在音节层次上和输入的文本信息进行对齐,首先初步确定语音识别的结果在文本流中的位置范围,其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到匹配的文本位置,并将该文本位置反馈给强制对齐模块。

全文摘要

本发明涉及一种在线语音文本对齐系统及方法,该系统包括文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中,强制对齐模块包括特征提取模块、搜索空间构建模块和对齐解码模块。其中,错误恢复模块包括语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进,通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,sωe),估计在局部意义下的句子末尾时间*。本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能;可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。

文档编号H04N5/278GK101651788SQ20081022479

公开日2010年2月17日 申请日期2008年12月26日 优先权日2008年12月26日

发明者颜永红, 杰 高, 赵庆卫, 潘接林 申请人:中国科学院声学研究所, 北京中科信利技术有限公司

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486021.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动态规划--Leetcode121.买卖股票的最佳时机

给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。 如果你最多只允许完成一笔交易(即买入和卖出一支股票),设计一个算法来计算你所能获取的最大利润。 注意你不能在买入股票前卖出股票。 示例 1: 输入: [7,1,5,3,6,…

Gradle 下载不了

可自行下载对应的 gradle-x.x-all.zip 放在下列目录 C:\Users\penno\.gradle\wrapper\dists\gradle-4.4-all\9br9xq1tocpiv8o6njlyu5op1 转载于:https://www.cnblogs.com/ouuy/p/9057358.html

边缘AI是内存技术发展的催化剂

来源:北京物联网智能技术应用协会人工智能的崛起,对内存系统提出了一些新要求。今天的内存技术能够满足AI时代下的新应用吗?从长远来看,新兴内存技术对边缘 AI有什么前景?首先要意识到的是“边缘AI”应用没有特定标准;“边缘”在…

一级计算机B理论知识和答案,计算机一级B基础知识选择题答案.doc

计算机一级B基础知识选择题答案.doc计算机基础知识选择题(1)世界上第一台电子计算机诞生于_______年。A)1969B)1946C)1935D)1956【解析】世界上第一台电子数字计算机ENIAC于1946年4月12日诞生于美国。(2)冯诺依曼研制的存储计算机名称是_______。A)EDVAC B)ENIACC)EDSAC D)MARK…

金叉成功率_一个非常强烈的买卖信号:三金叉见顶,三死叉见底,短短10字,但是成功率却远超“金叉买,死叉卖”...

(本文由公众号越声投顾(yslcw927))整理,仅供参考,不构成操作建议。如自行操作,注意仓位控制和风险自负。)为什么做交易的人95%是要被市场打败出局?一、炒股最困难的不是选股,也不是买卖,而是等待;人生最困难的不是努力…

动态规划--Leetcode64.最小路径和

给定一个包含非负整数的 m x n 网格,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 说明:每次只能向下或者向右移动一步。 示例: 输入: [ [1,3,1], [1,5,1], [4,2,1] ] 输出: 7 解释: 因为路径 1→3→1→1→1 的总…

洛谷 P1824 进击的奶牛 【二分答案】(求最大的最小值)

题目链接&#xff1a;https://www.luogu.org/problemnew/show/P1824 题目描述 Farmer John建造了一个有N(2<N<100,000)个隔间的牛棚&#xff0c;这些隔间分布在一条直线上&#xff0c;坐标是x1,...,xN (0<xi<1,000,000,000)。 他的C(2<C<N)头牛不满于隔间的位…

《中国基础研究竞争力报告2020》发布,6图表速览报告核心结论

来源&#xff1a; 科学出版社持续跟踪先进国家基础研究发展态势&#xff0c;准确研判我国基础研究竞争力&#xff0c;科学筹划基础研究发展&#xff0c;对于打造科技核心竞争力、构筑先发优势、蓄积长远发展原动力&#xff0c;具有重要战略意义。为了支撑科技创新&#xff0c;中…

异步通信在生活中的例子_AJAX简单异步通信实例分析

本文实例讲述了AJAX简单异步通信的方法。分享给大家供大家参考。具体分析如下&#xff1a;客户端&#xff1a;向服务器发出一个空请求。代码如下&#xff1a;XMLHttpRequestvar xmlHttp;function createXMLHttpRequest(){if(window.ActiveXObject)xmlHttp new ActiveXObject(&…

计算机仿真在机械行业中的应用,计算机仿真技术机械行业应用

计算机仿真技术在机械行业应用计算机仿真技术在机械行业应用14级在职机械工程硕士 刘中华摘 要: 计算机仿真技术是以多种学科和理论为基础&#xff0c;以计算机及其相应的软件为工具&#xff0c;通过虚拟试验的方法来分析和解决问题的一门综合性技术。计算机仿真(模拟)早期称为…

svn 修改文件的可执行权限

设置svn可执行权限&#xff0c;svn:executable 1)svn propset svn:executable on 文件名&#xff0f;文件夹名 2)svn propset svn:executable on test.c svn ci 转载于:https://www.cnblogs.com/wangliangblog/p/9072690.html

「九章」刷屏的背后:万字长文解析,量子计算机和电子计算机各有何优劣?

来源&#xff1a;机器学习研究组订阅号近日&#xff0c;中科大校友、UC伯克利在读博士、知乎用户SIY.Z 在一篇近两万字的长文中&#xff0c;详细分析了“量子计算机和传统电子计算机在算法方面的优劣势”。以下是原文内容:这是一篇我很早以前就想写的文章。我的目的是给稍有数学…

关于计算机的网络作文,关于网络世界的作文

关于网络世界的作文在学习、工作乃至生活中&#xff0c;大家对作文都不陌生吧&#xff0c;根据写作命题的特点&#xff0c;作文可以分为命题作文和非命题作文。那么你有了解过作文吗&#xff1f;以下是小编精心整理的关于网络世界的作文&#xff0c;欢迎阅读&#xff0c;希望大…

python实现邮件客户端_利用python实现简单的邮件发送客户端示例

脚本过于简单&#xff0c;供学习和参考。主要了解一下smtplib库的使用和超时机制的实现。使用signal.alarm实现超时机制。#!/usr/bin/env python# -*- coding: utf-8 -*-import timeimport sysimport loggingimport smtplibimport socketimport signalimport ConfigParserfrom …

xml--Schema约束

<?xml version"1.0" encoding"UTF-8"?> <!-- xmlns: xml namespace&#xff1a;名称空间/ 命名空间 targeNamespace&#xff1a;目标名称空间&#xff0c;下面定义的那些元素都与这个名称空间绑定上 elementFormDefault&#xff1a; 元素的格式…

js中实现页面跳转(返回前一页、后一页)

一&#xff1a;JS 重载页面&#xff0c;本地刷新,返回上一页 代码如下:<a href"javascript:history.go(-1)">返回上一页</a> <a href"javascript:location.reload()">重载页面&#xff0c;本地刷新</a> <a href"javascri…

stm32 文件系统dma大小_STM32 DMA使用详解

DMA部分我用到的相对简单&#xff0c;当然&#xff0c;可能这是新东西&#xff0c;我暂时还用不到它的复杂功能吧。下面用问答的形式表达我的思路。DMA有什么用&#xff1f;直接存储器存取用来提供在外设和存储器之间或者存储器和存储器之间的高速数据传输。无须CPU的干预&…

管理计算机域内置账户改为用户账户,“管理计算机(域)的内置帐户”我给它改了名...

在Windows XP中&#xff0c;Administrator帐户是终极管理员&#xff0c;如果你创建了其他管理员帐户&#xff0c;那么该帐户就会从欢迎屏幕上被隐藏。这里需要注意的是&#xff0c;仅仅是从欢迎屏幕上被隐藏&#xff0c;该帐户仍然存在。如果你仍然需要使用这个帐户&#xff0c…

程序架构--BS,CS

程序架构 C/S(client/server) QQ 微信 LOL 优点&#xff1a;有一部分代码写在客户端&#xff0c;用户体验比较好 缺点&#xff1a;服务器更新&#xff0c;客户端也随着更新&#xff0c;占用资源大 B/S(browser/server) 网页游戏&#xff1a;WebQQ ... 优点&#xff1a;客…

被称为“第五代 AI”的神经形态计算进展到哪一步了?

来源&#xff1a;北京物联网智能技术应用协会AI可以像人脑一样运作吗&#xff1f;几十年来&#xff0c;研究人员一直在问这个问题&#xff0c;这个大家长期求索的问题引起了质疑、嘲笑、轻蔑等不同态度。但是现在&#xff0c;神经形态计算让世界变得更美好的梦想更近了一些。当…