Speech Computations of the Human Superior Temporal Gyrus(人类颞上沟的言语计算)
专业术语
Superior Temporal Gyrus 颞上沟
phoneme 音素
syllable 音节
speech perception 语音感知
vocal tract 声道
acoustic 声学的
articulatory 发音的
spectrogram 频谱图
speech envelope 语音包络
spectral peak 频谱峰值
formant 共振峰
superior temporal gyrus(STG)颞上回
posterior 后部的
anatomical 解刨学的
high-resolution 高分辨率
cortical electrophysiology 皮层电生理学
electrocorticogram(ECoG)皮层脑电图
phonological units 音韵单元
consonant 辅音
vowel 元音
lexical tone 词汇音调
oral cavity 口腔
resonant frequencies 谐振频率
intonational prosody 语调韵律
pitch contour 音高轮廓
temporal cues 时间线索
sonority 响度
spectrotemporal analysis 谱时分析
概述
本文献描述了颞上沟中语音声音表示依赖于基本的非线性和动态过程,例如
分类(categorization
)、归一化(normalization)
、上下文恢复(contextual restoration)
和时间结构
的提取。在颞上沟中,大量神经元的集体活动形成了特定的模式,这些模式代表了语音中的抽象音素(phoneme)
和音节(syllable)
单位。这些高阶的表示形式支持我们感知和理解语音。本综述介绍了颞上沟中音韵处理的多尺度、循环模型,强调了听觉系统和语言系统之间的关键接口。
introduction
Speech perception relies on a set of transformations that convert a complex acoustic signal into discrete and interpretable linguistic units.
(语音知觉依赖于一系列转换,将复杂的声学信号转化为离散且可解释的语言单位。)
在我们理解和处理语音时,首先需要对声学信号进行处理和转换,以将其转化为可以被我们的大脑解释和理解的语言单位。这些转换包括对声音的分割、分类和归纳等过程,以从声学信号中提取出单词、音素和其他语言单位。这些离散且可解释的语言单位最终构成了我们对语音的知觉和理解。
语音声音可以通过物理声波的声学特性(acoustic properties)
或与发音过程中声道(vocal tract)
形成有关的发音特性(articulatory properties)
(发音特征包括声带振动、舌位、唇位、爆破音、摩擦音等。声学特征涉及声音的声谱特性,如频率、强度、共振等。)来描述,如下图 1 所示:
(a)一个高音的人说了两次不同的“bat”,发音标签分别为 utterance 1、utterance 2。下面是对应的两次发音的频谱图,但是两次语音序列都映射到相同的语言内容上。在语音波形(speech waveform)和频谱图(spectrogram)
中,描述声学信号的同一个说话者差异的关键包括语音包络(speech envelope)
的振幅(amplitude)变化、频谱峰值(spectral peak)
的移动以及不同的最终音素持续时间。(b)同一个人尝试说出“mat”,下面显示了相关的声学-音素(acoustic-phonet)特征,指示了发音的方式和位置。(c)一个低音的人说出“bat”,不同说话这之间语音波形和频谱图的不同包括语音包络振幅的改变和频谱峰值的移动。说话者之间的差异是由于一些特定的说话者特征,比如:声道长度,说话速度,口音。
Q: 什么是
语音包络
?
A: 语音包络(speech envelope)是指语音信号的幅度变化模式。它描述了语音信号在时间上的整体振幅变化情况,即语音信号的能量随时间的变化。语音包络可以看作是语音信号的总体轮廓或振幅轨迹。语音包络的变化对于语音的感知和理解非常重要。它包含了语音中的声音强度和音调的信息。通过观察语音包络的变化,我们可以感知到语音的音高、音量、韵律和语调等特征。语音包络的变化也可以用于识别不同的语言单位,如音节、单词或语句。
Q: 什么是
声谱图(频谱图)
?
A:频谱图(Spectrogram)是一种用于可视化声音频谱的图形表示方法。它展示了声音信号在不同频率和时间上的能量分布。
频谱图将声音信号的频谱信息转换为二维图像。在频谱图中,水平轴表示时间,垂直轴表示频率,而颜色或灰度表示对应频率和时间上的能量或振幅。
在声谱图中,我们可以就看到许多共振峰(formant)
,这些共振峰是使听者能够区分元音的关键泛音。频率最低的共振峰频率称为 f1,第二低的是 f2,而第三低的是 f3(基频一般以 f0 标示),f0是声带震动,与音高(pitch)有关,f1,f2.。这些是与谐振、舌头、喉咙相关,所以可以用来区分原因,具体详细内容可以参考维基百科—共振峰。
We use the term “phonological computation
” to refer to the processes that translate these features into meaningful elements of language.(我们使用术语“音律计算”来代指将这些特征转化为语言中有意义的元素的过程。)这里提到的特征指声学和发音特征(acoustic and articulatory properties)。这些计算是非线性的(nonlinear)和动态的(dynamic),因为语音感知和声学输入的物理特性不变相关连,并且语音表征是随时间而变化的,取决于相邻的单词和句子的上下文。
经典的解刨学病变性研究已经表明,颞上回(STG)的后部区域是言语感知和语言理解的关键位点。研究表明,STG对于非语音声音(如音乐、环境声音)以及不可理解的语音声音都会产生反应。
下图显示了解刨学上 STG 的位置,颜色的渐变用于区分 STG 的后部和中部区域。
但是,对于 STG 语音处理的机制,我们还并不清楚。以及神经活动的空间、时间和光谱属性,作为一种神经代码,如何代表语音的特定属性。
在这篇综述中,我们讨论了高分辨率(high-resolution)皮层电生理学(cortical electrophysiology)
的最新发现,这有助于我们对语音处理的机制理解。这些直接皮层神经生理学(neurophysiology)记录允许在毫米和毫秒尺度上的高空间和时间分辨率。这些参数是至关重要的,因为相邻的记录电极甚至间隔几毫米也会显示出高度明显的调谐(tuning)。
本综述的内容组织
:
- 首先,定义在语言处理中的音韵单元(phonological units)的角色并回顾最近的关于这些单元在 STG 皮层活动是如何被表示的工作。
- 然后,考虑了关于语音输入的非线性神经转换的证据,包括语音片段的分类和基于说话者声学特征的归一化。
- 接着,关注动态的神经计算,它们使得关键的时间标志点(temporal landmark)可以被提取用于音节(syllable)处理和上下文敏感的音韵预测。
- 最后,我们提出了一个分布式的语音处理模型。
STG encoding of phonological units
音韵单元是一个层级结构,通常被描述为一个树状结构,其中最底层是音韵特征(最常见的特征是基于发音特征或声学特征)。在更高的层级上,音韵特征组合成音位、音节、词和句子等更大的单位。这种层级结构反映了语言中不同级别的音韵组织。
通过同时存在多个特定的音韵特征,可以唯一地识别出不同的音素。这意味着特定的音韵特征组合是一个语言中不同语音单位的标志。例如,在英语中,声带振动、双唇闭合和破裂特征的同时存在唯一地标志着音素/b/。
音韵单元的组合和生成:通过组合和排列不同的音韵特征,我们可以生成出构成语言中所有辅音和元音的声音。不同语言可以根据其音韵特征的组合规则和限制来生成特定的音韵单元。
辅音(consonant)
和元音(vowel)
是一类具有关键声学差异的语音,可以用不同的发音特征来描述。
辅音是通过声道部分受阻而产生的语音音素。它们的特征在于阻碍气流通过口腔的位置(发音位置)和发音器官对气流的收缩方式(发音方式)。元音的特征在于上喉腔的开放和无阻碍的配置,该配置受舌头在口腔中的位置(高/低、前/后)和发音时唇部的圆唇程度的影响。
在自然语音中,辅音和元音音素以高度有组织的重复模式出现,这些模式定义了音节(syllable)
。
在语言中,辅音和元音的交替出现创造了一种节奏感,这种节奏感是我们理解和产生语言的重要部分。当我们说话时,我们的声音强度会随着我们发出的声音而变化,这些变化形成了所谓的“幅度包络”(amplitude envelope)
。
最近的研究表明,ECoG 的记录已经解释了在 STG 上的局部神经群体有选择性的表示声学音素特征而不是音素和音节。这意味着,STG中的神经元对语音声音中的高阶听觉线索具有特定的敏感性
。这些高阶听觉线索是与声学和发音特征相关联的特征,如音高、共振特性、共振峰、声带振动模式等。
Categorization and normalization
在语音知觉过程中,我们需要处理来自外界的复杂声学信号,这些信号包含丰富的频谱和时间细节。然而,人类语言使用有限的音韵单位(如音素)来表示和组成单词。因此,语音知觉的一个重要任务是将这些复杂的声学信号归约为有限的音韵单位。
it can be understood as mapping a set of acoustically distinct sounds to the same phonological class, a process called
categorization
.
The process by which a listener’s representation of a speech sound becomes invariant to speaker identity is called speaker
normalization
.
分类和听者归一化都是非线性操作,导致语音声音的表征区别于物理信号。
语音的范畴性知觉(categorical perception of speech)是一种行为现象,指的是声音在不同的声音类别之间是可辨别的,但在同一类别内是不可辨别的。这也是一种基本的非线性知觉特性:对声学变化的敏感性取决于一个声音与定义的声音类别有多相似。
Q:什么是
范畴感知(categorical perception )
?
A:范畴感知是指大脑对外界信息进行分类和归类的能力。在感知过程中,我们将相似的感觉和经验归纳为不同的类别或范畴,以便更好地理解和处理环境中的信息。
我们推测语音的分类在神经心理学上有几个不同的方式:
- 一种可能性是,局部神经群体对单个音素具有选择性的反应。这意味着当听到特定音素时,局部神经群体会显示较高的活动水平,而对其他音素则表现出较低的活动水平。这种选择性响应有助于抑制来自不同说话者和不同语境下的声学差异,从而使得我们能够将不同的声音归类为相同的音素类别。通过这种方式,神经群体可以对特定音素进行编码,并忽略与说话者和语境相关的变化。
- 另外一种可能性是,局部神经群体对特定的声学-语音特征有选择性的响应,而跨多个局部神经群体的活动模式则展现了音素的高阶表示。这意味着不同的局部神经群体对不同的声学-语音特征具有选择性的响应,例如特定的频率成分、时序模式或共振特性。然后,通过这些局部神经群体之间的模式化活动,形成了对音素的高级表示。这种模式化的活动可能涉及多个脑区之间的信息传递和协调,从而构建出对音素的整体认知。
现有的研究支持第二种可能,尽管单个神经元群体可以编码声音-语音特征或经过讲话者标准化的韵律特征,但是只有将多个神经元群体之间的活动整合起来,才能获得形成范畴性表示所需的信息。这一观点的支持主要基于对辅音、元音和词汇音调类别(lexical tone)编码的研究证据。
consonant
当参与者被要求识别包含在英语中有声爆破音类别(即/ba/、/ga/和/da/)中平滑连续变化的频谱内容的合成语音时,他们的知觉并不是逐渐地变化,而是突然地跳跃到不同的音素类别。
通过使用同时进行的脑电图(ECoG)记录,研究人员发现,尽管是来自线性的物理刺激,参与者对于这三个不同的音素的分类感知是非线性的感知过程。(如何理解这里所说的非线性?)
推动神经活动的基本维度是第二个频谱峰(图3中标记为F2)的起始频率(onset frequency
)和频谱转换的幅度(magnitude of the spectral transition
),该转换对应于语音产生过程中的舌面发音运动。有趣的是,解码分析揭示出几个相邻的皮质区域能够区分不同的类别对,突显了后STG区域的功能异质性。这一结果表明,声学频谱线索的分布式神经表示可以编码与听者主观体验相匹配的非线性性。如下图所示,???
Vowels
元音
是由口腔(oral cavity)的不同形状产生的,在特定的频率上产生共振,称为共振峰(formant)。
这些共振峰在声学中被称为"
formants
"(共振峰)。每个元音都有其特定的共振峰,其中基频(F0
)由发声时声带振动的速率决定(与音高(pitch)作为知觉相关),而共振峰则由空气在声道中共振的方式决定,因此它们取决于声道的形状。第一个共振峰(F1)
通常与舌头的位置和嘴唇的开口程度有关,而第二个共振峰(F2)
通常与舌头的前后位置有关。这些共振峰的频率和强度组合在一起,决定了我们听到的不同元音的声音质量和区别。
共振峰在频谱图中呈现为能量较高的峰值或突出的频率区域。这些峰值表示在特定频率上声音的能量较高,通常对应于声音信号在口腔空腔中产生共振的频率。
映射到一个特定元音类别的共振峰值的范围是可变的,并依赖于说话者的特征,比如:声道较长的人的谐振频率(resonant frequencies)低于声道较短的人。
因此,可靠的元音辨别和分类过程依赖于说话者归一化(speaker normalization)
的过程,即听者对相关语言内容的表示舍弃与说话者相关的不相关属性。
有一些证据表明,除了物理声学特性之外的元音类别信息在STG 和周围区域的听觉皮层所表示。与辅音相似,STG皮层对元音的反应依赖于复杂的光谱整合,代表了前两个共振峰的组合。
一项研究比较了在说话者识别任务和元音分类任务中STG的激活情况,研究结果显示,不同任务类型下STG内的不同脑区显示出不同的激活模式
。这表明在说话者识别任务和元音分类任务中,STG对于处理声音的方式是异质的,即不同的任务类型可能涉及到STG内的不同神经机制和脑区。
在最近的一项说话者归一化的研究中,受试者被要求对合成的元音进行分类。该实验增通过逐渐增加F1的绝对值,创建一系列具有不同F1频率的目标元音声音。这样做的目的是观察当元音声音的F1频率在不同范围内变化时,参与者是否仍然能够准确地将其分类为特定的元音类别。(如果参与者的分类能力在不同范围内的F1频率变化下保持一致,那么可以认为他们对说话者的声学特征进行了归一化处理,即不受发言者影响。相反,如果参与者的分类能力在不同范围内的F1频率变化下发生变化,那么可以认为他们对发言者的声学特征产生了依赖,即受发言者影响。)实验从STG神经响应中得出的神经测量函数在F1值范围内的变化与发言者的动态F1范围一致。虽然只有一小部分电极响应显示出一致的发言者依赖性F1调谐效应。这些发现表明,STG中对元音声音的神经编码在发言者类型上进行了归一化处理
,对于确定元音类别无关的声学细节的敏感性降低了。
Intonational Prosody and Lexical Tones
Intonational prosody
refers to the changes in speaker pitch that occur over the course of a phrase or sentence and convey linguistic meaning.(语调韵律(intonational prosody)是指在短语或句子的过程中发生的说话者音高的变化,传达语言意义。)
研究发现,STG中的一部分局部神经群体通过将绝对音高转化为说话者不变的语调模式,编码相对音高或标准化为说话者基线音高的音高轮廓(pitch contour)
。这一发现表明,可以从语音信号中实时提取说话者不变的相对音高变化,并在单个神经群体中进行本地表示。
与英语相比,音调语言(tonal language)
使用出现在一个音节上的音高轮廓来区分单词,这个线索被称为词汇音调(lexical tone)
。
在一个实验中,让母语为普通话和母语为英语的人同时听一段普通话,并用 ECoG 记录他们的神经活动,自然产生的普通话的声谱图和音高轮廓(pitch contour)如下图所示。(音高轮廓是通过放大声谱图中的共振峰 F0 得到的)
在英语和普通话母语者中,记录在STG单个电极上的神经响应编码了与语言无关的说话者归一化音高的表示(即相对音高和音高变化;图4b)
在图 c 中,红色为以普通话为母语的大脑皮层的电极响应,对电极音高编码的分析显示,母语普通话的STG电极分布平衡,对相对音高有负向或正向调谐(-,+)。在母语为英语的人中,STG电极主要显示正的相对音高调谐(+)。
而在普通话母语者中,可以从整体神经响应中解码出词汇音调类别,但在英语母语者中,解码词汇音调的可行性显著降低。这些结果表明,STG的音高调谐分布受听者语言经验的影响。
Speech Dynamics
本节,主要说明,STG中的语音声音在音节、单词、短语和句子的过程中如何动态地表示。
语言科学家指出,关键的时间线索(temporal cues)
在语音理解中起着重要的作用,帮助我们识别和区分不同的音节和音素,理解语言的韵律和语调。
Temporal Landmarks for Syllabic and phrasal Onset Timing
语音包络的音节调制在说话过程中受到声道孔径波动的严重影响,并且与最大的响度(loudness)或声音强度(sonority)有关,而且在元音发音过程中最为明显。
Q: sonority 如何影响音节和词的结构?
A: 在音节和词的结构中,sonority(响度)起着重要的作用,影响着音段的排列和音序规则。Sonority 值得注意的特征是,从辅音到元音的声音强度逐渐增加
。这意味着元音通常具有最高的响度,而辅音则具有较低的响度。
Sonority 对音节结构的影响主要体现在以下方面:
音节内部结构
:根据 sonority 层次,音节内的音段通常按照从低到高的顺序排列。这种顺序被称为 sonority 层次规则。例如,在一个英语音节中,辅音通常位于音节开头或结尾,而元音则通常位于音节的核心位置。音节间的连接
:在音节串联成词时,sonority 的变化可以影响音节之间的连接和边界。通常情况下,相邻音节的 sonority 差异较大,以确保发音的流畅性。例如,在英语中,辅音倾向于出现在音节边界上,以便形成易于发音的音节组合。音序规则
:词中的音段排列也受到 sonority 的影响。在很多语言中,特定的音段组合和音序模式与 sonority 相关。例如,在德语中,辅音集群的排列通常符合 sonority 递增的规则。
所以,语音包络(speech envelop)的振幅波动与音节的响度和节奏密切相关。在语音信号中,音节由辅音和元音音素的交替组成。
语音包络的振幅波动与这种辅音和元音的交替序列对应。当辅音音素出现时,语音包络的振幅相对较低
,因为辅音音素通常具有较低的响度。而当元音音素出现时,语音包络的振幅相对较高
,因为元音音素通常具有较高的响度。这种振幅波动在一定程度上呈现出近似周期性的特点,与音节的韵律和节奏相匹配。
这也解释了为什么语音包络(speech envelop)对语音理解是十分重要的,因为它代表了语音的韵律和音节的重音。但是仅仅使用语音包络也无法理解语音。
最近的研究表明,大脑的活动在持续跟踪语音包络方面起到重要作用。先前的神经生理学研究发现,亚皮质神经反应能够整合不同频率的声音特征以检测语音中的时间起始点(temporal onsets)。通过对STG(颞叶叶回)进行颅内记录,研究人员能够确定参与其中的局部皮层神经群体,并确定哪些包络特征对于维持神经表示最为显著。最近的一项ECoG(脑电图)研究显示,位于STG中部
的语音响应神经群体记录到的高频活动(HGA)对于包络幅度的最大变化点(peakRate)具有选择性的反应。
“
peakRate
” 可以翻译为 “峰值速率” 或 “最大变化速率”。它描述了在语音包络中出现的最大振幅变化或幅度峰值的时间点。在所提到的研究中,peakRate 是指语音包络中出现最大变化的时间点,也是引起大脑特定神经群体反应的重要时间标记
。
例如,在英语中,peakRate 事件与元音起始(vowel onsets)
紧密对齐,标志着从音节的开头到核心的过渡。STG中的神经反应同时反映了峰值速率事件的时间和大小,有效地编码了有关音节结构、重音和语音速率的信息。这些发现表明在局部神经群体尺度,存在一个基于离散事件(discrete event-based)的神经编码,用于处理音节的时间和重音(syllabic timing and stress)
信息。
音节信息——包括时间、重音和声学-语音内容——可以被认为是分布在几个功能不同的局部神经群体中。
在大脑的后颞叶皮层(posterior STG)
中,存在神经群体对语音起始做出选择性的响应,并且这种响应需要在静默状态下至少持续200毫秒。后颞叶皮层
的神经群体与对语音的峰值速率(peakRate)敏感的中间颞叶皮层
的神经群体在解剖上是分开的。然而,在这两个区域中,都存在着对声学-语音特征和相对音高进行编码的神经群体,其中一些神经群体同时编码这些时间线索。
综上所述,这些研究表明存在一种有效的神经编码来提取语音信号中的关键时间标志,如峰值率(peakRatw)和语音开始(speech onset)。中部 STG 的神经群体编码 peakRate 事件,后部 STG 的神经群体编码onset。
Word-Level Contextual Dynamics
有实验发现,当一个单词的某个音素被噪声覆盖时,听者仍然能够理解整个单词,并且在感知上会自动填补被遮蔽的部分。这表明大脑在理解语音时使用了先验的语言知识和上下文信息,利用周围的词语和句子结构来填补缺失的信息,这被称为语音修复(phonological restoration)
。
研究人员使用电极记录的大脑神经群体响应,重建了噪声的声谱图,并发现当噪声被感知为不同的音素时,其声谱图的高频能量也有所不同。这表明大脑在实时处理语音时,利用词汇和上下文知识对物理声音进行解释,并进行感知修复。
除了噪声环境,也有一些研究扰乱声音信号的光谱(spectral)和时间细节(temporal details)来研究语音感知的鲁棒性,一种常用的退化刺激是正弦波语音(SWS)
,其中自然语音的共振峰被纯音取代,并去除光谱图中其余的光谱细节。在大多数情况下,听众无法理解SWS(sin wave speech),甚至经常无法将其识别为语音。然而,在听到原始的未经滤波处理的版本之后,SWS的声音突然变得可理解,这一现象被称为感知突出效应(perceptual pop-out effect)。
Functional specificity in the STG
A Recurrent model of phonological processing in the STG
语言感知是一个复杂的处理过程,一些主要的语音处理模型是受到视觉系统的层次化(hierarchical)和前馈神经生物学(feedforward neurobiological)模型的启发的。 如下图所示,经典的听觉词识别模型主要以串行、前馈、分层处理为基础。第一个处理步骤是谱时分析(spectrotemporal analysis)
,通过该步骤提取相关特征。谱时特征被分组成音素片段,然后按顺序组装成音节。最后,词汇接口将音韵序列映射到单词级别的表示上。在经典的听觉词识别模型中,每个处理步骤都被分配给一个近似的解剖位置(右侧的示意图显示了这些分配的示例)。随着声音信号在连续的大脑区域中传递,它的神经表示逐渐变得更高阶。
尽管缺乏证据支持存在从音素到音节再到词汇的专门皮层处理流程,但STG存在重要的功能细分区。
作为对上述模型的替代方案,我们寻求一种既有解释性又不对预定义语言单位有强烈承诺的模型。如下图所示,该模型采用了循环、多尺度和交互式的方法。声学信号输入同时被具有对声学语音特征(acoustic-phonetic features)
、显著的时间标记(temporal landmarks)
(如峰值速率)和发生在音素片段上的韵律特征(prosodic features)
的选择性的局部处理器进行分析。浅灰色的双向箭头表示局部处理器之间的相互作用。循环连接表示在词处理过程中通过随时间绑定输入来整合时间上下文和对音韵序列的敏感性。由词汇-语义系统(lexical-semantic system)
和正在进行的音韵分析的内部动态产生的预期自上而下的词级信息也被纳入模型中。
与通过大脑皮层区域的前馈流相比,该模型强调了一种随时间变化的语音的分布式、动态的表征。
该论文内容较多,还有许多未理解的和需要探究的地方,以上内容只供参考,欢迎大家交流讨论,有错误和理解不对的地方,欢迎批评。