【BIAI】Lecture 5 - Auditory system

Lecture 5 - Auditory system

专业术语

auditory system 听觉系统
pinna 耳廓
auditory canal 耳道
tympanic membrane 鼓膜
cochlea 耳蜗
ossicles 听骨
auditory-vestibular nerve 前庭神经
oval window 椭圆窗
attenuation reflex 衰减反射
tensor tympani muscle 鼓膜张肌
stapedius muscle 镫骨肌
perilymph 外淋巴液
endolymph 内淋巴液
basilar membrane 基底膜
organ of Corti 皮质器官(柯蒂器官)
inner hair cells 内毛细胞
outer hair cells 外毛细胞
stereocilia 顶毛细胞
spiral ganglion cells 螺旋神经节细胞
frequency tuning 频率调谐
Tonotopy 音频拓扑
Phase locking 相位锁定
sound localization 声音定位

课程大纲

在这里插入图片描述

property of sounds

Q: 声音是如何产生的？
A: 声音的产生是通过物体振动或震动引起的。当一个物体振动时，它会在周围的介质，如空气、水或固体中产生机械波，这些波被称为声波。声波通过介质中的分子或粒子之间的相互作用传播，最终到达我们的耳朵，我们通过听觉感知这些声波。

Frequency/Pitch(频率/音调)

声音的频率是指声波振动的周期性特征，表示每秒钟内声波振动的次数。它通常以赫兹（Hz）作为单位进行表示。频率越高，声音就越高音调；频率越低，声音就越低音调。
在这里插入图片描述

Intensity/Loudness(强度/响度)

强度是描述声音的能量或功率的特性，也可以称为音量或响度。它表示声音的相对强弱或音量大小。强度通常以分贝（Decibel，dB）作为单位进行度量。较高的分贝值表示较大的声音强度或音量，而较低的分贝值表示较小的声音强度或音量。
在这里插入图片描述

Hearing range

下图是一些生物的听觉范围，人类的听觉范围在20到20K Hz，但是不同的人之间会存在差异，而且随着年龄的增长，人类可能会丢失某些高频声音的感知能力。
在这里插入图片描述

Structure of human ear

在人耳中，声波首先进入外耳，从耳廓(pinna) 到耳道(auditory canal)，再通过外耳道传导到中耳。中耳包括鼓膜(tympanic membrane)和三个小骨（听骨(ossicles)链）：锤骨、砧骨和镫骨。当声波通过鼓膜引起听骨链振动时，振动传递到椭圆窗(oval window)。当声波通过椭圆窗进入内耳后，它引起耳蜗(cochlea)中内淋巴(endolymph)的运动，激活内耳中的毛细胞，最终产生电信号，电信号通过神经纤维传递到听觉神经，然后沿着听觉神经传递到大脑的听觉皮层。在听觉皮层，这些电信号被解码和解释，我们就能够感知和理解声音。
在这里插入图片描述

The attenuation reflex

Q: 我们自己的声音通过骨骼或组织传输到耳朵，导致鼓膜产生更强烈的振动。为什么这不会损害我们的听力？
A: 我们的听觉系统具有一种称为"衰减反射"的机制，可以自动调节耳朵的敏感性以避免过度刺激和损伤。衰减反射通过耳朵内的肌肉收缩来减少声音的强度。当我们说话或发出声音时，衰减反射会自动调整耳膜和听小骨的振动，以降低我们自己声音的强度。
两种肌肉：鼓膜张肌和镫骨肌（tensor tympani muscle and
stapedius muscle）
响亮声音的出现会触发神经反应，导致这些肌肉收缩，这种反应被称为衰减反射。
肌肉收缩 -> 骨听小骨变得更加僵硬

在这里插入图片描述

The cochlea

耳蜗是如何将振动转化为电信号的？下图是耳蜗的一个横截面放大图。
在这里插入图片描述
当声音振动传递到耳蜗内的内淋巴液（endolymph）时，它会引起内毛细胞和外毛细胞上的细小细毛的弯曲。这些细毛与毛细胞的细胞膜相连，并有离子通道。当细毛弯曲时，离子通道会打开，允许电荷离子（通常是钾离子）进入或离开毛细胞。这种离子通道的打开和关闭导致毛细胞内外的电位变化，形成电信号。这些电信号随后通过神经纤维传递到听觉神经，最终到达大脑的听觉皮层进行处理和解读。

基底膜位于耳蜗内部，沿着整个耳蜗长度延伸，从基底（基底膜的窄端，靠近中耳）到顶部（基底膜的宽端，靠近蜗尖）。基底膜是由弹性结缔组织构成的，具有不同的厚度和刚度。基底膜的主要功能是在听觉过程中对声音频率进行分离和解析。当声波进入耳蜗时，它引起内耳液体中的压力波。这些压力波使得基底膜产生波动，波动的幅度和位置取决于声音频率的不同。

由于基底膜的宽度和刚度在不同位置上有所变化，它呈现出一个梯形的结构。这意味着不同频率的声音在基底膜上引起最大振动的位置也不同。较高频率的声音会使基底膜的窄端振动，而较低频率的声音则使基底膜的宽端振动。

这种频率特异性使得基底膜能够分离和解析声音中不同频率的成分。当基底膜的特定区域振动时，与之相连的毛细胞受到刺激并产生电信号，这些电信号随后传递到大脑进行进一步的处理和解读。
在这里插入图片描述

Q: 淋巴液和基底膜的联系？
A: 在耳蜗内部，基底膜位于内淋巴液和外淋巴液之间。内淋巴液充满蜗室，外淋巴液则充满上蜗室和下蜗室。基底膜作为一个弹性的薄膜，它的下方与内淋巴液接触，上方与外淋巴液接触。
当声音波动进入耳蜗并引起内淋巴液中的压力波时，这些压力波通过基底膜传递。 基底膜的特殊结构和弹性性质使得不同频率的声音能够在基底膜上引起不同位置的振动。
振动的基底膜会导致毛细胞上的细小细毛弯曲，从而激活毛细胞产生电信号。这些电信号随后通过听觉神经传递到大脑进行处理和解读，从而实现我们对声音的感知。

organ of Corti

上面所说的内毛细胞（inner hair cells）和外毛细胞（outer hair cells），其实就是柯蒂器官组成的组成部分，它们均位于基底膜上方。这些毛细胞都具有细小的细毛，与基底膜上的杆状细胞（支持细胞）相连接。
柯蒂器官主要由以下几个部分组成：
在这里插入图片描述
其中柯蒂之杆（rods of corti）是支持细胞（supporting cells）中的细长结构，它们延伸自基底膜，并在其中间支撑着内外毛细胞（inner and outer hair cells）。柯蒂之杆的存在有助于维持柯蒂器官的结构稳定性，并提供支持和保护内外毛细胞的功能。

Audition & Vision

听觉系统和视觉系统的对比总结如下：
关于视觉系统，大家可以参考这篇博客：Lecture 2 - Visual System

听觉系统将物理信号转化为电信号，声音进入耳蜗的内耳部分时，会引发内耳内的液体（淋巴液）中的压力波。这些压力波通过基底膜传递振动，并导致内外毛细胞弯曲，从而产生电信号。电信号在螺旋神经节细胞（spiral ganglion cells） 处被处理，随后通过听觉神经传递到大脑，经过复杂的处理和解读，最终我们能够感知和理解声音。
视觉系统将光信号转化为电信号，从而实现视觉感知。当光进入眼睛后，它通过眼睛的透明结构（如角膜和晶状体）聚焦到视网膜上。视网膜是位于眼球后部的感光层，由多个细胞层构成。最内层是感光细胞（receptor cells），包括视网膜中的棒状细胞（rods）和锥状细胞（cones），棒状细胞和锥状细胞是视网膜中最早接收光信号的细胞，这些电信号随后传递到视网膜中的下一层，即双极细胞（bipolar cells）。最外层是视网膜中的神经元层，其中包括神经元细胞，也称为视网膜神经节细胞（ganglion cells）。这些神经元细胞的轴突汇集在视网膜的中央区域形成视神经。视神经将电信号从视网膜传输到大脑的视觉皮层。

The primary auditory pathway

如下图所示的脑部切片，电信号由螺旋神经节细胞（ganglion cells）通过听觉神经（auditory nerve）传递到延髓（medulla）的ventral cochlear nucleus和dorsal cochlear nucleus，这两个神经元是同侧的（ipsilateral），再传递到superior olive。然后通过lateral lemnisus传递到中脑（midbrain）的inferior colliculus。最后到达MGN （Medial Geniculate Nucleus），由MGN将信号传递到大脑的听觉皮层（auditory cortex）。
在这里插入图片描述

Encoding sound intensity and frequency

神经元对声音的响应最敏感于一个特定的频率，称为神经元的特征频率，而对相邻频率的响应较弱。这种频率调谐（frequency tuning）的特性在从耳蜗到皮层的许多中继神经元中都可见。

就像在视觉通路中一样，随着从脑干到大脑皮层的听觉通路的逐渐升高，细胞的响应特性变得更加多样和复杂。

例如，在耳蜗核中的一些细胞对随时间变化的频率敏感（可以想象从低音滑到高音的长号声音）。
在内侧膝状核中，有些细胞对较为复杂的声音（如言语）作出反应，还有其他细胞表现出类似听觉神经的简单频率选择性。

Information about sound intensity & frequency

关于声音强度的信息以两种相互关联的方式进行编码：

神经元的放电频率（firing rates）
活跃神经元的数量（the number of active neurons）

关于声音频率的信息有以下两种方式进行编码：

基底膜、螺旋神经节、耳蜗核、内侧膝状核和听觉皮层中的音频拓扑（Tonotopy）。
相位锁定（Phase locking）：神经元放电的时机与声波的相位保持一致，即在声波的同一相位上神经元持续地放电。

Q: 什么是音频拓扑（Tonotopy）？
A: 在听觉系统中，Tonotopy（音频拓扑）是指声音频率在神经系统中的空间排列方式。具体来说，不同频率的声音在听觉通路的不同区域或结构中以特定的方式进行编码和表示。
Tonotopy 的最初表现可以在内耳的基底膜上观察到。基底膜是内耳中的一个结构，其中包含着上千个微小的感觉细胞，被称为毛细胞。基底膜从基底到顶部逐渐变窄，形成了一个类似于圆锥形的结构。不同频率的声音会以特定的方式激活基底膜上的不同位置，高频声音在基底部激活，而低频声音则在顶部激活。这种基于频率的空间编码方式在基底膜上产生了Tonotopy。Tonotopy 在听觉通路的其他结构中也存在。例如，在螺旋神经节、耳蜗核、内侧膝状核和听觉皮层等区域，神经元的空间排列也与声音的频率相关。特定频率的声音会激活相应频率偏好的神经元群，而不同频率的声音则会引起不同空间位置的神经元群的活动。
通过Tonotopy，听觉系统能够在神经层面上对声音频率进行编码和处理，使得我们能够感知和区分不同频率的声音。这种空间排列方式有助于保持声音信息的有序传递和处理。

比如：下图是听觉处理的部分过程，基底膜基底膜从基底到顶部逐渐变窄，高频声音在基底部激活，而低频声音则在顶部激活，基底膜是位置编码，然后信息传递给ganglion，那ganglion中也是位置编码的，再传递到脑干中Cochlear nucleus的神经元，同样在脑干中也是位置编码的。所以会有一个anterior和posterior，在anterior部分是低频的，在posterior部分是高频，在posterior部分的激活的神经元越多，则这部分高频的intensity越大。所以frequency和intensity就可以通过这种音频拓扑进行编码了。
在这里插入图片描述

Q: 什么是相位锁定？
A: Phase locking（相位锁定）是一种现象，指的是神经元的放电在声波的特定相位上保持同步和一致。当声音波形以周期性方式变化时，某些神经元会在声音波形的特定点上产生动作电位，形成相位锁定。
这种相位锁定的现象使得神经元的放电与声音的周期性变化保持高度同步。当声音波形达到特定相位时，神经元会放电，而在其他相位上则不会产生动作电位。这使得神经元能够精确地编码声音的频率信息。相位锁定在低频声音的处理中尤为突出，因为低频声音的周期性变化更容易与神经元的放电相位相匹配。然而，对于高频声音，相位锁定的效果可能会减弱，因为高频声音的周期性变化更快，神经元可能无法跟上其相位的变化。
通过相位锁定，神经元能够以精确的时间方式编码声音的频率信息，这对于我们感知和区分不同频率的声音至关重要。

比如：中间低频声音波形图可以看到，神经元可能只在相同的相位处才会产生相应。也可能所有的相同相位都会相应，也可能只有部分会相应，因为高频的信号周期性变化过快，很多相位没有产生相应。
在这里插入图片描述

Encoding sound intensity and frequency

multiple neurons can provide a temporal code for frequency by working together.
在这里插入图片描述

Mechanisms of sound localization

声音定位对生存来说是十分必要的，我们可以通过左右两耳的时间差来定位左右，也可以通过声音大小来定位前后。
使用不同的技术在水平平面（左右）和垂直平面（上下）定位源。
在这里插入图片描述
声音到达左耳和右耳的时间差实际上只有0.6ms，这个时间无法通过神经元的发放率进行表征，因为神经元动作电位通常在1ms内完成。
神经元如何完成的？

第一个存在双耳神经元的结构是上位橄榄核（superior olive）。在这个结构中，上文已经提到，神经信号是由cochlear nucleus传递到superior olive的，而且这两个结构都是双边的。
假设声音从左边过来，左侧的cochlear nucleus的轴突先放电并到达superior olive中的神经元1，依次向右传递；很快，声音传递到右耳，右侧的cochlear nucleus的轴突放电并到达superior olive中的神经元3，与此同时，左侧的神经信号到达了神经元3，而明显左边的走了更长的距离。当同时到达3的时候，superior olive就可以检测到声音到达左右耳的时间差异。 所以通过空间上的排列，轴突上的distance来产生空间编码，左右耳的同步到达来检测左右耳的位置。
在这里插入图片描述
垂直平面：由耳廓产生的反射
• 外耳的曲线对于评估声音源的高度至关重要。
• 凸起和脊梁产生进入声音的反射。
• 直接路径和反射路径之间的延迟随着声音源的垂直移动而改变。
• 来自上方或下方的组合声音，包括直接和反射声，具有微妙的差异。
在这里插入图片描述

Auditory cortex

下图，A1表示初级听觉皮层（primary auditory cortex），与其他皮层一样，听觉皮层有6层。初级听觉皮层的神经元主要分布在第二层和第三层，这些神经元对声音的基本特征，如频率、时序和强度进行初步的解码和编码。此外，初级听觉皮层中的神经元也参与了双耳声音定位和声音空间编码的处理。

第一层（Layer I）：也称为分子层（molecular layer），主要由神经纤维和突触连接组成。这一层在信息传递中起到调节和调制的作用。
第二层（Layer II）：也称为外颗粒层（outer granular layer），主要包含了接收来自其他脑区的传入信息的神经元。这些神经元对声音的频率、强度和时序进行初步的分析和编码。
第三层（Layer III）：也称为外锥层（outer pyramidal layer），包含了许多形态各异的神经元。这一层参与了更高级的特征提取和编码，如声音的频谱分析和复杂声音的模式识别。
第四层（Layer IV）：也称为内颗粒层（inner granular layer），接收来自下一级听觉核团（如下丘脑听觉核）的传入信息。这一层对声音的频率、强度和时序进行进一步的分析和编码。
第五层（Layer V）：也称为内锥层（inner pyramidal layer），包含了许多投射神经元，它们将处理过的听觉信息传递给其他脑区，如大脑皮层的其他区域。
第六层（Layer VI）：也称为多形层（multiform layer），包含了各种类型的神经元，它们对来自其他脑区的反馈信息做出响应，并参与整合和调节听觉信息的处理。

在这里插入图片描述

Auditory Cortex: Complex patterns

对狨猴进行实验，先是记录它的声音，然后正常播放声音和倒放声音，记录它的A1区域的响应，得到的结果如下，A1区域电信号的frequency对两种声音的响应都是一样的，但是spikes有明显的不同。
在这里插入图片描述

Auditory cortex：What & Where pathways

与视觉相同，听觉也有两条通路。（关于背侧通路和腹侧通路的介绍，大家可以参考这篇博客BCI-Two-streams hypothesis（双流假说））
在这里插入图片描述

Auditory Cortex: Speech areas

听觉也是和语音息息相关的
在这里插入图片描述

Classical division on basis of aphasia following lesions:
– Broca’s area: understand language but unable to speak or write
– Wernicke’s area: speaks but cannot understand

当前的理解是：初级听觉皮层的区域不是均匀的，而是具有特定类别，并且最强的激活位于与该类别相关的感觉或运动区域(motor area)的附近。
比如说：

可操作物体（工具）的词会激活与伸手/抓取运动区域相关的脑区。
运动的词会激活位于视觉运动区域附近的脑区。
复杂物体（如面孔）的词会激活视觉识别区域。

有一个研究如下，不同的汉字，在偏旁上就会体现一些肢体相关的动作，会激活不同的脑区。该结果支持运动系统中动作动词的身体地形表示的普遍性。
在这里插入图片描述
人类颞上回的语音特征编码
如下图所示，有人做了一个实验，播放一段语音，记录人在听的时候颞上回的神经活动，并表征到不同的phoneme上面。记录了time from phoneme onset，在不同phoneme的onset上面，在不同电极上放电表征。
在这里插入图片描述
单电极和种群响应的层次聚类结果如下，横轴表示电极，纵轴表示phoneme，从B列可以看到同一类的phoneme在固定的一部分电极上产生响应（比如浊辅音在蓝色部分），同样，从C行可以看到不同区域的电极会对固定的类别的phoneme产生响应。
在这里插入图片描述