语音信号处理习题

大家好，又见面了，我是你们的朋友全栈君。

二、问答题（每题 5 分，共 20 分）
1、语音信号处理主要研究哪几方面的内容？
语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科，语音信号处理的理论和研究包括紧密结合的两个方面：一方面，从语言的产生和感知来对其进行研究，这一研究与语言、语言学、认知科学、心理、生理等学科密不可分；另一方面，是将语音作为一种信号来进行处理，包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。
2、语音识别的研究目标和计算机自动语音识别的任务是什么？
语音识别技术，也被称为自动语音识别 Automatic Speech Recognition ，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。
计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
3、语音合成模型关键技术有哪些？
语音合成是实现人机语音通信，建立一个有听和讲能力的口语系统所需的两项关键技术，该系统主要由三部分组成：文本分析模块、韵律生成模块和声学模块。
1.如何取样以精确地抽取人类发信的主要特征，
2.寻求什么样的网络特征以综合声道的频率响应，
3.输出合成声
音的质量如何保证。
4、语音压缩技术有哪些国际标准？
二、名词解释（每题 3 分，共 15 分）
端点检测：就从包含语音的一段信号中，准确的确定语音的起始点和终止点，区分语音信号和非语音信号。
共振峰：当准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，称为共振峰频率或简称共振峰。
语谱图：是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
码本设计：就是从大量信号样本中训练出好的码本，从实际效果出发寻找好的失真测度定义公示，用最少的搜素和计算失真的运算量。语音增强：语音质量的改善和提高，目的去掉语音信号中的噪声和干扰，改善它的质量
三、简答题（每题 6 分，共 30 分）
1、简述如何利用听觉掩蔽效应。
一个较弱的声音 (被掩蔽音 )的听觉感受被另一个较强的声音 (掩蔽音 )影响的现象称为人耳的“掩蔽效应” 。人耳的掩蔽效应一个较弱的声音 (被掩蔽音 )的听觉感受被另一个较强的声音(掩蔽音 )影响的现象称为人耳的“掩蔽效应” 。被掩蔽音单独存在时的听阈分贝值，或者
说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明， 3kHz— 5kHz 绝对闻阈值最小，即人耳对它的微弱声音最敏感；而在低频和高频区绝对闻阈值要大得多。在800Hz–1500Hz 范围内闻阈随频率变化最不显著，即在这个范围内语言可储度最高。在掩蔽情况下，提高被掩蔽弱音的强度，使人耳能够听见时的闻阈称为掩蔽闻阈 (或称掩蔽门限 )，被掩蔽弱音必须提高的分贝值称为掩蔽量 (或称阈移 )。 2、简述时间窗长与频率分辨率的关系。采样周期 Ts=1/fs、窗口长度 N 和频率分辨率△ f 之间存在下列关系：△ f = 1 / (N*Ts) 可见，采样周期一定时，△ f 随窗口宽度 N 的增加而减少，即频率分辨率相应得到提高，但同时时间分辨率降低；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。
3、简述时域分析的技术（最少三项）及其在基因检测中的应用。 P（35-41）
短时能量及短时平均幅度分析、短时过零率分析、短时相关分析、短时平均幅度差函数基音检测中的应用：基音检测的提取。
4、简述语音信号的频谱和功率谱的作用。
频谱是对动态信号在频率域内进行分析对动态信号在频率域内进行分析对动态信号在频率域内进行分析对动态信号在频率域内进行分析，分析的结果是以频率为横坐标的各种物理量的谱线和曲线，即各种幅值以频率为变量的频谱函数 F(ω)。频谱分析中可求得幅值谱、相
位谱、功率谱和各种谱密度等等。频谱分析过程较为复杂，它是以傅里叶级数和傅里叶积分为基础的。
功率谱的概念是针对功率有限信号的 (能量有限信号可用能量谱分析 )，所表现的是单位频带内信号功率随频率的变换情况。保留频谱的幅度信息，但是丢掉了相位信息，所以频谱不同的信号其功率谱是可能相同的。
5、简述同态信号处理在共振峰估计中的作用。为了消除基频谐波的影响，可以采用同态解卷技术，经过同态滤波后得到平滑的谱，这样简单地检测峰值就可以直接提取共振峰参数，因而这种方法更为有效和精确。
四、论述题（每题 8 分，共 40 分）
1、常用的基音周期检测的方法有哪些？它们的基本原理是什么？（ P66）
? 自相关法的基本原理是浊音信号的自相关函数在基音周期的整数倍位置上出现峰值；而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音，检测峰值的位置就可提取基音周期值。? 平均幅度差函数法的基本原理是对周期性的浊音音， Fn(k)呈现与浊音语音周期相一致的周期特性， Fn(k)在周期的各个整数倍点上具有谷值特性，因而通过 Fn(k)的计算可以来确定基音周期。而对于清音语音信号， Fn(k)却没有这种周期特性。利用 Fn(k)的这种特性，可以判定一段语音是浊音还是清音，并估计出浊音语音的基音周期。并行处理技术（ PPROC）方法对经过预处理的语音信号实施一系列的基音初步检测，或
分别对原始信号和经处理后的信号实施系列检测，然后根据系列检测的初步结果，综合判定基音周期。
倒谱（ CEP）法利用语音信号的倒频谱特征，检测出表征声门激励周期的基音信息。采取简单的倒滤波方法可以分离并恢复出声门脉冲激励和声道响应，根据声门脉冲激励及其倒谱的特征可以求出基音周期。简化逆滤波法（SIFT）先对语音信号进行 LPC分析和逆滤波，获得语音信号的预测残差，然后将残差信号通过自相关滤波器滤波，再作峰值检测，进而获得基音周期。
小波变换法：信号小波变换的极值点对应于信号的锐变点或不连续点。语音的产生过程实际上是气流通过声门再经声道响应后变成声音。对语音信号作小波变换则其极值点对应于声门的开启或闭合点，相邻极值点之距离就对应着基音周期。因而，采用音信号的小波变换可以检测基音周期。
2、论述线性预测系数如何用于共振峰的估计。基于线性预测系数的共振峰提取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器 ,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点 ,如其频谱林灵敏度于人耳不想匹配。但对于许多应用来说 ,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择 ,一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根 ,称为求根法 ,另一种途径是找出由预测其导出的频谱包络中的局部极大值 ,称为选峰法 .
3、论述标量量化与矢量量化的区别以及矢量量化在语音通信中的作用。标量量化是维数为 1 的矢量量化。一般矢量量化均指大于 1 的多维量化；一个 p 维最佳矢量量化器的性能总是优于 p 个最佳标量量化器；在相同的编码速率下，矢量量化的失真明显比标量量化的失真小，而在相同的失真条件下，矢量量化所需的码速率比标量量化所需的码速率低得多；由于矢量量化的复杂度随矢量维数成指数形式增加，故矢量量化的复杂度比标量量化的复杂度高。
（通讯系统中的两个完全相同的码本，一个在编码器（发送端），另一个在解码器（接收端）。每个码本包含 J个码字 Y，每个码字是一个 P维矢量。 VQ编码器的运行原理是根据输入矢量Xi 从编码器码本中选择一个与之失真误差最小的码字 Yj，其输出的 V 就是该码字的下标， V是一个数字，因而可以通过任何数字信道传输或任何数字存储器来存储。如在编码速率为2.4kbit/s 的 LPC声码器中，将每帧的 10 个预测系数加以 10 维的矢量量化，编码速率降低到 800bit/s ，而语音质量没有下降）先对系统中的每个字，做一个码本作为该字的参考（标准）模版，共有 M 个字，故共有 M个码本，组成一个模版库。识别时，对于任意输入的语音特征矢量序列 X={X1,X2, ,Xn}，计算该序列中每一个特征矢量对模版库中的每个码本的总平均失真量误差，找出最小的失真误差对应的码本（代表一个字），将对应的字输出作为识别的结果4、论述动态时间规整 DTW 的原理及其在语音识别中的作用。DTW 在语音识别系统中，是一个需要用户事先训练的系统。从操作方面上，首先需要训练，对需要控制的命令录制对应的语音；使用时只要说出与训练时同样的语音命令，即可出现识别结果，实现声控。
DTW 在语音识别系统中充当数据匹配比对模块。语音识别系统首先采集用户的语音，经过端点检测，找出用户的有效语音而把其他非语音段给删除；然后经过 MFCC特征提取，得到用户声音的特征，最后进入 DTW，进行欧式距离的比对，距离最小对应的模板，即为识别结果。
5、论述共振峰合成的原理及其在语音合成中的应用。（P187）
共振峰合成的原理共振峰语音合成器模型是把声道视为一个谐振腔，利用腔体的谐振特性，如共振峰频率及带宽，以此为参数构成一个共振峰滤波器。因为音色各异的语音有不同的共振峰模式，以每个共振峰频率及其带宽为参数，可以构成一个共振峰滤波器。将多个这种滤波器组合起来模拟声道的传输特性，对激励声源发生的信号进行调制，经过辐射即可得到合成语音。这便是共振峰语音合成器的构成原理。在语音合成中的应用：得到合成所需的控制参数如：共振峰频率、带宽、幅度等求取的参数必须逐帧修正，使合成语音与自然语音达到最佳匹配，高级共振峰可合成高质量的语音。
三、列举工农业生产、人民生活中的 5 种语音信号处理应用技术或产品。简述其工作原理？
（共 20 分）
从技术角度讲 ,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及
智能系统等新兴领域应用的核心技术之一。用数字化的方法进行语音的传送、存储、识别、
合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。
作为语音信号处理最重要应用之一的 IP 网络电话