语音信号处理与安全

背景知识

语音信号处理引用

  1. 语音合成(Speech synthesis)
  2. 语音分析(Speech analysis)
  3. 语音通讯和编码(Speech telecommunications and encoding)
  4. 语音增强(Speech enhancement)
  5. 语音识别(Speech recognition)
  6. 说话人识别(Speaker recognition)

语音信号的 A/D 转换和 D/A 转换

  1. A/D 转换
    1. 采样:每隔 T 秒取值一个连续信号 x(t)
    2. 量化:使用有限的比特表示
  2. D/A 转换
    1. 平滑:将数字语音转换为连续电压信号
    2. 插值:使用低通滤波器消除输出电压中的尖锐边缘

加窗与混叠

信号加窗:短时傅里叶变换

短时傅里叶变换的计算过程是将长时间信号分成数个较短的等长信号(加窗),然后再分别计算每段的傅里叶变换

使用不同的窗宽度会产生不同的结果:

混叠的问题:频谱泄露

  • 现象:一般窗内的语音是平稳的,但是在边界处可能会出现波形的尖锐不连续,不连续的结果是高频噪声出现在频谱上,这被称为 频谱泄露
  • 原理:截取信号时,需要加窗函数,即时域相乘;在频域的角度就是频域卷积,于是频谱中除了本来该有的主瓣之外,还会出现本没有的 旁瓣
  • 解决方法 - Hann 函数:一个在两端接近零的窗口函数

互相关与自相关

随机信号的自相关

随机信号因为是随机的,所以与任何的延迟版本几乎都不存在相关关系,可由下图表示:

  • DFT{R[m]}=P[k],其中 P[k] 为功率谱密度

声源滤波器模型

源滤波器模型(source filter)

LPC 模型

LPC 全称为线性预测编码(Linear Prediction Coding),是语音处理和编码中用于模拟语音样本之间 短期相关性 的一种强大方法。

LPC 仍存在一些缺陷:

  1. LPC 的频谱包络线对频谱谷的拟合效果不佳
  2. 用于估计预测系数的每一帧内可能存在多个发生脉冲则不适用,比如女性或高音调语音

倒频谱分析

倒谱去卷积法(cepstral deconvolution)是一个更准确但效率较低的方法。

MFCC

  • 预加重:提高高频能量 y[n]=x[n]αx[n1]
  • 分帧:对音频进行分段处理
  • 加窗:加汉明窗,减少频谱泄露,使得分帧音频在叠加时还原度更高
  • FFT:时域转频域
  • Mel 滤波器组:一组 22-24 个非线性分布的三角带通滤波器,其在梅尔频率上均匀分布,代表 人耳对频率的感受度
  • 对数运算:Yt(m)=log{k=0N1|Xt(k)|2Hm(k)}, 0mM
  • 离散余弦变换:对滤波器组系数去相关处理,产生其压缩表示,获得 L 阶的梅尔倒谱参数。MFCC(n)=m=0N1Yt(M)cos(πn(m0.5)M), n=1,2,,L

语音识别攻击

隐蔽性语音攻击

心理声学 Psychoacoustics

  1. 当有多个声源存在时人类很容易将注意力集中在单个声源上(鸡尾酒会效应)
  2. 人类的听觉在 添加背景噪音 的情况下也可 感知到语音
  3. 与低频相比,人们 对高频的差异辨别能力很差
  4. 人类也 不善于感知不连续或随机的声音