格式:优先选择无压缩的 WAV 格式(采样率≥16kHz,位深 16bit),避免 MP3 等压缩格式导致的频谱失真。
时长:单段语音至少包含 3 个以上完整元音(如 “a、i、u”,每个元音发音≥0.5 秒),确保能提取稳定的 F1-F4。
环境:背景噪音≤30dB(可通过 Audacity 的 “效果→降噪” 功能预处理,降低低频噪音对 F3/F4 的干扰)。
Praat 是最易上手的工具,以下为详细操作步骤,全程约 5-10 分钟:
打开 Praat,点击 “Open→Read from file”,导入待分析的 WAV 文件。
在 “List of Objects” 中选中音频文件,点击 “View & Edit”,进入编辑界面(上方为波形图,下方为频谱图)。
用鼠标拖动选中一段 完整元音片段(如 “a” 的发音,波形平稳、无明显停顿的部分),避免包含辅音(如 “b、p”)或静音段。
在编辑界面顶部菜单栏,点击 “Pitch→Show Formants”,弹出 “Formant Settings” 窗口。
按以下标准配置参数(适配中文语音):
Maximum formant(最高共振峰频率):男性语音设为 5000Hz,女性 / 儿童设为 6000Hz(覆盖 F1-F4 的频率范围)。
Number of formants(共振峰数量):设为 4(即提取 F1、F2、F3、F4)。
Window length(窗口长度):设为 0.025 秒(25ms,平衡时间分辨率与频率分辨率)。
点击 “OK”,频谱图上会自动出现 4 条红色轨迹,分别对应 F1(最下方)、F2、F3、F4(最上方)。
选中目标元音片段后,点击菜单栏 “Formant→Extract formants”,Praat 会生成该片段的 “Formant Table”(包含每 0.01 秒的 F1-F4 频率值)。
点击 “Table→Save as text file”,将数据导出为 TXT 文件(可直接用 Excel 打开),取该片段 F1-F4 的 平均值(排除首尾波动较大的数值,取中间 80% 稳定值的平均),作为该元音的共振峰特征值。
语音同一性判断需 “核心指标 + 辅助指标” 结合,避免单一参数误判,具体流程如下:
将待判断的两段语音(设为 A 和 B)按上述步骤提取相同元音(如均提取 “a”“i”“u”)的 F1-F4 平均值,按以下标准判断:
示例:若 A 的 “a” 元音 F1=700Hz、F2=1200Hz、F3=2800Hz,B 的 “a” 元音 F1=720Hz(差异 2.8%)、F2=1230Hz(差异 2.5%)、F3=2850Hz(差异 1.8%),则 F1-F3 差异均符合标准,初步判定一致。
仅靠共振峰可能因 “模仿发音” 误判,需结合以下指标进一步确认:
基频(F0):同一人的基频稳定(男性约 80-150Hz,女性约 150-250Hz),两段语音的 F0 平均值差异≤10%。
音长与节奏:同一人发相同词语的 “元音时长”“停顿间隔” 差异≤15%(如均发 “你好”,“你” 的元音时长均为 0.3 秒左右)。
频谱形状:在 Praat 中对比两段语音的频谱图,同一元音的 “能量集中区域”(频谱图中颜色较深的频段)需一致(如 “i” 的能量集中在 F2 附近,两段语音的深色区域频段需接近)。
假设提取 A 和 B 的 “a”“i” 元音共振峰及基频数据如下:
共振峰差异:A 与 B 的 “a” 元音 F1 差异 2.8%、F2 差异 2.5%、F3 差异 1.8%;“i” 元音 F1 差异 3.3%、F2 差异 2.2%、F3 差异 2.5%,均符合 “差异≤5%(F1/F2)”“≤8%(F3)” 标准。
辅助指标:基频差异≤3%,元音时长差异≤3.3%,均一致。
最终结论:高度可能为同一人。
避免 “单一元音判断”:至少提取 3 个不同元音,因同一人不同元音的共振峰 “相对关系” 更稳定(如 F2-F1 的差值)。
排除环境干扰:若两段语音录制环境差异大(如一段安静、一段嘈杂),需先通过 Audacity 降噪(“效果→降噪”,取静音段为噪音样本),再提取共振峰。
批量处理建议:若需对比多组语音,用 Wavesurfer 的 “批量提取” 功能,将所有共振峰数据导出到 Excel,用公式自动计算差异度,提高效率。
西数司法鉴定中心