《语音共振峰提取与同一性判断操作指南》，帮你快速掌握从数据提取到结果分析的全流程。

2025-10-21 15:01:50 98825 27

语音共振峰提取与同一性判断操作指南

一、前期准备：工具选择与语音素材要求

1. 推荐工具（免费 + 专业，覆盖不同需求）

工具类型	推荐软件	优势	适用场景
入门级（Windows）	Praat	操作简单、开源，支持频谱图实时标注，自带共振峰分析功能	新手练习、基础共振峰提取
专业级（跨平台）	Audacity+Praat（组合）	Audacity 录屏 / 降噪，Praat 精准提取，分工明确	需预处理（降噪、裁剪）的复杂语音
科研级（Linux）	Wavesurfer	支持批量处理，数据导出格式丰富（可对接 Excel/SPSS）	多组语音对比、统计分析

2. 语音素材要求（避免提取误差）

格式：优先选择无压缩的 WAV 格式（采样率≥16kHz，位深 16bit），避免 MP3 等压缩格式导致的频谱失真。
时长：单段语音至少包含 3 个以上完整元音（如 “a、i、u”，每个元音发音≥0.5 秒），确保能提取稳定的 F1-F4。
环境：背景噪音≤30dB（可通过 Audacity 的 “效果→降噪” 功能预处理，降低低频噪音对 F3/F4 的干扰）。

二、核心步骤：用 Praat 提取共振峰（以单段语音为例）

Praat 是最易上手的工具，以下为详细操作步骤，全程约 5-10 分钟：

1. 导入语音并定位目标片段

打开 Praat，点击 “Open→Read from file”，导入待分析的 WAV 文件。
在 “List of Objects” 中选中音频文件，点击 “View & Edit”，进入编辑界面（上方为波形图，下方为频谱图）。
用鼠标拖动选中一段完整元音片段（如 “a” 的发音，波形平稳、无明显停顿的部分），避免包含辅音（如 “b、p”）或静音段。

2. 配置共振峰提取参数（关键，减少误差）

在编辑界面顶部菜单栏，点击 “Pitch→Show Formants”，弹出 “Formant Settings” 窗口。
按以下标准配置参数（适配中文语音）：

Maximum formant（最高共振峰频率）：男性语音设为 5000Hz，女性 / 儿童设为 6000Hz（覆盖 F1-F4 的频率范围）。
Number of formants（共振峰数量）：设为 4（即提取 F1、F2、F3、F4）。
Window length（窗口长度）：设为 0.025 秒（25ms，平衡时间分辨率与频率分辨率）。

点击 “OK”，频谱图上会自动出现 4 条红色轨迹，分别对应 F1（最下方）、F2、F3、F4（最上方）。

3. 提取共振峰数值并导出

选中目标元音片段后，点击菜单栏 “Formant→Extract formants”，Praat 会生成该片段的 “Formant Table”（包含每 0.01 秒的 F1-F4 频率值）。
点击 “Table→Save as text file”，将数据导出为 TXT 文件（可直接用 Excel 打开），取该片段 F1-F4 的平均值（排除首尾波动较大的数值，取中间 80% 稳定值的平均），作为该元音的共振峰特征值。

三、同一性判断：多维度分析方法（F1-F4 为核心）

语音同一性判断需 “核心指标 + 辅助指标” 结合，避免单一参数误判，具体流程如下：

1. 第一步：共振峰数值对比（核心）

将待判断的两段语音（设为 A 和 B）按上述步骤提取相同元音（如均提取 “a”“i”“u”）的 F1-F4 平均值，按以下标准判断：

对比维度	判断标准	结论参考
数值差异度	同一元音的 F1/F2 差异≤5%，F3/F4 差异≤8%	初步判定 “可能为同一人”（F3/F4 允许稍大，因个体咽腔差异更明显）
趋势一致性	两段语音的 “F1-F4 频率排序” 一致（如均为 F1<F2<F3<F4，且 F2-F1 差值接近）	辅助验证 “发音习惯一致”
特殊音素匹配	卷舌音（如 “zh”）的 F3 值差异≤100Hz	排除 “相似音色但发音习惯不同” 的情况

示例：若 A 的 “a” 元音 F1=700Hz、F2=1200Hz、F3=2800Hz，B 的 “a” 元音 F1=720Hz（差异 2.8%）、F2=1230Hz（差异 2.5%）、F3=2850Hz（差异 1.8%），则 F1-F3 差异均符合标准，初步判定一致。

2. 第二步：辅助指标验证（排除干扰）

仅靠共振峰可能因 “模仿发音” 误判，需结合以下指标进一步确认：

基频（F0）：同一人的基频稳定（男性约 80-150Hz，女性约 150-250Hz），两段语音的 F0 平均值差异≤10%。
音长与节奏：同一人发相同词语的 “元音时长”“停顿间隔” 差异≤15%（如均发 “你好”，“你” 的元音时长均为 0.3 秒左右）。
频谱形状：在 Praat 中对比两段语音的频谱图，同一元音的 “能量集中区域”（频谱图中颜色较深的频段）需一致（如 “i” 的能量集中在 F2 附近，两段语音的深色区域频段需接近）。

3. 第三步：综合判定（严谨结论）

综合条件	最终结论
共振峰数值差异达标 + 辅助指标均一致	判定 “高度可能为同一人”
共振峰达标但辅助指标有 1 项不达标	判定 “需进一步验证”（补充更多语音片段）
共振峰有 2 项以上差异超标（无论辅助指标）	判定 “大概率非同一人”

四、实操案例：两段语音（A 和 B）的同一性判断

假设提取 A 和 B 的 “a”“i” 元音共振峰及基频数据如下：

语音	元音	F1（Hz）	F2（Hz）	F3（Hz）	基频 F0（Hz）	元音时长（秒）
A	a	700	1200	2800	110	0.6
A	i	300	2200	3200	108	0.55
B	a	720	1230	2850	112	0.58
B	i	310	2250	3280	110	0.56

分析结论：

共振峰差异：A 与 B 的 “a” 元音 F1 差异 2.8%、F2 差异 2.5%、F3 差异 1.8%；“i” 元音 F1 差异 3.3%、F2 差异 2.2%、F3 差异 2.5%，均符合 “差异≤5%（F1/F2）”“≤8%（F3）” 标准。
辅助指标：基频差异≤3%，元音时长差异≤3.3%，均一致。
最终结论：高度可能为同一人。

五、注意事项（避免常见错误）

避免 “单一元音判断”：至少提取 3 个不同元音，因同一人不同元音的共振峰 “相对关系” 更稳定（如 F2-F1 的差值）。
排除环境干扰：若两段语音录制环境差异大（如一段安静、一段嘈杂），需先通过 Audacity 降噪（“效果→降噪”，取静音段为噪音样本），再提取共振峰。
批量处理建议：若需对比多组语音，用 Wavesurfer 的 “批量提取” 功能，将所有共振峰数据导出到 Excel，用公式自动计算差异度，提高效率。

西数司法鉴定中心

CMA资质