人声 EQ 共振频率
对于人声旁白(尤其是男声),常见的“难听”频率点,它们会让声音听起来不专业、刺耳或浑浊。以下是按从低频到高频排序的常见“问题频率”及其听感特征和处理建议:
- 低频浑浊区(Low-End Mud)
- 频率范围:80Hz - 100Hz。
- 听感描述:“闷”、“轰头”、“嗡嗡声”。
这个频段如果过多,声音会像蒙了一层厚被子,缺乏清晰度,且会占用混音中的低频空间,导致背景音乐或其他乐器听不清楚。对于非专业录音环境,这里往往还包含空调声、交通噪音等低频底噪。 - 处理建议:使用高通滤波器(High-Pass Filter / Low-Cut)。男声通常切掉 80Hz - 100Hz 以下的频率;如果是深沉的男低音,可以保留到 60Hz-70Hz,但一定要切掉无用的超低频。
- 驻波共振
- 频率范围:100-150Hz。
- 听感描述:“闷”、“糊”、“嗡嗡声”。
如果你的录音环境接地不好或电源干扰大,120Hz 附近往往会有持续的、令人烦躁的低频电流嗡嗡声。房间的低频驻波共振,“嗡嗡声”会导致听感疲劳。 - 处理建议:如果在 120Hz 处有明显的浑浊感,尝试用宽 Q 值(低 Q 值,如 0.7 - 1.0)进行 1dB - 3dB 的轻微衰减。如果只有某些低音重的字(如“梦”、“红”)在 120Hz 炸麦或浑浊,可以使用动态 EQ,只在音量超过阈值时衰减该频段,平时保留厚度。
- 喉音盒子音(Boxiness)
- 频率范围:200Hz - 400Hz
- 听感描述:“堵”、“像在小盒子里说话”、“电话音”。
这是人声最容易出现“浑浊感”的区域。能量过多会让声音失去通透感,听起来很廉价。这个频段赋予了人声“厚度”和“体量感”,但如果能量过多,声音就会变得沉闷、像是在一个小盒子里发出的(Boxy),或者感觉声音是从喉咙深处挤出来的,缺乏向前投射的力度。 - 处理建议:在 250Hz 或 300Hz 附近进行适度衰减(Cut 2-4dB)。这是让人声变得“干净”最关键的一步。
- 鼻音区(Nasality)
- 频率范围:600Hz - 1.2kHz(有时延伸至 250Hz-300Hz 的低频鼻音)
- 听感描述:“感冒声”、“捏着鼻子说话”、“尖锐的嗡嗡声”。
虽然低频鼻音在 250Hz,但这种令人烦躁的、类似鸭子叫的尖锐鼻音通常集中在 800Hz - 1kHz 左右。 - 处理建议:如果在 1kHz 附近有刺耳的共振,进行窄带宽的衰减。
- 电话音/中频凹陷区(Telephone Effect)
- 频率范围:800Hz - 2kHz(如果此处被过度衰减)
- 听感描述:“空洞”、“遥远”、“像在打电话”。
这通常不是某个频率“太多”,而是这个频段“太少”。人声的核心辨识度和力度主要在这个区域。如果为了消除鼻音而把这里切得太狠,声音就会变得不自然。 - 处理建议:谨慎操作,确保人声的主体能量保留在 1kHz - 2kHz。
- 硬度过高/刺耳(Harshness)
- 频率范围:2kHz - 4kHz(核心常在 2.5kHz - 3.5kHz)
- 听感描述:“刮耳朵”、“金属味”、“攻击性太强”、“累”。
人耳对这个频段最敏感。如果录音设备一般或录音环境声学不好,这个频段容易出现共振,听起来非常刺耳,听众听久了会头痛。 - 处理建议:使用动态均衡器(Dynamic EQ)或普通 EQ,在 2.5kHz 或 3kHz 附近寻找最刺耳的点进行衰减。不要一次性切太多,否则声音会失去“存在感”和“穿透力”。
- 齿音(Sibilance)
- 频率范围:5kHz - 8kHz(女声偏高至 7-9kHz,男声偏低至 4-6kHz)
- 听感描述:“嘶嘶声”、“嘘嘘声”。
主要出现在发"s","sh","ch","z"(中文的 s, sh, c, z, zh, ch)等齿音字时。过重的齿音会像电流声一样刺耳。 - 处理建议:首选工具:去齿音器(De-esser)。它只会在出现齿音时自动衰减该频段,不影响其他部分的亮度。
备选:如果不用 De-esser,可在 6kHz 左右做动态衰减,但静态 EQ 衰减会让声音变暗。
- 空气感与嘶声区(Air & Hiss)
- 频率范围:10kHz 以上
- 好的情况:“空气感”、“通透”、“华丽”。适当提升这里可以让声音听起来更高级、更现代。
- 坏的情况:“底噪嘶嘶声”、“磁带声”。如果录音增益过大或麦克风自噪高,这里会有持续的“沙沙”声。
- 处理建议:如果底噪大,使用低通滤波器(Low-Pass Filter / High-Cut)切掉 16kHz - 18kHz 以上的无用高频。如果声音太闷,可在此处轻微提升(Shelf EQ)。
前鼻音
前鼻音(如汉语拼音中的 an, en, in, un,ün)与后鼻音(ang, eng, ing...)在听感和频率分布上有显著区别。
| 特征 | 前鼻音(an, en, in) | 后鼻音(ang, eng, ing) |
| 听感描述 | 扁、尖、细、像捏鼻子 | 闷、浑、厚、像感冒/含橄榄 |
| 核心频率 | 1kHz - 1.6kHz | 250Hz - 350Hz(浑浊) 800Hz - 1.2kHz(嗡嗡声) |
| 高频泛音 | 较多(2k-4k),声音较亮/刺 | 较少,声音较暗/闷 |
| 共鸣位置 | 鼻腔前部、硬腭 | 鼻腔后部、咽腔、头腔 |
前鼻音的特点是发音时舌尖抵住上齿龈,气流主要在前鼻腔共鸣,声音听起来比较扁、尖、细,缺乏后鼻音那种深沉的胸腔共鸣。前鼻音的能量主要集中在中高频区域,比后鼻音的频率更高、更尖锐。
- 主要共振区:800Hz - 2.5kHz
- 最关键的“鼻音味”频点:1kHz - 1.6kHz
这是前鼻音最典型的特征频段。如果这个频段能量过强,声音会显得非常“扁”,像捏着鼻子说话,或者带有明显的金属质感。 - 辅助共振区:2kHz - 4kHz
前鼻音(特别是"in","ün"这种闭口前鼻音)往往伴随着较高频率的泛音,使得声音听起来比较“锐利”甚至有点“刺”。
如果旁白中前鼻音(如“天”、“心”、“云”)听起来太刺耳或太扁,可以尝试以下 EQ 操作:
- 定位频点:在 1kHz - 1.5kHz 之间进行扫频。找到那个让声音变得最“扁”、最像“鸭子叫”或最“尖锐”的点。
- 衰减操作:使用中等 Q 值(带宽适中),对该频点进行 2dB - 4dB 的衰减。注意不要切得太狠,否则声音会失去清晰度,变得含糊不清。
- 互补调整:前鼻音重往往伴随着低频不足(声音太薄)。如果在衰减了 1.2kHz 后声音变得更奇怪,可以尝试轻微提升 200Hz - 300Hz,增加一点厚度,平衡“扁”的感觉。
有时候,前鼻音(特别是以"n"结尾的音,如"in","en")容易和齿音(s, sh, c, ch)混淆,因为它们都集中在高频。
- 前鼻音(n):是持续的共鸣声,频率主要在 1k-2k。
- 齿音(s/sh):是摩擦产生的嘶嘶声,频率主要在 5k-8k。
- 处理:如果是"n"音太扁,切 1.2kHz;如果是"s"音太刺,用 De-esser 切 6kHz。不要把两者搞混。
后鼻音
“eng”音(后鼻音)重,通常指的是声音中带有过强的鼻腔共鸣和喉咽腔共振的混合体。在音频处理中,这不仅仅是单一频率的问题,而是几个特定频段的能量叠加。对于男声旁白,“eng”音重主要集中在以下三个关键频率区域:
- 核心“闷堵”区(喉咽共鸣)
- 频率位置:200Hz - 350Hz
- 听感特征:这是“eng”音听起来浑浊、发闷、像嘴里含着东西的主要原因。
- 发“eng”时,舌根后缩,咽喉空间变小,容易在这个低频段产生过多的共振(Boxiness)。
- 如果这个频段过多,声音会显得不干净,缺乏清晰度,听起来像是在喉咙深处打转。
- 处理建议:重点检查 250Hz 和 300Hz。尝试在此处进行 2-4dB 的衰减,可以显著减轻“闷”的感觉,让声音更通透。
- 典型“鼻音”区(鼻腔共鸣)
- 频率位置:600Hz - 1.2kHz(最典型在 800Hz - 1kHz)
- 听感特征:这是“eng”音听起来像感冒、捏着鼻子、有金属味或嗡嗡声的核心区域。
这是区分普通浊音和“鼻音重”的关键频段。当气流通过鼻腔时,会在 1kHz 附近产生强烈的共振峰。如果这个频段能量过高,声音会非常刺耳、尖锐,且带有明显的“扁”的感觉。 - 处理建议:使用扫频法,在 800Hz 到 1kHz 之间寻找那个让声音变得最难听(最像鸭子叫或感冒声)的点。对该点进行窄带宽(高Q值)的衰减,通常能立竿见影地消除“鼻音感”。
- 尖锐/刺耳”区(高频泛音)
- 频率位置:2kHz - 4kHz
- 听感特征:如果“eng”音听起来特别硬、刮耳朵,问题可能出在这里。某些人的发声习惯会导致后鼻音在高频段产生不自然的谐波,使得声音缺乏柔和度。
- 处理建议:如果声音太硬,可在 2.5kHz 或 3kHz 附近轻微衰减,增加柔和感。
由于“eng”是后鼻音,它同时具备低频的浑浊感和中频的鼻音感,因此通常需要双管齐下:
- 第一步:去浑浊(清理低频)。在 250Hz - 300Hz 处做宽频带衰减(Cut),去掉“喉咙里打转”的闷感。目的:让声音变干净,不再“堵”。
- 第二步:去鼻音(清理中频)。在 800Hz - 1kHz 处寻找共振点进行精准衰减(Cut)。目的:去掉“感冒味”和“嗡嗡声”,这是解决“eng”音重的关键。
- 第三步(可选):增加清晰度。如果在去除上述频段后声音变暗了,可以适当提升 3kHz - 5kHz,增加字头的清晰度和穿透力,转移听众对鼻音的注意力。
电话音
电话音:是一种频段的“缺失”,听起来声音被限制在电话线里,缺少低音和高音,发干、发扁。这是一种由通信信道物理限制导致的频率缺失,是模拟真实电话通话的标志性听感。
- 成因:传统的公共交换电话网络(PSTN)为了节省带宽,会强制使用带通滤波器,只保留 300Hz 到 3400Hz 之间的频率。这个范围之外的所有低频和高频信息都会被直接切掉。
- 制作“电话音”效果:对于人声,使用高通滤波器(HPF)切掉300Hz以下的声音,再用低通滤波器(LPF)切掉3400Hz以上的声音,主动制造出这种狭窄的听感。
- 听感特征:
- 低频缺失:声音完全没有厚度和温暖感,听起来很单薄、干瘪。
- 高频缺失:声音失去了“空气感”和清晰度,辅音(如s, t, f)变得模糊不清。
- 频段狭窄:整体声音被限制在一个非常窄的频率范围内,听起来发扁、发干,像是被“压”在电话听筒里。
塑料味
塑料味:是一种音色上的“污染”,听起来像声音被装在一个狭小的塑料盒子里,发闷、不自然。这是一种由声音合成或处理不当产生的人工痕迹,通常出现在 AI 生成或过度处理的语音中。
- 成因:
- AI 合成缺陷:AI 模型在生成声音时,如果训练数据不足或模型本身有局限,可能会在频谱上产生错误的能量集中点,形成不自然的峰值。
- 糟糕的 EQ 处理:在混音时,如果在某个频段(尤其是 200Hz - 800Hz 的“盒音区”或 1kHz - 3kHz 的“临场区”)过度提升,也会制造出类似的人工共振感。
- 听感特征:
- 盒状感(Boxy):声音听起来像是从一个狭小的、封闭的盒子或管道里发出来的,缺乏真实空间感。
- 金属感/嗡嗡声(Metallic/Buzzy):在某个或某几个中频点上,声音会带有一种不自然的、类似金属振动的“嗡嗡”声,非常刺耳。
- 不自然的共振峰:真实人声的共振峰(Formants,决定音色的关键频率)是平滑变化的。而“塑料味”声音的共振峰可能是突兀的、位置错误的,或者过于尖锐,导致元音听起来很奇怪。
在电子合成(AI)的男声旁白中,“塑料味”共振通常不是由单一频率造成的,而是集中在几个特定的频段。这些频段对应了 AI 模型在模拟人声物理特性(如口腔、胸腔共鸣)时的常见缺陷。原因主要有两点:
- 共振峰(Formant)失真:真实人声的音色由 F1、F2 等共振峰决定。AI 模型在生成频谱时,可能会在某些频率点产生错误的能量尖峰,这些尖峰在听感上就表现为“金属感”或“塑料感”。
- 频谱伪影(Spectral Artifacts):在声码器(Vocoder)将频谱还原为波形的过程中,如果参数配置(如梅尔频带数量、帧移长度)不够完美,会在特定频率(如 3kHz - 8kHz 的高频区,或 500Hz 左右的低频区)产生不自然的“振铃效应”(Ringing),听起来就像塑料震动的高频泛音。
“塑料味”最常出现的频率区域及其特征:
- “盒音”区:300Hz - 600Hz。
- 这是最常见导致“塑料感”和“廉价感”的频段。
- 听感特征:声音听起来像被关在一个小纸盒或塑料桶里,发闷、浑浊,缺乏通透感。
- 成因:AI 模型在模拟男性胸腔共鸣时,往往会过度强调这个频段,或者生成的共振峰过于集中,导致声音失去了真实人声的自然扩散感。
- 处理建议:使用 EQ 在这个范围内进行扫频,找到那个让声音听起来最“闷”的点(通常在 400Hz - 500Hz 左右),进行适度衰减 2 - 4dB。
- 金属/嗡嗡”区:1kHz - 2.5kHz。
- 这是“塑料味”最刺耳的表现区域,也是“临场感”频段的重灾区。
- 听感特征:声音带有一种类似“嗡嗡”的电流声或金属振动感,听起来非常“平”且“假”。
- 成因:许多 AI 语音模型(特别是基于梅尔频谱生成的模型)在这个频段容易出现能量堆积。这是因为模型试图增加声音的清晰度,但用力过猛,导致共振峰失真。
- 处理建议:这是你需要重点“雕刻”的区域。1.2kHz - 1.6kHz:容易导致“电话音”般的鼻音感。2kHz - 2.5kHz:容易产生刺耳的“金属哨音”。
- 操作:使用窄带宽(高Q值)大幅提升增益进行扫频,找到那个最刺耳的“哨音”点,然后反转为衰减。
- 喇叭/喉音”区:500Hz - 800Hz。
- 听感特征:声音听起来像透过一个旧式扩音器或廉价对讲机发出来的,有一种“哇哇”的喉音感。
- 成因:这通常与AI模拟声道长度(Vocal Tract Length)时的误差有关。如果模型参数设置不当,模拟出的“声道”过短或形状不自然,就会在这个频段产生共振峰错误。
- 处理建议:适度衰减 600Hz 左右,可以有效减少这种“喇叭味”。
