• 首页
  • vue
  • TypeScript
  • JavaScript
  • scss
  • css3
  • html5
  • php
  • MySQL
  • redis
  • jQuery
  • AI 旁白:频率均衡清晰干净

    电子合成的人声旁白(AI旁白、AI语音、TTS)主要有以下特点:清晰稳定,但缺乏人声的自然、温暖律动。

    • 动态不自然:音量起伏小,整体响度过于平直,缺乏真实说话中的强弱对比;句间或词间偶有突兀的音量跳变,破坏听感连贯性。
    • 频段不平衡:低频偶尔突兀(如某些元音过重),高频(尤其辅音如/s/、/t/、/c/)异常尖锐刺耳;整体频谱缺乏自然谐波结构,泛音不足,导致声音缺乏丰满度和空间感。
    • 缺乏人声温度与自然律动:缺乏自然谐波与泛音,导致声音“干”、“扁”、“机械”,缺少真人发声中的温暖感、个性和情感共鸣。
    • 动态单一或瞬态生硬:无法模拟人类说话中的自然重音、语调起伏和呼吸停顿。句子之间衔接生硬,重点词不突出,整体节奏像“读稿机”。
    • 节奏机械、语流生硬:语速过于均匀,停顿刻板(常按标点机械断句);缺少连读、语气滑音、情感重音等自然语流特征,显得冰冷疏离。
    • 中高频可懂度不足(在复杂声场中):关键语音频段(2–5 kHz)能量不足,在背景音乐或环境噪声中容易被掩蔽,影响信息传达。
    • 整体响度偏低或不一致:不同段落或句子间感知响度波动大,需额外处理以满足广播或平台标准(如 LUFS 规范);直接提升音量易导致失真或加剧高频刺耳问题。

    使用 Adobe Audition,把立体声的人声旁白,转化为单声道,共需要两步:一、提取中置声道;二、转化为单声道。

    • 提取中置声道:效果(Effects)- 立体声声像(Stereo Imagery)- 中置声道提取器(Center Channel Extractor)
      • 侧边声道电平(Side Channel Level):降低此值(甚至拉到最低)以彻底移除两侧声音。
      • 中置声道电平(Center Channel Level):电平不动,或者提高此值以增强人声。
    • 转化为单声道:编辑- 变换采样类型- 把声道改选为单声道- 把位深度改成32。这样就会把音频文件转化为 32 位浮点的单声道。

    对于人声处理流程,一般采用,先修复最大问题,然后调整次要问题。所以一般常用流程是:降噪、EQ、去齿音、压缩。对于刺耳声严重的,应该先去除刺耳杂音,再采用压缩。


    去除咔哒声

    iZotope RX De-crackle:去除爆裂音。



    DeClick: Dialogue

    Acon Digita DeClick: Dialogue:去除咔哒声。



    DeClick 2

    Acon Digita DeClick 2:消除诸如咔嗒声(Click)、噼啪声(Crackle)。



    Smart:Deess

    Sonible Smart:Deess:低频强瞬态。




    去除呼吸声

    Waves PSE:噪声门。



    Pro-G

    Fabfilter Pro-G:噪声门。




    虚拟麦克风

    Antares Auto-Tune Mic Mod:AKG C 414。



    前置话放

    Analog Obsession BritPre:中频清晰饱满。



    Scheps 73

    Waves Scheps 73:中低频温暖厚重、增强胸前共鸣、高频圆润。



    Need Pre 31102

    NoiseAsh Audio Need Pre 31102:紧致的低音、顺滑的高频、温暖感。



    MPReq

    Analog Obsession MPReq:干净温暖华丽感。



    平滑谐振

    Oeksound Soothe2:动态共振抑制器。



    平滑瞬态

    Oeksound Spiff:动态共振抑制器。




    去除刺耳

    FabFilter Pro-Q 4:去除刺耳。



    VocalStrip 2

    SSL Native VocalStrip 2:去除刺耳。



    Precision De-Esser

    Metric Halo MH Precision De-Esser:去除刺耳。



    De-ess

    iZotope RX De-ess:去除刺耳。




    对白塑形

    Accentize dxRevive Pro:专注于恢复对话清晰度、音调平衡和频谱完整性。