评论经典混响手段的沉浸式潜力

空间音频

本诺阿拉里 (Benoit Alary) | April 25, 2017

在上一篇文章《VR中沉浸式混响的挑战》里，我们讲到了沉浸式混响在虚拟现实中如此富有挑战性的原因。在这个文章系列中，我们将进一步深入探索，并全面地了解过去、现在和新出现的混响技术。具体说来，我们将会从沉浸感和空间感的角度去评论。

人工混响是一种音频特效，目的是为音频信号加上一种空间的漫射感。这些信号通常是在隔音的录音室里采集的。通过模拟声音在室内传播的某方面特点，我们能用混响特效来控制听觉空间的美感。为了提高效率，模拟的通常方法是极大地简化声学现象。因为在这些方法创立时沉浸式体验并不是刚需，所以大部分混响算法的空间提示都被还原为可调输出，但各个声道的输出基本是静态。也就是说，这些算法很难扩展到互动式应用中来。

wwise vr .jpg

Audiokinetic空间音频团队成员正在测试即将推出的全新Wwise空间音频功能

现如今，既然能模拟任何方向传来的声音复杂音频输出系统已成为了VR和其他沉浸式平台上的常态，那么现在是时候要重新思考我们怎样在这些新涌现出来的技术平台上去渲染混响了。要从鲜明的回声中取得空间提示，则必须参照虚拟空间的几何构造，要同时在时间上和方向上来遵循合理的传播路径。比如，在耳机再现中，习惯做法就是让声音通过Head Related Transfer Function（头部相关传输函数）（HRTF）滤波器，这一系列的滤波器会再现频率响应和时间延迟，来模拟声音从不同角度和深度传播到我们耳朵时的双耳声性质。因此，理想的空间混响器应该拥有每次反射的足够信息，或者至少是一部分信息，这样才能妥善保证各次反射的滤波过程一致。混响算法也应随着声源和听者在复杂几何空间内移动而调整。最后，这些感知提示的新需求也不应该以牺牲美学上的灵活可控性为代价，要知道我们在使用混响算法的历程中早已习惯了这种可控性。

我们已经有丰富的混响特效可供选择，它们在未来几年对于媒体制作无疑将继续保持重要性。我们的目标也不是完全替换掉它们，但最终声音设计师的工具箱里应该包括从虚拟几何结构获取信息来传达空间提示的特效。记住这一点之后，我们来评论一下现今最常见的混响背后的技术，看看这些技术如何支持空间提示。

物理混响

I回声室是在二十世纪三十年代引入业界的，它是将人工混响加入录音棚作品的最初尝试。使用一个实体的房间，干声直接通过扬声器播放，并用麦克风录音，在过程中采集室内的混响。但这些并不是随便什么房间都行，它们不能有平行的墙，以便避免颤动回声【5】。受到空间物理性质的限制，调整混响就意味着改变房间的声学属性。为了这个目标，我们可以添加不同的材料来影响特效的频率响应和混响时间，比如一张毯子。不同的麦克风放置方式也会被用来调整干湿比，而后来多波段均衡也成为了纠正湿信号频率响应的常用手段。很显然，成本和便携性是这一特效的限制因素。但是，想要做出比真实室内声音传播听起来还要自然的混响是很难的。这很可能解释了为什么回声室直到二十世纪七十年代依然是习惯做法，有些甚至在今天依然存在。

Echo chamber with no parallel walls [1] 没有平行墙的回声室【1】

大概在同一时期，业内引入了弹簧混响，后来，板混响也被引入。这同样利用了自然声音传播，但在这里声音是通过封闭的空间发出的。金属板和弹簧是用于传导和扩散声能的媒介。声音传播经过金属，到达金属边沿，然后来回反射，就像是在任何空间中传播一样。这些设备充分利用了这样的原理：声音在致密金属中传播快得多。比如，声音在钢中传播比在空气中快二十倍，速度大概是6096米每秒（空气中340m/s）。钢也拥有隔音的性质，让混响时间和室内比较类似。这些因素让一个小得多的装置能产生各种密度的回声。它们也有自己的特性，比如不同频率的声音在钢铁中传播的速度不同，这叫做声波频散。这就导致了混响里能听到微弱的线性调频效应，这也在之后成为音乐制作中广受赞誉的附加效应。最早使用回声室制作的录音【2】【3】

弹簧混响的频率响应【4】

模块合成器上的弹簧混响

从空间角度看，物理混响显然不是理想的方法。但我们还是不管怎样先接受这个想法。我们可以向一个模仿虚拟空间的真实空间流播放一些内容，每个空间有一个听者，然后让扬声器跟随声源移动，与此同时用一个移动的双耳声麦克风来代表听者位置和方向。虽然会导致一定的延时，而且某种程度上很不实用，但它为观察空间混响设定了理论标准。

自然真实的声音
无需计算

只需要实体单元有正确的声学属性
不可互动
很难调试

基于延迟的方法

随着音乐制作的演进，混响最终移向了电子设备。延迟是种连续存储器，在数字世界里叫做延迟线，可以储存信号并稍后回放。延迟混响的最简形式就是一种简单的延迟，允许延迟的输出反馈到输入中，产生一系列不断衰减的回声。延迟的长度和一些衰减系数是可控的，以便调整衰减。Roland Space Echo是最早商用的基于延迟的混响设备之一。信号存储在磁带上，并在一个可调的延迟后播放。

Roland Space Echo - RE - 201

为了增加回声的密度，延迟的输出可以反馈到自身来产生一个再循环的延迟。我们也可以把多个延迟结合在一起，它们可以并联起来以便独立控制，或者串接起来以迅速建立起密集的回声。

这种混响的挑战之一就在于系统频率响应的控制。理想状态下，一些频率应该比其它频率衰减得快，这是模仿室内不同材质对不同频率的吸收。但是通过在音频信号附近复制它本身，声音的叠加性质就意味着会产生一个梳状滤波器，根据延迟的长度衰减一些频率。

这些年来，多信号处理技术被创造出来，允许使用延迟的同时保持了对于输出音色的控制。1958年，现代人工混响之父Manfred R. Schroeder 发布了一个混响器的设计，它使用了叫做“全通”的串联滤波器。这些滤波器的特质是能保留原有信号的所有频率，即使是以较小的延迟将信号复制之后也是如此。这是一个巨大的突破，让混响器的频率响应能够被独立控制。这也直接影响了目前仍在使用的大部分人工混响器，让无数不同的滤波器和延迟线能结合起来创造混响特效。

多声道延迟网络最初是在二十世纪七十年代由Gerzon引入的。延迟网络在九十年代初由音频先驱Jean-Marc Jot【6】进一步发展，并正式成为最为流行的延迟混响设计之一，叫做Feedback Delay Network（反馈延迟网络）（FDN）。最初的想法是创造一种可以同时为多通道产出信号的设计，但它也为多重再循环延迟和音调控制的设计进行了改良。这一设计在多声道上的考虑不是为了让声音的位置集中，而是为了向每个扬声器提供略有不同的音频信号，并且最大程度减少梳状滤波现象，当来自不同扬声器的同样信号的相位略有差异时，混合起来就可能出现这一现象。

Wwise RoomVerb是现在依然流行的FDN算法的一个好例子。FDN已知的一个限制就是它们在最初积累一定数量的回声时比较慢。这就是为什么RoomVerb提供了选项来补偿这个不足，可以使用预设的不同房间的早期反射模式来增强特效。这些其实就是多个静态回声模式，可以在一开始提供更高的回声密度，而算法可以自然地对延迟进行再循环。

在沉浸式体验的背景下，基于延迟的混响器在某种程度上也有局限性。它们用来高效积累很多回声的一个妥协——将系统的输出反馈到输入——不允许将回声独立地放置到空间和时间中。这个局限性在某种程度上可以接受，因为随着回声的累积，我们就失去了分辨和定位它们的感知力。实际上，在高密度下，密集地重复信号会趋向让结果融为一体，并变成一个我们称为后期混响或漫射混响的漫射纹理。因此，主要的问题就在于早期反射，这时的密度依然够低，我们还是能够将回声一一区分开来。这些被称为镜面反射。后续文章会讲到更多关于这一话题的内容。

低CPU占用
可调整优化
存在很多不同风格。
比较好表现后期混响。

无空间提示。
无互动性。
如果使用的延迟线不足听起来会有金属感。

室内冲激响应卷积

通过卷积，一个房间的混响可以切实录制下来并应用于任何输入信号。卷积指的是结合两个信号形成新信号的数学运算。在卷积混响中，干信号和一个预录好的空间冲激响应进行卷积，这个冲激响应能够有效地为每一次“脉冲”延迟，加权，并复制信号。在信号处理中，冲激响应就是将一个脉冲输入系统中后系统的输出信号。在室内冲激响应（RIR）中，您可以将其看成是一个房间回声模式的录音。它们可以简单地用通常的录音设备采集，前提是您有相对安静的房间可用。因为RIR来自于对真实空间的录音，所以这一混响技术可以渲染出复杂真实得多的混响特效。更长的RIR，意味着更长的混响尾部，需要更多的运算和存储。因为高质量的基于延迟的混响器需要很多延迟线，所以对短混响来说卷积被认为更高效，而基于延迟的混响器就成为了长混响的更好解决方案。这就是为什么两者在现在的电子游戏制作中依然常见。

冲激响应的示意图【7】

通常捕捉冲激响应的方法就是在房间内设置麦克风，尽量没有环境噪声，然后去给一个音量很大的声音录音，这个声音中充满可以在不同频率激发这个房间的瞬态声。为此，通常要么会用一个音量很大的鼓掌声，要么会用气球爆裂声。我们也可以使用频率扫描来保证覆盖所有频率。在这个案例中，随后可以用一个简单的流程来从录音中重构冲激响应。想要了解更多关于记录冲激响应的细节，Varun Nair在2012年写了一篇深度文章【8】可参考。现在，市面上已经有很好的冲激响应库，比如Audioease【9】，所以不是总需要真的去为空间录音。

为了展示卷积混响带来的可能性，下面的这则录音是使用已知的混响最丰富的地方进行的。这是一个一般禁止公众入内的地方，当然也不能随便在里面演奏或录音各种乐器。

Longest reverberation in the world in an old oil tank in Scotland [10]

世界最长的混响，录制于苏格兰一个旧油罐中。【10】

卷积混响产生的混响模式本身是完全静态的。和基于延迟的方法类似，这一技术也不允许和空间进行互动。在长廊中行走和在墙角旁听起来一样。然而，为每个想要的声源-听者位置来录多个冲激响应是可能的；但是这种方案产生的数据量之大，对大部分应用来说很快就会发现不现实。

直到不久之前，标准做法就是使用单声道或立体声麦克风的设置来记录冲激响应，而这样在运行时会产生静态空间化。录音时左边墙上过来的回声总会在卷积后从左扬声器中出来。然而，随着使用 ambisonics来记录和传输空间音频数据这个潮流的兴起，现在我们也可以使用 ambisonics麦克风来记录冲激响应。这将记录下所有方向来源的声音传播，之后可用来互动式地旋转听者角度。这对于混响的空间表示法来说是一个巨大的飞跃。即使如此，有一个关键的空间局限性还是存在；录制过程中固定的麦克风和声源意味着无法在回放时互动式地移动它们，除非已经录下了多个听者-发声体的位置。

卷积混响不受限于实际空间。冲激响应也可以通过各种模仿声波传播的技术进行模拟。下一篇文章会进一步细说。

听起来自然
可以有空间性（ambisonics，旋转）

无互动性（听者-发声体位置固定）
有时想使用录音条件好的场所有困难。

想更多从信号处理角度了解经典混响算法的话，我建议阅读Välimäki等人写的长篇评论文章：《Fifty Years of Artificial Reverberation(人工混响的五十年)》【4】。

虽然以延迟为基础的混响器和卷积混响器是现在电子游戏中最常用的两种混响器，但它们都没有渲染互动性混响的清晰解决方案。我们需要探索新技术来改善混响特效，使其空间化。在下一篇文章中，我们将专注于现代混响技术，这些技术着眼于用更复杂的水平模仿声音传播。与此同时，欢迎大家与我们交流，留言和提问都可以，我会尽力在后面的文章中作出回复。

注释：

[1] https://www.gearslutz.com/board/attachments/so-much-gear-so-little-time/306216d1345733523-sinatras-vocal-chain-chamber.jpg
[2] http://www.harmonicats.com/Press_circa_1947.html
[3] http://www.uaudio.com/blog/emt-reverb-history/
[4] V. Välimäki, J. D. Parker, L. Savioja, J. O. Smith, J. S. Abel, “Fifty years of artificial reverberation”, IEEE Transactions on Audio, Speech and Language Processing, vol. 20, no. 5, pp. 1421–1448, July 2012. Available at: https://aaltodoc.aalto.fi/bitstream/handle/123456789/11068/publication6.pdf
[5] http://recordinghacks.com/2011/06/04/flutter-echo/
[6] https://ccrma.stanford.edu/~jos/cfdn/Feedback_Delay_Networks.html
[7] V. Välimäki, J. D. Parker, L. Savioja, J. O. Smith, J. S. Abel, “Fifty years of artificial reverberation”, IEEE Transactions on Audio, Speech and Language Processing, vol. 20, no. 5, pp. 1421–1448, July 2012. Available at: https://aaltodoc.aalto.fi/bitstream/handle/123456789/11068/publication6.pdf
[8] http://designingsound.org/2012/12/recording-impulse-responses/
[9] https://www.audiokinetic.com/products/wwise-add-ons/audio-ease/
[10] https://acousticengineering.wordpress.com/2014/08/01/acoustic-analysis-of-playing-the-worlds-longest-echo/

摄影：Bernard Rodrigue – ‘Audiokinetic空间音频团队’照片

本诺阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托（Aalto）大学

本诺阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托（Aalto）大学

Benoit Alary是芬兰阿尔托大学信号处理和声学系的研究员和博士生。他专注于沉浸式和空间混响算法的研究。在 2011 年到 2016 年间，Benoit 担任过 Audiokinetic 研发团队的软件开发人员和声学专家。

的的

May 22, 2017 at 03:50 am

地方规划师的风格和

的的

May 22, 2017 at 03:50 am

地方规划师的风格和

留下回复

您的电子邮件地址将不会被公布。

为虚拟现实创造引人入胜的混响

9.5.2017 - 作者：本诺阿拉里 (Benoit Alary)

在Wwise 2017.1中使用全新3D总线构架：模拟一个音频监控系统

27.7.2017 - 作者：内森哈里斯（NATHAN HARRIS）

《NieR: Automata》的空间声学设计以及如何借助 Wwise 实现对多种游戏玩法的支持 – 第 1 部分

《NieR: Automata》是一款动作冒险类角色扮演游戏...

18.3.2019 - 作者：PlatinumGames Inc.

如何利用Wwise实现耳机监听条件下的3D环绕立体声效果

24.2.2020 - 作者：王润琦

Wwise 中针对 Spatial Audio 所作的改进 – 第 2 部分：衍射

Wwise 中针对 Spatial Audio 所作的改进 – 第 1 部分：距离建模和早期反射...

10.6.2021 - 作者：路易斯-扎维尔·布法尼 (Louis-Xavier Buffoni)

《Scars Above》中的 Wwise Spatial Audio 实现流程

这篇文章是关于什么的？何为 Spatial Audio API？Spatial Audio API 工作流程Room 和 Portal素材组织和命名规范命名规范Wwise 对象组织Unreal...

12.6.2024 - 作者：Milan Antić

40,000+音频专业人士在这里分享创意、新闻和一切音频相关的知识。

评论经典混响手段的沉浸式潜力

空间音频

本诺阿拉里 (Benoit Alary) | April 25, 2017

物理混响

基于延迟的方法

室内冲激响应卷积

本诺阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托（Aalto）大学

本诺阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托（Aalto）大学

评论

的的

May 22, 2017 at 03:50 am

的的

May 22, 2017 at 03:50 am

留下回复

您的电子邮件地址将不会被公布。

更多文章

为虚拟现实创造引人入胜的混响

在Wwise 2017.1中使用全新3D总线构架：模拟一个音频监控系统

《NieR: Automata》的空间声学设计以及如何借助 Wwise 实现对多种游戏玩法的支持 – 第 1 部分

如何利用Wwise实现耳机监听条件下的3D环绕立体声效果

Wwise 中针对 Spatial Audio 所作的改进 – 第 2 部分：衍射

《Scars Above》中的 Wwise Spatial Audio 实现流程

更多文章

为虚拟现实创造引人入胜的混响

在Wwise 2017.1中使用全新3D总线构架：模拟一个音频监控系统

《NieR: Automata》的空间声学设计以及如何借助 Wwise 实现对多种游戏玩法的支持 – 第 1 部分

40,000+音频专业人士在这里分享创意、新闻和一切音频相关的知识。

评论经典混响手段的沉浸式潜力

空间音频

本诺 阿拉里 (Benoit Alary) | April 25, 2017

物理混响

基于延迟的方法

室内冲激响应卷积

本诺 阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托（Aalto）大学

本诺 阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托（Aalto）大学

评论

的 的

May 22, 2017 at 03:50 am

的 的

May 22, 2017 at 03:50 am

留下回复

您的电子邮件地址将不会被公布。

更多文章

为虚拟现实创造引人入胜的混响

在Wwise 2017.1中使用 全新3D总线构架：模拟一个音频监控系统

《NieR: Automata》的空间声学设计以及如何借助 Wwise 实现对多种游戏玩法的支持 – 第 1 部分

如何利用Wwise实现耳机监听条件下的3D环绕立体声效果

Wwise 中针对 Spatial Audio 所作的改进 – 第 2 部分：衍射

《Scars Above》中的 Wwise Spatial Audio 实现流程

更多文章

为虚拟现实创造引人入胜的混响

在Wwise 2017.1中使用 全新3D总线构架：模拟一个音频监控系统

《NieR: Automata》的空间声学设计以及如何借助 Wwise 实现对多种游戏玩法的支持 – 第 1 部分

本诺阿拉里 (Benoit Alary) | April 25, 2017

本诺阿拉里 (Benoit Alary)

本诺阿拉里 (Benoit Alary)

的的

的的

在Wwise 2017.1中使用全新3D总线构架：模拟一个音频监控系统

在Wwise 2017.1中使用全新3D总线构架：模拟一个音频监控系统