这是一篇介绍沉浸式混响的文章。我们准备在接下来几个月里推出这一话题的系列文章。
VR 中沉浸式混响的挑战
人工混响是现今最为常用的音频效果之一。它最初开发出来是为了让声音设计师在声音再现时能创造性地控制空间美感。从20世纪30年代开始,人们创造出了很多不同的混响技术,包括回声室,采用扩音器和麦克风在实体空间内回放并录下声音,也有更为便携的方案,比如一些电子设备,能够复制信号,以便创造高密度的重复。最近,新的手段也不断出现,它们可以模仿声音传播的物理特性,并提供更真实的效果。
近年来,混响技术不断演进,以此来适应各种媒体载体形式。电影可以使用比较微妙的特效,更注重语言清晰度以及更好地和现场录音相契合,而音乐制作时会使用更多样的创造性方法,从单抽头延迟(tapped delay)到密集的缥缈混响。直到不久之前,电子游戏大部分都还是从经典线性媒体借用混响技术。然而,复杂的空间声相摆位算法,如双耳声和 ambisonics,已经在不断地推动沉浸式体验的前沿,这是其他媒体形式前所未见的。因此,新时代已经来临,我们应该重新思考现有的混响算法,创造新的算法,来更好地针对新媒体形式下互动和沉浸体验的需求。
现实生活中的混响
当一个声音震动从房间内发出时,能量向各个方向穿过不同的媒介传播,比如空气和物体。能量会在周围的材质上反射,并随着它的传播、反弹和散射,最终消失。在整个过程中,能量会自行返回到听者的位置并产生一连串回声,我们把它叫做混响。房间内的材质种类会影响到混响的频率响应。房间的形状,包括墙壁和家具,以及他们的质地,依靠反射、衍射和漫反射决定了回声的方向。这些因素一起,创造出异常丰富和复杂的现象,让听者知晓这一声学空间的形状和性质。
经典人工混响
由于复杂,一般来说模拟这一特效的方式是极大地简化它。在经典人工混响算法中,声音传播的再现是通过这样的方法实现:不断重复原有信号,重复的速率呈数量级增加;并且随时间改变频率响应。声音传播的空间属性在这个过程中完全丧失了。因为混响器的输出对于一组固定的参数来说是静态的,我们能用冲激响应(IR)来表示它。IR 是一种存储、可视化和再现回声密度模式和幅度的方式。随着时间变化,我们可以看到密度脉冲呈数量级增长,而幅度在衰退(见下图)
在多声道系统中,每一个输出声道都有自己的冲激响应。在这个例子中,我们想要的目标不是精确的空间信息提示,而是让从不同扬声器发出的信号不会互相干扰。实际上,在大部分的混响算法中,都认为目标空间是基于漫反射的。这就意味着回声应该比较平均地从各个方向传来。这种简化方式可以追溯到早期的课题研究,研究的目标就是在单声道或立体声扬声器系统上再现音乐厅的声学性质。古典音乐厅的建造目的通常是最大化混响声音的空间漫射。虽然结果各有不同,但这个做法的目标就是让每个座位都能有很好的聆听体验。
http://acoustics.org/pressroom/httpdocs/152nd/behler.html
早期反射的重要性
就像之前所说的,大部分混响器的输出行为都是固定不变的。这意味着让同一个声音连通到这些混响器中两次,结果就是输出仍然一样。在现代应用中,这些混响器可以用预延迟之类的参数进行优化调整,但无法扩展到能照顾各个不同位置发出的声音。想象一下,我们必须要为每一个声音设置一个不同的插入效果实例,并且要用实时参控来更改参数;混响实例将很快多到令 CPU 瘫痪。因此,无论声音在房间内何处发出,特效都要保持一样。但是在现实中,从房间中心发出的声音与从接近墙角处发出的声音听起来是不同的。这是声音传播距离不同而花费时间也不同导致的。声音和最初几次反射(叫做早期反射)之间的接近度,这是我们的大脑无意识间用来解读周围环境的重要提示点。因为考虑到即使是声音传播到一只耳朵和另一只耳朵之间的时间差也是双耳声声相摆位的重要提示点,所以动态延迟时间对于任何空间混响都是非常重要的组成部分。
下图展示了一个简单二维房间的早期反射模式。点声源或者听者的任何移动都会改变早期反射路径,也因此会改变它们的相对长度。举例来说明一下这个尺度,在一个 5 x 10 米的小房间(16' x 32’)里,声音大概需要 32.8 毫秒从一个墙角传播到离它最远的墙角,但只需要 14.7 毫秒就可以传播到离它最近的墙角。理想状态下,混响应该能够在每个移动声源和听者的早期反射模式之间进行动态插值。
从点声源(E)到听者(L)在每堵墙的二维早期反射模式
人工混响的空间限制
下图展示了现实中声学的空间属性。这个声音是在一个简单的起居室录下来的,我们可以看到这个声音没有完全漫反射。这个表示法是通过叫做空间分解法的方式做出的,由阿尔托(Aalto)大学开发。它显示了在某个空间中混响的空间行为。点到中心的距离代表从特定角度传来的声音幅度。颜色表示了不同时间的声能变化。虽然这个例子里的情况比较简单,但这一空间模式在典型的电子游戏场景下就会很快变得复杂起来。比如,站在一个长廊的角落,我们很可能看到从对边传来的一些能量会迟一些。很显然,在开发虚拟世界时,很多我们常见情况下的混响漫反射并没有很好地表现出来。
https://se.mathworks.com/matlabcentral/fileexchange/56663-sdm-toolbox
在虚拟现实中定位反射
经典混响主要是针对单声道或立体声输出而创造的,它忽视了声音传播的实际空间属性,而现如今新的声相摆位算法包含了更为复杂的空间深度。在双耳立体声声相摆位中,声音和听者耳朵间的角度会改变所使用的HRTF滤波器,这个滤波器会用来模拟您头部的形状对于声音的到达时间和频率响应的影响。因此,混响也应该传达出方向感,这个方向感可以适应更复杂的几何构造,也能根据声源和听者的位置改变。
结论
直到不久之前,业内都没有多大动力来将混响算法改进为空间和沉浸式工具。一个可调但静态的输出对常规的线性媒体来说已经够用了。但现在我们既然已经进入了虚拟和混合现实平台的新媒体时代,就需要重新思考这些算法。沉浸式混响的两个主要挑战就是要让它们拥有动态反射时间和空间提示,以便让它们适应不断改变的位置和房间几何构造。在接下来的会议演讲和文章中,我们会进一步深挖新出现的混响算法,来看看我们是如何应对这些挑战的,看看这对于未来空间声音设计又意味着什么。
摄影:Bernard Rodrigue - 'Audiokinetic空间音频团队'照片
评论