VR 中沉浸式混响的挑战

空间音频

这是一篇介绍沉浸式混响的文章。我们准备在接下来几个月里推出这一话题的系列文章。

 

VR 中沉浸式混响的挑战

人工混响是现今最为常用的音频效果之一。它最初开发出来是为了让声音设计师在声音再现时能创造性地控制空间美感。从20世纪30年代开始,人们创造出了很多不同的混响技术,包括回声室,采用扩音器和麦克风在实体空间内回放并录下声音,也有更为便携的方案,比如一些电子设备,能够复制信号,以便创造高密度的重复。最近,新的手段也不断出现,它们可以模仿声音传播的物理特性,并提供更真实的效果。

近年来,混响技术不断演进,以此来适应各种媒体载体形式。电影可以使用比较微妙的特效,更注重语言清晰度以及更好地和现场录音相契合,而音乐制作时会使用更多样的创造性方法,从单抽头延迟(tapped delay)到密集的缥缈混响。直到不久之前,电子游戏大部分都还是从经典线性媒体借用混响技术。然而,复杂的空间声相摆位算法,如双耳声和 ambisonics,已经在不断地推动沉浸式体验的前沿,这是其他媒体形式前所未见的。因此,新时代已经来临,我们应该重新思考现有的混响算法,创造新的算法,来更好地针对新媒体形式下互动和沉浸体验的需求。

Screen Shot 2017-02-07 at 2.29.28 PM.png

现实生活中的混响

当一个声音震动从房间内发出时,能量向各个方向穿过不同的媒介传播,比如空气和物体。能量会在周围的材质上反射,并随着它的传播、反弹和散射,最终消失。在整个过程中,能量会自行返回到听者的位置并产生一连串回声,我们把它叫做混响。房间内的材质种类会影响到混响的频率响应。房间的形状,包括墙壁和家具,以及他们的质地,依靠反射、衍射和漫反射决定了回声的方向。这些因素一起,创造出异常丰富和复杂的现象,让听者知晓这一声学空间的形状和性质。

经典人工混响

由于复杂,一般来说模拟这一特效的方式是极大地简化它。在经典人工混响算法中,声音传播的再现是通过这样的方法实现:不断重复原有信号,重复的速率呈数量级增加;并且随时间改变频率响应。声音传播的空间属性在这个过程中完全丧失了。因为混响器的输出对于一组固定的参数来说是静态的,我们能用冲激响应(IR)来表示它。IR 是一种存储、可视化和再现回声密度模式和幅度的方式。随着时间变化,我们可以看到密度脉冲呈数量级增长,而幅度在衰退(见下图)

在多声道系统中,每一个输出声道都有自己的冲激响应。在这个例子中,我们想要的目标不是精确的空间信息提示,而是让从不同扬声器发出的信号不会互相干扰。实际上,在大部分的混响算法中,都认为目标空间是基于漫反射的。这就意味着回声应该比较平均地从各个方向传来。这种简化方式可以追溯到早期的课题研究,研究的目标就是在单声道或立体声扬声器系统上再现音乐厅的声学性质。古典音乐厅的建造目的通常是最大化混响声音的空间漫射。虽然结果各有不同,但这个做法的目标就是让每个座位都能有很好的聆听体验。

 

 behler1.jpg

 http://acoustics.org/pressroom/httpdocs/152nd/behler.html

 

早期反射的重要性

就像之前所说的,大部分混响器的输出行为都是固定不变的。这意味着让同一个声音连通到这些混响器中两次,结果就是输出仍然一样。在现代应用中,这些混响器可以用预延迟之类的参数进行优化调整,但无法扩展到能照顾各个不同位置发出的声音。想象一下,我们必须要为每一个声音设置一个不同的插入效果实例,并且要用实时参控来更改参数;混响实例将很快多到令 CPU 瘫痪。因此,无论声音在房间内何处发出,特效都要保持一样。但是在现实中,从房间中心发出的声音与从接近墙角处发出的声音听起来是不同的。这是声音传播距离不同而花费时间也不同导致的。声音和最初几次反射(叫做早期反射)之间的接近度,这是我们的大脑无意识间用来解读周围环境的重要提示点。因为考虑到即使是声音传播到一只耳朵和另一只耳朵之间的时间差也是双耳声声相摆位的重要提示点,所以动态延迟时间对于任何空间混响都是非常重要的组成部分。

下图展示了一个简单二维房间的早期反射模式。点声源或者听者的任何移动都会改变早期反射路径,也因此会改变它们的相对长度。举例来说明一下这个尺度,在一个 5 x 10 米的小房间(16' x 32’)里,声音大概需要 32.8 毫秒从一个墙角传播到离它最远的墙角,但只需要 14.7 毫秒就可以传播到离它最近的墙角。理想状态下,混响应该能够在每个移动声源和听者的早期反射模式之间进行动态插值。

ImageSource.jpg

从点声源(E)到听者(L)在每堵墙的二维早期反射模式

人工混响的空间限制

下图展示了现实中声学的空间属性。这个声音是在一个简单的起居室录下来的,我们可以看到这个声音没有完全漫反射。这个表示法是通过叫做空间分解法的方式做出的,由阿尔托(Aalto)大学开发。它显示了在某个空间中混响的空间行为。点到中心的距离代表从特定角度传来的声音幅度。颜色表示了不同时间的声能变化。虽然这个例子里的情况比较简单,但这一空间模式在典型的电子游戏场景下就会很快变得复杂起来。比如,站在一个长廊的角落,我们很可能看到从对边传来的一些能量会迟一些。很显然,在开发虚拟世界时,很多我们常见情况下的混响漫反射并没有很好地表现出来。

 

screenshot.png

https://se.mathworks.com/matlabcentral/fileexchange/56663-sdm-toolbox

在虚拟现实中定位反射

经典混响主要是针对单声道或立体声输出而创造的,它忽视了声音传播的实际空间属性,而现如今新的声相摆位算法包含了更为复杂的空间深度。在双耳立体声声相摆位中,声音和听者耳朵间的角度会改变所使用的HRTF滤波器,这个滤波器会用来模拟您头部的形状对于声音的到达时间和频率响应的影响。因此,混响也应该传达出方向感,这个方向感可以适应更复杂的几何构造,也能根据声源和听者的位置改变。

结论

直到不久之前,业内都没有多大动力来将混响算法改进为空间和沉浸式工具。一个可调但静态的输出对常规的线性媒体来说已经够用了。但现在我们既然已经进入了虚拟和混合现实平台的新媒体时代,就需要重新思考这些算法。沉浸式混响的两个主要挑战就是要让它们拥有动态反射时间和空间提示,以便让它们适应不断改变的位置和房间几何构造。在接下来的会议演讲和文章中,我们会进一步深挖新出现的混响算法,来看看我们是如何应对这些挑战的,看看这对于未来空间声音设计又意味着什么。

 

摄影:Bernard Rodrigue - 'Audiokinetic空间音频团队'照片

 

 

本诺 阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托(Aalto)大学

本诺 阿拉里 (Benoit Alary)

研究员、博士生

芬兰阿尔托(Aalto)大学

Benoit Alary是芬兰阿尔托大学信号处理和声学系的研究员和博士生。他专注于沉浸式和空间混响算法的研究。在 2011 年到 2016 年间,Benoit 担任过 Audiokinetic 研发团队的软件开发人员和声学专家。

 @benoita

评论

留下回复

您的电子邮件地址将不会被公布。

更多文章

借助 3D Meter 以视觉形式显示 Ambisonics 信息

Ambisonics 自 2016.1 版本起,Wwise 总线开始支持 Ambisonics 声道格式。Wwise 兼顾编码和解码过程:编码是指在 Ambisonics 总线中将非...

4.9.2018 - 作者:肖恩·索拉汉(SEAN SORAGHAN)

将 Spatial Audio 整合到 Unity 中

展示如何把 Spatial Audio 整合到 Unity 演示游戏《WAG》中的直播视频回放已上线!地址:https://www.youtube.com/watch?v=UFCZ9t4DwGQ...

13.10.2020 - 作者:麦斯·麦雷蒂·桑德鲁普 (Mads Maretty Sønderup)

音频对象如何提高空间精度

这一系列博客文章源自2020年10月在GameSoundCon上发表的演讲。演讲目的是为创作者提供通过使用基于对象的音频渲染技术来完善他们新项目的视角和工具。而该技术能够实现尽可能自然的空间音频体验。...

25.5.2021 - 作者:西蒙.阿什比(Simon Ashby)

Wwise 中针对 Spatial Audio 所作的改进 – 第 2 部分:衍射

Wwise 中针对 Spatial Audio 所作的改进 – 第 1 部分:距离建模和早期反射...

10.6.2021 - 作者:路易斯-扎维尔·布法尼 (Louis-Xavier Buffoni)

Wwise Spatial Audio 2023.1 新增功能 | 对 Aux Send 模型进行的完善

如果各位了解过 Wwise 2023.1 的新增功能,可能会注意到文档中有这么一句话:“对 Aux Send 模型进行的完善”。这个到底是什么意思呢?今天我们就来详细说说。在此,我会简要介绍对...

14.12.2023 - 作者:内森 哈里斯(NATHAN HARRIS)

Audiokinetic Theater 演讲概要|GDC 2024

在 2024 年 GDC 大会上,我们有幸邀请到了众多音频专业人士在 Audiokinetic Theater...

20.11.2024 - 作者:Audiokinetic (音频动能)

更多文章

借助 3D Meter 以视觉形式显示 Ambisonics 信息

Ambisonics 自 2016.1 版本起,Wwise 总线开始支持 Ambisonics 声道格式。Wwise 兼顾编码和解码过程:编码是指在 Ambisonics 总线中将非...

将 Spatial Audio 整合到 Unity 中

展示如何把 Spatial Audio 整合到 Unity 演示游戏《WAG》中的直播视频回放已上线!地址:https://www.youtube.com/watch?v=UFCZ9t4DwGQ...

音频对象如何提高空间精度

这一系列博客文章源自2020年10月在GameSoundCon上发表的演讲。演讲目的是为创作者提供通过使用基于对象的音频渲染技术来完善他们新项目的视角和工具。而该技术能够实现尽可能自然的空间音频体验。...