电子游戏的制作质量在过去几十年间一直在稳步提升,音频部分也是如此。这一点在很大程度上是因为工具和技术的改进。在本文中,我们会看看是什么让游戏音频不同于传统媒介,目前工作流程的最新发展水平,以及其与新现实(互动或其它现实)的关系。
线性音频制作流程
首先,我们来看看在线性体验比如电影电视中的音频内容是如何制作的。艺术家会对照参考视频来工作,制作出相应的音轨。其中包括几项内容:音乐作曲、音乐编辑、foley(拟音)编辑、对话编辑以及混音。这些相关领域的艺术家和专家们有幸能用一种工具来完成这些工作,叫Digital Audio Workstation(数字音频工作站)。用最精细的配料一层叠上一层,制作好,调谐好,并经由专家之手混音,完美契合视频,从而支持并提升整体的体验。
线性音频制作
在理想状态下,我们可以说艺术家能基于完美的参照物——视觉部分和展现给受众的体验完全一样——来创造音频内容,并且对最终的体验有完整的控制权:从DAW导出的内容就是要回放的内容。
线性回放。包含同步音画的35mm 胶片。Lauste系统,约1912年。
互动音频制作流程
到了互动音频制作上,事情发生了一个根本的变化:没有完整线性的视频用作参照。游戏是互动的,互动性意味着事件的时间线不是预设的,而是根据玩家的行动产生。所以,取代线性参照的是创意、概念和小段动画:也就是碎片形式的体验,这些碎片会在玩家玩游戏时合并到一起。
音频部门需要制作的是多个独立的音频素材:从DAW中导出的各个WAV文件。
游戏音频制作
游戏团队将音频素材集成到游戏内,游戏引擎根据代码或游戏编辑器定义的空间音频规则和参数来驱动回放。
游戏音频回放
在这里,音频艺术家在流程中的参与度经常就会下降甚至消失了。他们会在不知道最终体验的背景下创造素材。整个音景的各个方面都会受打击;最明显的就是混音可能完全不平衡,音乐只能是“背景音乐”而不是真正的叙事元素。
游戏音频制作流程——使用专用工具
“实现占了整个创意流程的一半”——马克.吉尔伯恩(Mark Kilborn)(《使命召唤》)
为了让艺术家们能根据回放的背景定义音频应该如何响应,游戏音频业界就出现了让艺术家参与到实现阶段的需求,也催生了对专用互动音频制作工具的需求。游戏音频的先驱者们当时几乎找不到可以用于这个目的的现成软件工具。音频编程环境,如Max/MSP和Supercollider,提供了必要的可编程能力,但对 DAW 用户来说却是非常陌生的领域,而且它们并不适用于游戏素材制作的生产规模。
游戏音频中间件就这样出现了。从早期程序员直接参与到声音设计中,行业慢慢形成了实践经验,围绕着这些经验总结,对艺术家用户友好的工具集也问世了。
游戏音频中间件是音频制作的又一步,位于 DAW 和游戏引擎之间。它的主要想法是艺术家使用 DAW 来处理音频中的纯线性部分,然后转移到另一个设计环境中,在那里可以制作完整、智能化的音频结构:素材和行为的结合。
如果要解释它包含的所有功能,那就会超出本文范围了,所以我们就专注于互动音乐工具集来看看构建互动音频结构需要什么。
互动音乐工具集
来自音轨的各个独立片段会从DAW导出,并在Wwise Interactive Music Hierarchy中作为音轨上的片段导入。
Wwise音乐段落编辑器
游戏参数可以绑定到混音的电平,
Wwise游戏参数坐标图
游戏状态可以作为音乐switch container的一部分,绑定到选中的音乐片段。
Wwise音乐切换开关关联编辑器
而且指定的玩法元素可以触发称作 Stingers 的音乐叠加。更精细的段落划分可用来产生更互动的结构,并针对游戏模拟行为作出更精确的响应。
迭代是达到完美的关键。就像 DAW 让作曲家能迅速调整音乐的各部分并即时听到结果一样,互动音乐的作曲也需要能不断调整与游戏的绑定方式,直到达到想要的行为为止。Wwise既提供了手动模拟游戏要素的能力,
Wwise soundcaster
又能够连接到实际运行中的游戏并检查结构实时响应的情况并作出变更。
Wwise互动音乐性能分析器
针对VR叙事的应用
对我们来说毫无疑问,所有这些都能直接应用到VR游戏中 ,但如果是更为线性的叙事性体验呢? 当然也可以!为了演示这一点,我们来探索一下体验中最为线性的 一种:360度视频。
从普通视频到360度视频的过渡为观众带来了一个维度上的自由:观看点的旋转。随着观众的头部转动,显示器中的图像也会移动到新的角度,而且,音频也很自然地要至少做到这一点。这也成为了360度音视频的底线标准,ambisonic声场也成为了对视频做出补充的音频部分。
我们可以更进一步承认音频中的有些部分并不是世界中实际的部分(非剧情声),所以它们也不应该进行空间化,而应该简单地作为立体声流播放,直接对耳机回放。此外,可以实现一种“听者声锥”,以便在混音中突出目前位于观众前方的声音。一个例子就是FB360空间化音频工作站的聚焦特效。
旋转和空间化之间如此纯粹的绑定是非常真实和准确的(虽然聚焦的引入并不准确真实),但这种绑定没给艺术方向的探索留下太多空间!在传统视频中,声音部门往往会绕过真实感以便传达正确的印象,激发听众正确的情感。对于游戏,我们需要引入艺术家定义的回放时行为。
那么对360度视频而言我们建议的构建音景的方式是什么呢?它包含创作跟之前提过一样的互动音频结构,以及使用视频中的观察视角和参数的结合来向音频回放提供信息(而不是来自游戏引擎的模拟数据)。音乐是音景中第一个从该方法受益的元素。一个例子就是,主旋律产生的效力大小是与其相对于关键角色出现在可视范围内的时机紧密联系的。这一点除非能互动地控制音乐,否则就做不到。
另一个元素就是音频混音本身。比如,你可以想象自己站在海滩看着海浪,然后转过头去看另一边的城市。电影导演基本肯定会要求根据镜头聚焦的位置来使用强烈对比的混音,而光使用空间渲染的话顶多只会影响到各个元素的位置而已。
最后,很简单就能看出这个自由度已经需要我们去认真考虑成熟的互动音频方法了。当游戏引擎用于渲染体验时,这也是自然而然的选择,但我觉得这些技术中至少有一些会用在订阅频道的360度视频上;要达到听者所期待的体验档次的话,这些技术是必备的。这也是一种有趣的回归,就像早年间默片时期用实时即兴表演来匹配电影中的画面一样。
本文是作为《New Realities in Audio(音频中的新现实)》这本书的一部分创作的。
New Realities in Audio
A Practical Guide for VR, AR, MR & 360 Video(VR、AR、MR & 360度视频的实用指南)
作者:史蒂芬.舒茨(Stephan Schütze),安娜.欧文-舒茨(Anna Irwin-Schütze)
评论