중간 공간 표현으로서의 앰비소닉(VR용)

공간 음향 / Wwise에 대한 팁과 도구

LOUIS-XAVIER BUFFONI (루이-자비에 뷔포니) | July 02, 2020

오랫동안 ‘앰비소닉’은 특별한 종류의 마이크를 사용하여 환경음을 만들거나 오디오 씬을 녹음하고 공간적인 측면을 포착하는 방법으로 주로 여겨졌습니다.

오늘은 가상현실(VR)을 위한 바이노럴 렌더링을 가능하게 하는 동시에 순수 오브젝트 기반 오디오의 결점을 방지하는 중간 공간 표현(intermediate spatial representation )으로서의 앰비소닉을 대신 보여드리려고 합니다.

바이노럴화를 위한 중간 공간 표현

VR 게임은 머리 전달 함수(Head-Related Transfer Functions, HRTF)라는 위치 의존적 필터를 통해 소리를 전달함으로써 만들어지는 헤드폰용 바이노럴 믹스를 렌더링 해야 합니다. 이 필터는 소리와 머리의 상호작용을 모델링 하며 게임 소리가 실제로 플레이어의 머리 밖에서 들려오고 있다는 느낌을 줄 수 있게 합니다.

올바른 HRTF를 적용하기 위해서는 바이너럴 처리는 음원의 도착 방향을 처리해야 합니다. 이렇게 하기 위한 한 가지 방법은 배치된 각 음원을 독립적으로 필터링하는 것입니다. 그러나 각 음원마다 패닝과 바이노럴 필터링을 적용하는 작업에는 단점이 있습니다 (이 앰비소닉 시리즈의 이전 글을 참조해주세요). 특히 사운드 디자이너가 동적 범위 컴프레션과 같은 오디오 Effect 적용을 위해 사운드 그룹을 서브믹싱하지 못한다는 단점이 있습니다. 이러한 단점을 보완하기 위해서는 패닝 단계를 바이노럴 처리 단계와 분리해야 합니다. 그리고 그 중간에 소리의 공간성에 대한 정보를 어느 정도 전달하는 서브믹스된 오디오 신호 형식이 필요합니다. 우리는 이 형식을 중간 공간 표현(intermediate spatial representation)이라고 부르며, 아래 그림에서 물음표로 표시되어 있습니다.

Screen_Shot_2016-08-01_at_9.41.42_AM.pngFigure 1 – Objects are submixed freely and panned onto a multichannel spatial audio representation which conveys the directional intensity of all its constituents and can also be manipulated by adding, for example, Effects. 그림 1 – 오브젝트가 자유롭게 서브 믹스되어 다채널 공간 오디오 표현으로 패닝 되어 모든 구성 요소의 방향적 강도를 전달하며 Effect와 같은 것을 추가하여 조작할 수도 있습니다.

공간 정보를 전달하기도 하는 HRTF 프로세싱에 이은 바이너럴 신호와 달리 중간 공간 표현은 조작이 가능합니다. 교환과 마스터링이 가능하며 렌더링 환경(스피커 설정 혹은 HRTF 세트)에 다소 종속되지 않습니다.

‘가상 스피커’ 표현

중간 공간을 적합하게 표현할 수 있는 한 방법은 가상 스피커를 사용하는 것입니다. 가상 스피커의 개념은 꽤 간단합니다. 각 채널이 고정되어 있으며 알려진 위치를 가진 가상 스피커를 나타내는 다채널 형식으로 구성되어 있죠. 따라서 사운드가 표준 패닝 법칙을 사용하여 이 다채널 형식으로 패닝되고 믹스되며, 이후 각 채널의 신호가 관련 가상 스피커의 위치에 해당하는 HRTF에 의해 독립적으로 필터링됩니다.

Figure 2 - Virtual loudspeaker representation where each channel is depicted as a virtual loudspeaker around the listener (i.e. the camera in a first-person shooter, the avatar in a third-person shooter). In a VR game, the signal of each virtual loudspeaker is passed through an HRTF corresponding to its position (fixed), for each ear of the headphones mix.

그림 2 - 각 채널이 리스너 주위의 가상 스피커(즉, 1인칭 슈팅 카메라, 3인칭 슈팅 카메라의 아바타)로 묘사되는 가상 확성기 표현. VR 게임에서 각 가상 스피커의 신호는 헤드폰 믹스의 각 귀에 해당하는 (고정된) 위치에 해당하는 HRTF를 통해 전달됩니다.

사실 가상 스피커 표현은 기존의 다채널 신호와 다르지 않습니다. 여기서 차이점은 가상 스피커 표현이 사용되는 맥락입니다. 기존의 5.1 구성으로 믹싱할 경우 사운드가 5.1 버스로 직접 패닝 및 믹싱되며, 이 버스의 각 채널은 물리적 스피커를 구동하는 데에 사용됩니다. 그러나 앰비소닉을 중간 공간 표현으로 사용하는 방법의 경우 출력(두 개)보다 많은 채널을 의도적으로 사용하는 구성으로 패닝합니다. 암시적으로 가상 스피커 내포된 방향 정보는 필터링을 거쳐 바이노럴 신호에 내장됩니다.

Wwise에서는 중간 공간 표현 전용 오디오 버스로 3D 사운드를 라우팅하여 이 방법을 구현할 수 있으며, 이 버스의 상위 계층이 바이노럴 렌더링을 실행하도록 할 수 있습니다. 이 경우 후자는 바이노럴 Effect를, 전자는 마스터링 Effect(원하는 경우)를 가지게 됩니다.

Figure 3 - Using a virtual loudspeaker representation in Wwise, as illustrated in the Project Explorer and Schematic View. Both busses are set to a standard configuration with multiple speakers, such as 7.1.4. Height channels are required in order to represent sound coming from above the listener.

이미지를 확대하려면 여기를 클릭하세요(왼쪽)
이미지를 확대하려면 여기를 클릭하세요(오른쪽)

그림 3 - Wwise에서 가상 스피커 표현을 사용하는 것을Project Explorer 및 Schematic View에서 볼 수 있습니다. 두 버스는 모두 7.1.4와 같이 여러 개의 스피커를 사용하여 표준 구성으로 설정됩니다. 높이 채널은 리스너의 윗쪽에서 오는 소리를 나타내기 위해 필요합니다.

앰비소닉

앰비소닉을 또 다른 중간 공간 표현으로 볼 수도 있습니다. 각 채널은구면 조화 함수(spherical harmonic)이라는 것을 가지며, 모든 채널이 함께 작동하여 음장을 구성합니다. 1차 앰비소닉은 W, X, Y, Z(FuMa 구성에서)의 4 채널로 구성됩니다. W는 옴니 채널이라고 불리며, 방향에 종속적이지 않은 신호를 전달합니다. X, Y, Z는 세 가지 주요 축(전-후, 좌-우, 상-하)으로 방향 종속적 오디오를 전달합니다.

높은 순차의 앰비소닉 (High-order Ambonisonics, HOA)는 설명하기 좀 더 까다롭지만 공간의 정확도를 향상시키는 추가 데이터를 동반한다고 해석할 수 있습니다. 2차와 3차 앰비소닉은 각각 9 채널과 16 채널로 구성되어 있기 때문에 더 정확하죠.

Figure 4 - Point source represented with 1st order ambisonics (left), 3rd order ambisonics (right). Color warmth is proportional to signal energy.

그림 4 - 1차 앰비소닉(왼쪽)과 3차 앰비소닉(오른쪽)으로 표시된 점원(point source). 색의 온도는 신호 에너지에 비례합니다.

앰비소닉 용어에서 앰비소닉으로 패닝하기란 인코딩을 말하며 앰비소닉을 바이노럴 구성 혹은 스피커 신호로 변환하기란 디코딩을 말합니다.

7.1.4 설정과 같은 일반적인 가상 스피커 표현과는 달리 앰비소닉은 모든 방향에서 대칭적이고 규칙적이며 리스너 아래에서 나오는 음원을 나타낼 수 있습니다. 그러나 동일한 수의 채널을 가진 가상 스피커 표현보다는 더 흐릿합니다. 앰비소닉은 확산이 일정하게 표현되며 가상원이 스피커에 정확히 떨어질 때 스피커로 패닝되는 진폭이 더 정확할 수 있지만 주변 스피커 3개의 중앙에 정확히 떨어지는 경우에는 그렇지 않을 수도 있습니다.

Wwise v2016.1에서 중간 공간 표현으로 앰비소닉을 구현하는 것은 가상 스피커 방식만큼이나 쉽습니다. 버스를 앰비소닉 구성으로 설정하기만 하면 되죠. 차수가 높을수록 공간 의 정확도가 더욱 높아집니다.

Figure 5 - Using an ambisonic intermediate spatial representation in Wwise, as illustrated in the Project Explorer and Schematic View. Both busses are set to an ambisonic configuration. Higher orders are recommended in order to obtain satisfying spatial precision.

이미지를 확대하려면 여기를 클릭하세요(왼쪽)
이미지를 확대하려면 여기를 클릭하세요(오른쪽)

그림 5 - Wwise에서 앰비소닉 중간 공간 표현을 사용하는 것을Project Explorer 및 Schematic View에서 볼 수 있습니다. 두 버스 모두 앰비소닉 구성으로 설정되었으며, 공간의 정확도를 높이기 위해서는 높은 차수를 사용하는 것이 좋습니다.

현재 일부 VR 판매사는 이미 앰비소닉 신호를 지원하며 바이노럴 가상화를 실행하는 SDK를 제공하고 있습니다. SDK가 제공됨에 따라 Wwise가 이러한 VR 장치에 앰비소닉을 직접 공급할 수 있게 됩니다. 그렇지 않을 경우Wwise와 함께 배포된 Auro Headphone과 같이 여러분이 선호하는 3D 오디오 플러그인을 사용하여 앰비소닉을 디코딩하고 바이노럴로 변환할 수 있습니다.

마지막으로, 작업 과정에서앰비소닉을 사용하여 중간 공간 표현을 통합함으로써 얻을 수 있는 또 다른 이점은 바로 이 기능이 교환 포맷의 역할을 할 수 있다는 것입니다.

VR이 아닌 곳에서도 사용할 수 있는 앰비소닉

저희는 최근에 iX Symposium동안 SAT dome 에서 같은 작업 과정을 사용해봤습니다. 앰비소닉 버스를 바이노럴 신호로 디코딩하는 대신Wwise 기본 알고리즘을 사용하여 31개의 스피커로 구성된 돔 모양의 실제 스피커 구성으로 디코딩했습니다.

저희는 관객들과 함께 다음 세 가지의 다른 공간화 전략을 사용하여 머리 위로 지나가는 헬리콥터의 소리가 서로 어떻게 다른지 비교하는 흥미로운 실험을 해봤습니다.

31개의 스피커로 직접 패닝
3차 앰비소닉으로 인코딩한 다음 31개의 스피커로 디코딩
1차 앰비소닉으로 인코딩한 다음 31개의 스피커로 디코딩

1차 앰비소닉의 사용했을 경우 상당히 ‘광범위한’ 이미지를 얻었지만 대부분의 관객들은 3차 앰비소닉이 정확도 면에서 직접적 패닝 방식과 매우 유사하다고 느꼈습니다.

다음 공간 음향 블로그 시리즈에서는 앰비소닉 파이프라인을 어떻게 영화적 VR에 사용할 수 있는지 알아보겠습니다. 앰비소닉 파이프라인의 더 많은 장점과 다양한 사용법을 알아볼 수 있는 다음 글을 기대해주세요.

LOUIS-XAVIER BUFFONI (루이-자비에 뷔포니)

R&D 디렉터

Audiokinetic(오디오키네틱)

LOUIS-XAVIER BUFFONI (루이-자비에 뷔포니)

R&D 디렉터

Audiokinetic(오디오키네틱)

루이 재비에는 Audiokinetic의 연구팀을 이끌고 있으며 공간 음향, 사운드 합성, 오디오 코딩, 기계 학습을 집중적으로 연구해왔습니다.

댓글 달기

이메일 주소는 공개되지 않습니다.

다른 글

Hitman 2: 최신 CPU에서 잔향(Reverb) 향상시키기

6 코어와 8 코어 CPU의 대중화는 아직 손대지 않은 여유 처리 능력을 게임에 사용할 수 있게 된다는 것을 의미하며, 그 중 일부를 플레이어의 오디오 환경을 향상시키는 데 사용할...

5.8.2020 - 작성자: 스테판 보예프 (STEPAN BOEV)

Wwise에서 Audio Object 저작하기

미래... 미래란 항상 멀리 있고, 절대 지금으로 앞당길 수 없지만, 항상 손안에 잡힐 듯 말 듯 하지 않나요? 최신 뉴스를 꿰뚫고 있거나, 좋아하는 드라마를 바로바로 챙겨...

7.7.2021 - 작성자: 데미안 캐스트바우어 (Damian Kastbauer)

atmoky Ears | Wwise를 위한 초현실적 공간 음향 플러그인

atmoky Ears는 헤드폰에서 초현실적 공간 음향 경험을 렌더링할 수 있도록 해주는 종합 솔루션입니다. 모든 공간 음향 믹스를 최대한 활용하면서 지각적 품질과 효율성의 최고의...

25.1.2022 - 작성자: 마커스 잔취름(Markus Zaunschirm)

WAQL 2.0

Wwise Authoring Query Language (WAQL, 와클) 첫 번째 버전이 출시된 지 벌써 몇 년이 지났습니다. 첫 버전 이후 크게 변경된 점은 없습니다. 가장...

10.8.2023 - 작성자: 베르나르 로드리그 (Bernard Rodrigue)

Wwise 2024.1 새로운 기능

Wwise 2024.1이 출시되었으며 Audiokinetic 런처를 통해 다운받으실 수 있습니다. 이 버전이 제공하는 새로운 기능을 간략하게 소개해드리려고...

8.11.2024 - 작성자: Audiokinetic (오디오키네틱)

ReadSpeaker와 Audiokinetic이 함께 만든 speechEngine for Wwise를 소개합니다: 런타임 장치 내 텍스트 음성 변환(TTS)

Audiokinetic과 ReadSpeaker의 협력으로 speechEngine을 Wwise 파이프라인에 긴밀하게 통합하여, 개발자가 장치 내(On-Device) 텍스트 음성...

22.5.2025 - 작성자: ReadSpeaker

이곳은 40,000명 이상의 음향 전문가들이 상호작용 오디오 관련 아이디어와 최신 소식 등을 공유하는 곳입니다.

중간 공간 표현으로서의 앰비소닉(VR용)

공간 음향 / Wwise에 대한 팁과 도구

LOUIS-XAVIER BUFFONI (루이-자비에 뷔포니) | July 02, 2020

바이노럴화를 위한 중간 공간 표현

‘가상 스피커’ 표현

앰비소닉

VR이 아닌 곳에서도 사용할 수 있는 앰비소닉

LOUIS-XAVIER BUFFONI (루이-자비에 뷔포니)

R&D 디렉터

Audiokinetic(오디오키네틱)

LOUIS-XAVIER BUFFONI (루이-자비에 뷔포니)

R&D 디렉터

Audiokinetic(오디오키네틱)

댓글

댓글 달기

이메일 주소는 공개되지 않습니다.

다른 글

Hitman 2: 최신 CPU에서 잔향(Reverb) 향상시키기

Wwise에서 Audio Object 저작하기

atmoky Ears | Wwise를 위한 초현실적 공간 음향 플러그인

WAQL 2.0

Wwise 2024.1 새로운 기능

ReadSpeaker와 Audiokinetic이 함께 만든 speechEngine for Wwise를 소개합니다: 런타임 장치 내 텍스트 음성 변환(TTS)

다른 글

Hitman 2: 최신 CPU에서 잔향(Reverb) 향상시키기

Wwise에서 Audio Object 저작하기

atmoky Ears | Wwise를 위한 초현실적 공간 음향 플러그인