Les réponses impulsionnelles sont connues comme la référence pour reproduire de manière ultra-réaliste des pièces réelles. Enregistrer des réponses impulsionnelles est un procédé quelque peu technique et nécessite un équipement haut de gamme pour obtenir la meilleure qualité. Créer des réponses impulsionnelles d'environnements extérieurs offrant de bonnes qualités de spatialisation est encore un autre défi. Mais nous, les concepteurs sonores, nous le savons tous : placer un émetteur sonore dans un environnement extérieur d'une manière acoustiquement crédible et immersive est un défi vraiment difficile à relever.
Qu'est-ce qu'une réponse impulsionnelle ?
Pour simplifier, on utilise une réponse impulsionnelle comme substitut d'une réverbération naturelle. Plus techniquement, il s'agit d'une mesure de la façon dont un système ou un espace réagit à un son très court ou à un pic de Dirac, soit une impulsion directe qui peut ensuite être utilisée dans un plug-in de réverbération à convolution pour recréer les caractéristiques acoustiques d'un lieu.
Il existe deux autres techniques qui nécessitent un peu plus de calcul pour créer une réponse impulsionnelle réelle : enregistrer une séquence de bruit - vous avez peut-être déjà entendu quelque chose de ce genre lorsqu'un appareil (qu'il s'agisse d'un équipement de studio professionnel, d'une chaîne hi-fi grand public ou même d'une console de jeu) mesure une pièce pour optimiser le son des haut-parleurs ou être en mesure de localiser une source sonore, autrement dit le joueur (Microsoft Kinect), dans une pièce donnée.
La troisième option, probablement la plus connue de l'industrie musicale et audio professionnelle, consiste à enregistrer un sweep qui (idéalement) couvre toutes les fréquences de manière uniforme dans le temps.
L'enregistrement d'une impulsion est la méthode la plus facile à utiliser, car cette dernière peut être employée immédiatement comme réponse impulsionnelle - ce qu'elle est, après tout. Les deux autres méthodes nécessitent une certaine ingénierie pour en tirer une réponse impulsionnelle.
Quels sont les avantages ? Quels sont les inconvénients ?
Les réponses impulsionnelles reflètent la pièce réelle (à l'exception des erreurs de mesure ou des colorations dues à l'équipement utilisé, qu'il s'agisse d'appareils de lecture ou d'enregistrement). Elles sont ultra réalistes, comme une photographie.
Et c'est là leur inconvénient : il est possible qu'un objet en 3D ne soit pas aussi réaliste, aussi beau, ni aussi coloré qu'une photographie. En revanche, vous pouvez y modifier ce que vous voulez : vous pouvez l'étirer, en modifier les couleurs, ou en interchanger des parties. Les réponses impulsionnelles, elles, sont limitées. Bien sûr, il y a certaines choses que vous pouvez faire, comme une correction des couleurs (EQ), des changements dans la dynamique, des changements de durée et de hauteur. Mais les réverbérations algorithmiques offrent bien plus de flexibilité que cela. Cependant, elles ne sont jamais aussi réalistes, aussi crédibles. En fin de compte, le choix entre la réverbération algorithmique et les réponses impulsionnelles dépend de l'histoire que vous voulez raconter, de la manière dont vous voulez attirer le joueur dans un monde virtuel, et si la flexibilité et la créativité sont plus importantes que la vraisemblance et le réalisme dans le style du jeu / de la production.
Les grands espaces
Dans les jeux vidéo, on travaille généralement avec des sons enregistrés en studio ou avec des informations d'espace sonore relativement génériques, de manière à pouvoir les placer dans différents environnements après enregistrement. Souvent, il y a tout simplement trop de lieux dans un jeu pour pouvoir sortir et enregistrer tous les sons dans chaque lieu concerné (ou dans un environnement similaire). Il faut ensuite appliquer une réverbération qui imite les échos sonores naturels du lieu où se trouve la scène. Si vous n'avez pas la bonne réverbération, il sera bien trop flagrant que les enregistrements proviennent d'un studio ou d'un lieu différent de celui où se déroule la scène en cours.
Normalement, cela se fait en créant une réponse impulsionnelle. Vous vous rendez à l'endroit voulu, produisez un son à fort volume (l'impulsion, le bruit ou le sweep) et en enregistrez les effets (la réponse). Prenez ensuite cette réponse impulsionnelle et convoluez-la avec un signal audio ; c'est-à-dire en la chargeant dans votre plug-in de réverbération à convolution. Bingo, votre son sonne désormais comme s'il avait été enregistré sur place (bien sûr, cela est plus facile en théorie qu'en pratique).
Dans certains lieux, il est extrêmement difficile, voire impossible, d'appliquer cette méthode. Si l'endroit est trop grand, il faudrait un son extrêmement fort pour obtenir un rapport signal/bruit pertinent. S'il s'agit de zones constamment fréquentées, comme des places publiques, il y a tout simplement trop d'interférences. S'il s'agit d'une zone difficile d'accès, il se peut que vous ne puissiez pas y acheminer tout le matériel nécessaire. S'il s'agit d'une zone à accès restreint, il peut être difficile d'obtenir l'autorisation d'y enregistrer du signal audio. Pour notre bibliothèque « Fields and Spaces - Outdoor Impulse Response », nous avons trouvé un moyen de reproduire ces lieux et de les capturer avec toutes les informations spatiales, jusqu'au format ambisonique de 3e ordre, avec un bruit de fond presque nul pour une dynamique très élevée.
Spatialisation
Enregistrer une réponse impulsionnelle en mono est une chose simple. Vous avez besoin d'une source sonore (un haut-parleur) et d'un récepteur (un microphone). Vous les placez ensuite dans un endroit agréable de la pièce et vous capturez l'impulsion.
Enregistrer en stéréo est à peu près la même chose : vous placez un haut-parleur dans une pièce, mais vous le capturez avec deux microphones, dans une belle configuration stéréo de votre choix. Et voilà.
Avec le format surround, on commence à se poser des questions artistiques intéressantes : voulez-vous que la source sonore se trouve à l'intérieur du champ surround, afin de pouvoir capturer une image surround assez uniformément répartie ? Ou voulez-vous placer la source sonore à l'extérieur, ce qui, dans ce cas, crée une sensation de directionnalité, non seulement par la directivité, mais aussi par les délais entre les capsules des microphones (ou ensuite les haut-parleurs de lecture) ?
En ambisonique, cette question devient un peu obsolète, car les microphones ambisoniques sont coïncidents, et vous ne pouvez donc rien placer « à l'intérieur » du dispositif, puisque toutes les capsules sont exactement au même endroit (encore une fois, en théorie). La source sonore sera donc nécessairement à l'extérieur.
Question ouverte concernant la spatialisation
C'est là que les choses se compliquent. Il existe ce que l'on appelle la « vraie stéréo ». Cela signifie que, dans une pièce, vous n'enregistrez pas une source sonore avec deux microphones (une configuration stéréo). Si vous placez la source sonore à un endroit différent de la pièce, la réverbération sera différente même si le microphone reste au même endroit. Si vous placez la source sonore plus à gauche, les réflexions d'un mur imaginaire situé à gauche atteignent soudainement le microphone plus tôt que les réflexions du mur sur la droite (et avec elles toute une série d'autres échos en décalé). Le signal direct sonne également différemment, de manière plus ou moins évidente selon la configuration stéréo utilisée. Avec la vraie stéréo, vous vous rapprochez un peu plus de la réalité : vous enregistrez non pas un point de source sonore, mais deux. Imaginez un orchestre dans une salle de concert : la basse à l'extrême droite peut maintenant bénéficier d'une réverbération différente de celle des violons à l'extrême gauche. Et vous pouvez faire un mixage des deux IRs stéréo pour tout ce qui se trouve entre l'extrême gauche et l'extrême droite.
Évidemment, les choses se comportent de manière bien différente dans la réalité, mais cela s'en rapproche et permet d'obtenir une image stéréo beaucoup plus convaincante, plus large et plus « compréhensible » pour un être humain. L'inconvénient est qu'elle nécessite deux fois plus de calculs pendant la lecture, et qu'elle est donc deux fois plus coûteuse pour le CPU. Vous avez en réalité deux réponses impulsionnelles stéréo différentes en cours de lecture = 4 canaux de réverbération.
Surround : ouf, et maintenant ? Si l'on pense de nouveau à notre « orchestre », cela peut passer - il suffit de faire de la vraie stéréo, mais en surround : en capturant deux points différents dans la zone avant. Mais cela ne fonctionne que dans cette situation. S'il s'agit d'effets sonores qui peuvent se produire devant l'auditeur, mais aussi sur les côtés ou à l'arrière, les choses se compliquent. Pour obtenir quelque chose de similaire à de la vraie stéréo, vous devez enregistrer une réponse impulsionnelle dédiée pour chaque haut-parleur d'un système 5.1 (un petit dispositif). Supposons que nous épargnions le LFE et le canal du Centre et que nous ne prenions que l'avant et l'arrière : au lieu de quatre canaux de réverbération surround, vous avez soudain 4 x 4 = 16 canaux de réverbération - une tâche très lourde pour le CPU.
Ambisonique : il n'est peut-être pas nécessaire de créer une IR par capsule, mais plus vous enregistrerez de sources sonores, plus la résolution spatiale sera élevée. Et vous aurez besoin, au minimum, des coins d'un cube pour capturer l'équivalent en 360° d'une vraie stéréo par rapport à une stéréo simple. Ce qui rend les choses encore plus compliquées : vous avez maintenant besoin de 4 pistes (ambisonique de 1er ordre) x 8 emplacements de sources sonores = 32 canaux de réverbération. A moins que votre jeu n'utilise la réverbération comme caractéristique principale, cela sera bien trop lourd pour l'exécution d'un jeu. Et il ne s'agit là que de l'ambisonique de premier ordre. Si l'on parle d'ambisonique d'ordre supérieur, disons d'ambisonique de 3e ordre, vous aurez besoin de 128 canaux, mais uniquement si vous n'utilisez « que » les huit emplacements (les coins du cube) pour la source sonore, ce qui, pour de l'ambisonique de 3e ordre, crée beaucoup d'espace vide sans information.
Solutions
En fin de compte, les IRs semblent donc trop compliquées et trop lourdes pour les jeux vidéo - mais toutes ces questions concernant la réverbération spatialisée ne se limitent pas aux réponses impulsionnelles, les mêmes principes s'appliquent à la réverbération algorithmique spatialisée.
Et maintenant ? Tout d'abord, le « principe de vraie stéréo » ne doit pas nécessairement être traduit en surround. Il s'agit plutôt d'un élément à prendre en compte, à garder à l'esprit afin de trouver les bons endroits dans les environnements 3D pour placer et utiliser la réverbération. Deuxièmement, certains éléments d'une réverbération représentent beaucoup mieux l'environnement, et d'autres beaucoup mieux la position de la source sonore ; autrement dit, la queue de la réverbération par rapport aux premières réflexions.
Avec nos plug-ins de réponse impulsionnelle « Rooms and Spaces », et maintenant « Fields and Spaces » comme variante pour les environnements extérieurs, nous nous sommes énormément concentrés sur la capture de la queue de réverbération et d'une réponse impulsionnelle diffuse, en essayant d'éviter les premières réflexions. Celles-ci sont assez faciles à calculer car la quantité d'échos est beaucoup plus faible et se produit dans un laps de temps plus court. L'utilisation, par exemple, du plug-in Reflect d'Audiokinetic permet exactement de faire cela : il permet de créer des premières réflexions basées sur des objets 3D réels / des obstacles sonores dans un jeu. L'ajout d'une réverbération à convolution pour la queue de réverbération permet de créer une réverbération immersive, flexible et avec de la profondeur, offrant une grande spatialisation des sources sonores, même lorsqu'elles sont en mouvement lors de l'exécution du jeu.
Commentaires