Depuis les premières bribes de dialogues dans les jeux vidéo des années 80, les développeurs ont dû relever le défi d'intégrer des sons capables d’évoquer le langage, les émotions humaines et la performance dans les médias interactifs non linéaires.
Tout comme les compositeurs étaient censés gérer la conception sonore des jeux sur lesquels ils travaillaient, les concepteurs sonores étaient chargés des dialogues. Cette tâche, perçue comme un cadeau empoisonné ou un rite de passage, était souvent confiée aux membres les plus jeunes de l'équipe !
Toutefois, cette situation a évolué au fil des ans grâce à la profession de Conception de Voix (aussi appelée « Conception VO », « Conception de Dialogues », « Voice Design » ou « Speech Design »), devenant lentement une spécialité établie en audio de jeux vidéo. Plus récemment, cette évolution s'est accélérée, de nombreuses équipes audio de jeux AAA ayant considérablement renforcé leurs équipes de concepteurs de dialogues, ou les constituant de toutes pièces avec de nouvelles recrues.
La voix comme outil créatif
Nous sommes tous, sans le savoir, des experts de la voix humaine et percevons instinctivement quand quelque chose sonne faux, comme par exemple : quand une réplique se déclenche trop tôt ou trop tard, quand une réaction semble inadaptée à la situation, quand le langage utilisé est maladroit, ou encore lors d'un changement peu naturel d'humeur chez un personnage. Pourtant, cette sensibilité innée à la voix représente aussi une formidable source d'opportunités créatives.
À elle seule, la voix transmet une énorme quantité d'informations, bien au-delà des mots mêmes du discours. De nombreux aspects de la voix humaine, tels que le timbre, le registre, la prosodie, l'accent, l'idiolecte, les schémas d'élocution, les maniérismes, ou encore les affectations et disfluences verbales peuvent en dire long sur l'identité d'un personnage, ses ambitions, ses peurs, et même sur le monde dans lequel il évolue.
Plus généralement, la voix est, par essence, l’élément le plus humain de l’environnement sonore d'un projet et, sans elle, le monde serait bien morne et solitaire. Lorsqu’on superpose la richesse des voix qui animent l’activité humaine, un lieu peut rapidement acquérir une identité vocale propre. Ainsi, la voix contribue à la construction du monde d'une manière unique, comme d'autres sons ne peuvent le faire.
Le rythme auquel ces informations sont transmises au joueur peut inspirer un sentiment de soulagement et de sécurité à l’entrée d’un havre de paix, provoquer l’effroi et la désorientation dans une ville inconnue, ou encore souligner le danger d’un champ de bataille. La voix humaine est un outil puissant et profondément psychologique. Bien utilisée, elle peut influencer et guider les émotions du joueur d’une manière que les compositeurs ne peuvent que rêver.
Dans les coulisses de l'enregistrement du jeu Tom Clancy's The Division 2
Un spécialiste au cœur du jeu
Les développeurs dépensent des millions pour les voix et les dialogues, faisant appel à de vastes armées de sous-traitants pour donner vie à leurs ambitions. Il s'agit souvent de directeurs de voix et de casting, d'acteurs de doublage, d'interprètes de walla, de preneurs de son, d'éditeurs de dialogues, de chefs de projet, de spécialistes de la localisation, de traducteurs, de spécialistes en assurance qualité pour la localisation, et de bien d'autres encore. Orchestrer tout cela est déjà un défi, mais comme la production et l'implémentation dépendent de presque tous les autres départements de l'équipe de développement interne, une conception de dialogues de haute qualité est impossible sans les connaissances et l'expérience d'un expert.
Pour y parvenir efficacement, nous avons besoin d'un rôle de concepteur audio qui offre une supervision spécialisée, créative, technique et de production. Agissant en tant que lien entre l'équipe de développement et nos partenaires externes, nous équilibrons habilement les besoins parfois contradictoires de la narration et du gameplay, mais nous comprenons également de manière critique comment utiliser la voix de manière créative.
La voix est l'élément qui, dans tout projet, peut le plus rapidement faire sonner votre jeu comme vieillot ou de mauvaise qualité. Elle est essentielle au maintien de l'immersion, mais est aussi prompte à la briser si l'on n'y fait pas attention. Nous l'utilisons au maximum de son potentiel et veillons à ce qu'elle n'abuse pas des oreilles du joueur !
Nous portons de nombreux noms différents tels que superviseurs de dialogues, concepteurs VO, coordinateurs de dialogues, entre autres ; concepteurs de voix et concepteurs de dialogues étant les plus courants. Bien que les titres des postes puissent différer et que les responsabilités varient, notre travail va bien au-delà de l'enregistrement et de l'édition, qui sont généralement confiés à des sous-traitants. Il englobe un large éventail de connaissances et d'expériences spécialisées qu'il faudrait une vie entière pour maîtriser :
- Planification et délimitation des objectifs (scoping)
- Prévisualisations et prototypage
- Interjections dynamiques (barks ou « aboiements ») et conception de systèmes
- Systèmes de vocalisations et de respirations
- Systèmes de foule/Walla et voix environnementales
- Conception du pipeline (VO, cinématiques, Walla)
- Gestion de bases de données
- Coordination et collaboration des sous-traitants
- Langues artificielles
- Castings
- Vérification du scénario et préparation de sessions
- Enregistrement et ingénierie sonore
- Capture de performance
- Direction vocale
- Rédaction des dialogues
- Travail linéaire et en cinématiques
- Traitement vocal (traitement des effets pré-rendus pour les créatures/robots/etc.)
- Mastering (EQ, ajustement du volume, nettoyage des sibilantes, compression, respect des cibles d'intensité sonore et traitement stylistique plus large)
- Effets durant l'exécution du jeu (traitement des effets en temps réel dans un intergiciel tel que Wwise)
- Conception de tout SFX associé (par exemple : grésillements ou interférences radio)
- Travail du timing et du rythme de la voix
- Gestion des dialogues (délais entre chaque dialogue, comportements de lecture en fonction de l'état du jeu, logique d'interruption, de file d'attente et de priorité)
- Soutien à la localisation
- Pré-mixage et mixage
Tout cela place notre discipline au cœur du processus de développement, dès la préproduction et pendant tout le cycle de vie du projet. Même lorsqu'aucun enregistrement n'est prévu, il y a toujours beaucoup de travail à faire !
Collaboration créative
En tant qu'outil de communication important, situé entre audio et personnalité, la conception de voix offre un grand potentiel de collaboration et de créativité, qu'il s'agisse de travailler avec l'équipe des cinématiques pour gérer les complexités des pipelines de capture de performance, ou de soutenir les équipes de localisation pour s'assurer qu'elles obtiennent les arrangements nécessaires pour effectuer un travail de qualité. La multitude de départements et de sous-traitants avec lesquels nous travaillons fait que la communication, la collaboration et l'empathie sont des compétences essentielles pour ce rôle très social.
La conception des jeux s'appuie fortement sur la voix pour communiquer les mécaniques, transmettre les menaces et fournir un retour d'information au joueur. Une grande partie de notre rôle consiste à les aider à réaliser cela avec finesse afin de ne pas rompre l'immersion du joueur. Pour ce faire, nous devons travailler en étroite collaboration avec les équipes chargées du gameplay, de l'IA, de la conception des niveaux et de l'animation, entre autres, afin de trouver des solutions créatives. À mon avis, c'est l'un des aspects les plus intéressants du développement de jeux vidéo : travailler sur nos problèmes communs avec des experts talentueux d'autres disciplines et trouver des compromis lorsque nous sommes en désaccord - c'est un sport d'équipe !
C'est particulièrement vrai pour la conception narrative, car c'est ce partenariat créatif qui est à l'origine de notre objectif principal : les dialogues ! En tant que porte-paroles responsables de la narration au sein de l'équipe audio, nous les aidons à naviguer dans le processus ardu consistant à donner vie à leurs créations, et dont le point culminant se situe dans le studio d'enregistrement. Ensemble, nous partageons la joie de travailler avec les acteurs et les directeurs de voix pour rassembler les fragments du récit et donner vie à nos personnages. Lorsque nous sommes dans un environnement ouvert et collaboratif et avec beaucoup de temps pour jouer et explorer, les performances qui en résultent peuvent nous surprendre d'une manière que notre imagination n'aurait pas pu concevoir.
Enregistrement collectif pour Les Chevaliers de Baphomet : La Malédiction du serpent.
Cependant, créer une atmosphère sécuritaire, rassurante et décontractée pour que cette créativité se manifeste (où réalisateurs et acteurs comprennent le projet, le monde, le personnage et le contexte), tout en restant sur la bonne voie et en respectant le budget, ne peut pas se faire par hasard. Pour que les sessions d'enregistrement semblent se dérouler sans effort, il faut une préparation et une planification méticuleuses ; tout cela est soigneusement préparé.
Le « design » au cœur de la conception de voix
Si vous voulez faire de la conception sonore pour une arme à feu, vous ne pouvez pas vous contenter d'enregistrer quelques coups de feu, de créer quelques éléments, de les insérer dans le jeu et de vous attendre à ce qu'ils fonctionnent parfaitement du premier coup. C'est la même chose lorsqu'il s'agit de travailler la voix ; qu'il s'agisse de sessions, de systèmes, de pipelines, de fonctionnalités, de castings ou de traitements audio, il faut avoir une réflexion, réfléchir à la conception, et faire des itérations approfondies.
Le contexte est roi, et son absence est la cause des plus grands échecs de dialogues dans les jeux. Les acteurs doivent savoir qui ils sont, où se trouve leur personnage, ce qui se passe et pourquoi ils sont là. Nous devons fournir un contexte complet, qu'il s'agisse de scènes, d'interjections ou de vocalisations, et il doit être écrit avec précision pour une compréhension intuitive. C'est un processus itératif, car trouver comment communiquer le contexte pour des choses comme les interjections ou les vocalisations nécessite des essais et erreurs. Ce travail est essentiel pour que les sessions soient des espaces créatifs, détendus (et calmement efficaces !), propices aux meilleures performances.
Lors du casting, la performance passe avant tout. Nous devons trouver des acteurs qui conviennent au rôle, qui comprennent leur personnage, qui acceptent bien les consignes et qui ont les compétences techniques nécessaires pour accomplir leur travail. Cependant, il y a aussi des considérations de conception à prendre en compte. Par exemple, nous devons nous assurer que les personnages principaux et secondaires ont une voix ou une intonation suffisamment distincte pour que le joueur sache qui parle. Contrairement au cinéma, nous ne pouvons pas contrôler où le joueur porte son regard ! À l'inverse, pour les PNJ, nous devons nous assurer qu'ils se ressemblent suffisamment pour que le joueur ne remarque pas le nombre de fois où il a croisé le « Sbire Ennemi n°6 » au cours des 30 heures de jeu !
Comme pour d'autres domaines de la conception audio, avoir des variations est essentiel afin de gérer la fatigue auditive et dissimuler les répétitions. Pour la voix, il ne s'agit pas seulement du nombre de variantes nécessaires, mais aussi des types de variations à prévoir. Cela inclut les variations contextuelles telles que les états de combat ou de furtivité, ou à qui le personnage peut parler (lui-même, un allié ou un groupe) ; les variantes exécutées lorsque nous prévoyons d'utiliser deux ou plusieurs performances légèrement différentes de la même ligne écrite (il n'y a pas de façon parfaite de crier « Rechargement ! » après tout !) ; ou encore la simplicité d'une réplique (des répliques plus longues et plus imagées deviennent fatigantes si elles sont répétées trop souvent).
Nous devons nous assurer que les interjections sont des choses naturelles à dire et qu'elles sont contextuellement exactes lorsqu'elles se déclenchent
En ce qui concerne les traitements audio, il y a des besoins évidents pour les effets de radio, les voix de robot, les extraterrestres et autres ; mais le mastering est également un travail gratifiant. Gérer l'intensité perçue des niveaux de projection (par exemple, si une réplique est chuchotée ou criée) en fait partie, mais c'est aussi une occasion unique de sculpter une identité sonore distincte pour votre projet tout en facilitant le mixage. Ce qui sonne bien de manière isolée peut souvent sembler terne une fois intégré au jeu, avec la réverbération, la propagation et le contexte de l'environnement sonore global.
Les systèmes qui prennent en charge l'ensemble de nos fonctionnalités sont un autre domaine nécessitant notre attention, et ce sont les concepteurs de voix qui sont les mieux placés pour les élaborer. Trouver des solutions pour gérer efficacement un volume colossal d'assets, implémenter et mixer nos fonctionnalités telles qu'elles ont été conçues (tout en maîtrisant le potentiel considérable des dialogues à générer des bugs) sont des tâches que nous ne pouvons pas nous permettre de laisser à d'autres.
Gestion de la complexité
L'implémentation, c'est la présentation. Vous pouvez investir des sommes considérables dans des performances exceptionnelles, mais sans une implémentation réfléchie et soignée, le résultat sera catastrophique. Déclencher une réplique lorsqu'un événement survient est relativement simple, mais notre travail demande bien plus que de simplement importer des assets dans un intergiciel. Nous devons nous assurer que les différents éléments sont rythmés aussi soigneusement que dans un film ou une série, qu'ils sont contextuellement exacts et qu'ils ne génèrent pas de pollution sonore. De la même manière que pour le mixage d'un jeu, ce type d'édition en temps réel nécessite plusieurs fonctionnalités essentielles :
- Un système de VOs scriptées pour déclencher les fichiers audio d'une scène en utilisant les bons personnages du jeu et en respectant le rythme souhaité entre chaque réplique.
- Des Tags contextuels pour s'assurer que le contenu joué est adapté au contexte.
- Un systèmes d'appels et de réponses pour permettre aux interjections dynamiques (barks) d'en déclencher d'autres sur les personnages environnants, tout en respectant un timing précis.
- Des temps de pause (cooldowns) pour éviter la répétition excessive des répliques et contrôler ce qui se joue et quand (c'est toujours une question de rythme !).
- La gestion des dialogues pour empêcher les personnages de se parler par-dessus les uns des autres et pour assurer un flux global cohérent du contenu (encore une fois, le rythme est clé !)
Ajoutez à cela la nécessité de gérer les sous-titres, l'animation faciale procédurale ainsi que les indicateurs pour l'interface utilisateur ou l'animation, et nous quittons inévitablement l'intergiciel audio pour nous diriger dans le domaine des systèmes propriétaires au sein du moteur de jeu.
Nous devons également prendre en compte l'échelle du projet ; gérer 100 000 assets dans l'Actor-Mixer Hierarchy serait tout simplement impossible, mais c'est là qu'interviennent les Wwise External Sources (sources externes de Wwise) permettant de stocker les assets en dehors de Wwise. Cela simplifie considérablement la hiérarchie en la réduisant à une poignée d'objets et offre la flexibilité de réutiliser le contenu avec des comportements différents, sans avoir à dupliquer les assets partout dans le projet !
Les bases de données textuelles permettent aux concepteurs de voix d'élaborer, organiser et gérer le contenu, et aux scénaristes de l'écrire. Elles existent sous diverses formes et sont de toutes tailles : des feuilles Excel améliorées avec une multitude de macros VBA, des applications propriétaires complètes ou encore des bases de données en ligne accessibles via un navigateur. Leur point commun est de générer des métadonnées que les différents systèmes de dialogue peuvent utiliser pour retrouver le bon asset et l'afficher avec le sous-titre correspondant.
Base de données textuelles Oasis de l'Ubisoft Technology Group
Même si nous passons un peu moins de temps à travailler avec des intergiciels que le concepteur audio moyen, Wwise reste un outil créatif extrêmement puissant pour nous. Certaines choses sont encore mieux réalisées en utilisant des objets sonores classiques, comme les vocalisations déclenchées par des animations ou les systèmes de foule (walla). De plus, les External Sources nous permettent toujours d'utiliser des Sequence et Random Containers pour déclencher des effets sonores pilotés par les dialogues, comme des grésillements radio.
Lors du pré-mixage ou du mixage, notre expérience avec Wwise est sensiblement la même que pour toute autre discipline audio. Nous utilisons pleinement ses fonctionnalités pour créer un mixage captivant, atmosphérique et immersif (tout en restant intelligible !).
Trouver le bon ton
Tout comme le style existe en conception sonore et en musique, il existe aussi en conception de voix. Il peut être cartoonesque et amusant, théâtral et mélodramatique, ou réaliste et naturaliste. Trouver le bon équilibre sur le spectre entre jeu vidéo et cinéma est absolument essentiel. On ne pourrait pas prendre les vocalisations de Call of Duty et s'attendre à ce qu'elles fonctionnent bien dans Borderlands. Ces deux franchises sont toutes deux sanglantes et violentes, mais leur ton ne pourrait pas être plus différent.
Ce sens du style peut s'exprimer dans tous les aspects de la conception de voix. C'est souvent l'effet cumulatif de milliers de petites décisions qui définissent le style et l'identité vocale d'un projet. L'expérience viscérale et sous adrénaline des combats de Battlefield I en est un bon exemple ; on peut la percevoir dans le casting, l'enregistrement, la direction, la performance et le mastering. Les interjections ont été enregistrées avec un véritable effort physique et le mastering a souvent été poussé à la limite de la distorsion. En travaillant de concert avec la conception sonore et le mixage, cela crée une expérience de combat immersive et intense pour le joueur, qui serait totalement sabotée si les performances étaient enregistrées de manière statique et sans énergie dans une cabine de prise de son.
Les acteurs voix de Battlefield 1 portent du lourd pour les enregistrements des voix allemandes
Rien de tout cela ne peut être improvisé. La conception des voix doit être menée dès les premiers jours de la préproduction par des spécialistes en interne. Des idées radicales pour de nouvelles fonctionnalités ne peuvent pas être implémentées en cours de production, car nous devons en comprendre les implications sur l'ensemble du pipeline, depuis le casting jusqu'aux exigences en matière d'outils pour le projet.
Une discipline en pleine expansion
Bien que nous ne soyons qu'un peu plus de 150 spécialistes dans l'industrie au niveau mondial (d'après mes estimations), les experts de dialogues en interne deviennent de plus en plus courants. Avec plusieurs nouvelles offres d'emploi chaque mois, il n'est plus rare de voir des équipes de trois concepteurs de voix ou plus sur un projet ; Sony, EA, Ubisoft et d'autres en tête de file.
Pour ceux qui envisagent une transition vers l'industrie du jeu vidéo, c'est une voie de carrière qui mérite d'être considérée. La conception de voix est un domaine de l'audio de jeu vidéo aussi vaste et complexe que la conception sonore ou la musique, en pleine expansion, et qui reste un territoire encore largement inexploré, offrant d'immenses opportunités de découverte et d'innovation !
Il est important de préciser que vous n'avez pas besoin de tout savoir. Certains concepteurs de voix s'orientent davantage vers le design et la technique, tandis que d'autres se spécialisent dans des domaines comme le casting ou la production. Comme pour la conception sonore, une grande variété de compétences est nécessaire pour gérer la conception des dialogues d'un projet, et c'est précisément pour cela que nous travaillons en équipe !
Si vous souhaitez en savoir plus, un bon point de départ serait la conférence GDC de mon ami et collègue Adam Ritchie sur la conception des voix de The Division 2. Elle offre un excellent aperçu de cette discipline.
Conception des voix des PNJ dans The Division 2
Je collabore également avec Leonard Paul sur un module complémentaire dédié au dialogue pour la School of Video Game Audio, dans le but de rendre l'apprentissage de la conception de voix plus accessible. Pour suivre nos avancées, n'hésitez pas à suivre l'établissement sur Twitter ou LinkedIn.
J'ai également mis en place un portail web : VoiceDesignResource.com. J'y regroupe des vidéos, des articles et d'autres ressources utiles qui sont souvent difficiles à trouver.
Commentaires