みなさん、こんにちは。张禹(Yu Zhang)と申します。中国YooZoo Gamesのオーディオチームの一員です。2006年にITU-R BS 1770規格が導入されてから13年以上が経ち、すでにラウドネスに関する記事も多くありますが、私はQ&A形式でラウドネスについて何点か説明したいと思います。今後のお役に立つ内容になれば嬉しいです。
ラウドネスと、ラウドネスレベルについて
ラウドネスレベル(LN)という概念は人による純音の感じ方を等ラウドネス曲線で測定する方法として導入されました。ラウドネスレベルの目的は、人が感じる音の大きさの測定基準を示すことです。ラウドネスレベル測定の単位はphonです。単位phonは、同じ大きさに聞こえる1 kHzの純音の音圧レベルのデシベル数に等しいです。このphonは音圧に対する私たちの主観的な聴感を反映する単位ですが、測定には向いていません。そこで、ラウドネスの単位にsoneが導入されました。1soneのラウドネスは、40phonの信号のラウドネスに等しく、1 kHzの純音の40dBSPLのラウドネスレベルに等しいです。10phon増加すると、ラウドネスは単位soneでほぼ2倍になります。
dBは何を表しているのですか?
dB(デシベル)は対数で表す単位です。物理量の大きさや数量を直接表すためには使えず、同じ単位の2つの物理量の比を表すだけです。音響レベルの測定に広く使われています。多くの場合、2つの音響信号や2つの電気信号の、パワーやインテンシティの相対的な差分を表します。パワーレシオを表すときに、デシベル数はその数値の底が10の対数の10倍です。dBのdはデシベル(decibel)を、Bはベル(Bel)を表します。dBはBの1/10倍なので、1 dB = 0.1Bです。一般的に、基本のdB単位にサフィックスをつけ、その比率を計算するのに使う参照値を示します。
dBSPLは何を表しているのですか?
SPLはSound Pressure Levelの略です。本質的には、音はエネルギーの波のようなものです。波の長さが違うと、周波数が異なります。マイクのダイアフラムや人間の耳などに作用するときに、インテンシティが違うと静かに聞こえたりうるさく聞こえたりします。音の押し付けるような力を「音圧」と言います。音のインテンシティと音圧の関係を、以下に示します:
Iはサウンドインテンシティ(W/m²)、pは音圧(Pascal)、ρCは音響抵抗係数、ρC = 400 rayleigh (N·s/m3) です。
dBFSは何を表していますか?
dBFS(Decibels relative to full scale)はデジタルシステムの振幅レベルを測定するための単位です。0 dBFSが、可能な最大デジタルレベルにアサインされています。Full scaleは、コンバータがデジタルオーバーロードのスレッショルドに到達する前にコードできるアナログ信号の最大値を示します。言い変えるとdBFSは、デバイスでクリッピングが発生せず対応できる最大値に比した信号の振幅を表します。最大値よりも下のピーク測定値は、負のレベルとなります。
ラウドネスは、実際に何を指しているのですか?
小さい音から大きい音まで音を順にならべるとき(つまりサウンドインシティ)の、主観的な知覚。
サウンドインテンシティを左右する、客観的な特徴は何ですか?
信号レベル、周波数特性、長さ、音場。
サウンドインテンシティの感じ方を左右する、主観的な特徴は何ですか?
生理特性、心理的特性、周囲の環境、文化的な背景、個人の特性。
音響心理学のパラメータとして、ラウドネス以外に何がありますか?
シャープネス: シャープネスは、音の高周波コンテンツの測定です。高周波の割合が高いほど、音のシャープネスが高くなります。シャープネスの測定単位はacumです。1 acumは60dBの、1 kHzを中心とした帯域幅160Hzの狭帯域ノイズが出すシャープネスと定義されています。
変動強度: 変動強度は、ゆっくりとした(20Hzまでの)振幅モジュレーションの音の主観的な知覚を数値化します。変動強度の測定単位はvacilです。 1 vacilは、60dBの1kHzの純音を4Hzで100%AM変調したときの変動強度と定義されています。
ラフネス: ラフネスは速い(15-300 Hz)振幅モジュレーションの音の主観的な知覚を数値化します。ラフネスの測定単位はasperです。1 asperは、60dBの1kHzの純音を70Hzで100%AM変調したときのラフネスと定義されています。
Psychoacoustic Annoyance (PA): PAには、ラウドネスと上記3つの要素が関係します。私たちの音に対する全体的な知覚を数値化したものです。無次元の値で、値が大きいほうが、よりうるさいと感じます。
音響心理学のパラメータは、私たちの主観的な音の感じ方を表すために使う物理量です。私たちの聴覚的な感覚の違いを数値化するもので、個性の影響が排除されます。ラウドネスパフォーマンスは音響心理学的に大きな影響がありますが、音の主観的な評価のためには、ほかの3つのパラメータと合わせて検討する必要があります。
聞くというエクスペリエンスでは、何が主観的で、何が客観的なのですか?
一般的には、信号レベルは客観的で、ラウドネスは主観的です。
音を評価する際の、主観性と客観性の関係は?
音は、客観的な存在です。私たちの音の感じ方は、主観的な評価です。
ラウドネスの測定技術はどのように開発されてきましたか?
コンピュータ技術は、20世紀後半から躍進的に発展しました。特にDSPにおいて、高速フーリエ変換(FFT)の実践が普及し、ラウドネス測定の開発の技術的基盤となりました。Leq (Revised Low-frequency B-curve weighting)、TC LARM、TC HEIMDALなど、素晴らしいラウドネスアルゴリズムがこの時期に発表されました。ITUはLeq (RLB) アルゴリズムを1770の技術的基礎の一部として取り入れました。
ITUは、どのような機関ですか?
ITU(国際電気通信連合)は情報技術や通信技術に関する課題を担当する国連の専門機関です。ちなみに、大学で無線技術や電気音響工学を専攻した人で、一流のサウンドデザイナーになった人が多くいるのは、物理の「波」の概念を誰よりもよく知っているからです。LKFS (Loudness K-weighted relative to full scale) は、ITU-R BS.1770で規定されています。
EBUは、どのような機関ですか?
EBU(欧州放送連合)は公共メディア放送局の組織で、1950年2月12日に設立されました。中国のラジオテレビ当局が使った初期の技術指標は、これらヨーロッパの標準を広く参照しています。LUFS (Loudness units relative to full scale)はLKFSの同義語で、EBU R128で導入されました。LKFSとLUFSは、どちらも絶対尺度で測定し、1dBに等しいという点で、まったく同じです。
ITUは、なぜITU-R BS 1770を発表したのですか?
1. 音のレベルと、音のインテンシティに対する人間の知覚の関係は、比例関係ではありません。
2. VU、PPM、RMSの各種メータや、その他の従来のピークメータは、主観的なラウドネスを反映しません。
3. VU、PPM、RMSの各種メータや、その他の従来のピークメータは、実際のピークレベルを正確に測定できません。
4. 様々なテレビ番組のラウドネスのバランスをとるには、共通の基準が必要です。
5. デジタル信号のピークレベルがサンプル信号よりも大きいことがあるので、グローバルモニタリングを可能にする、より科学的なソリューションが必要となります。
6. ITUは、ITU-R BS 1770のほか、テレビ番組のターゲットラウドネスに関して提言する実務的な補足として、ITU-R BS.1864「デジタルテレビ番組の国際交換におけるラウドネスの運用規定」を発表しました。
VUメータは、なぜサウンドデザインの測定に適していないのですか?
VUモニタが1939年に初めて開発されてから、80年以上が経っています。現状のニーズに、このテクノロジーが合わなくなってきたのです。積分時間のレスポンスなので、VUメータに表示される測定値が、実際の信号ピークよりも低くなることがあります。針の重さのために相対的に遅い反応となり、複雑なオーディオ信号の瞬時の信号ピークを反映できません。信号ピークレベルは、VUメータで音を測定したときの表示値よりも、だいたい6~12dBほど高いです。
RMSメータは、なぜサウンドデザインのメイン測定器として適していないのですか?
RMSメータは、時間が固定されて形に明らかな変化がない波に向いています。信号の電圧の測定値でしかなく、音に対する人間の主観的な知覚が反映されません。簡単に言えば、RMSのフィードバックは客観的すぎるのです。人間の音に対する感度は、周波数によって異なります。2つの信号のRMS値が同じでも、音響心理学の観点ではラウドネスが違って聞こえることがあります。
ITU-R BS 1770で導入されたテクニカルパラメータは何ですか?
1.LU(Loudness Unit): ラウドネスメータの目盛の単位。プログラムのLU値は、そのプログラムを0 LUまでもってくるのに必要なロスまたはゲイン(単位dB)を表すので、例えば測定値が「-20LU」のプログラムは、そのプログラムの測定値を0 LUまで上げるのに必要なゲインは20dBとなります。
2. Momentary Loudness: 400msの時定数の1次IIR(infinite impulse response)ローパスフィルタを通したゲートなしのラウドネス、と定義しています。
3. Short-term Loudness: 3秒間の平均をとったゲートなしのラウドネス、と定義しています。(ゲート付きとは、具体的な技術的パラメータを満たさないものを無効にするという意味です。)
4. Programme Loudness: プログラムの期間中の平均ラウドネスのことです。測定は、時間積分400ms、隣り合うゲーティングブロック同士のオーバーラップ75%、ゲート付き絶対スレッショルド -70 LKFS、ゲート付き相対スレッショルド -10 LU で測定します。
5. Loudness Range (LRA): 時間によって変化するラウドネス測定の変化を数値化します。LRAとは、分布の10パーセンタイルと95パーセンタイルの推定値の差として定義されます。例えば低い10%のパーセンタイルは、ミュージックトラックのフェードアウトでラウドネスレンジが占拠されてしまうのを防止します。上の95%のパーセンタイルは、異常に音の大きい1つの音、例えば映画の中のガンショットなどが、それだけで大きいラウドネスレンジを引き起こさないようにします。
6. True Peak(単位dBTP): 連続する時間領域における信号の最大ピークレベルのことで、サンプルピークレベルと相対関係にあります。システムにタイムウィンドウがあるので、True Peakは2つのウィンドウの間で起きるかもしれません。通常は、サンプリングレート48kHzで4倍のオーバーサンプル測定のラウドネスメータで、0.5dBの過小評価を防ぐために、1dBのヘッドルームが必要です。2014年12月に中国で導入された規格GY/T 282-2014に、デジタルテレビプログラムの平均ラウドネスとTrue Peakオーディオレベルの技術要件が記載されていますが、プログラム中のオーディオレベルは、最大のTrue-Peakが-2dBTPを超えてはならないとしています。
7. Integrated Loudness: 開始ポイントから終了ポイントまでの平均ラウドネスです。プログラムラウドネスとほぼ同じです。
ITU-R BS 1770のK特性フィルタやRLBフィルタは、何のためですか?
1. K特性フィルタ:K特性フィルタは頭部や耳の周りの散乱をシミュレーションするためのものです。4dBから1~3kHzの周波数範囲までゲインが徐々に増加し、3kHzより上ではゲインが変わりません。
2. RLBフィルタ:RLB(Revised Low-frequency B-curve weighting)フィルタは簡単に言えばハイパスフィルタです。主に、人間の耳が低周波コンテンツを聞き取りにくい点を反映させるためのものです。
ITU-R BS 1770で信号分析にスレッショルドが2つ設定されているのは、なぜですか?
有効なサウンドレベルを計算するためのゲート付き測定に2段階の処理がありますが、最初は絶対スレッショルド、次は相対スレッショルドを適用します。こうすることで、個別にウェイト付けを行いながら、各チャンネルの主要なラウドネスを計算できます。絶対スレッショルドの設定は-70 LKFSです(単位LKFSはdBと同等で、信号レベルが1dB上がるとラウドネス値が1 LKFS上がります)。これはスレッショルドより下のコンテンツをラウドネス計算から除去するために使います。次に相対スレッショルドは、-10 LKFSに設定します。絶対スレッショルドの計算に基づいた現在のラウドネスより10 LKFS低いコンテンツを除去するために使います。これで無音コンテンツやバックグランドのノイズを音から除外できます。スレッショルドを設定することで、ラウドネス計算に含まれるものを、有効なコンテンツだけに限定できます。
ほかにどのような規格がありますか?
ラウドネスに関する規格 | Integrated Loudness (LKFS/LUFS) |
誤差
(+/-LU) |
最大 True Peak (dBTP) |
主催 | 規格の内容 |
ITU-R BS1770
|
-24
|
2
|
-2
|
ITU |
オーディオプログラムのラウドネスとTrue Peakオーディオレベルの測定アルゴリズム |
EBU-R128
|
-23
|
0.5
|
-1
|
EU |
オーディオ信号のラウドネスノーマリゼーションと許容最大レベル |
ATSC A/85
|
-24
|
2
|
-2
|
USA |
デジタルテレビのオーディオラウドネスの確立と維持 |
AGCOM
|
-24
|
0.5
|
-2
|
Italy |
|
OP-59
|
-24
|
1
|
-2
|
Australia |
|
ARIB TR-B32
|
-24
|
2
|
-1
|
Japan |
ARIB TR-B32: デジタルテレビ放送番組におけるラウドネス運用規定 |
GY/T282-2014
|
-24
|
2
|
-2
|
China |
デジタルテレビ放送番組の平均ラウドネスとTrue Peakオーディオレベルに関する技術要件 |
中国のラウドネス規格について
中国にラウドネス規格がないと言っては語弊があります。厳密にいうと、ゲームオーディオ開発の分野では検証済みの具体的で強制力のあるラウドネス規格がありません。私たちは、ほとんどの時間を研究より開発に費やしています。議論するよりも先に実践です。現場では、誰もが自分のやり方で進めています。研究サンプルは多くなく、定量的な基準などもありません。現時点では、他人の標準を参考にしながら、自分たちの経験を積んで学んだことをまとめていくのが妥当なやり方です。
研究データ
1. 中国のCCTV(中央テレビ)の研究結果によると、歴代の番組の平均ラウドネスは -27.4 LKFSでした(テレビチャンネル限定)。
2. 単位変換: GY/T192-2003規格で定義された通り、0 dBFSは24 dBuに等しいです(dBuは、0.775 V(r.m.s.)に対して、信号のr.m.s.電圧を表すのに使用)。
3. 2013年のCCTVのテレビ番組測定によると、True peak最大レベルは、平均-5.7dBTPでした。-5dBTPではヘッドルームが不足するかもしれません。また、ダイナミックレンジが-2dBTPで影響を受けます。
4. 最大ラウドネスオフセットは、最大Short-termラウドネス(3秒間のラウドネス)とプログラムラウドネスの差分と定義され、平均3.5 LKFSです。ビリヤードゲームでは7.1 LKFS、プロパガンダ映画では1.1 LKFSです。
5. 2013年10月のCCTVの研究によると、平均ラウドネスは、CCTVのチャンネル1の332番組のうち123番組(40%)で平均 -24 LKFS ± 2 LUであり、最大True peakレベルは、322番組のうち305番組(95%)で -2dBTP以下でした。
現行のラウドネス規格におけるサウンド処理ついて
1. 一貫性のある音のラウドネスを確保するには、固定されたボリュームでモニタリングすることが基本です。一定のボリュームで聞き慣れてくると、それが大きすぎるのか小さすぎるのかを判断するのに、ラウドネスメーターがほとんど必要なくなってきます。そこで、モニタリング用ボリュームを校正するのはサウンドデザインの最中でなく、事前に行ったほうが良いと思います。
2. ゲームにはUIサウンドやプロンプト音など短いサウンドがたくさんあります。このような音はピーク時間が短く、ダイナミックな変動が明確です。このようなオーディオファイルでは瞬時のラウドネスに注意する必要があります。ラウドネスと時間の関係に着目すると、主観的なラウドネスとは一定の時間の間に人間の耳で感じる全般的な聴感を指し、時間は最低200msとします。ところが、一瞬のピークレベルは、それがサンプリングポイントであっても、そのタイムドメインのラウドネスを実際に反映しません。ピークレベルの高い信号の方が、大きく聞こえるとは限りません。逆に、ピーク振幅でレベルの変動が小さくダイナミック性が小さい信号の方が、音が大きく感じられることがあります。つまりラウドネスとは、ピークレベルでなく信号の一定期間の平均レベルを反映しているのです。私は経験上、長さが200ms~3sほどの音の瞬時ラウドネスに、特に注意するようにしています。
比較的静かだが、よりダイナミック
比較的ダイナミック性が小さいが、より大きく聞こえる
3. プロジェクトがかなり複雑になると、平均ラウドネスが、高い点に急上昇するピークレベルに影響されることがあり、信号のラウドネスの上昇が、オーディオシステムが受け入れられる最大ピークレベルで制限されてしまい、よりダイナミックなオーディオ信号が一時的に高くなるピークレベルの影響で全体的な平均レベルに影響することに気づきます。に影響を受けてしまいます。そのような問題は、分散化した制御やグローバルな制限でバランスをとれます。下図のように一部の信号で自動的にオシレーションのスタート時間を制御し、上昇がよりゆっくり始まり、より速く終わるようにできます。グローバルレベルでは、一連の処理にコンプレッサ/リミッタを追加できます。うまくコントロールされていない一時的なオーバーロードを下げたり、ダイナミックな動きを抑えたり、ラウドネスを上げたりして統一感を改善できます。コンプレッサ/リミッタを選択するときに、下の図 2にあるようなラウドネスモードと合致するエフェクトを音の処理に使えます。
波形の上昇を制御し、ピークロードを長く維持しすぎるような新たな上昇を防ぐ。
4. 周波数の処理はできるだけ早い段階で行い、周波数のバランス調整はバスで処理する前に実施してください。マルチバンドコンプレッションをバスに適用すれば周波数を調整しやすいかもしれませんが、全体の周波数比率が再編成されてしまうので、最初に指定したスペクトルの中身を大幅に変えてしまう可能性があります。これは、避けた方がよいと思います。
専門用語が多くなってしまいましたが、とにかく読者にすべてをお伝えしたかったのです。最後に、ブログの見直しをしてくれたAudiokineticの中国チームのみなさん、ありがとうございました。では、よい一日を!
コメント