音響心理学

音響心理学（おんきょうしんりがく、英語: psychoacoustics）は、人間の聴覚に関する学問である。音響学の物理的パラメータに関連した心理学的学問でもある。聴覚心理学 (auditory psychology) とも。

背景

聴覚は、音波の機械的現象としてだけでは説明できず、知覚や認知的側面もある。人が何かを聴くとき、大気を通して音波が耳に到達し、耳の中でそれが神経の活動電位に変換される。その神経パルスは脳に到達し、知覚される。音響信号処理など音響学に関わる問題では、単に音波の物理的性質を考慮するだけでなく、耳と脳が各人の聴覚に重要な役割を果たしている点を考慮することが重要となる。

例えば、耳は音を神経刺激に変換する際に周波数スペクトルへの分解を行う。この解析は蝸牛基底膜における機械的な特性によるフィルタ・バンク処理によって実施される。このフィルタ・バンクは中心周波数にほぼ比例してバンド幅が広がる、いわゆる定Q型のものであるため、その特性からこのスペクトル解析はフーリエ分析的なものではなく、ウェーブレット分析的なものとなる。そのため、時間領域の情報の一部は失われてしまう。しかし、基底膜の振動を中枢へ伝える神経パルスは基底膜が特定の方向へ変位したときに発火するという性質を持ち合わせるため、振動に含まれる時間的な情報は神経発火の時間パターンとして中枢へ伝えられていることも知られている。MP3 の圧縮方法は基底膜上に複数の振動成分が与えられた場合の相互作用、すなわちマスキングを考慮して実効的なダイナミック・レンジを狭めることによる情報圧縮を利用している。さらに、耳のダイナミック応答は対数関数的である。公衆交換電話網はこの現象を利用して、音声を対数的に圧縮し、指数的に伸張して再生している。また、耳の非線形性の副次効果として、周波数の近い音が2つあるとき、実際には存在しない低い周波数の音が聞こえてくる。このような耳の解剖学的特徴に起因する生理的現象も音響心理学的現象としてひとまとめに扱われるのが一般的である。

脳によって生じる真の音響心理学的現象もある。例えば、録音された音楽にパチパチという雑音（ノイズ）があっても、人はそのようなノイズを気にせずに音楽を楽しめる。人によってはノイズを全く忘れてしまう場合もあり、後でノイズがあったかどうかを聞いても答えられないことがある。これを心理音響マスキングのレベルで説明する場合もある。この場合、ノイズの存在があってもなくても知覚的にはその違いが分からない。これとは別に、雑音の存在があってもそれが注意している音には干渉しないで聞くような場合も存在する。これは音脈分凝と呼ばれる現象であり、心理音響的マスキングとは異なるレベルでの処理が貢献している。脳がそのようなマスキングを行う能力は、様々に利用されている。ただし、デジタル信号処理では、この現象はアナログのホワイトノイズ全体をカバーするというよりも、圧縮によって失われた部分を隠すのに使われることが多い。別の心理音響現象として、脳はパターン認識のために相関的プロセスを使うと考えられており、同様な技法は電子回路で信号パターンを探すのにも使われている。相関的な一致を受け入れるしきい値が非常に低い場合、純粋なノイズや少しだけ似ているような音声からもよくあるパターンを補完して聞き取ってしまう。例えば、無線通信士がノイズの多い中でモールス符号を聞き取ろうとしていると、実際にはモールス符号がないにも拘らず、ノイズからモールス信号を聞き取ってしまう。このような心理音響現象は、例えば非常に危険な状況で知覚力を高めるのに重要な役割を果たす。これは脳が勝手に知覚を生成する幻聴とは異なる^[要出典]。

知覚の限界

人間の耳は、一般に周波数20Hzから20,000 Hz (20 kHz) の音波を音として知覚する。周波数の上限は加齢と共に低くなる傾向があり、成人では一般に16 kHz より高い音は聞こえない。耳は20 Hz未満の音は知覚できないが、触覚で感じることができる^[要出典]。

耳の周波数識別能力としては、中音域で約2 Hz 以上の違いを聞き分けることができる。ただし、別の手段でそれ以下の周波数の違いを知覚することもできる。例えば、2つの近い周波数の音があると、別の低い周波数の音の変化が聞こえる。いわゆるうなりである。

人間の耳は周波数を対数的に知覚する。言い換えれば、知覚される音高は周波数と指数関数的関係にある。音階がその例で、1オクターブ音高が上がると基本周波数は約2倍になる。ある音の周波数を約 $2^{\frac {1}{12}}$ 倍すると、次の半音高い音になる。半音12個分高いと1オクターブ高い音になるので、 $2^{\frac {12}{12}}$ すなわち2倍の周波数ということになる。

つまり、西洋の音楽で使われている半音による音階は、周波数に対して線形ではなく、対数的である。聴覚の研究で使われるMel尺度やBark尺度も経験則から設定されており、やはり周波数に対して対数的である。

空気中の音圧の変化が耳に達すると、耳では音圧の振幅の大小により基底膜の振幅が定まり、それに応じた数のインパルスをコルチ器官が発して大脳へ伝えることで、知覚される音の大きさの大小が定まる。こうした音の知覚的な大きさを表す音の大きさ（ラウドネス）は、感覚量であり、物理的に直接測定することはできないが、基本的には音のエネルギーと対応しており、音の強さ（音響インテンシティ）が増せば音は大きく感じられる。また、基底膜の振動部位は音の周波数によって異なるため、音の大きさは周波数によっても左右されるほか、音の時間構造にも依存する^[1]^[2]^[3]。

一般的に人間の聴覚で音としてとらえられる音圧は、最小で20μPa程度、最大で20Pa程度とされ、この範囲（2.0✕10^-5 - 2.0✕10¹[Pa]）の音圧を可聴域と呼ぶが、その範囲は幅広い。音の大きさに対する知覚も対数的である。そのため、音圧を1 kHzにおいて聞き取れる最小可聴値とされる音圧である20μPaとの比の2乗の常用対数である音圧レベル（単位はデシベル）により表す^[4]^[5]。可聴な最小の音の音圧レベルは、0 dBに相当し、可聴域を上回る大きさの圧力変化では鼓膜が空気振動により傷つけられ、痛みが感じられる^[5]。

長期間にわたる重度騒音は、聴覚障害（音響外傷）の原因となる。これは、その音が連続する時間にも依存し、120 dB の音は、短時間なら後遺症を引き起こさない（不快あるいは苦痛を伴う可能性はある）が、80 dB の音を長時間聞き続けると、後遺症が残る可能性がある^[要出典]。

可聴な最小の音をもっと厳密に測定してみると、周波数によって可聴な最小の音圧が異なることがわかる。様々な周波数で聞こえる最小の音を測定していくと、周波数を横軸とした最小可聴値 (ATH) 曲線が得られる。一般に、耳の感度（ATHの最小点）は1kHzから5kHzの間にピークがあるが、その値は加齢と共に変化し、老人になるほど2kHz 以上の感度が悪くなる^[要出典]。

ATH は最小の等ラウドネス曲線である。等ラウドネス曲線は可聴周波数範囲について同じ大きさの音と知覚される音圧レベル (dB) で表される。等ラウドネス曲線を初めて測定したのは、1933年、ベル研究所の Fletcher と Munson で、ヘッドホンで純粋な音を再生して測定された。彼らはその曲線を Fletcher-Munson 曲線と呼んだ。各人が主観的に音の大きさをどう感じているかは測定が困難であるため、Fletcher-Munson 曲線は多人数の測定結果を平均して描かれた。

1956年、Robinson と Dadson が測定手法を改善し、無響室で前面からの音を使って新たな等ラウドネス曲線を得た。Robinson-Dadson 曲線は1986年、ISO 226 として標準化された。2003年、12か国の研究で得られたデータを元に ISO 226:2003 として改版された。

マスキング効果

通常なら明瞭に聞こえる音が、別の音でマスクされて聞こえなくなることがある。例えば、雑踏での会話は、周囲の騒音により聞こえづらくなる。このような現象をマスキングという。小さい音は、大きい音でかき消される。マスキング現象は、大きな音が最小可聴値 (ATH) 曲線を歪め、通常なら聞こえるはずの音が可聴範囲外となるために発生する。

同時マスキング

→詳細は「同時マスキング」を参照

2つの音が同時に発生して、一方が他方にマスクされる場合を同時マスキングという。これを周波数マスキングともいう。音色によっても他の音をマスクする度合いが異なる。正弦波でノイズ的な音をマスクするには大きな音にする必要があり、逆にノイズで正弦波をマスクする場合はそれほど大きな音である必要はない。マスキングをコンピュータでモデル化する場合、音色ごとの周波数ピークで分類する。

経時マスキング

→詳細は「経時マスキング」を参照

同様に、大きな音の直後に小さな音があっても、大きな音でマスキングされる。さらに大きな音の直前の小さな音もマスキングされる。このようなマスキングを経時マスキングという。

ミッシングファンダメンタル

ミッシング・ファンダメンタル（英語版）は複合音の音高認知において幻聴される基本周波数である^[6]。

人間が知覚する音の高さ（音高）は音波が物理的にもつ基本周波数と強い結びつきを持つ^[7]。周期性を持つ音の周波数スペクトルは、いわゆる調波構造を持つ離散スペクトルとなる。一般的には、基本周波数成分（基音）とその整数倍の正弦波（倍音）から構成される。ところで音の重なり合わせ等の結果、基本周波数成分が失われ倍音のみで構成されたとする。この音を人間が聴いた場合、もし人間が一番下の周波数成分から音高を判断しているなら、第2倍音に相当する音高が認知されるはずである。しかし実際には、このような音で知覚される音高は、失われたはずの基本周波数（ミッシング・ファンダメンタル）に対応する音高となる。

この背景には、聴神経の発火が基底膜で分解されたのちに、その基底膜の特定の位相に限定して生じることがある（位相固定性）。この位相固定が成立する周波数には限界があることが知られており、大凡3kHz から4kHz で位相固定性は崩れるとされている。従って、ミッシング・ファンダメンタルに対応したピッチが聞こえる限界も、この辺りが上限となっている。ミッシング・ファンダメンタルに対応したピッチが聞こえるという現象は、しばしば他の感覚領域にも生じる知覚的補完の一種のように取り扱われることもあるが、これは適切とは言えない。むしろ、もともと我々がピッチという感覚を抽出する機構が、波形に備わる周期性を時間的に捉えているからである聞こえている^[8]。

ミッシング・ファンダメンタルに関して、ロー・カット・フィルタなどにかけることによって、基本周波数成分を物理的には存在しないようにすることが可能である。近年では計算機の発達により、デジタル加算合成が簡易に可能となっており、物理的に完全に基本周波数成分を含まない複合音を合成出力することは精度高く可能になっている。

ソフトウェアにおける音響心理学

心理音響モデルは、デジタル音声信号から安全に省ける部分を明らかにすることで、高品質な非可逆圧縮を可能にする。つまり、除去されても知覚に影響を与えない音の要素がわかる。

例えば、静かな場所では拍手は明瞭に聞こえるが、都会の交通量の多い交差点では拍手に気づくのも困難である。このような聴覚の性質を応用することで、圧縮比を向上させることができ、心理音響モデルに基づいた手法で、音声ファイルは 1/10 から 1/12 のサイズに圧縮しても高品質な再現性を維持できる。このような圧縮法は、最近のほとんどの音声圧縮フォーマットで使われている。例えば、MP3、Ogg Vorbis、WMA、ATRACなどがある。

耳には上述したような知覚的限界がある。そのため、圧縮にあたっては、人間の可聴域外の音には低い優先順位を与える。つまり、ビット群を重要な成分に多く割り当て、重要でない成分にはビット数を少なく割り当てる。これによって、高品質の音声を保持しているように聞こえる圧縮アルゴリズムが構成される。