log

音ゲーをやるにあたっての音のディレイ問題について考察続き

2008.03.11

前回の日記で、測定した結果デジタルテレビ(AQUOS)が34ミリ秒の音声ディレイを起こしていることが分かった。34ミリ秒はかなり大きなディレイに思えるのだけど、ディレイはこれだけなのだろうか?

コブヘーさんの日記でも触れられているとおり、
http://d.hatena.ne.jp/kobhey/20080309#p1
ディレイは実はテレビだけの問題ではなく、パッドの入力、パッドのワイヤレス通信、ゲーム機内での処理、テレビでの処理、音波の伝わる時間など、システムのあらゆる場所で起こっているはずだ。いろんな場所でのディレイは、増えることはあっても減らすことはできない。削れるところから削っていくのがよいだろう。できれば大きく削れればいいな、と思ったのがきっかけ。

ゲームをやっててディレイを感じて、すぐに疑ったのが二つ。一つはワイヤレスパッドの通信によるディレイ。ワイヤレスコントローラーを使ったのはxbox360が初めてだったので、かなり不信感が高かった。もう一つがデジタルテレビでのディレイ。テレビでのディレイは、地上波デジタル放送が始まった頃テレビの時報が不正確になってしまった、という話を聞いたことがあったから、ゲームでも同じことが起きてもおかしくない、と思った。

そこで、まずはxboxの有線パッドを買ってきて接続、さらに音声をテレビを通さずにダイレクトにオーディオアンプにつなげて、かつ有線ヘッドホンを着用。
 
はたしてディレイはかなり少なく感じるようになった。

これらの調整のうち、音声をダイレクト接続することが効果が一番大きく、明らかにズレが改善された。パッドを無線から有線に替えるのは、効果あるかな?どうかな?ちょっとましかな?ぐらいの変化。ヘッドホンの効果は、よくわかんない。ここはディレイよりも、音量を大きくできるメリットの方が大きいかも。

で、システム全体のディレイのうち、何割減らせたのかは測定していないので不明だけど、だた、私の主観で言うと、まだディレイは少し残っている感じではある。

ボタンを押して、その結果どれだけ音が遅れて聞こえるか。興味ある問題で、それを測定できればいいのだけど、ちょっとめんどくさそう。

この問題は、実はちょっと深い。

そもそも人は音に対してどれだけのディレイを許容できるのだろうか。言うなれば、楽器を演奏するとき、どのくらいディレイがあったら違和感を感じるのだろうか、という問題になる。

一番シンプルな演奏として手拍子を考えてみる。

アップロードファイル 98-1.png

手拍子をしたとき。その音は空気を伝わって耳に入り音として認知される。同時に眼は手の動きを見ているし、さらに、手を叩いた振動は肌の感覚として脳に伝わる。

音が空気を伝わるのには時間が掛かるけど、光は一瞬だし、手のひらの感覚信号は神経を通って脳に届くのに結構時間が掛かる。さらには、聴覚、視覚、肌感覚が脳の中で処理されるのには、それなりに時間が掛かるだろう。

しかし、これら三つの感覚を私たちは「同時」と感じるわけで、それらのズレは結局のところ頭の中で織り込み済みなのだ。

ここでちょっと条件が違う事を考える。
アップロードファイル 98-2.png
手拍子を耳元で叩いたときと、めいいっぱい耳から離してやってみたとき。ここで異なるのはたぶん、音波が届く時間の差。耳元だと距離はほとんどゼロ。めいいっぱい手を離すと1mぐらいだろうか。音が空気中を進む速度は約344m/sなので、この距離の差1mを進むために音は約3ミリ秒かかる。

どっちの条件で手を叩いても「同時」と感じるためには、脳は3ミリ秒ぐらいの音のディレイを許容する必要がある。
アップロードファイル 98-3.png
さらに足踏みで音を鳴らすことを考えると、足先と耳との距離は1.7mぐらい、つまり5ミリ秒ぐらいの音の遅れは、視覚・聴覚・触覚での
「同時」として慣れ親しんでいるはずだ。

このディレイはまた、楽器のレイテンシー問題、という話でよく話題になる。

近年、楽器やアンプがデジタル化したことによって、これまでのアナログな楽器では気にならなかった、レイテンシー問題というのが起こった。デジタル処理をする場合、音を入力して(音というか、演奏タイミングの情報か)、それがデジタル処理されて増幅されてスピーカーから鳴るまでには結構な音の遅れができてしまう。その時間遅れをレイテンシー(潜時)と呼ぶ。このレイテンシーの大きさが問題なのだそうだ。

リンク:
http://allabout.co.jp/entertainment/dtm/closeup/CU20040723A/index.htm

リンク先の結論をいうとレイテンシーは5ミリ秒以下にできれば十分だ、としている。先ほどの手拍子の例を考えてみても、5ミリ秒というのは納得だ。おそらく指先と耳を徹底的に鍛えた演奏家であっても、5ミリ秒程度のディレイであれば気持ちよく演奏できるのだろう。

つまり、5ミリ秒というのが同時と見なせる十分小さい時間だとわかった。

次に知りたいのは、ちょっとディレイはあるけどなんとか補正できるのはどのくらいの時間なのか、という問題だ。直接これを調べた研究を探せなかったんだけど、似たような話として、視覚と聴覚の時間差の補正がどれだけ可能か、という研究がある。

リンク:
http://www.aist.go.jp/aist_j/press_release/pr2003/pr20030227/pr20030227.html

野球をちょっと遠くから観戦しているとき、バッターがボールを打った瞬間、音だけが遅れて聞こえるという体験をしたことがないだろうか?これは音が光に比べて届くのが遅いから生じる現象なんだけど、じつは10mぐらいの近さで見ていても、光と音とには先ほど説明したようにずれが生じている。10mの場合29ミリ秒のズレ。でも10mぐらいではそんなにずれて音は感じない。その距離が分かっていれば補正がかなり正確だというのがこの研究結果で、その補正の限界が距離にして20~30メートル、時間にして約60ミリ秒なのだそうだ。

このへんが音のディレイとしての限界の、一つの目安じゃないだろうか。

話は音ゲーに戻る。

ゲームのシステム全体でのディレイ(レイテンシー)がどれだけなのかは測ってないので分からない。だけど、テレビだけで生じてしまう34ミリ秒というのが許し難いディレイだというのは、ひょっとしてシステム全体で許容できる限界を一気に超えてしまうからではないか、そしてそれは合計で60ミリ秒を超えたぐらいなのではないか。

というのが私の予想。

ここまで書くと、なんか測定しないと気が済まなくなってきたなあ。。

音ゲーというのは結局、伴奏に合わせてリズムを刻むゲームなのだから、どれだけディレイがあろうと、克服して、リズムに合うようにボタンを先押しするゲームである、というのがコブヘーさんの意見。確かにその通りだと思う。プレイヤーはがんばってトレーニングすれば、かなりのディレイは吸収してプレイできると思う。L4Uのプレイヤーランキングで上位にいる人の中には、ワイヤレスパッドにデジタルテレビといった、ディレイがひどい状況にもかかわらず、高得点をマークしている人がいるにちがいない。

もちろん、日常的な環境下でディレイとして許容できる時間からかけ離れてくるほど、そのトレーニングは難しい物になるはずだ。このトレーニングをゲームの楽しみとして考えられるかどうか。その時間において34ミリ秒というディレイを起こすデジタルテレビは、主観的にも客観的にも厳しい存在のはず。

わたしはそれよりも、ディレイは最小で、脳内のリズムや手の動きのブレを少なくすることでの高得点を競う方が、健全というか、楽しみながら技術の向上ができるような、そんな気がする。

01:56 [Comment:2]

comment

安藤 2008.03.12-12:52 Edit

ここらへんは音楽認知の研究の題材にもなっていますね。

楽器のデジタル化の弊害、つまり一番ディレイを強く感じ、演奏に支障があるのは、打楽器だそうです。

その理由は人間の楽器認識にあるそうです。
通常の楽器は発音開始から規則振動に移行するまでの「立ち上がり」は比較的長いのにもかかわらず、人間は「その楽器はそういうものだ」ととらえているので、うまく調整できる。
(立ち上がり時間が一番長いのは間違いなく人間の歌です。子音から母音に移行するタイミングがをリズムに合わせる必要がありますから)

それに対し打楽器(ピアノも含みます)は、そもそも(不完全な)規則振動へ移行するのに要する時間が非常に短い。
おまけに、打楽器は立ち上がりを調整可能な入力インタフェースを持っていません。

ゲームのボタンも構造的や機構はデジタル打楽器と共通ですから、おそらくこの様なゲームだからこそ、ディレイを強く感じてしまうのだと思います。

ko-wa 2008.03.14-20:35 Edit

>安藤さん
音ゲーのボタン押しは、完全に打楽器ですね。
多楽器の音はオンセットがはっきりしているし、正確なリズムが求められているのでしょうから、打楽器の演奏家は特にズレに敏感になるのかもです。
ゲームの場合、ボタンを押した瞬間にボタン自体からも音が発生するわけで、さらにズレが強調されるのかもしれません。
これはヘッドホンの音量を上げることで対処するのがいいのかなあと思います。

アカデミックな方向性は面白くて、あれこれ調べたくなっちゃいます・・・