【翻訳】メタバースとヒューマンコンピュータインタラクション（Stanislav Stankovic, UX Collective, 2022）

uxdesign.cc

私は、Neal Stephenson氏の『Snow Crash』がもともと書店に並んでいた頃を覚えているほど年をとっています。90年代初頭、私は10代でした。当時はまだ、コンピュータがネットワークに接続しようとすると、高音のノイズが連続して鳴り響く時代だった。しかし、サイバーパンクは新鮮で、人生の大半をオンラインで過ごすことになる、ハイパーコネクテッドな未来のビジョンだったのです。

30年後の未来。2022年、スティーブンソン氏の造語であるメタバースは、今や製品名となっています。このサイバースペースのビジョンは、世界的な大企業の1つによって共同利用されています。私たちは、約束された未来に生きているのでしょう。

この未来は、VRゴーグルと没入型3D環境という、技術開発者が数十年にわたって投げかけてきたいくつかのコンセプトと、数々の新しいコントローラーデバイスとが再び結びついている。このビジョンの魅力は、より直感的に操作できるようにすることで、テクノロジーとの関わり方を再定義し、その過程で、なぜか生産性を向上させることにあります。

すべてのVR環境を含むインタラクティブシステムの定義によると、入力デバイス、環境、ディスプレイデバイスが完全な技術的ループを形成し、ユーザーが当該環境と相互作用することを可能にしているとのことです。私のノートパソコンのキーボード、この文章を書くために使っているテキストエディタ、そしてノートパソコンの画面は、そのようなシステムの1つを構成しています。この文章を書くという目的のためには、これらは非常に適切であり、私はこれらを使うことに全く満足を感じています。それもそのはず、これらは数十年にわたる漸進的な改良の結果なのだ。とはいえ、最初からこのような形だったわけではありません。何事もそうですが、イノベーション、ディスラプションの余地があるのです。VR、AR、XRなどはまさにこれ、つまり私たちのテクノロジーとの付き合い方における破壊を約束するものです。

このような約束に対する最終的な評決は、最終的なユーザーによって下されることになります。テクノロジーそのものに魅了されているわけではなく、むしろそれを手段として使っているような、普通の人たちです。ユーザーエクスペリエンス（UX）の質は、このような提案を左右することになります。逆に、新しいヒューマンコンピュータインタラクション（HCI）のパラダイムが広く採用されれば、UXデザインのあり方にも重要な影響を与えるでしょう。

この文章では、あえてシミュレーション酔いについて語るつもりはありません。シミュレーション酔いは、技術の批評家と支持者の両方から多くの注目を集めた現象です。また、多くの開発者が注目している現象でもあります。

その代わりに、この新しいエキゾチックなデバイスのUXに関連する、他の3つの非常に重要なヒューマンファクターについてお話します。これらの要因は、人間とコンピュータのインタラクションの新しい方法を設計する際に、非常に重要な概念的問題として現れます。私は、この分野で働く誰もが、これらの要因について知っておくべきだと考えており、以下の文章でその理由を説明しようと思います。

1. 離脱の時間

この3つの概念の1つ目は、HCIで「Time to Disengage（離脱の時間）」と呼ばれるものです。この暗号のような名前は、同時にとてもシンプルでとても直感に反することを表しています。私たちは、システムを構築することで、システムと対話することができます。理想的には、UXはインタラクションをより快適に、効率的に、直感的にすることです。しかし、私たちは物理的な世界に住み続けています。テクノロジーのサイバースペースに浸っている間でも、私たちは現実の世界に浸っているのです。この2つをシームレスに切り替えることは、最も重要でありながら、最も軽視されているタスクの1つです。

この文章を打っている間、私は自分の仕事に集中しています。流れに身を任せている。周囲を気にしないようにするのが一番です。しかし、現実の世界では、私の注意を必要とするようなことが起こるかもしれません。それはとても平凡なことかもしれません。同僚に何か聞かれるかもしれません。息子がクッキーの瓶を開けるのを手伝ってくれるかもしれません。あるいは、電気牛が沸騰し始めるかもしれません。猫が机の上に飛び乗るかもしれません。いろいろなことが起こるかもしれません。家が燃えているかもしれません。ラップトップの画面から現実の世界に注意を移す時間は、ミリ秒単位で計測されます。必要なのは、気が散る可能性のある方向に目を向けることだけです。ラップトップ画面上の仮想世界に戻るのも、同じ労力で済みます。

一方、VRゴーグルを装着した場合はどうでしょう。この装置によって、私は事実上、現実の世界を見ることができなくなります。現実の仮想世界から現実世界へ出てくるために必要な時間は、再びごく短いものになります。しかし、そのために必要な労力はかなり大きい。手を使って、目から装置を引き離さなければならないのだ。3Dコントローラーに手を固定している場合は、さらに秒単位で時間がかかる。たとえこれらの動作に完璧に慣れていたとしても、どんなに速くても、画面から目を離すのとは一桁違う遅さになります。仮想世界に戻るのも、同じかそれ以上の労力が必要です。

些細な中断が、VR機器の使用における大きなイラつきにつながるかもしれません。その結果、VR機器の実用的な利用シーンが限定され、ユーザーによる採用が制限される可能性があります。

2. 受動的触覚フィードバック

プリンター用紙にボールペンで絵を描くのと、水彩画用紙に水彩絵筆で絵を描くのでは、描き心地が違います。クレヨンで色を塗るのと、マーカーで塗るのとでは、感触が違います。生肉を切ろうとするとき、パンを切るのとチーズを熟成させるのとでは、劇的に感触が違う。これは、私たちが当たり前のように感じていることですが、実は非常に重要なことなのです。

筋肉が道具にかける力は、皮膚の神経末端に反射して返ってきます。この力の複雑な相互作用は、私たちがさまざまな作業を行うために必要不可欠なものです。このように、感覚と運動のループによって、私たちは繊細な作業を正確に行えるよう、頭の中で動きを調整しているのです。私たちが感じているのは、実は「Passive Haptic Feedback（受動的触覚フィードバック）」なのです。

ナイフの柄には、指に力のフィードバックを伝えるような特別なものは組み込まれていません。私たちが感じているのは、物理の基本法則の結果なのです。固体物体の慣性による外力の印加に対する受動的な抵抗に過ぎないのです。したがって、これは受動的な形のフィードバックである。それぞれの物体は、その形状、構成、アプリケーションのコンテキストによって、ユニークで認識可能な触覚フィードバックを発します。

次に、ジェスチャーベースのインターフェースについて考えてみましょう。10年半ほど前、任天堂のWiiやマイクロソフトのKinectが世界を席巻した時代には、コンピュータ・コンソールで大流行しました。Google Tilt Brushなど、新しいデバイスやソフトウェアが登場し、再び注目を集めています。

これらのデバイスやアプリケーションは、私たちの身体が認識できる物理法則を欠いた仮想世界で操作しながら、様々なリアルタイムツールの動作をエミュレート、模倣しようとするものです。仮想世界では、あなたは非物質の銃や絵筆を扱っているのです。指と指の間の空間は空虚です。物理的な机やキャンバスに寄りかかることもません。

仮想世界には、適切な受動的触覚フィードバックがないのです。このことは、実際には重要ではないこともあります。時には、それがユーザーにとって有利に働くこともあります。仮想の銃を撃つときに、実際の反動を感じない人はいないでしょう。ほとんどのシューティングゲームの面白さは、武器の特性を忠実に表現することにあるのではありません。しかし、VRやARのいわゆるプロフェッショナルな用途にどんどんスライドしていく中で、こうしたことがより重要視されるようになるでしょう。仮想空間で何かを描くのと、物理的な粘土や木で何かを彫るのとは、かなり違う感じがします。

これは重要なことです。受動的な触覚フィードバックなしで作業することは、局所麻酔下で作業することに似ています。デジタル画像処理とペイントのアプリケーションは、数十年前から、さまざまな物理的なツールを使って描くことの重要な特性を模倣する方法を発展させてきました。その大部分は、適切な受動的触覚フィードバックを模倣することにあります。Photoshopには洗練された設定があり、ユーザーは仮想ツールの仮想先端の周囲に仮想インクが流れて広がる速度を調整することができます。

一方、人間の心は驚くほど柔軟な存在です。人間は、新しい道具に出会ったとき、その道具の特性に適応することができるのです。

3. 偽の入力

私は、文字を入力するときにミスをすることがあります。私は不器用で、両手の指を3本ずつしか使わずにタイピングしています。しかし、タイピングでミスをするとなると、やはり物理的なボタンを押さなければなりません。ボタンを押すことに曖昧さはありません。ボタンが押されれば、意図的であろうとなかろうと、ソフトウェアがそのボタンに割り当てた機能を実行することができるのです。

ここで、先ほどのジェスチャーインターフェースに話を戻すと、物事はそう単純ではないことがわかるでしょう。確かに、ユーザーのハンドジェスチャーを認識する高度なシステムを作ることはできますが、ユーザーが手を振って仮想の本のページをめくっているのか、それとも何か関係のない理由で手を振っているのか、どうやって知ることができるのでしょう。ジェスチャーでコマンドを発行するのは直感的なようですが、ジェスチャーが単純であればあるほど、システムがそのジェスチャーが意図的なものか、誤って行われたものかを理解するのは難しくなります。また、ジェスチャーが複雑であればあるほど、ユーザーが適切にジェスチャーを実行することは難しくなります。

この問題は克服できないものではありませんが、存在するのは事実です。これを回避するために、ボタンを備えた小型のデバイスをユーザーに握らせるシステムもあります。もう一度ボタンを押すことで意思表示をする。しかし、この方法にも限界があります。まず、純粋なジェスチャーによるアプローチではありません。ユーザーと専用デバイスの間に接触が必要なことに変わりはありません。次に、2つの異なる、しかし類似した入力を区別するのに役立ちません。

既存のデバイスでさえ、この問題を抱えています。タッチスクリーンでのスワイプコマンドを考えてみましょう。上下にスワイプすると、仮想ページのコンテンツがスクロールします。左右にスクロールすると、仮想ページ、つまりブラウザのタブが反転します。携帯電話の持ち方にもよりますが、この動作が完全に水平または垂直になることはほとんどありません。私のような場合は、やや斜めの動作になります。そのため、しばしば誤操作が発生し、意図した動作とは逆の動作をされることがあり、非常に困っています。

おわりに

この3つは、いずれもVRの開発において乗り越えられない障害となるものではありません。技術開発者は、その影響を軽減したり、これらの問題を回避したりすることができます。場合によっては、潜在的なユーザーにとって有利になるように、これらの問題を解決することさえ可能です。

しかし、この分野で働く場合、これらの問題やその他多くの概念を認識する必要があります。その重要性を認識しないと、設計に重大な失敗を招く可能性があるからだ。この3つの概念は、それぞれ独立したものですが、同時に作用することによって、互いの悪影響を拡大させることがあります。例えば、パッシブな触覚フィードバックの欠如と誤入力の組み合わせは、歴史上、ジェスチャーベースのインターフェースの開発における大きな障害となってきました。マイクロソフトのKinectがギミックとして残っている一方で、ゲームパッド、キーボード、マウスは今日までゲームプレイの主役として残っています。