【翻訳】ヒューリスティック評価の方法

www.nngroup.com

要約:ヒューリスティック評価では、少数の評価者がインターフェースを調査し、認知的ユーザビリティ原則(「ヒューリスティック」)に準拠しているかどうかを判断します。

ヒューリスティック評価(Nielsen and Molich, 1990; Nielsen 1994)は、ユーザビリティ工学の手法の1つで、UI設計におけるユーザビリティの問題を発見し、反復設計プロセスの一部として対処できるようにするためのものです。ヒューリスティック評価では、少数の評価者がインターフェースを調査し、認知的ユーザビリティの原則(「ヒューリスティック」)に準拠しているかどうかを判断します。

一般的にヒューリスティック評価は、インターフェースの使い勝手の問題をたった一人ですべて見つけることはできないとされています。ただ、幸いなことに、多くの異なるプロジェクトでの経験から、人によって発見できるユーザビリティの問題は異なることも分かっています。したがって、複数の評価者が参加することで、本手法の有効性を大幅に向上させることが可能です。図1は、ヒューリスティック評価の事例で、19人の評価者が、顧客が自分の銀行口座にアクセスできる音声応答システムにおいて16のユーザビリティ問題を発見したものです(Nielsen 1992)。

図1の黒い四角は、1人の評価者が1つのユーザビリティの問題を発見したことを表しています。この図から、評価者によって発見されたユーザビリティの問題は、かなりの確率で重複していないことがわかります。確かに,ユーザビリティ問題の中には,発見が容易でほとんどの人が発見しているものもあれば,ごく少数の評価者が発見しているものもあります。

さらに、最適な評価者を特定して、その評価者の知見だけに頼ることもできません。その理由としては、第一に、毎回同じ人が最高の評価者になるとは限らないからです。また、見つけにくいユーザビリティの問題(図1の一番左の列)は、あまり問題を発見しない評価者が発見することもあります。したがって,ヒューリスティック評価には複数の評価者が参加する必要があります(最適な評価者の数については後述します)。ただ、評価者の人数が多くなっても、それに比例した分だけ多くの情報を得ることはできないため、通常は3〜5人の評価者を使うことをお勧めします。

f:id:hrism:20220130040829p:plain
図1 ある銀行システムのヒューリスティック評価において、どの評価者がどのようなユーザビリティの問題を発見したかを示す図. 各行が19人の評価者のうちの1人を表し,各列が16のユーザビリティ問題のうちの1つを表している.それぞれの正方形は、行で表された評価者が列で表されたユーザビリティの問題を見つけたかどうかを示している. 評価者が問題を発見した場合は黒で,発見しなかった場合は白を表示.行は、最も成功した評価者が下に、最も失敗した評価者が上になるようにソートされている. 列は、最も見つけやすいユーザビリティの問題が右側に、最も見つけにくいユーザビリティの問題が左側になるようにソートされている.

ヒューリスティック評価は、各評価者が単独でインターフェースを検査することによって行われます。すべての評価が終了した後に、評価者同士が連絡を取り合い、その結果を集計します(太字訳者)。この手順は、各評価者が独立した偏りのない評価を行うために重要です。評価結果は、各評価者がドキュメントで報告するか、評価者がインターフェースを操作しながらオブザーバーにコメントを口頭で伝えることで記録します。

ドキュメント化された報告書は、評価の正式な記録となる利点もありますが、他方で評価者の労力が増え、オブザーバーが読みこんで、集計を行う必要があります。また、オブザーバーを設けることは、評価セッションのオーバーヘッドが増えますが、評価者の作業負担を軽減することになります。また、オブザーバーが理解し、整理する必要があるのは、他の人が書いた一連のレポートではなく、それぞれの個人メモだけなので、最後の評価セッションの終了後かなり早い段階で評価結果を入手することができます。さらに,プロトタイプの動作安定性などに問題がある場合,オブザーバーは評価者がインターフェースを操作するのを手伝ったり,専門知識が乏しくインターフェイスのある側面を説明を受ける必要がある評価者の場合も、手助けをすることができます。

ユーザーテストの場面では、オブザーバー(通常「実験者」と呼ばれる)は、ユーザーの行動を解釈し、その行動がインターフェース設計におけるユーザビリティの問題とどのように関連しているかを推論する責任を負うことになります。これにより、ユーザーにUI設計の知識がなくても、ユーザーテストを実施することができます。一方、ヒューリスティック評価では、UIを分析する責任は評価者にあるため、オブザーバーは評価者のインタフェースに関するコメントを記録するだけで、評価者の行動を解釈する必要はありません。

さらに、ヒューリスティック評価セッションと従来のユーザーテストとの違いは、セッション中に評価者からの質問に答えるオブザーバーの存在と、評価者がインターフェースを使う上でのヒントをどの程度提供できるかの2点です。従来のユーザーテストでは、目的はユーザーがインターフェースを使用する際の間違いを発見することであり、そのため実験者は必要以上の手助けをすることに抵抗感を抱きます。また、ユーザーには、実験者を介して解にたどり着くのではなく、システムを使って答えを発見することを求めています。ある専門領域に特化したアプリケーションのヒューリスティック評価では、特に非専門領域の人が評価者となる場合、評価者のある質問に答えることを拒否するのは不合理です。それどころか、評価者の質問に答えることで、ある専門領域の特性に応じたユーザーインターフェースの使い勝手をよりよく評価することができるようになります。同様に,評価者がインターフェースの使い方に悩んだときに,その解決策を提示することで,インターフェースの仕組みに悩むことで貴重な評価時間を浪費することがないようにすることができます。ただし、評価者が明らかに困っていて、そのユーザビリティの問題についてコメントするまでは、ヒントを与えないようにすることが重要です。

通常、評価者個人のヒューリスティック評価セッションは、1~2時間です。大規模なインタフェースや非常に複雑なインタフェース、多数のダイアログ要素がある場合、より長い評価セッションが必要になるかもしれませんが、インタフェースの一部を集中的に評価するために、いくつかの小さなセッションに分割する方がよいでしょう。

評価者は、評価セッションにおいて、インターフェースを何度も確認し、さまざまなダイアログ要素を検査し、認知的ユーザビリティ原則のリストヒューリスティック)と比較します(訳注 翻訳済み)。これらのヒューリスティックは、使用可能なインターフェースの共通の特性を記述していると考えられる一般的な規則です。すべてのダイアログ要素について考慮すべき一般的なヒューリスティックのチェックリストに加え、評価者は、特定のダイアログ要素に関連するユーザビリティ原則または結果を追加で考慮することもできます。さらに、一般的なヒューリスティックの補足として、特定の製品クラスに適用されるカテゴリ固有のヒューリスティックを開発することも可能です。カテゴリ固有のヒューリスティックの補足リストを作成する一つの方法は、該当するカテゴリの既存製品の競合分析およびユーザーテストを行い、見つかったユーザビリティの問題を説明するための原則を抽象化することです(Dykstra 1993)。

インターフェースの評価の進め方は、原則として評価者が独自に決定します。ただし、一般的には最低でも2回、インターフェースを確認することをお勧めします。1回目は、インタラクションの流れやシステムの全体像を把握することを目的とします。2回目は、評価者が特定のインターフェース要素に焦点を当てながら、それらが全体としてどのような位置づけにあるのかを把握するためのものです。

評価者はシステムをそのまま使う(実作業を行う)わけではないので、紙の上だけに存在し、まだ実装されていないユーザーインターフェースヒューリスティック評価を行うことも可能です(Nielsen 1990)。このため、ヒューリスティック評価はユーザビリティエンジニアリングのライフサイクルの初期に使用するのに適しています(太字筆者)。

一般の人が歩きながら使えるようなインタフェースであったり、はたまた評価者が専門家であったりする場合は、そのまま評価者に使ってもらうことが可能です。しかし,システムがある専門領域に依存しており,評価者がシステムのある専門領域に対して素人である場合には,評価者がインタフェースを使えるように支援する必要があります。成功しやすいアプローチとしては、評価者に典型的な使用シナリオを提供し、現実的なタスクのサンプルを実行するためにユーザーが取るであろう様々なステップをリストアップしておくことです。このようなシナリオは、実際のユーザーとその作業に関するタスク分析に基づいて構築され、最終的なシステムの使用を可能な限り代表するものでなければなりません。

ヒューリスティック評価法のアウトプットは,インターフェイスユーザビリティ上の問題点のリストであり,評価者の意見として,それぞれのケースでデザインが違反したユーザビリティ原則への言及もそこに含まれます(太字筆者)。評価者は、単に「気に入らない」と述べるだけでは不十分で、ヒューリスティックや他のユーザビリティの結果を参照しながら、なぜ気に入らないのかを説明する必要があります。評価者は、できるだけ具体的に、各ユーザビリティの問題を個別に列挙するようにしてください。たとえば、あるダイアログ要素に3つの問題がある場合、インターフェース要素の特定の側面がなぜユーザビリティの問題ですかを説明するさまざまなユーザビリティ原則を参照しながら、3つすべてをリストアップする必要があります。各問題を別々に記載する主な理由は2つあります。第一に、ダイアログ要素の問題点をすべて認識していないと、たとえ新しいデザインに完全に置き換えたとしても、何らかの問題点が繰り返される危険性があります。第二に、インターフェース要素のユーザビリティ上の問題点をすべて修正したり、新しいデザインに置き換えたりすることは不可能でも、問題点をすべて把握していれば、いくつかの問題点を修正することは可能です。

ヒューリスティック評価では、ユーザビリティの問題を解決するための体系的な方法や、再デザインの品質を評価する方法は提供されません。しかし、ヒューリスティック評価では、観察された各ユーザビリティ問題を、確固たるユーザビリティ原則に照らして説明することを目的としています。そのため、このような場合、原則に違反する項目群が提供するガイドラインに従って、修正されたデザインを生成し、優れたインタラクティブ・システムに作り変えることはかなり容易であることが多い。多くのユーザビリティの問題というのは、それが特定されると同時に、かなり明白な修正が行われることになるからです。

例えば、あるウィンドウから別のウィンドウに情報をコピーできないことが問題なのであれば、そのようなコピー機能を搭載することが解決策になることは明らかです。同様に、大文字・小文字の形式やフォントに一貫性のないタイポグラフィを使用していることが問題であれば、インターフェース全体で単一のタイポグラフィ形式を選択することが解決策になることは明らかです。しかし、これらの単純な例でさえ、デザイナーはインターフェースの正確な変更(例えば、ユーザーがコピーを作成できるようにする方法や、2つのフォント形式のうちどちらを標準化するかなど)を設計するのに役立つ情報を持っていません。

ヒューリスティック評価の手法を拡張し、デザイン上のアドバイスを提供するために、最後の評価セッションの後に報告会を実施すること可能性の一つです。報告会には、評価者、評価セッションに参加したすべてのオブザーバー、およびデザインチームの代表者が参加する必要があります。報告会は、主にブレーンストーミング形式で行い、主たるユーザビリティの問題やデザインの一般的な問題点を解決するための再デザインの可能性について議論することに焦点を当てます。ヒューリスティック評価ではこのような重要な問題を扱わないため、報告会はデザインの肯定的な側面を議論する良い機会でもあります。

ヒューリスティック評価は、手法として「割引ユーザビリティエンジニアリング」であることを明示的に意図されています。独自の研究(Jeffries et al. 1991)により、ヒューリスティック評価が非常に効率的なユーザビリティ・エンジニアリング手法であることが実際に確認されています。私のケーススタディでは、ヒューリスティック評価プロジェクトのベネフィット・コスト比が48であることがわかりました。このメソッドを使用するためのコストは約10,500ドルで、期待されるベネフィットは約50万ドルでした(Nielsen 1994)。割引ユーザビリティ・エンジニアリングの手法としてのヒューリスティック評価は、「完璧な」結果を提供することや、インターフェースのユーザビリティ問題をすべて発見することを保証するものではありません。

評価者の人数の決定

原理的には、評価者個人が単独でユーザーインターフェースヒューリスティック評価を行うこともできますが、いくつかのプロジェクトの経験から、単独の評価者に頼るとかなり悪い結果が得られることが分かっています。6つのプロジェクトで平均すると、一人の評価者が見つけたユーザビリティの問題は、わずか35%でした。しかし、評価者によって発見される問題点は異なるため、複数の評価者の評価を集約することで、大幅に改善できる可能性があります。図2は、評価者の人数が増えるにつれて、発見されるユーザビリティ上の問題の割合が変化する様子を示したものです。この図から、複数の評価者を利用することで、大きな収穫が得られることが明らかです。評価者は5名程度、少なくとも3名程度を推奨するのが妥当でしょう。具体的な人数は、コスト・ベネフィット(費用対効果)分析によって決まります。ユーザビリティが重要な場合、あるいはシステムの大規模な使用やミッションクリティカルな使用によって大きな見返りが期待できる場合は、より多くの評価者を使用する必要があります。

`

f:id:hrism:20220130040951p:plain
評価者の人数を変えてヒューリスティック評価を行い、ユーザビリティ上の問題が発見される割合を示す曲線。この曲線は、ヒューリスティック評価による6つの事例の平均を表しています。

Nielsen and Landauer (1993) は,ヒューリスティック評価で発見されたユーザビリティ問題の数の次の予測式に基づいて,このようなモデルを提示していいます。

ProblemsFound( i ) = N(1 - (1-l) i )

ここで、ProblemsFound( i )は、i人の独立した評価者からのレポートを集計して見つかったさまざまなユーザビリティ問題の数を示し、またNはインターフェースのユーザビリティ問題の総数を示しており、lは、1人の評価者が見つけたすべてのユーザビリティ問題の比率を示します。6つのケーススタディ(Nielsen and Landauer 1993)では、lの値は19%から51%であり、平均値は34%でした。Nの値は16から50で、平均は33でした。この式を使用すると、図2に示すような曲線が得られますが、曲線の正確な形状は、パラメータNとlの値によって変化し、これもプロジェクトの特性によって変化します。

最適な評価者数を決定するためには、ヒューリスティック評価のコスト・ベネフィットモデルが必要です。このモデルの最初の要素は,固定費と変動費の両方を考慮した評価手法のコスト計算です.固定費とは、評価者が何人いても発生する費用であり、評価の計画、資料の準備、報告書の作成など、結果を伝えるための時間などです。変動費とは、評価者が1人増えるごとに発生する追加コストであり、評価者の給与、評価者のレポートの分析コスト、評価セッションで使用するコンピュータやその他のリソースのコストなどが含まれる。いくつかのプロジェクトで公表された値に基づくと、ヒューリスティック評価の固定費は3,700ドルから4,800ドル、評価者1人の変動費は410ドルから900ドルと推定されます。

実際の固定費と変動費は、当然ながらプロジェクトごとに異なり、各企業のコスト構造や評価対象のインターフェースの複雑さによって変わってきます。例えば、ヒューリスティック評価にかかる固定費が4,000ドル、評価者1人あたりの変動費が600ドルのサンプルプロジェクトを考えてみましょう。このプロジェクトで、i人の評価者を使ってヒューリスティック評価を行う場合のコストは、$(4,000 + 600i )となります。

ヒューリスティック評価による効果は、主にユーザビリティの問題を発見することにありますが、評価者が自分の評価レポートと他の評価者の評価レポートを比較することによって、ユーザビリティに対する理解を深める程度には、継続教育の効果が得られるかもしれません。このサンプルプロジェクトでは、ユーザビリティの問題を1つ見つけるのに、15,000ドルの価値があると仮定します。これは、Nielsen and Landauer(1993)がいくつかの公開研究から導き出した値を使用しています。実際のプロジェクトでは、当然ながら、予想されるユーザー集団に基づいてユーザビリティの問題を発見する価値を推定する必要があります。社内で使用するソフトウェアの場合、この価値は、ユーザーの生産性の向上が期待できることに基づいて推定できます。ただし、本当の価値は、ソフトウェアの出荷前に実際に修正されたユーザビリティの問題からしか生まれないことに注意してください。すべてのユーザビリティの問題を修正することは不可能なので、発見された各問題の価値は、修正された問題の価値のある割合に過ぎません。

f:id:hrism:20220130041100p:plain
図3 本文で説明した仮定を用いたサンプルプロジェクトのヒューリスティック評価において、ベネフィットがコストの何倍になるかを示すカーブ。この例では、評価者の最適人数は4人であり、便益はコストの62倍となる。

図3は、サンプルプロジェクトにおいて、評価者の人数を変化させた場合のコストに対する便益の比率を示したものです。この曲線から、この例では評価者の最適人数は4人であることがわかります。これは、ヒューリスティック評価が3人から5人の評価者で最もうまく機能するという一般的な観測を裏付けています。この例では、4人の評価者によるヒューリスティック評価のコストは6,400ドルで、395,000ドル相当のユーザビリティ問題を発見することができます。