【翻訳】ツリーテスト（2）テスト結果を解釈する（Kathryn Whitenton, NN/g, 2017）

www.nngroup.com

要約：成功、ファーストクリック、直帰率などのツリーテスト結果を分析し、情報アーキテクチャとナビゲーションラベルを改善しましょう。

ツリーテストは、情報アーキテクチャのカテゴリとラベルを評価します。先日、ツリーテストを設計するためのプロセスを説明しました。調査を計画したら、次のステップは、データを収集し、結果を解釈することです。シンクアラウドユーザビリティテストとは異なり、ほとんどのツリーテストは非モデレートスタディとして実行され、定量的な結果のみを生成します。この方法では、多数のユーザーから素早くデータを収集することができますが、インサイトを抽出するために異なるアプローチが必要です。テストの1日をただ座ってメモを取るのではなく、体系的な分析を行ってデータの傾向を把握し、その重要性を評価する必要があるのです。

データの収集

参加者の調査

ユーザビリティテストと同様に、優れたツリーテストの研究では、特にターゲット層が特殊な製品の場合、代表的なユーザーを研究参加者として募集する必要があります。生命保険に関するWebサイトをテストするために大学生を募集するのはやめましょう。

ツリーテストでは、大勢のユーザーから簡単にデータを収集できるため、ユーザーの行動の傾向を明らかにし、質の低いデータを提供するやる気のない参加者の影響を最小限に抑えるために、少なくとも50人のユーザーを集めることを目標としてください。2つのツリーをテストしてその性能を比較する場合は、被験者間試験デザイン（つまり、異なる人がそれぞれのバージョンをテストする）が必要なため、参加者の数は2倍必要です。

参加者あたりのタスク数

各参加者が実行するタスクは、10個以下であることを確認してください。ツリーテストのタスクは短時間で完了しますが、それでも、30個のタスクを連続して行わせるのは良いアイデアではありません。同じメニューを15回クリックした人は、Webサイトに降り立ったばかりで、そのメニューをまったく見たことがない可能性のある一般的なユーザーとは、かなり異なる心理状態にあると考えられます。 10以上のタスクをテストする必要がある場合は、より多くのユーザーを募集し、ツリーテストツールのランダム化機能を使って、各参加者に10タスクだけを割り当てるようにします。

パイロット・テストの実施

最後に、グループ全体に送信する前に、少数のユーザーに調査を完了してもらい、その回答を確認します。パイロットテストは、タスクの文言に意図しない問題があった場合、それを修正するのに十分なほど早い段階で明らかにすることができます。

ツリーテストの評価指標

結果が出たら、ユーザーがどのようにカテゴリーを理解したか（あるいは誤解していたか）、様々なメトリクスで把握することができます。最も一般的なツリーテストツールであるTreejackとUserZoomは、それぞれこれらのメトリクスを表示するために若干異なるスタイルを使用していますが、両方とも研究の各タスクに対してこれらの定量的な測定を提供します。

成功率：そのタスクに適したカテゴリを見つけたユーザーのパーセンテージ
直帰率：後戻りしたり、他のカテゴリーを試したりすることなく、すぐに正しいカテゴリーに移動したユーザーのパーセンテージ
費やした時間：タスクの開始から終了までの平均経過時間
経路測定：各カテゴリーの選択頻度
ファーストクリック：最も多くの人が最初に選択したカテゴリー
終着地点：多くの人が最終的な回答として指定したカテゴリ

研究の対象となるツリーやタスクの種類によっては、情報アーキテクチャが実生活でどの程度機能するかを予測する上で、これらの指標のうちのいくつかが他の指標よりも有用である場合があります。

成功率

成功率を計算するためには、各タスクに少なくとも1つの「正しい」答えを割り当てる必要があります。そのタスクの成功率は、ツリー内の正しい位置を見つけ、そのタスクを完了するための正しい場所として認識したユーザーの割合を示します。ユーザーが最終的に異なる場所を選択した試行は、失敗として報告されます。たとえば、ニューメキシコ州の図書館に関する情報を探すよう求められたとき、100人中67人が正しい場所を選択した場合、そのタスクの成功率は67%です。

表面的には、成功率は単純で、高ければ高いほど良いように見えます。しかし、この指標に基づいて行動を起こすには、まず、ツリー全体と特定のタスクの両方について「良い」成功率とは何かを判断するための適切な基準枠が必要です。

ツリーテストは、その性質上、検索機能、セカンダリーナビゲーションオプション（関連リンクなど）、ビジュアルデザインやコンテンツからのコンテクストの手がかりなど、多くの役立つデザイン要素を排除していることに留意してください。ユーザーが目にするのは、削ぎ落とされたナビゲーションメニューだけなのです。

ツリーテストで参加者に表示されるユーザーインターフェースの例。UserZoomのツリーテストのタスクに見られるように、ツリーテストでは、タスクの指示とカテゴリラベルの縮小されたメニューだけが参加者に表示されます。ユーザーは、検索機能、コンテンツ、レイアウト、ドロップダウンメニュー、その他メニューオプションを解釈するのに役立つコンテキストを利用することはできません。― Image by NNg

ツリーテストは非常に基本的なものなので、成功率は通常の定量的なユーザビリティ調査よりもはるかに低くなることがよくあります。ツリーテストの成功率が67%であっても、最終的なデザインの成功率は90%になる可能性があります。(しかし、これはデザインの他の部分がうまく実行されている場合にのみ起こることで、検索の実装やメニューのデザインが悪いと、成功率がツリーテストで観察されたレベルよりも低くなることもあります)。

成功率100%を期待するのではなく、より現実的な基準で、各タスクの成功率がどの程度まで許容されるかを評価し、以下の点を考慮します。

全体的なユーザーエクスペリエンスに対するタスクの重要性
他の類似タスク（例：階層内の同じレベルのコンテンツを対象とするタスク）と比較した場合の各成功率

例えば、以下の表にある 2 つのタスクとそれぞれの成功率について考えてみましょう。フードスタンプのタスクの成功率は、もう一方のタスクよりもはるかに低いですが、この結果は、ユーザーが正しい答えを見つけるために、さらに3つの階層を掘り下げる必要があることが原因の一部となっています。

タスク	正解	正答率
ニューメキシコ州立図書館への行き方と開館時間はどこにありますか？	市民生活 >教育 >図書館 >図書館、ニューメキシコ州	67%
ニューメキシコ州でフードスタンプを利用できる人を決定する規則を見つけて下さい。	市民生活 >健康と福祉 >一般健康 >人間福祉部 >支援募集 >食糧援助 >補助栄養補助プログラム	43%

この2つの成功率を比較するのではなく、次のどちらかを比較する方が現実的でしょう。

フードスタンプのタスクの成功率と、同じく6レベル下のコンテンツを対象とした別のタスクの成功率、または
「食糧援助」という言葉を使ったものと「フードスタンプ」という言葉を使ったもの、ラベルの異なる2つのツリーで実行したフードスタンプのタスクの成功率。

フードスタンプのタスクの成功率と、同じく6レベル下のコンテンツを対象とする別のタスクの成功率、またはフードスタンプのタスクの成功率を、ラベルの異なる2つのツリー（「食糧援助」と「フードスタンプ」の用語を使用したツリー）で比較します。

直進性と所要時間

何人のユーザーが正しい場所にたどり着いたかを測定することに加えて、途中でどれだけ苦労したかを考慮することも重要です。これは、ユーザーが正しい答えを見つけるまでに要した時間を示す「所要時間」と、何人のユーザーが後戻りしたりカテゴリーを変えたりせずに、正しい答えにすぐにたどり着いたかを示す「直進性」です。ダイレクトナビゲーションは、混乱や回り道を最小限に抑えたスムーズなインタラクションを示唆することから、「ハッピーパス」とも呼ばれます。

高い成功率を誇るタスクでも、最終的に正しい答えを見つけるまでに、ユーザーが手順を辿ったり、複数の場所を試したりしなければならない場合は、ユーザーエクスペリエンスが低下する可能性があります。たとえば、学費を調べるというタスクを考えてみましょう。74人のユーザーが最終的に正しい答えを見つけたにもかかわらず、そのうちの50％しか直接的な経路をたどっていません。. また、正解者の半数は、正解を見つけるまでに少なくとも1回は経路をたどる必要がありました（ただし、実際にはツリーの3カ所で正解を見つけることが可能でした）。

成功率と直進性の両方を示したツリーテストの結果例このタスクの結果は、74%のユーザーが授業料を見つけることに成功したにもかかわらず、その半数は間接的な経路をたどり、少なくとも一度は行動を起こさなければならなかったことを示しています。― Image by NNg

費やした時間と直進性の両方が、ユーザーにとってどれだけ簡単なタスクであったかの指標となります。特に、初心者やたまにしか使わない人が頻繁に行うタスクでは、過去の経験から場所を学習・記憶する利点がないため、直進性が重要です。

経路：最初のクリックから最終目的地まで

成功率と直進性は、カテゴリが見つけやすいかどうかを示します。詳細な経路解析は、うまく機能しないカテゴリを改善する方法を見つけ出すのに役立ちます。

タスクのファーストクリックは、ユーザーがそのタスクを開始するときに最初に選択するカテゴリです。ツリーテストでは、親カテゴリが選択されるまでサブカテゴリのいずれも表示されないため、最初のクリックは常にトップレベルのカテゴリになります。

最初のクリックは、ユーザーが最終的に正しいアイテムを見つけることに成功するかどうかを予測することが多いので、非常に重要です。例えば、ショッピングモールのフードコートを探しているとします。フードコートが最上階にあり、エスカレーターで下へ降りたとしたら、すぐに見つかる可能性はほとんどないでしょう。しかし、正しい階層から始めれば、少し歩き回って、食べ物の匂いを頼りに見つけることができるかもしれません。

最初のクリックも同じように動作します。ユーザーが正しいカテゴリの一般的な近辺に到達すると、文脈の手がかりとローカルナビゲーションによって、それを見つける可能性が高くなります。下の表は、成功率わずか20%のタスクのファーストクリックのデータです。正しいトップレベルカテゴリーである「ディレクトリ」は、ファーストクリックの14%に過ぎません。その代わりに、ユーザーは「プログラム」や「学校」のセクションから始めており、ほとんどのユーザーはそれらのエリアをさまよってしまい、「ディレクトリ」に戻ることはありませんでした。

環境法を教えている教員のリストを探すとき、最初の選択肢としてDirectoryをクリックしたユーザーは14％しかいませんでした。このため、Treejackの研究によるこのタスクの結果では、全体の成功率はわずか20％となりました。― Image by NNg

ファーストクリックのデータは、次のような場合に注意深く調べましょう、

タスクの成功率や直感性が低い場合。最初のクリックは、ユーザーが最初にその情報を見つけることを期待した場所を示し、アイテムを移動すべき場所（または少なくともクロスリスト）を示唆します。
最終的には、第2階層と第3階層のカテゴリーが一目でわかるメガメニューを採用する予定です。複数のサブレベルを同時に見て比較することができるため、ツリーテストで観察されるよりも成功率が劇的に向上します。しかし、これは最初のクリックが成功し、ユーザーが正しいメガメニューにたどり着いた場合にのみ機能します。

ファーストクリックが複数のカテゴリーに分散しているタスクが多い場合、カテゴリーが重なりすぎている可能性があります。カードソートを行うか、ツリーテストの結果を再度確認し、他の可能な構成スキームを探します。

ファーストクリックは正しいが、成功率が低い場合、ユーザーが選択した最終目的地を確認します。このパターンは、下位のカテゴリが重なりすぎていることを示唆しています。

各場所を最終目的地として選択したユーザーの割合を示すタスク結果の例。芸術祭に関する情報を調べるタスクの最初のクリックと最終目的地。すべてのユーザーがレクリエーションのカテゴリーを正しくクリックしましたが、35%が芸術と文化を最終目的地として選択し、22%が魅惑の国を探検することを選択しました。ニューメキシコで何が起こっているか」を正しく選択したのは、わずか30％でした。この結果は、これらの兄弟サブカテゴリが重なりすぎていて、どちらかがユーザーにとって適切な目的地であると感じられないことを示しています。― Image by NNg

データをアクションに変換する

ツリーテストは定量的なデータをもたらしますが、その結論は決して白黒つけられるものではありません。タスクの成功率は最初のステップに過ぎず、ユーザーが正しい答えにたどり着くのにどれだけ苦労したか（直進性）、正しい答えがどこにあると期待していたか（ファーストクリック）という文脈で解釈する必要があります。

この分析が完了すれば、適切な解決策を見出すことができます。例えば

ファーストクリックが複数の領域に均等に分布している場合、トピックを複数のカテゴリーに分類してリストアップします。多くのタスクでこの問題が発生する場合は、全体の構成スキームを変更することを検討します。
成功率は低いが、ファーストクリックは正しい場合、サブカテゴリのラベルをより明確に変更します。

「体験とデザイン、スタートアップについて」の更新情報は、ぜひこちらのアカウント（@hrism2）をフォローしてください！
— いしまるはるき (@hrism2) 2022年5月30日