【翻訳】ユーザビリティの定量化手法としてのキーストロークレベルモデリング

medium.com

プロダクトデザイナーとして、私たちは自分たちのデザインソリューションがプロダクトのユーザーにとってどのように機能するかに常に注目しなければなりません。ユーザーからのフィードバックは、私たちの仕事の証明であり、新しくデザインされたプロダクトや再デザインされたプロダクトのユーザビリティは、常にターゲットユーザーによって検証されなければなりません（最近では幸いにも、デザインプロセス全体の中で明らかになってきています）。この検証の結果は、デザイナーがプロダクトをさらに発展させるのに役立ちますし、プロダクトの全体的な使いやすさと時間の経過に伴う発展の良い指標となります。

プロダクトの最大の設計ミスを特定するために使用できるユーザビリティ・テストの手法は数多くあります。アジャイルソフトウェア開発の場合、プロダクトのユーザビリティを客観的な指標で定量化することが適切です。これは、プロダクトの長期的なユーザビリティの傾向を監視するのに役立ち、プロダクトの開発にとって重要な指標となります（また、マーケティング目的で「プロダクトのユーザビリティのレベル」を宣伝するのにもうまく利用できます）。

ユーザビリティの定量化

製品の使いやすさを定量化するための指標はいくつかあります。タスクタイムやエラーレートのような単純なものは、特定のユーザーのシナリオをテストする一連のタスクにおけるユーザーの有効性や効率性を単純に定量化するために使用できます。また、シングル・ユーザー・メトリクス（SUM）などのように、より複雑な指標もあります。

多くの評価指標の中で、タスク時間は使いやすさの指標として非常に重要な役割を果たしています。しかし、この指標には単純な問題があります。つまり、どのような結果であれば十分に良いと評価できるのか？タスクをパスするのに適切な時間の値として何を設定すべきでしょうか？あるいは、最適な時間とは何か？タスク（またはユーザーシナリオ）に必要な「理想的な時間」については、常に考える必要があります。この理想的な時間がわかって初めて、効率性の評価を終了し、自分のデザインが良い方向に進んでいる／進んでいないことをまとめることができます（これは、私たちが関心を持つべきユーザビリティの問題を示すことにもなります）。

「理想的な」タスクの時間を得るには？

この制限時間の設定にはいくつかの方法があります。ある研究者は、理想的な方法でタスクをパスし、最終的な時間にn倍（これは経験的に設定された定数で、「平均的なユーザー」をモデルとしています）をかけたときの「パイロット」タスクトライアルから、この時間を推論することに慣れています。また、同僚を参加者としてタスクを最初にテストし、その結果から時間を概算する人もいます。これらのアプローチはいずれも合理的ですが、それでもかなり不正確であり、このような結果は製品の使いやすさの適切な定量化にはほとんど使用できません。

キーストロークレベルモデリングは客観的な手法である！

もう一つの方法は、ユーザーがゴールに到達するために必要なすべての基本ステップを詳細に分析して、理想的な時間を推定することです。キーストロークレベルモデリング（KLM）と呼ばれるこの方法は、マウスクリックや心理的な操作など、タスクを完了させるために必要なすべての基本ステップをまとめたものです。シナリオ全体を見渡し、最終的な目標に向かって理想的な方法ですべての操作を段階的に数えていきます。これらのステップの総和が、理想的な時間の値になります。

どう機能するのか？

この方法は、研究者にとっては非常に面倒なもののように思われますが、思ったほど時間がかかるものではありません。必要なのは、テストシナリオを見て、すべてのステップを用意されたテンプレートに書き出すことだけです（最終的な値を自動的にカウントするExcelの表があれば十分です）。一度、シナリオ用のモデルを手に入れれば、比較が必要な別のテスト（または、同じシナリオをより新しい製品バージョンで繰り返す場合）に何度でも再利用することができます。

私は、主な重要な初期段階にこの時間の値を使用しています。

キーストローク、タイピング（キーボードとディスプレイの両方を使用）：時間値250ms
マウスクリック - 時間値 200ms（ダブルクリックの場合は 2 回カウントされる）
ホーミング（マウスからキーボードへの切り替えなど、操作方法の変更） - 時間値 350ms
ポインティング（マウスカーソルの移動） - 時間値 1100ms
心理的な操作：時間値1350ms：心理的な操作は常に他の操作よりも先にカウントされます（簡単に言うと、次のステップを「考える」必要がある場合）。心理的な操作とは、例えば、カーソルを新しい場所に移動する前、インタラクションを変更する前、書き込みをする前などにカウントされます。文字を書くときに各キーを押す前などは、通常、精神的な操作はカウントされません。(一般的には、あまり心を動かさずに行われる瞬間）。)
システム応答とは、システムが平均的に応答するために必要な時間値です。システム応答は、実際の状況または適格な推定値に基づいて追加されます（ファイルのアップロードに10秒かかる場合、10秒をシステム応答としてカウントするなど）。

どうやって使えばいいのか？

この手法が実際のユーザビリティテストでどのように機能するかを検証するために、私は昨年実施した30以上のユーザビリティテスト（異なる製品やシナリオ）を再度調べ、KLM法を用いて理想的な時間を算出しました。目的は、ユーザビリティの定量化にKLMを使用することの可能性を探ることでした。ほとんどのユーザーシナリオは、1つの機能をテストする非常に短いタスクで、ゴールに到達するための一連のステップが必要でした。すべてのテストで計算されたKLM値（つまり理想的な時間）は、10秒から185秒の範囲でした（一方、研究者が推定した完了までの時間の限界値は、これらのシナリオで15秒から780秒でした）。これは、初期の曖昧な見積もりを、テスト前にKLM値で検証することで、効率性のベンチマークをより明確に把握できることを示しています。)

ユーザーのパフォーマンスと、KLM方式でモデル化された理想的なタイムに、どのようなパターンが見られるかを詳しく見てみましょう（上図参照）。私の分析では、これらの値の比率は、1プラスから15以上の極端な値まで様々でした（すべてのケースの中央値は3.2で、ユーザーは計算された理想的な時間よりも3倍以上遅かったということです）。値の分布を経験的に分析すると（反応時間ではよくあることですが、わずかに左に偏っています）、実際には約7以上の比率の値に相当するパフォーマンスには問題があり、おそらく満足のいくものではないと結論付けられます（これは実際のテスト結果で検証されています）。このベンチマークは、様々な製品（特定のターゲットユーザー向けの非常に複雑な製品もあれば、一般ユーザー向けのシンプルなアプリもある）によって異なるため、目標の設定や結果からの結論には十分な注意が必要です。

ユーザーのタスク時間とKLMのモデル時間の比率が時間の経過とともに減少した場合（同様のシナリオを使用していると仮定した場合）、製品はより使いやすくなっており、その逆もまた然りである。つまり、この比率は、テストされた機能や製品の複雑さを追跡するのに役立ちます。

理想的な時間を知ることは、本当に価値がある！

キーストロークレベルモデリングは、ユーザビリティテストでユーザーシナリオを通過するために必要な、いわゆる理想的な時間を決定する望ましい指標であると思われます。少なくとも、特定の機能が理想的なものに非常に近い形で設計されているという結論は、貴重で理解しやすい発見であり、すべての関係者と共有することができます。私たちのデザインによってユーザーができることがわかれば、ユーザーのパフォーマンスや起こりうるフラストレーションをよりよく理解することができます。注：この分析にどのような製品や機能を使用したかは、ほとんどが機密情報であるため、意図的に言及していません。とはいえ、これは手法そのものにはあまり関係がなく、詳細なメタデータがなくても、説明した例が役に立つことを願っています。ご質問がありましたら、zbynek.ste(at)gmail.com! までご連絡ください。