2021-10-08

【翻訳】シングル・イーズ・クエスチョン（Single Ease Question：SEQ）について

https://help.qualaroo.com/hc/en-us/articles/360039069992-Single-Ease-Question-SEQ-

Anastacia Valdespino　2 years ago Updated

この記事で紹介されている内容

SEQとは？
SEQの使い方
SEQの結果を解釈する
SEQの長所と短所

シングル・イーズ・クエスチョン（Single Ease Question：SEQ）とは？

シングル・イーズ・クエスチョン（Single Easy Question：SEQ）とは、ウェブサイトやアプリの特定のタスクをユーザーがどれだけ難しいと感じるか、あるいは簡単だと感じるかを評価するための7段階の評価尺度のことです。SEQは、ユーザビリティテストの重要な部分です。SEQは、インターフェースやプロトタイプの一般的な使い勝手を測定するのではなく、ユーザーが感じた特定のタスクを完了するための難易度を測定します。

SEQで何が分かるのか？

SEQは、特定のタスクの難易度に関するユーザーの認識を知るためのものです。ユーザーがタスクにどれだけ苦労したか（あるいは苦労しなかったか）を客観的な尺度で表現することは必ずしも容易ではありませんが、SEQは知覚された難しさを定量化するために使用できます。

また、タスクレベルで質問をすることで、ユーザーにとって障害となるタスクを特定することができます。他のタスクの難易度に関するデータがある場合、SEQの結果は、特に困難な障害を容易に特定できる比較指標となります。ジェフ・サウロは、SEQのような要素を他のデータと比較するという記事の中で、この考え方を説明しています。

SEQは、主観的になりがちな「難しさ」という概念を数値化したものです。SEQを比較することで、ユーザーの摩擦を減らすことができる特定のエリアの流れやインターフェースの部分を見つけることができます。

どのようなときに使うのか？

SEQは、ユーザーが1つの特定のタスクを実行した直後に使用します。なお、SEQは、ユーザーがタスクを正常に完了しなかった場合にも使用できます。

UXプロセスにおいて、SEQは、プロトタイプをテストしたり、実際のWebサイトやアプリでユーザビリティテストを行い、ユーザーエクスペリエンスを向上させるときに最も有効です。プロトタイプの段階でSEQ Nudgesを投与すると、ユーザビリティに関する明確な洞察が得られ、デプロイ前のプロトタイプの改善に役立ちます。

もちろん、検証段階で本番の製品のユーザビリティをテストし、どのような変更を加えればユーザーエクスペリエンスがよりスムーズになるかを判断する際にも、SEQは有効です。

SEQはタスクが実行された後に使用されるべきものなので、ナッジのターゲットを正しく設定することが重要です。配置やタイミングを誤ると、間違ったタイミングで質問をしてしまい、関連性の低いインサイトを収集してしまう危険性があります。

最良の結果を得るためには、あるタスクのSEQを他のタスクのスコアと比較する必要があります。これにより、ユーザーにとってユーザーエクスペリエンスのどの部分が最も難しいかを判断することができ、戦略的に改善に取り組むことができます。

SEQの使い方

テンプレート設定

SEQは、業界標準の調査の一つであり、私たちのテンプレートの発売と同時にコミュニティに提供できることを嬉しく思います。以下では、SEQテンプレートの使用方法をご紹介します。

Qualarooならたった3ステップでSEQの運用！

正しいチャンネルを選択
- ナッジを実行する場所（デスクトップ、モバイルウェブ、プロトタイプ、モバイルアプリ）を決め、"テンプレートを選択 "を選択します。
- このアンケートは、組織が必要とする数のチャンネルで実施することができます。追加のアンケートを作成して、組織がカバーするさまざまなドメインをカバーすることができます。
テンプレートの検索
- 事前に検証されたテンプレートのリストから「SEQ」を選択します。検索バーに「SEQ」と入力すると、検証済み/プロトタイプでフィルタリングして探すことができます。
- 表現が若干異なる2種類のバージョンがあることにご注意ください。お好きな方をお選びください。
アンケートの作成、編集、公開
- タイミングを見計らって気をつけること：
  - ユーザーの離脱意図に基づくターゲティングは一般的な戦略であり、Qualarooでは簡単に行うことができます。タスクを完了する前にページを去ろうとしている参加者は、タスクの難易度が高いと解釈することができます。これはSEQを起動するための理想的なタイミングかもしれません。
  - 調査しているタスクを完了するのにかかる平均時間を決定し、その情報を使って質問の時間を決めます。この部分は、一般的な見積もりではなく、あなたの製品やウェブサイトでの具体的な経験に合わせて作ることをお勧めします。というのも、インターフェイスが異なると、同じようなタスクをこなすのにかかる時間も変わってくるからです。あるアプリへのログインは簡単で1分程度で済むかもしれませんが、家具などの大きな買い物の詳細を決めるような判断や作業は、それほど簡単ではありません。何人かの参加者でテストした後、必要に応じてナッジのタイミングを調整することができます。
- SEQは非常に簡単なので、ターゲットやタイミングを正しく設定すること以外は、あまりカスタマイズする必要はありません。

結果の解釈

SEQの結果を解釈する際の良い点は、反応がいかに単純であるかということです。MeasuringUによると、平均的な回答は5.3から5.6の間です。このベンチマークは、ユーザーにとってどのタスクが特に簡単または難しいかを判断するのに役立ちます。

ユーザーにとって最大の違いをもたらす改善点を見つけるために、このデータを比較して使用することを強くお勧めします。さらにデータを活用したい場合は、Jeff Sauro氏によるSEQを使ったタスクの完了率と時間の推定についての記事をご覧ください。

SEQの長所と短所

長所

SEQほどシンプルなものはありません。1つの質問と数値による回答だけで、SEQは非常にシンプルで、特にテンプレートの助けを借りれば、すぐに運用を開始することができます。そのシンプルさにもかかわらず、SEQはより複雑なアプローチと同等かそれ以上のパフォーマンスを発揮します。（出典）
シンプルなスコアリングはシンプルな解釈も意味しています。あなたは回答を平均化するだけでいいので、ある言葉の選択の意味を考えるために多くの時間を費やす必要はありません。
SEQはタスクを実行した直後に質問することになっているので、データは具体的であるだけでなく、記憶が新鮮なので正確であるはずです。

短所

SEQの最大の利点の一つであるシンプルさは、弱点とも言えます。SEQはたった1つの質問であり、自由形式の要素が含まれていないため、受け取った回答についてより良い状況を得るために、理由を尋ねることをお勧めします。
検証が必要となる点も弱点です。特定のタスクが非常に難しいと評価された場合、そのタスクを完了するためにユーザーが要した平均時間と完了率を見て、実際にどれくらい難しいのかをよりよく理解したいと思うかもしれません。MeasuringUが言うところでは、「SEQのような態度データの検証には、態度（直接観察できないもの）に割り当てられた数字が、行動（直接観察できるもの）にどのように対応しているかを示すことが含まれている。」ということです。これはなぜなのでしょうか？−−SEQは態度を測定するものであり、それは本質的に主観的なものだからです。

結論

SEQは、ユーザビリティテストの作業に集中するための素晴らしい方法です。SEQは、タスクの全体的な体験についての漠然とした印象を記録するのではなく、タスクに特化しているため、粒度が細かくなるように設計されています。もちろん、多くのシンプルな調査と同様に、実用的な洞察を得るためには、回答を文脈に沿って検討する必要があります。

ご質問がある場合や、このテンプレートの設定についてカスタマーサクセスマネージャーに連絡を取りたい場合は、こちらからリクエストを送信してください。私たちは、Qualarooがお客様にとってより使いやすく、より満足度の高い、お客様のニーズに合った便利なものになるよう、常に検討しています。

利用可能なチャンネル

ウェブ・デスクトップ
ウェブ・モバイル
リンク
プロトタイプ

出典

2021-10-08

【翻訳】ユーザビリティテストの平均タスク時間は何をレポートすべきか？

UX計測タスク完了率／完了時間

measuringu.com Jeff Sauro, PhD　April 21, 2010

ユーザーが1つのタスクを完了するのにかける時間はどのぐらいなのか？これは本当にはわかりません。その代わり、ユーザーのサンプルから最善の推測をするしかありません。しかし、ユーザビリティテストで典型的なユーザーがタスクを完了するのにかかる時間を1つの数値にまとめるとしたら、何を報告しますか？平均値ですか？中央値でしょうか？最頻値？他のもの？

最も一般的な値や典型的な値を表すために1つの数値を求める場合、平均値、より具体的には算術平均値を用いることが多い。サンプル（特に少量のサンプル）からの単一の推定値はほぼ確実に間違っているので、最善の推測に信頼区間を含めることが重要です。サマリーデータは、ダッシュボードや管理者への報告書に使用されることが多いため、典型的なタスク完了時間のベストな推測値を算出する必要があります。

平均値は、ほぼ対称的なデータの中心値や最も「典型的」な値を示すのに非常に有効です。データが非常に大きな値で歪んでいる場合、平均値は上方に引っ張られます。これは、平均住宅価格や平均給与などの財務データを要約するときに起こります。非常に高価な家が1軒あったり、最高経営者がいたりすると、平均値が大きく引き上げられてしまうのです。このような場合には、中央値を使用して、中間値や最も典型的な値をより正確に把握します。

幾何平均は、サンプルサイズが25以下の場合、中央のタスク時間を最も正確に測定ていると言えます。

タスクタイムのデータが歪んでいる（正常ではない）場合

タスク時間は正に偏る傾向が強く、タスクを完了するのに時間がかかるユーザーもいます。これは、ユーザーの個人差が大きいことに起因しています。ユーザーの中には、インターフェイスに問題があったり、タスクを完了するためにコンピュータをゆっくり使う人もいます。いくつかの長いタスク時間は、平均タスク時間を引き上げ、典型的なタスク時間ではなくなります。むしろ中間値を誇張しています。例えば、タスク時間が100、101、102、103、104の場合、平均値と中央値は102になります。200のタスク時間を追加すると、平均値が118.33、中央値が102.5となり、分布が歪んでしまいます。

下の図では、正のスキュー（尾が右に向いている）を見ることができます。図1は、あるイントラネット・アプリケーションでタスクを完了した190人のユーザーのタスク時間のヒストグラムです。平均値が中央値よりも高いことに注目してください。

幾何平均と信頼区間を計算するためのエクセル計算機はこちらからダウンロードできます。

図1: 190個の完了したタスクの時間のヒストグラムで、平均に対する正のスキューの効果を示しています。このタスクの中央値は71秒で、平均値は85秒です。中央値とは、半分のユーザーがより多くの時間を要し、半分のユーザーがより少ない時間で済む点である。

サンプル数が少ない場合、中央値は実際の中間時間を10%程度過大評価する傾向があります。

なぜ中央値を報告しないのか？

では、住宅価格や給料のように、タスクタイムの中央値を報告すればいいのではないでしょうか？大きな違いは、未知の母集団の中央値を推定するためにサンプルを使用していることです。サンプル数が多ければ、中央値はこの未知の値をよく推定できます。サンプルが少ない場合（ユーザー数が25人以下）、サンプルの中央値は、母集団の中央値の悪い推定値になる傾向があります。サンプルが小さければ小さいほど、推定値は悪くなります。

標本の中央値は母集団の中央値の推定値としては不十分

極値の影響を受けにくい中央値の強さは，エラーとバイアスという2つの問題を引き起こします．中央値は，サンプルで得られるすべての情報を利用していない．奇数番目のサンプルの場合，中央値は中心値であり，偶数番目のサンプルの場合，中央値は2つの中心値の平均である．そのため、中央値はそれぞれの平均値よりも変動しやすく、推定の誤差が大きくなります。中央値のもう一つの問題点は、実際の中央値を10％も過大評価する傾向があることです。これは、一刻を争う場合には大きな問題となります。

サンプル数が少ない場合に最適な中央値の推定方法は？

平均値を生成する方法は、文字通り何百通りもあることがわかりました。最近のCHI論文[pdf]で、Jim Lewisと私は、幾何平均、調和平均、平均を計算する前に最大時間を除外するなど、正に歪んだタスク時間を扱うための有望な方法をいくつか検討しました。

私たちがテストしなかった平均は、最頻値（最も頻度の高い値）です。タスク時間のデータは非常に多くの異なる値を取ることができるため、最頻値はタスク時間の平均には適していません。最頻値は、多くの場合、未定義（すべてのユニークな値）、または複数の最頻値（(2つの重複した値）があり、さらに悪いことに、最頻値は中心から離れた2つのタスク時間から来ています。

最良の平均値をテストするために、61の大規模サンプルのユーザビリティタスクでモンテカルロシミュレーションを行ったところ、平均して幾何平均は母集団の中央値を最もよく推定し、バイアスが最も少ないことがわかりました（中央値を過小評価する可能性も過小評価する可能性も同じです）。サンプル数が25以下の場合は、幾何平均値が勝者となります。

シミュレーション：少数のサンプルを使って中央値を推定する

このようなことがどのように行われるのかを理解していただくために，以下のシミュレーションを作成しました．

ボタンをクリックすると、図1に示した大規模なサンプルのタスクから小さなサンプルを抽出します。このタスクの中央値は71秒です。クリックするたびに、新しいサンプルの中央値と幾何平均が計算され、時間の経過とともにバイアスとエラーの量が計算されます。例えば、5回（36,60,81,92,105）のランダムなサンプルでは、中央値が81秒、幾何平均値が70.1秒となりました。中央値は10秒(14%)、幾何平均は0.9秒(1.3%)の誤差がありました。データベースに登録されている61個のタスクについて、サンプルサイズが2～25の間で数千回行ったところ、幾何平均はサンプル中央値よりも誤差が13%少なく、偏りが23%少ないことがわかりました。ボタンをクリックするたびに、190回のデータセットからランダムにタスクの時間が取得され、中央値と幾何平均値が計算され、母集団の中央値である71秒と比較されます。（計算機部分省略）

2021-10-08

【翻訳】タスク完了率の目安とは？

UX計測タスク完了率／完了時間

measuringu.com

Jeff Sauro, PhD　March 21, 2011

薄々感じているとは思いますが、それは場合によります。

タスクの適切な完了率を決めるにはコンテクストが重要ですが、他のタスクの完了率を知ることは、目標設定の良い指針となります。

約1200のユーザビリティタスクを分析した結果、タスク完了率の平均は78%でした。

ユーザビリティメトリクスの基本

バイナリタスク完了率は、ユーザビリティメトリクスの中でも最も基本的なものの一つです。明確な成功基準を持つシナリオを定義し、ユーザーにアプリケーション上でそれを試みてもらいます。タスクが正常に完了した場合は1、失敗した場合は0と評価します。

すべてのユーザーをテストした後、これらの1と0の平均値がタスク完了率となります。例えば、10人のユーザーのうち9人がタスクを完了した場合、完了率は0.90または90％となります。良いタスク完了率とは何でしょうか？

コンテキストの問題

タスクの失敗によるコストが高ければ（お金の損失、命の損失）、100％を目指す必要があります。しかし、その影響がそれほど大きくないのであれば、達成率を少し下げてもよいでしょう。一般消費者向けのウェブアプリケーションでは、70％の完了率を目標にしているのをよく見かけます。つまり、テストの結果、少なくとも70％の人が最初の試みでタスクを完了したという証拠があれば、そのタスクはとりあえず十分だと考えられます。

もちろん、サンプルの70％がタスクを完了したからといって、ユーザー全体が完了するとは限りません。母集団の完了率の可能性のある範囲を見るために、完了率の信頼区間を作成する必要があります。例えば、10人中10人のユーザーがタスクを完了した場合、全ユーザーの75%から100%がタスクを完了できるという95%の確信を得ることができます。

信頼区間の下限は70%を超えているので、70%以上のユーザーがタスクを完了できることを少なくとも95%確信できます。このグラフ計算機を使って、信頼区間の下限が目標を超えるための最小サンプルサイズを確認することができます。

では、何を目標にするのか？

コンテキストは重要ですが、ユーザビリティテストで得られた他のデータと比較して、自分のタスク完了率がどの程度のものかを把握することは役に立ちます。私は数年前から、ビジネスソフトウェア、コンシューマーソフトウェア、Webサイトなどのタスク完了率のデータを収集しています。

ラボベースのユーザビリティテスト（90％）とモデレートされていないユーザビリティテスト（10％）の両方から得られた1189のタスクのデータを合計しています。このデータは、10以上の組織の3472人のユーザーによる115のユーザビリティテストから得られたものです。私はこのデータを、好評を得たレポート "How to Conduct a Quantitative Usability Test "で多用しました。

そして、タスク完了率の分布をヒストグラムにしてみました。

上の図のタスク完了率の分布を見ると、100％、90％、50％、0％にいくつかの顕著なスパイクがあるものの、広がりがあることがわかります。また、完了率のほとんどが50%を超えており、正のスキューがあることもわかります。このデータから、50%は平均的な完了率ではないことがすぐにわかります。

完了率が0から100までの各タスクの数をカウントして、タスクの頻度をより簡単に表すために累積分布を作成しました。例えば、完了率が100％のタスクは232本（20％）、完了率が80～100％のタスクは564本（44％）でした。分布のグラフを以下に示します。

78%が平均的な完了率

この分布では、半分のタスクの完了率が78%以上であることがわかります。つまり、78%以上は平均以上ということで、良し悪しの一つの基準となります。タスクのベンチマークに頭を悩ませているのであれば、78%から始めるのが良いでしょう。完了率が上位4分の1（75％）であるためには、92％以上の完了率が必要です。完了率が49％未満の場合は、下位4分の1（25％）になります。

完了率が高くなっている理由はいくつか考えられます。まず、データベースに掲載されているユーザビリティ・テストの多くは、市販のソフトウェアで実施されているため、多くのインタラクション問題が軽減されていると考えられます。第二に、ユーザーは、観察されていることと、その努力に意味があると考えていることから、タスクを完了するために通常よりも努力している可能性が高い。これは、IBMのRich Cordes氏が言うところの「頼まれればできるはず」というバイアスがかかったものです。

タスク完了率のパーセンタイルを推定する

観測されたデータによく適合する（adj-R2 = 99.5%）二次回帰式を用いて累積分布の指数的性質をモデル化することに成功しました。すでに完了率の数値を把握していて、かつそれがどのくらいの割合であるかを知りたい場合は、上のグラフを使って補間するか、下のフォームに完了率を入力して、おおよそのパーセンタイルランクを得ることができます。例えば、タスクの完了率が80%の場合、全タスクの56%よりも優れています。（計算機部分省略）

2021-10-06

【翻訳】デザイン変更によりユーザーエクスペリエンスが向上したことを示す8つの方法

UX計測デザインプロセス

measuringu.com Jeff Sauro, PhD　March 1, 2011

インタラクションをシンプルにし、バグを減らし、機能を強化するために、多くの努力が払われています。

これらの変更は、ある人にとっては当然のことかもしれませんが、他の人（特に予算担当者）にとっては当たり前のことではないかもしれません。

ユーザー・エクスペリエンスを向上させるための努力と、その努力の結果の両方を明文化しておくことは重要です。ベンチマークテストや、両方のインターフェースを同時に使用した比較テストで、変更前と変更後のインターフェースを測定するとよいでしょう。

ここでは、デザインが改善されたことを示す8つの方法をご紹介します。

使いやすさの実感上の向上：システム・ユーザビリティ・スケール（SUS）のようなアンケートを用います。ユーザーの生産性が2倍になったとしても、ユーザーがアプリケーションを使いやすくなったと思わなければ、ネガティブな口コミで大きなダメージを受けてしまいます。SUSスコアの統計的な向上を示すステップバイステップのガイドと計算機も用意されています。
タスクにかかる時間の短縮：顧客情報の管理、販売注文の記録、タイムシートの入力など、ユーザーがタスクを完了するまでの時間が短縮されたことを示すことは、経営陣やユーザーが評価する指標となります。
熟練ユーザーの生産性の向上：KLM（Keystroke Level Modeling）を用います。実際のユーザをテストする時間や予算がないが、繰り返し行われるタスクがある場合、KLMのような認知的モデリング手法を使用することで、タスク時間の相対的な短縮と作業者の生産性の向上を迅速に生成することができます。
テスト中にユーザーが遭遇するUI上の問題数の減少：ユーザビリティの問題を好む人はいませんし、低予算のディスカウントユーザビリティの取り組みであっても、問題の発見と修正に重点を置いています。デザイン変更の前後でユーザーが遭遇している問題の数、深刻度、および説明を文書化するだけです。問題の数と深刻度の両方が減少したことを示すことができます。
主要タスクの完了率の向上：どんなアプリケーションにも、ユーザーがどうしても理解できない素晴らしい機能があります。多額の投資をした機能の周辺にあるタスクの完了率が上がることで、機能の肥大化を招くことなく、プロダクトに新たな命を吹き込むことができます。人は機能ではなく利点を買うものであり、ユーザビリティは重要な利点です。
カスタマーサポートへの問い合わせ数の減少：ユーザーインターフェースの問題やタスクの失敗は、カスタマーサポートへの高額な問い合わせにつながります。デザインを変更することでサポートへの問い合わせ回数が減ることは、企業にとって簡単に定量化できる節約になります。
コンバージョン率の向上：より多くのブラウザ利用者を会員に、そしてより多くの会員を購入者にすることは、A/Bテストの中核をなすものです。コピー、レイアウト、ナビゲーションのシンプルな変更が、大きな数字につながります。
タスクレベルの満足度の向上：SEQ（Single Ease Question）等を用います。SUSのような総合的な満足度評価は、プロダクトに対する一般的な評価を教えてくれますが、何を修正すべきかを診断するのにはあまり役に立ちません。SUSのような総合的な満足度は、プロダクトの一般的な評価を示すものですが、何を修正すべきかを診断するのにはあまり役立ちません。タスクを実行した直後に簡単な質問をすることで、レーザーのような正確さを得ることができます。最終的には、タスクレベルの満足度向上がアプリケーションレベルの満足度向上につながり、口コミで広がっていきます。

もし、あなたが設計変更の影響を測定し、その利益を定量化しなければ、他の誰かがそれを行うでしょう。人々に推測を強要してはいけません。ユーザーエクスペリエンスの向上をシンプルに定量的に測定することで、デザインの努力を正当化するためのデータが得られ、どのような方法が効果的であったかをよりよく知ることができます。

2021-10-06

GA4のプロパティしかないときにUAのプロパティを作る方法

運営・分析

特にGA連携のサードパーティアプリケーションはユニバーサルアナリティクス（UA）にのみ対応していて、GA4プロパティのみでは連携がうまくいかない場合がほとんどのようでしたので、対応法を調べました。

UAのプロパティを作成（追加）する方法

新しいプロパティの作成ページへ
「詳細オプションを表示」をクリック
「ユニバーサルアナリティクスプロパティの作成」にチェックを入れる
GA4のプロパティが既にある場合は「ユニバーサルアナリティクスプロパティのみを作成する」にチェック、GA4のプロパティもまとめて作る場合は「GA4とユニバーサルアナリティクスプロパティを両方作成する」にチェック
完了

2021-10-05

【翻訳】ユーザーはタスクレベルの使い勝手をどの程度予測できるのか？

UX計測ユーザビリティ

measuringu.com

Jeff Sauro, PhD　March 15, 2011

ユーザーにあるタスクを完了してもらえば、それがどれだけ難しかったかを伝えてもらうことはできます。

しかし、ユーザーがタスクに挑戦することなく、そのタスクの難しさを伝えることができるでしょうか。

タスクの説明を見れば、タスクの複雑さが大抵はわかるので、ユーザーは実際のタスクの簡単さや難しさを適度に予測できることがわかります。

期待値とのギャップは、ユーザビリティ問題の強力な予測因子となります。最近では、eBayの例があります。

ユーザビリティテストでは、ユーザに代表的なタスクを完了してもらいます。ユーザーがこれらのタスクに挑戦する様子を観察することで、インタラクションの長所と短所に関する豊富な情報を得ることができます。

たった一人のユーザーが共通のタスクに苦心している様子を見るだけで、開発者やプロダクトマネージャーの心に残る印象を与えることができ、説得力のあるハイライトビデオを作ることができます。

主に定性的な活動（デザインの問題点を探して説明すること）は、簡単な合否判定基準を収集して完了率を報告することで、簡単に定量化できます。

ユーザーがタスクを完了するのがどれだけ難しいと考えているか、たった一つの質問をするだけでも価値があります。また、時間の経過とともに平均評価が向上することは、いかにデザインによってユーザーエクスペリエンスが向上させたかという風にも見て取れます。このような主観的な尺度は、すでに高い完了率を達成している場合に特に役立ちます。100％の完了率を改善することはできませんが、ユーザーが苦労して完了し、難しいと思ったタスクを改善することはできます。

タスク難易度の予測

良いタスクシナリオを書くには、練習が必要です。ユーザーを誘導しないこと、行動不可能にしないこと、事前に定義された具体的な成功基準を用意することです（Dumas & Redish第12章参照）。ユーザーにタスクを依頼すると、ユーザーは頼まれたことをすぐに解釈し、それがどれほど難しいかをある程度把握します。

例えば、IRSのフォームや税額表を使って、控除を考慮した後の調整後総所得を計算するように頼んだとしたら、それは地元のデパートの営業時間をオンラインで調べるよりも難しいことだと思うでしょう。

何百ものタスクシナリオを書き、何千人ものユーザーに挑戦してもらった経験から、私はタスクシナリオにどれだけの難易度が組み込まれているかを考えました。では、実際にテストすることなく、ユーザーにタスクの難易度を尋ねるだけでは、評価はどの程度正確になるのでしょうか。

期待以上の成果

Albert & Dixonが報告した研究（Is This What You Expected? The Use of Expectation Measures in Usability Testing 2003）では、ユーザーはあるタスクがどれだけ難しいと予想しているかを7段階で評価し（SEQと同様）、次にそのタスクを試して、どれだけ難しいと思ったかを同じ7段階で評価しました。

予想された難易度と実際の難易度の差から、いくつかの興味深い洞察が得られました。予想よりも難しかった課題は、改善の余地があると考えられます。予想以上に良かったタスクは、昇進の可能性があります。

私はこのアプローチを気に入っていますが、今回の研究のために少し変更する必要があります。同じユーザーに難易度の予測と評価をさせることで、バイアスがかかる可能性があるという問題があります。例えば、前回の評価を思い出したユーザーは、2回目の評価をする際に一貫性を持たせたいと思うかもしれません。このようなバイアスの可能性を排除するために、私は異なるユーザーのセットを使用しました（被験者間アプローチ）。

あるグループのユーザーには、一連のタスクの難易度を評価してもらいました。そして、別のグループのユーザーに実際にタスクを試してもらい、どれくらい難しいと思うかを評価してもらいました。下の表に示すように、さまざまな難易度のタスクを組み合わせて、有名なウェブサイト（Craigslist.com、Apple.com、Amazon.com、eBay.com、CrateandBarrel.com）を使用しました。

ラベル：タスクの説明

Amazon DVD：100枚のDVDをAmazon.comで購入し、翌日にアメリカ国内の顧客に配送するためのコストを調べる。
Apple 最安値のiPad：Apple.comで最安値のiPadを見つける。
Apple エラーメッセージ：iPadの「iTunesに接続してください」というエラーメッセージの原因を調べ、Apple.comのウェブサイトで可能な解決策を見つける。
Craigslist 求職投稿：クレイグスリストに2ヶ月間、3つのカテゴリーでプログラミングの仕事を掲載するための費用を調べる。
Craigslist アパートの発見：Craigslistでサンフランシスコの2ベッドルームで家賃が月2000ドル以下のアパートを探す。
eBay 出品手数料：eBayでiPhone 3GSを販売する際の手数料を見積もる。
eBay 商品の発見：Camtasia Studio 7のコピーがeBayで販売されているかどうかを判断します。
Crate &Barrel：営業時間コロラド州デンバー（郵便番号80210）にあるCrate & Barrelの店舗が日曜日に営業しているかどうかを調べます。

結果

予測の精度はどの程度だったのでしょうか？実際の評価との絶対的な偏差は、全タスクで平均17％でした。予測値が実際の評価に非常に近いことに驚きました。4つの課題で、その差は10％以下でした。

最も顕著なミスは、「Craigslist アパートの発見」タスクの難易度をユーザーが50％過剰に予測したことです。なぜか、これはかなり難しいと思われていたようです。これは、SFの賃貸市場にあまり詳しくないことが関係しているのではないかと思いました。データを見てみると、カリフォルニア以外の地域の人はこのタスクをより難しいと評価していましたが、カリフォルニア在住の人でもCraigslistでアパートを探すのは実際よりも難しいと考えていたようです。

eBay出品料変更の予測

一般的に、ユーザーはタスクの難易度を過大に予測する傾向がありました（8つのタスクのうち7つで）。予想以上に難しかったのは、「eBay 出品手数料」のタスクでした。ほとんどの人は、eBayで何かを売るために手数料を支払うことを想定していると思いますが、料金体系はもっとわかりやすいものだと予想していたようです。このタスクが難しいのは、複数の変数（販売価格の合計、送料、商品の種類など）があるためです。

しかし、eBayが料金体系の改善を発表したばかりなので、このタスクが難しすぎると思ったのはこのユーザーだけではないようです。この質問は、eBayの価格変更の数週間前に行われたものですが、予想の尺度がいかに強力で予測的であるかを示しています。

予測されたスコアが実際のスコアをどの程度説明できるかを理解するために、タスクレベルで単純な線形回帰を行いました。タスクの難易度の変動の半分は、異なるユーザーセットがそのタスクをどのように考えるかによって説明できます（調整後R2 = 50.8%）。下の散布図は、この強い関連性を示しています。CraigslistとeBayのタスクがハイライトされており、トレンドラインからの乖離が予想との違いを示しています。

タスクの数が増えれば（特に期待外れのタスクが増えれば）、ユーザーのタスク予測能力は低下すると思われます。しかし、このデータは、ユーザビリティの認識（あるいは認識不足）の大部分がタスクシナリオに含まれていることを示唆しています。

結論

タスクレベルの評価の半分は、ウェブサイトとのインタラクションではなく、タスク・シナリオの固有の難しさだけで説明できる。ユーザーはタスクの難易度を過大評価している可能性が高く、ユーザビリティの問題に遭遇した場合にのみ、予想よりも低い評価をする。

予測評価と実際の評価の間には強い関連性がありますが、期待のずれがどこに存在するかを特定するためには、ユーザーにタスクを試してもらう必要があります。優れたベンチマークや比較テストがない場合、期待値評価を使用することは、完了率やUIの問題数ではわからない、潜在的なインタラクションの問題を診断するのに役立ちます。

2021-10-04

【翻訳】シングル・イーズ・クエスチョン（SEQ）について知っておくべき10のこと

UX計測ユーザビリティシングル・イーズ・クエスチョン

measuringu.com

Jeff Sauro, PhD / October 30, 2012

シングル・イーズ・クエスチョン (SEQ)は、ユーザーがタスクをどれだけ難しく感じるかを評価する7段階の評価尺度です。

ユーザビリティ・テストにおいて、ユーザがタスクを試みた直後に実施されます。

ユーザーがタスクに取り組んだ後、次のようなシンプルな質問をしてみましょう：全体として、タスクを完了するのはどのくらい難しかったですか、それとも簡単でしたか？その際には、以下の7段階評価のフォーマットを使用してください。
7段階評価のフォーマット
ラベルと値：私たちは通常、両端の終点のみにラベルを付け、1から7までの番号を付けます。これには多くのバリエーションがありますが（すべてのポイントにラベルを付ける、番号を付けないなど）、これらのわずかな変化は、ちょうど取り組んでもらったタスクの非常に顕著な出来事に比べてはるかに大きいことがわかりました。ユーザーは一般的に、情報を見つけようとしたり、機能を完成させようとしたりする際のニュアンスを非常によく理解しており、不満や喜びを表現することに問題はありません。
効果的：SEQは、そのシンプルさにもかかわらず、区間尺度の主観的精神努力質問票（SMEQ）や比率尺度のユーザビリティマグニチュード推定値のような、より複雑なタスク難易度測定法と同程度かそれ以上の性能を持つことがわかりました[pdf]。これは、SEQがどのようなアンケートソフトでも、紙や音声でも実施できることを考えると良いことだと思います。
難易度の評価は、他の指標と相関がある：一般的に、SEQでのユーザーの回答と、タスク時間やタスク完了度との相関[pdf]は、r = 0.5程度であることがわかっています。つまり、タスクに時間がかかったり、まったく成功しなかったりすると、ユーザーはタスクをより難しく評価する傾向があります。この相関関係は、単一のユーザビリティ評価指標が他の評価指標に取って代わるほど強いものではありませんが、各評価指標が重複して測定されていることを示しています。
ユーザーの反応はさまざま：SEQや一般的なアンケートを実施していて気づくことの一つに、同じ調査でも、すべてを6や7にするユーザーもいれば、スケールの全範囲（1から7まで）を使用するユーザーもいるということがあります。このような行動は問題であり、レーティングスケールを完全に否定する人もいます。しかし、評価尺度の使い方が異なることはよくあることですが、その違いはタスクや製品によって平均化される傾向があります。私たちが、トップボックスのスコアだけに頼るのではなく、データベースに対する平均的な回答を見ているのもそのためです。
非常に簡単なのに、失敗するタスク：あるタスクでひどい目にあったユーザーが、そのタスクを非常に簡単だと評価しているのを見て、畏敬の念を抱くことがあります。このようなことが起こると、誰もが思い出し、友人に話し、また、残念ながらレーティングスケールを完全に否定する人もいます。しかし、何千もの回答から得られたデータを調査したところ、このような現象は約14％しか起こらないことがわかりました。このことから、人間の行動や態度を測定することは難しいことではありますが、決して困難ではないことがわかります。ただ、体温計のように、水銀が上昇するたびに温度が上昇するような測定器は期待しない方がいいでしょう。
SEQの平均スコアは約5.5：400以上のタスクと1万人以上のユーザーの平均スコアは約5.3から5.6の間で推移していることがわかります。これは名目上の中間点である4を上回っていますが、7点満点のスケールでは典型的なものです。注：過去の平均値は、長年の新しいデータに基づいて2019年5月に更新されました。
テクノロジーにとらわれない：当社では、モバイル機器、ウェブサイト、コンシューマー向けおよびビジネス向けソフトウェア、さらにはペーパープロトタイプのタスクにもSEQを使用しています。これがタスク難易度評価の優れた点です。ユーザーは、デバイス、インターフェースの忠実性、タスクの性質から期待されるものに反応する傾向があります。これが、SEQがイテレーションからイテレーションへの優れた縦断的尺度として使われる理由です。
何故と問う ：ユーザーがあるタスクを難しいと評価した場合、その理由を知ることができます。ユーザーが5点未満の評価をした場合、そのタスクが難しいと感じた理由を簡単に説明するように求めます。これにより、ユーザーが悪い評価の原因を認識したときに、すぐに診断情報を得ることができます。
単独で使用しても、競争的に使用しても役に立つ：タスクの中には、本質的に他よりも難しいものがあることがわかります。例えば、嵐で木が倒れたときに、隣人の家のフェンスを修理するためにお金を払わなければならないかどうかを判断することは、小売店のウェブサイトで32型のフラットスクリーンテレビを探すことよりも複雑なタスクです。ユーザーにとっては、タスクの複雑さと、それを完了するために抱えた問題を切り離すことは困難です。可能であれば、同じタスクを同等のウェブサイトで試したときのユーザーの反応を見て、タスクが本来の複雑さに比べてどれだけ難しいかを実際に測りたいと思います。