【翻訳】シングル・イーズ・クエスチョン（SEQ）について知っておくべき10のこと

measuringu.com

Jeff Sauro, PhD / October 30, 2012

シングル・イーズ・クエスチョン (SEQ)は、ユーザーがタスクをどれだけ難しく感じるかを評価する7段階の評価尺度です。

ユーザビリティ・テストにおいて、ユーザがタスクを試みた直後に実施されます。

ユーザーがタスクに取り組んだ後、次のようなシンプルな質問をしてみましょう：全体として、タスクを完了するのはどのくらい難しかったですか、それとも簡単でしたか？その際には、以下の7段階評価のフォーマットを使用してください。
7段階評価のフォーマット
ラベルと値：私たちは通常、両端の終点のみにラベルを付け、1から7までの番号を付けます。これには多くのバリエーションがありますが（すべてのポイントにラベルを付ける、番号を付けないなど）、これらのわずかな変化は、ちょうど取り組んでもらったタスクの非常に顕著な出来事に比べてはるかに大きいことがわかりました。ユーザーは一般的に、情報を見つけようとしたり、機能を完成させようとしたりする際のニュアンスを非常によく理解しており、不満や喜びを表現することに問題はありません。
効果的：SEQは、そのシンプルさにもかかわらず、区間尺度の主観的精神努力質問票（SMEQ）や比率尺度のユーザビリティマグニチュード推定値のような、より複雑なタスク難易度測定法と同程度かそれ以上の性能を持つことがわかりました[pdf]。これは、SEQがどのようなアンケートソフトでも、紙や音声でも実施できることを考えると良いことだと思います。
難易度の評価は、他の指標と相関がある：一般的に、SEQでのユーザーの回答と、タスク時間やタスク完了度との相関[pdf]は、r = 0.5程度であることがわかっています。つまり、タスクに時間がかかったり、まったく成功しなかったりすると、ユーザーはタスクをより難しく評価する傾向があります。この相関関係は、単一のユーザビリティ評価指標が他の評価指標に取って代わるほど強いものではありませんが、各評価指標が重複して測定されていることを示しています。
ユーザーの反応はさまざま：SEQや一般的なアンケートを実施していて気づくことの一つに、同じ調査でも、すべてを6や7にするユーザーもいれば、スケールの全範囲（1から7まで）を使用するユーザーもいるということがあります。このような行動は問題であり、レーティングスケールを完全に否定する人もいます。しかし、評価尺度の使い方が異なることはよくあることですが、その違いはタスクや製品によって平均化される傾向があります。私たちが、トップボックスのスコアだけに頼るのではなく、データベースに対する平均的な回答を見ているのもそのためです。
非常に簡単なのに、失敗するタスク：あるタスクでひどい目にあったユーザーが、そのタスクを非常に簡単だと評価しているのを見て、畏敬の念を抱くことがあります。このようなことが起こると、誰もが思い出し、友人に話し、また、残念ながらレーティングスケールを完全に否定する人もいます。しかし、何千もの回答から得られたデータを調査したところ、このような現象は約14％しか起こらないことがわかりました。このことから、人間の行動や態度を測定することは難しいことではありますが、決して困難ではないことがわかります。ただ、体温計のように、水銀が上昇するたびに温度が上昇するような測定器は期待しない方がいいでしょう。
SEQの平均スコアは約5.5：400以上のタスクと1万人以上のユーザーの平均スコアは約5.3から5.6の間で推移していることがわかります。これは名目上の中間点である4を上回っていますが、7点満点のスケールでは典型的なものです。注：過去の平均値は、長年の新しいデータに基づいて2019年5月に更新されました。
テクノロジーにとらわれない：当社では、モバイル機器、ウェブサイト、コンシューマー向けおよびビジネス向けソフトウェア、さらにはペーパープロトタイプのタスクにもSEQを使用しています。これがタスク難易度評価の優れた点です。ユーザーは、デバイス、インターフェースの忠実性、タスクの性質から期待されるものに反応する傾向があります。これが、SEQがイテレーションからイテレーションへの優れた縦断的尺度として使われる理由です。
何故と問う ：ユーザーがあるタスクを難しいと評価した場合、その理由を知ることができます。ユーザーが5点未満の評価をした場合、そのタスクが難しいと感じた理由を簡単に説明するように求めます。これにより、ユーザーが悪い評価の原因を認識したときに、すぐに診断情報を得ることができます。
単独で使用しても、競争的に使用しても役に立つ：タスクの中には、本質的に他よりも難しいものがあることがわかります。例えば、嵐で木が倒れたときに、隣人の家のフェンスを修理するためにお金を払わなければならないかどうかを判断することは、小売店のウェブサイトで32型のフラットスクリーンテレビを探すことよりも複雑なタスクです。ユーザーにとっては、タスクの複雑さと、それを完了するために抱えた問題を切り離すことは困難です。可能であれば、同じタスクを同等のウェブサイトで試したときのユーザーの反応を見て、タスクが本来の複雑さに比べてどれだけ難しいかを実際に測りたいと思います。