【翻訳】INUIT：たった7項目で実用的なユーザビリティ調査（Maximilian Speicher & Johanna Jagow, UX Collective）

ユーザビリティを確実に測定するために、私たちはどのように新しいアンケートを開発し、研究したのでしょうか。

注：アンケートの名前は、このように小さな大文字で書くのが正しい書き方です： Iɴᴜɪᴛ. しかし、これはMediumでは特殊なUnicode文字でのみ可能なので、代わりに全角で設定することにしました。

TL;DR

INUIT（「Interface Usability Instrument 」の略）は、ユーザーインターフェースの使いやすさを評価するための新しいアンケートです。INUITは、SUSのような既存のユーザビリティ測定器よりも診断性が高く、機械学習と併用できるように設計されています。この記事では、INUITがどのように開発されたのか、なぜ開発されたのか、そして、なぜINUITが実際にユーザビリティを測定し、信頼できると確信できるのかについて説明します。

現代のユーザビリティ評価の多くは、コンバージョン率、タスク成功率、作業時間など、測定が容易で容易に入手できる測定基準に依存しています。

ユーザー・エクスペリエンスも同様です。ユーザビリティを測定するために、例えば、コントロールされたユーザー調査やライブ・インタビューが使用される場合、一般的に悪い選択ではありませんが、限界があります。*1

最終的に、デジタルプロダクトのユーザビリティを正確かつ確実に測定しようとする場合、科学的な根拠のある機器、または日常用語で言うところの「アンケート」を避けて通ることはできません。最も有名なものは、おそらくSUS（システム・ユーザビリティ尺度）ですが、他にもいくつかあります。2つの例は、UMUX（Usability Measure for User Experience）とSUMI（Software Usability Measurement Inventory）です。

このパーティに参加するため、この記事では、共著者のJohanna Jagow氏と私がINUIT（インターフェース・ユーザビリティ尺度）を紹介します。INUITは、私が博士論文のために開発した新しいユーザビリティ質問票です。この尺度は、250以上のユーザビリティ・ガイドラインとヒューリスティックスのレビュー、および確証的因子分析に基づいています。このアンケートの内部一貫性とSUSとの相関性を示す、約6500人のユーザーを対象とした2つのケーススタディを紹介します。この証拠は、INUITが実際に信頼できるユーザビリティの尺度であることを示唆しています。また、INUITの幅広い適用可能性を説明し、INUITがSUSや他の根拠のあるユーザビリティ質問票の代わりとなることを意図していないことを明確にします。INUITは、特定のユースケースを念頭に置いて設計された、新たなユースケースです。

すぐに本題に入ります： 1（「全く同意しない」）から5（「完全に同意する」）までの尺度で、INUITは次のようになります。角括弧内の部分は、オンラインショップの商品、ニュースサイトの記事、検索エンジンの検索結果など、特定のインターフェースに合わせることができます。

Q1: 私が探していた[情報]を見つけることができました。

Q2: 提供された[情報]を簡単に理解することができました。

Q3: [インターフェース]を使用して混乱しました。

Q4: [インターフェース]の要素に気を取られました。

Q5: タイポグラフィとレイアウトが読みやすさを高めていました。

Q6: あまりにも多くの情報が狭いスペースに詰め込まれていました。

Q7: [私が欲しい情報]に簡単にアクセスできました。

INUITメトリック（0から100のスコア、SUSに類似）は次のように計算できます：

(q1 + q2 + q5 + q7 - q3 - q4 - q6 + 11) × 100/28 *

なぜ11と28なのでしょうか？1～5で評価された7つの項目がありますが、いくつかの項目（Q1、Q2、Q5、Q7）では5が最高の評価であり、いくつかの項目（Q3、Q4、Q6）では1が最高の評価です。したがって、すべてを合計するときに、6から後者を引く必要があります： q1 + q2 + q5 + q7 + （6-q3） + （6-q4） + （6-q6） = q1 + q2 + q5 + q7 - q3 - q4 - q6 + 18. この結果、総合得点は7～35点となります。さて、これを0から100の間のスコアに正規化したいと思います。そのために、まず7を引いて0から28の間のスコアとします： q1 + q2 + q5 + q7 - q3 - q4 - q6 + 18-7 = q1 + q2 + q5 + q7 - q3 - q4 - q6 + 11. 最後に、0点から100点までのスコアについては、すべてを28で割って100をかけます：（Q1 + Q2 + Q5 + Q7 - Q3 - Q4 - Q6 + 11） × 100/28.

例えばSUSが10問であるのに対し、INUITは7問しかないことにお気づきでしょうか。それ以外にも2つの利点があります：

INUITは、ユーザインタラクションやウェブ分析データからユーザビリティを自動的に予測する機械学習モデルの学習データを提供するために設計されています。
INUITの項目（つまり質問）は、少なくともある程度は診断可能です。つまり、アンケートの結果を見るだけで、インターフェースの何が問題なのかがわかります。読みやすさ（Q5）の評価が悪いですか？インターフェイスのテキストをもっと読みやすくする必要があります。

さて、この時点で、この結果をすべて受け入れて、INUITを使ってデジタルプロダクトのユーザビリティを測定することもできます。あるいは、詳細についてご興味があれば、このまま読み進めていただいても結構です（私たちはもっと喜んでいます）。

なぜまたユーザビリティ調査票を作成したのか？

INUITが単なる遊び心で開発されたものでも、アンケートが少ないから開発されたものでもないことは、もうお分かりでしょう。しかし、これに答えるには、少し遡る必要があります。

2014年、私は博士課程の学生で、学位論文の執筆に追われていました。そのゴールは、ユーザー調査の参加者に何ページも何ページも質問に記入させるのではなく、マウスカーソルの操作やスクロールの仕方など、ユーザーのインタラクションからインターフェイスの使いやすさを自動的に判断する方法を見つけることでした。さらに、インターフェイスの最適化を自動的に提案することも必要です（例えば、ユーザー・インタラクションによってインターフェイスが読みにくいことが示唆された場合、テキストを大きくするなど）。

しかし、これを実現するためには、まず、特定のインタラクション（マウス・カーソルの動き、マウス・カーソルの速度、スクロールの動作など）がインターフェイスの使いやすさ（というよりむしろその個々の側面）を予測するかどうか、またどの程度予測できるかを決定する必要がありました。これは、インターフェイスに対するユーザーのインタラクションとそのインターフェイスに対するユーザーのユーザビリティ評価を通してトレーニング・データを収集することを意味します。そして、回帰モデルや機械学習モデルを使って、追跡されたインタラクションの（組み合わせが）ユーザビリティ（の側面）をどの程度予測するかを調査することができます。理論に関する限り、ここまでは良いでしょう。

実際には、プロジェクトに大きな影響を与える重要な決定の1つは、トレーニングデータを収集する際に、上記のユーザビリティ評価をどのように収集するかということでした。ユーザビリティは潜在変数、つまり、直接観察することができないため、ユーザビリティを評価するための適切な手段（つまり、アンケート）が必要です。そして、最も有名なものは、紛れもなくシステム・ユーザビリティ尺度（SUS）です。これは当然の選択だったのではないでしょうか？

よく見てみると、SUSはインタラクションからユーザビリティを推論する統計モデルを訓練するのには完璧に適していますが、単純に完璧にフィットするものではありませんでした。これは主に2つの理由からでした：

1つ目は、SUSに含まれる多くの質問（「このシステムを頻繁に使用したいと思う」、「このシステムのさまざまな機能がうまく統合されていると感じた」、「このシステムを使用することに非常に自信を感じた」など）は、ユーザビリティの良し悪しの効果を記述しています。しかし、ユーザビリティの原因となるユーザビリティの側面、たとえば、理解しにくさについては記述されていません。そのため、より良くするために何をすべきかを知ることが難しくなります。ユーザーにもっと自信を持ってもらうためには、具体的に何を変えればいいのでしょうか？この質問は診断的でも「実行可能」でもなく、悪い評価の原因を明らかにするためには、さらなる質的調査が必要です。それはUMUXもSUMIも同じです。
第二に、SUSはわずか10項目と、すでに非常に小さなアンケートです。しかし、項目が少ないほど摩擦が少なく、実際に回答するユーザーのモチベーションは高まります。では、本当に10項目が最小なのか、それとももっと少ない項目で適切なアンケートが可能なのか。

このようなことを念頭に置きながら、マックスは最終的に、冒頭で紹介した「INUIT」を開発しました。彼は最終的に7つの項目を作成しましたが、これは彼の博士号プロジェクトのニーズに適しており、SUSの項目よりも実用的でした。

これが実際にユーザビリティを測定しているとどうして分かるのか？

INUITは、2段階のプロセスで開発されました。最初のステップでは、優れたユーザビリティのための250以上のルールが記載された確立されたガイドラインとチェックリストをレビューし、上記の要件に基づいてフィルタリングを行い、新しいユーザビリティ尺度の最初の草案を作成しました。この草案は、9人のユーザビリティの専門家とのインタビューで議論され、改良されました。

情報性（Q1）、理解しやすさ（Q2）、混乱（Q3）、注意散漫（Q4）、読みやすさ（Q5）、情報密度（Q6）、到達しやすさ（Q7）の7つの要素を含むINUITの最終ドラフトは、確証的因子分析（CFA）を使用して評価されました。

CFAは構成要素の妥当性を評価するための手法で、「ある構成要素の測定値が、その構成要素の性質に関する研究者の理解と一致しているかどうかをテストするために使用される」、または「データが仮説の測定モデルに適合しているかどうかをテストするために使用される」という意味です。- ウィキペディア

非常に簡単に言うと、CFAを使うことで、理論が実践にどれだけ合致しているかをチェックすることができます。私たちの場合、「構成概念」または「仮説化された測定モデル」（理論）はイヌイットであり、データ（実践）は、イヌイットの質問票を使って4つのニュースウェブサイトを評価した81人の参加者によるユーザー研究から得られました。

CFAでは、構成要素がどの程度データに適合するかを示すさまざまな測定基準があります。よく知られているのは、CFI（比較適合指数）とRMSEA（近似の二乗平均平方根誤差）の2つで、どちらも0から1の範囲です。

CFIでは、0.95以上が「適合度が高いことを示す指標として認められている」（ウィキペディア）。INUITの値は0.971。RMSEAについては、「0.05未満は良好、0.05～0.08は許容範囲」（Kim et al.） INUITの値は0.063。これは、私たちの理論が実際と一致している、またはINUITの質問が実際にユーザビリティを測定していることを意味します。

ケーススタディ#1

INUITは2014年、当時fluege.deやreisen.deのような旅行検索エンジンを運営し、全く新しいセマンティック検索エンジンを開発していたUnister GmbHで初めて実用化されました。BlueKiwiと名付けられたこの検索エンジンの結果ページは、INUITを使用した81人の参加者によるユーザー調査で評価されました。

この最初の調査では、全参加者を平均した総合スコアは59.9点でした。特に情報量（Q1）、情報密度（Q6）、到達性（Q7）の評価が悪い結果となりました。これらの結果に基づき、BlueKiwiの検索結果ページのデザインが変更されました。

特に、広告の数を減らし（到達性の向上）、検索結果をより簡潔に表示し（情報密度の向上）、すべてをより明確に整列・分離しました（情報密度の向上）。変更点の一覧は下図をご覧ください。

イヌイットの結果に基づいて検索結果ページに加えられた調整。(画像出典：www.researchgate.net）

広告の量を減らす

結果をタイトル、URL、および概要に限定する

ソーシャルメディアボタンを削除する

空白スペースを追加する

フォントサイズや行間を増やす

より良い配置調整

画像とテキストの間に明確な区切りを設ける

結果をより明確に分離する

関連検索語を最適化する

デザイン変更後、別の調査を実施したところ、イヌイットの総合スコアは67.5（+11%）に上昇し、7つの項目のすべてで改善が見られました。

なぜこの記事を書くのに9年も待ったのか？」

さまざまな要因がありました。一つは、いわゆる研究と実践のギャップです。アカデミックな研究がアカデミックなコミュニティの外で支持を得るのはしばしば困難です。その理由のひとつは、博士号取得プロジェクトの一環として行われた研究が、研究論文として発表され、学位論文に含まれ、博士号取得論文発表会で発表されるという目的を果たした後、少し軽視されがちであることです。

ケーススタディその2

しかし、もう一つの要因は、私たちがまず、実際の産業界で、より長期間にわたってこの測定器を実践してみたかったということです。

SUSとINUITの両方を使用し、合計6,368人のユーザーを持つ複数のeコマースサイトのベンチマークを四半期ごとに実施しました。これらのベンチマークの結果は、プロダクトKPIのダッシュボードに含まれ、6人のプロダクトマネージャーのチームで定期的に共有されました。ベンチマークの実施と共有をおよそ2年間続けた後、データの活用方法、課題、希望、改善の可能性についてプロダクトマネージャーにインタビューを行いました。

大まかな分析の結果、すべてのプロダクトマネージャーが、何らかの形で、INUITはSUSに比べて直感的に理解でき、抽象的でなく、より実用的であると述べています。

彼らは、INUITのほとんどの項目がより具体的で解釈しやすく、そのためプロダクトマネジャーの視点からはより適切であると考えました。これとは対照的に、SUSは「全体的なスコアが良い」「俯瞰的な視点が良い」などと評価されました。しかし、事実上すべてのプロダクトマネージャーは、ウェブサイトのどこでユーザビリティの問題が発生しているのかについて、さらに具体的な洞察を望んでいました。ある人は、SUSとINUITの両方から特定の項目を組み合わせて、最適な手段を構築することを提案しました。

分析の一環として、INUIT（3190の回答に基づく）とSUS（3178の回答に基づく）のクロンバックのαを計算しました。

クロンバックのαは、測定器の内部一貫性を示す統計的尺度であり、「テストのすべての項目が同じ潜在変数（すなわち、ユーザビリティ）を測定する程度」と解釈することができます。- ウィキペディア

0.7以上の値は一般的に許容範囲とみなされます。INUITは0.7、SUSは0.8。

さらに、INUITとSUSは、調査参加者が完了しなければならなかったさまざまなeコマース・ウェブサイトとタスクの総合スコアを見ると、かなりの（ピアソンのr = 0.53）、そして非常に有意な（p < 0.001）相関関係を示しました。

平たく言えば、SUSのスコアが上がればINUITのスコアも上がり、SUSのスコアが下がればINUITのスコアも下がるということです。どちらのアンケートも同じことを測っているのです（INUIT＝0.6×SUS＋17という非常に大雑把な近似値）。

この最初の結果は非常に心強いものでしたので、私たちは今、INUITに関する一般的で、より実践的な概要記事を書くことにしました。しかし、私たちのビッグデータセットのより深い分析はまだ行われておらず、私たちの現在の計画では、調査結果をより詳細に別途報告する予定です。

なぜINUITがSUSより優れていると思うか？

私たちはそうは考えていません（科学的に確立されたユーザビリティ測定器よりも優れているとも考えていません）。同じ潜在変数（この場合はユーザビリティ）を測定する方法はたくさんあります。SUSとINUITのどちらのアンケートも、インターフェースのユーザビリティを測定できることが証明されています。しかし、これらは異なる文脈で、異なる目標と要件に基づいて開発されました。

ですから、真の研究者として、いつどちらを使うのが良いかという質問に答えるには、「場合による」と言わざるを得ません（悩ましいですね）。

1990年代からあるSUSは、おそらく最も人気があり、確立されたユーザビリティ尺度です。何度も何度も研究され、検証されています。もちろん、INUITはまだ太刀打ちできませんし、まだ長い道のりがあります。高いレベルでのスコア比較や、オリエンテーションのための公的なベンチマーク数値の利用を目的とするのであれば、SUSが望ましいでしょう。

しかし、設計上、INUITにはSUSより優れている点が2つあります：

INUITには7つの項目しかなく、依然として「完全な」ユーザビリティ尺度です。質問数が30%少ないということは、ユーザーにアンケートに回答する気にさせる上で大きな要因となります。遠隔オンライン調査の大部分は、通りすがりに素早く行われ、短い注意力で行われると仮定すると、信頼できるアウトプットを生み出し、参加者の疲労のような影響を最小限に抑える効率的な調査を設計することは、研究者にとって大きな課題となります。
INUITの項目は、実務家にとってより実用的で、手作業による分析に適しており、インターフェースの最適化の可能性を推測できるよう、特別に設計されています。2つ目のケーススタディで学んだように、実際のプロダクトマネージャーに話を聞くと、彼らにとって、ユーザビリティ評価の結果は常に可能な限り具体的であるべきであることがわかりました。両者の項目を比較すると、INUITは、どちらかというと漠然としていると感じられたSUSよりも、より具体的な改善点を指摘しています。

INUITはどこで使えるのか？

一般的には、インターフェースとタスクが関係するあらゆるシナリオで、ユーザー自身またはユーザーによって定義されます。前述の研究では、イヌイットは管理された環境でも、自然な使用環境でも、またニュースサイトや検索エンジン、eコマースショップでもうまく機能することが実証できました。

もちろん、どのようなインターフェースでもINUITを評価できるわけではありません。INUITは2014年から公開されていますが、他の研究者にどのように使われているかは分かりません。あなたの経験や結果をお聞かせいただければ幸いです。

記事の冒頭で紹介した質問は、INUITが歴史的に情報を探すことに重点を置いてきたこと、また利用者が行うことのほとんどが何らかの情報を探すことであることから、比較的情報を探すことに重点を置いています。(情報はテキストである必要はありません。それどころか、ほとんどの情報はテキストではありません。）しかし、これらの質問は、ユーザビリティの基本的な側面、すなわち、情報性、理解しやすさ、混乱、注意散漫、読みやすさ、情報密度、および到達しやすさを反映している限り、変更することができます。

たとえば、eラーニングコースのモジュールを評価する場合、注釈付きビデオとそれに続く小テストの形で評価します。手元のタスクに対応するために、Q1は「モジュールを完了するために必要なすべての情報があった」、Q7は「モジュールを完了するために必要なすべての情報に簡単に到達できた」と言い換えることができます。

結論

ユーザビリティに関するアンケートは世の中にたくさんありますが、その中にINUITという新しいアンケートが加わりました。なぜでしょうか？なぜなら、既存のアンケートのどれもが完璧にフィットしない状況に陥ることがあるからです。INUITは、SUSのような既存のユーザビリティ調査票よりも診断性が高く、機械学習と併用できるように設計されています。もしあなたの使用例や仕事の状況に関連するようであれば、試してみてはいかがでしょうか？

科学的・統計的な観点から、確認的因子分析（CFA）において、INUITはその質問が確かにユーザビリティを測定することを実証しました。その上、大規模で縦断的なユーザー調査のデータに基づき、INUITはSUSと一貫性があり、相関性があります。

注：INUITの背後にある科学、例えば項目や質問が具体的にどのように選ばれたのかについて深く知りたい場合は、2015 HCI International Conferenceで発表された対応する研究論文「INUIT: The Interface Usability Instrument, 」をお読みください。INUITが機械学習モデルの学習にどのように利用できるかについて詳しく知りたい方は、「Ensuring Web Interface Quality through Usability-Based Split Testing.INUIT 」をお読みください。そして最後に、INUITがインターフェースの最適化を自動的に提案するツールの基礎としてどのように利用できるかを知りたい方は、「S.O.S. 」をご覧ください： Does Your Search Engine Results Page (SERP) Need Help?" は、2015 ACM Conference on Human Factors in Computing Systemsで発表されました。