【翻訳】ちょっとしたリサーチなら 「ない 」方がまだマシ(Maximilian Speicher, UX Collective)

uxdesign.cc

TL;DR: 「データドリブン」全盛の現代において、「テストされていなければ、それは単なる意見の一つに過ぎない」「いくつかのリサーチは、リサーチがないよりはましだ」といったマントラは、危険なほど誤解を招く可能性があります。しかし、すべてのリサーチが同じように作成されるわけではなく、「一部の」リサーチは、方法論的な欠陥がある場合、まったくリサーチを行わないよりも悪いことがよくあります。真のリサーチの民主化とは、誰でもリサーチを行えるようにすることではなく、リサーチ者でない人に厳密な方法論を教育することです。ゴールは、専門家によるものであれ、訓練を受けた同僚によるものであれ、質の高いリサーチが、より良いビジネス上の意思決定につながるような包括的な環境を作ることです。

ユーザー(またはUX)リサーチに関して言えば、最近では誰もが「民主化」や「エンパワーメント」について話しているようです。そして、それにはとても良い理由があります。多くの企業では、ユーザーリサーチのためのリソースが予算や人員の面で限られていることは珍しくありませんが、同時に、データドリブンでエビデンスに基づいたアプローチを採用する傾向が強まっており、ユーザーインサイトとそれに対応するリサーチ活動に対する需要が高まっています。パンデミック以来、また他の多くのことと同様に、現在多くのユーザーリサーチがオンラインで行われているため、これは非常に理にかなっています。リサーチ者は、コストと手間のかかる社内ラボやフォーカスグループを運営するよりも、質の高い調査を迅速かつ効率的に実施するために、遠隔の非同期メソッドに頼るようになってきています。ユーザーリサーチのSaaSプラットフォームは、それに応じて花開きつつあります。

彼の素晴らしい記事「UXリサーチの未来」の中で、マイクロソフトのユーザーエクスペリエンスリサーチのパートナーディレクターであるMonty Hammontree氏はこう書いています:

  • UXリサーチの未来は、「乗数 」として機能することです。
  • 「私たちは、積極的に学習への新しい経路を構築し、プロダクトチームが顧客とつながり、顧客から直接学ぶための革新的な方法を作り出すべきです」
  • 「その答えは、多くの人のために学習に集中するリサーチ者を増やすことではありません。リサーチ者の役割を拡大し、すべての人に学ぶ力を与えることに重点を置くことです」。
  • 「私たちの未来は、[...]顧客と話し、顧客から学ぶというプロダクトチームの興奮を倍増させることにあります。私たちの目標は、彼らの自信を高め、顧客から学ぶ能力を向上させることです」。

私が上記で「民主化」や「エンパワーメント」と呼んだものを、ハモントゥリーは「共同経験学習」とも呼んでいます(詳細は後述)。そして、彼はまったく正しいです。伝統的な役割のユーザーリサーチャーが提供できる以上のユーザーインサイトへの需要があるのですから(これは信じられないほどポジティブな発展です)、リサーチャー以外の同僚に力を与え、ユーザーをリサーチし、ユーザーから学ぶことに参加させる以外にチャンスはありません。

しかし、残念ながら、リサーチの成熟度が低い多くの組織では、エンパワーメントは別の意味で解釈されています。彼らにとって、エンパワーメントとは、誰でもすぐに駆けつけて、ユーザ ーリサーチだと信じていることを何でもやってもいい、ユーザーインサイトのようなもの を持って戻ってきさえすれば、データドリブンであると主張することができる、ということを意味 することが多いのです。

しかし、これは深刻な問題です。なぜなら、ユーザーリサーチでもエンパワーメントでもないからです。

前職では、「デザイン思考コーチ」がプロダクトマネージャーに、デザインスプリント中に異なるコンセプトを「テスト」することは完全に有効だと教え、社内のSlackチャンネルに投稿し、同僚にどちらが好きか投票するよう求めるのを必死に阻止しようとしました。また、あるプロダクトリーダーは、誘導尋問やその他多くのバイアスを含む、教科書的なケースを含むアンケートを実施しようとしていました。私が彼らにそのことを伝え、その調査が完全に歪んだ無効な結果をもたらすことを説明すると、彼らは誘導質問は意図的なものだと主張し(今日に至るまで、私は彼らの理由を理解することができません)、「ユーザー調査は科学的である必要はない 」と言って議論を打ち切ろうとしました。科学的」というのが、アカデミアのようなリサーチを行うことを意味するのであれば、その通りです。しかし、確実で有用な洞察につながる質の高いリサーチを行うことを意味するのであれば、ぜひともユーザーリサーチは 「科学的 」であるべきです。このような議論の中で私が遭遇した他の議論(そして、私は多くの神経を使い、私の雇用主は多くのお金を費やしました)には、通常次のようなものがありました。

  1. 「完全であるより、できている方がいい」

    そして

  2. 「多少のリサーチは、リサーチしないよりはまし」。

しかし、どちらもでたらめです。

前者は、もともとヴォルテールの言葉から発展したものです: 「最善は善の敵」(il meglio è nemico del bene)。そして、この2つには非常に重要な違いがあります。さて、完璧なユーザー調査など存在しないことは認めます。私自身、完璧なユーザー調査を見たこともなければ、実施したこともありません。しかし、ユーザーリサーチにおいて、「完了」と「良い」の違いは、無効なインサイトと有効なインサイトの違いであることが多いのです。つまり、間違ったビジネス上の意思決定につながるインサイトと、正しいビジネス上の意思決定につながるインサイトの違いです。あるいは、非常に簡単に言えば、お金を失うか、お金を稼ぐかの違いです。

これは後者の議論と非常に関係があります。なぜなら、「あるリサーチは行われなかったリサーチよりも優れている」かどうかは、その「あるリサーチ」が単に「行われた」ものなのか、それとも実際に「優れた」ものなのかによって大きく異なるからです。

あるリサーチは行われなかったリサーチより悪いのか?

この質問に答える前に、まず「良いリサーチ」と「悪いリサーチ」、つまり「質の高いリサーチ」と「質の低いリサーチ」とは何かを確立する必要があります。

質の高い(そして質の低い)リサーチ

Boaz & Ashby(2003)によると、質の高いリサーチは様々な要件を満たしています:

  1. リサーチクエスチョンと選択された(複数の)手法が一致していること。通常、プロトタイプのテストでは、「人々はこれを買うだろうか」に答えることはできません。
  2. 適切な被験者の選択。これは、リサーチクエスチョン(複数可)に対して適切な母集団から適切なサンプルを抽出することだけでなく、サンプルのサイズについても言及します。
  3. 結果の適切な測定。例えば、UXをコンバージョン率で適切に測定することはできません(Speicher, 2022a)。
  4. ステマティック・バイアス(偶然だけによるものではない偏差、例えば誘導質問によるもの)、非システマティック・バイアス(サンプリングのばらつきによるもの)、推論エラー(利用可能なデータから誤った結論を引き出すこと)からの保護。

したがって、これらの要件の1つ以上を満たさないものは、質の高い調査とは言えず、正しいビジネス上の意思決定につながる有効な知見を収集する自信を著しく低下させます。これらの要件から、質の高いリサーチを提供することは簡単なことではないことが明らかでしょう。そのためには、方法論の知識、経験、そして慎重な実行が必要です。

このことは、「すべてをテストする」というマントラには細心の注意が必要であることを強く示唆しています。特に、(彼ら自身のせいではありませんが)単に有効なインサイトをもたらすと確信できる質の高いリサーチを提供できない「権限を与えられた」非リサーチャーがリサーチを実施する場合、または実施しなければならない場合です。悪質な調査は、単に資源を浪費するだけでなく、積極的に誤解を招き、調査をまったく行わずに意思決定を行うよりも悪い結果を招きかねません。

したがって、本当にすべてをテストする必要があるのか、それとも特定のケースでは単に手間を省くだけで、悪いリサーチに基づいて間違った意思決定をする可能性を減らすことができるのか、再検討してみましょう。

すべてをテストしないことの直感に反する性質

テストされていなければ、それは単なる意見に過ぎない」という一般的なフレーズは、しばしば誤解され、誤って適用されています。テストやリサーチは非常に重要ですが、このマントラに盲目的に従うことが逆効果になるシナリオもあります。私は、「テストされていないのであれば、まったく問題ないかもしれない」というのは、より微妙なニュアンスがあり、時にはより適切な視点であると主張します。

集中的なテストがあまり意味をなさない場合が2つあります:

完全に過剰なテスト

ヤコブの法則」、「フィッツの法則」、「美的ユーザビリティ効果」、「フォン・レストルフ効果」、「ニールセンの10のユーザビリティ・ヒューリスティックス」などのデザイン原則やUXヒューリスティックは、デザインに普遍的なものであることが、何千とは言わないまでも、何百ものリサーチで証明されています。これらは、文脈を超えて徹底的に検証された心理学的現象です。

要するに、他のすべてが角を丸くしているときに、角のあるボタンが注意を引くかどうかを何度もテストする必要はないということです(フォン・レストルフ効果、輪郭バイアス)。過剰にテストされたコンセプトをテストしているとき、私たちは他の場所にもっとうまく割り当てることができるリソースを無駄にしているのです。もし優れたデザイナーがデザイン原則をしっかり押さえていれば、彼らのやっていることのほとんどは(再)検証の必要がないと確信できます。特に、フォンレストルフ効果が実在しないことを発見するかもしれない、5人の参加者による簡単なユーザーテストという形では。

もちろん、誰もデザイナーの言うことすべてを盲目的に信じることを期待すべきではありません。科学者が論文を書くのと同じように、デザイナーも、デザインのどの部分にどのような試行錯誤の原則が活かされているのかを参照できるようになる必要があります。

完全にテスト不足

もう一方の端には、非常に新しいコンセプトがあり、特定の文脈では事実上これまでになかったもの、つまり真に革新的なアイデアがあります。Greenberg & Buxton (2008)は、その重要な論文「有害と考えられるユーザビリティ評価(Some of the Time)」で次のように述べています:

......評価は、「思考によって 」ではなく、「規則によって 」素朴に行われると、効果がなく、有害でさえある可能性があります。設計の初期段階で行われると、現在のインターフェイスの規範に適合しない独創的なアイデアを消してしまう可能性があります。急進的なイノベーションをテストするために行われた場合、未成熟な技術から生じるであろう多くのインターフェースの問題は、インスピレーションを得たかもしれないビジョンを打ち砕く可能性があります。

同様の見解を支持する関連論文として、Don Normanの 「有害と見なされる人間中心設計」 (Norman, 2005)があります。

テストがイノベーションを妨げる理由はいくつかあります:

  • ユーザーは常に正しいとは限らない ユーザーは常に正しいわけではありません。彼らは、現状維持バイアスイノベーションへの抵抗にさらされます。真に斬新なものに直面したとき、彼らの最初の反応は否定的であることが多いのです。他のところでも書きましたが、私たちは「ユーザーの意見に耳を傾けるべきですが、その割合は85%に過ぎません」(Speicher, 2022b)。
  • デザインスプリントには限界がある デザイン・スプリントやその他の迅速で無駄のない、アジャイルな評価方法にはそれなりの場所がありますが、銀の弾丸ではありません。時間とリソースの不足は、しばしば方法論的な欠陥や、それゆえに間違った結果をもたらします。これは、(Jakob Nielsenによって広められたような)クイック&ダーティーや「ディスカウントテスト」が、正しく行われれば、質の高い調査の要件を満たせないということではありません。例えば、このような無駄のないテスト方法は、通常、うまくいくことよりもうまくいかないことを発見するのに適していますしかし、後者のために使用された場合、革命的なアイデアを殺す可能性のある多くの偽陰性を生成することがよくあります。
  • KPIは誤解を招く可能性があります: 典型的なビジネスKPIは、通常A/Bテストによって測定されますが、長期的な成功よりも短期的な成功を好むことがよくあります(Speicher, 2022a)。さらに、KPIは優れたUXと矛盾することもあります(こんにちは、ダークパターン!;Speicher, 2021参照)。EコマースやSaaSのサイトが、長期的なユーザーの満足と信頼を犠牲にして、即座のコンバージョンを最適化している教科書的な例はたくさんあります(「X人の他のユーザーが今同じプロダクトを見ていて、残り2つしかないから急げ」と言ったり、無料トライアルをオプトアウトするのを忘れたときに請求できるようにクレジットカード情報を求めたりするページには気をつけてください)。その上、A/Bテストはp値ハッキング(Taleb, 2016)に陥りやすく、本物の洞察を発見するのではなく、自分たちのバイアスを確認するために調査を操作することができます。

*1

質の高いリサーチは、質の高い結果と優れたビジネス上の意思決定につながります。質の低いリサーチは、質の低い結果と悪いビジネス上の意思決定につながります。リサーチを行わない場合、どのような結果になるかはわかりません。しかし、確立された普遍的な原則に基づく設計の場合、通常、調査を行わないことが悪い決断につながることはありません。革新的な設計の場合、質の低い調査は、長期的な価値を持ち、調査をまったく行わなければ追求されたであろう有望なアイデアを、時期尚早に却下してしまう可能性があります。以上のような理由から、全体的に見れば、悪いリサーチよりも、何もリサーチしない方が良いことが多いのです。

その代わりに何ができるでしょうか?

真に革新的なコンセプトのためには、標準的なテスト方法の限界を克服する、異なるアプローチが必要です。これらのアプローチは、革新に対する自然な抵抗に対応しつつ、有意義なデータを提供するものでなければなりません:

  • 日記リサーチのような、現状維持バイアスに偏らない縦断的リサーチ。日記リサーチのような、現状維持のバイアスに偏らない縦断的なリサーチ。これにより、ユーザーは長期間にわたって新しいコンセプトに接することができ、最初の抵抗を克服し、真の価値を発見する時間を得ることができます。特に日記リサーチは、親しみが増すにつれて認識がどのように変化するかを明らかにすることができ、しばしば最初の否定的な反応が肯定的な経験に変化することを示します。
  • 実施期間が1ヶ月を超えるA/Bテスト。従来のA/Bテストは数週間(または悲しいことに数日)しか実施されないことが多く、ユーザーが急進的なイノベーションに適応するには十分な時間ではありません。テスト期間を大幅に延長することで、変化に対する一時的な抵抗と本物のユーザビリティの問題を区別することができます。また、このアプローチでは、初期の反応だけでなく、長期的なエンゲージメントを測定することができます。
  • 定期的にA/Bテストを繰り返し、長期的に採用を測定します。1回のテストを実施するのではなく、定期的に同じテストを実施して、ユーザーの行動や嗜好がどのように変化するかを追跡することを検討してください。これにより、短期的なテストでは見えなかった革新的な機能の採用曲線を明らかにすることができます。また、統計的有意性を重視するのであれば、A/Bテストは1回だけでは不十分です。なぜなら、「p値は同じ実験の繰り返しで大きく変わることがあるからです」(Speicher, 2022)。

*2

A/Bテストの実行時間が比較的短い場合、たとえサンプルサイズの観点からは問題がないとしても、革新的なソリューションの長期的な価値を把握できないことがよくあります。これは、テストの実行時間を長くするか、後の時点でテストを再現することで防ぐことができます。(図はhttps://www.slideshare.net/slideshow/mtpcon-londonemea-2022-why-product-managers-should-not-be-datadrivenpdf/253545560。)

確かに、これらもテストの一形態ですが、今日のEコマースやプロダクト開発の現場で一般的に適用され、リサーチ者でない人々に「力を与える」際に「進むべき道」として教え込まれるような、迅速で単発の評価ではありません。しかし、真に革新的なアイデアを評価するには、より適した方法なのです。

いつ、どのようにテストを行うかについてより慎重になることで、エビデンスに基づいた意思決定と革新的な思考を共存させるスペースを作ることができるのです。

Greenberg & Buxton(2008)は、ユーザビリティ評価についても述べているため、ここではソリューションの評価に焦点を当てていることに注意してください。革新的であろうとなかろうと、テストされるコンセプトは、設計プロセスの早い段階で、ユーザーの問題を探求する基礎的な調査に基づくことができますし、そうすべきです。しかし、基礎調査にはさまざまな要件や制限があり、業界で行われている調査(特に「クイック&ダーティー」)の大部分は評価的なものです。

進むべき道:教育による真のエンパワーメント

では、ユーザーリサーチの「民主化」とは、誰もがリサーチだと思うことを何でもさせることではないのであれば、それは何を意味するのでしょうか?

ユーザーリサーチにおける真のエンパワーメントとは、教育を意味します。つまり、リサーチ者でない人に適切なリサーチ方法を教え、どのような場合にどのテクニックを適用すべきかを理解させ、結果を正しく解釈する方法を指導するということです。つまり、リサーチの質が量よりも重視され、さまざまなリサーチ手法の限界を理解することが必要条件とみなされるような文化を作るということです。これを実施するための一つの可能性として、定期的な社内ユーザーリサーチトレーニングを実施し、組織内の誰もが異なるレベル、例えば 「ベーシック」、「アドバンス」、「エキスパート 」の認定証を取得することができます。これらの証明書に基づいて、さまざまな方法や複雑さのレベルでリサーチを実施する権限を与えることができます。たとえば、「ベーシック」の権限を与えられたリサーチャーは、明確なリサーチクエスチョンを持つ単純なユーザビリティテストに従事することができ、「エキスパート」の権限を与えられたリサーチャーは、より基礎的で複雑な質問に答える必要があるユーザーインタビューやフォーカスグループに従事することができます。

これが、Hammontree(2019)が真に意味する 「共同経験学習 」です。リサーチャーを非リサーチャーに置き換えるのではなく、リサーチャーが教師やメンターとなり、組織全体のリサーチ能力を高める手助けをするということなのです。

結論

まず、テストは複雑です。一般的なテストアプローチは、漸進的でどちらかというと保守的な改善には適していますが、確立された設計原則や真に革新的なコンセプトに関しては、大きな限界があります。

第二に、「テストされなければ、それは単なる意見の一つに過ぎない 」というフレーズは、多くのプロダクト組織でマントラとなっていますが、テストが価値のある場合と逆効果になる場合のニュアンスを認識していません。時には、「テストされていないのであれば、まったく問題ないかもしれない」という方が、より正確な視点なのです。

第三に、ユーザーリサーチの民主化とは、基準を下げたり、方法論的に欠陥のあるリサーチを受け入れることではありません。むしろ、組織のリサーチリテラシーを高めることで、誰もがエビデンスに基づいた意思決定の文化に有意義に貢献できるようにすることです。

結局のところ、「ある程度の」リサーチよりも「何も」リサーチしない方が良いことが多いのです。しかし、適切な教育とテストに対するより微妙な理解があれば、リサーチ者であろうとリサーチ者でなかろうと、良いリサーチが良い意思決定とより良いプロダクトにつながる環境を作ることができるのです。

こんにちは! 👋🏻

私はコンピュータサイエンスの博士号を持つプロダクトデザインディレクターのマックスで、プロダクト、戦略、リーダーシップについて書いています。この記事を楽しんでいただけたら、コーヒーをおごったりニュースレターを購読してください。ニュースレターを購読していただければ、私の最新の執筆情報をお届けします。

謝辞

校正をしてくださったヨハンナ・ヤゴウ氏に感謝します。

参考文献

  1. Boaz, Annette, and Deborah Ashby. 2003. Fit for purpose? assessing research quality for evidence based policy and practice. 第11巻。London: ESRC UK Centre for Evidence Based Policy and Practice.
  2. Greenberg, Saul, and Bill Buxton. 2008. 「Usability evaluation considered harmful (some of the time).」 InProceedings of the SIGCHI conference on Human factors in computing systems , pp.
  3. Hammontree, Monty. 2019. 「UXリサーチの未来」. UXR @ Microsoft. Medium, September 26, 2019.https://medium.com/uxr-microsoft/the-future-of-ux-research-14fe63743c1d.
  4. Norman, Donald A. 2005. 「Human-centered design considered harmful.」interactions12, no. 4: 14-19.
  5. Speicher, Maximilian. 2021. 「Growth Marketing Conside Harmful.」i-com20, no. 1: 115-119.
  6. Speicher, Maximilian. 2022a. 「コンバージョン率と平均注文額はUX指標ではない」. UX Collective. Medium, January 14, 2022.https://uxdesign.cc/conversion-rate-average-order-value-are-not-ux-metrics-9d6e7e40e286.
  7. Speicher, Maximilian. 2022b. 「Listen to Users, but Only 85% of the Time: How Black Swans Can Save Innovation in a Data-Driven World.」arXiv preprint arXiv:2208.05347.
  8. Speicher, Maximilian. 2022c. 「A/Bテストにおける有意性をなくす必要がある、マジで!」 Interactions 29, no. Interactions29, no.
  9. Taleb, Nassim Nicholas. 2016. 「A short note on p-value hacking.」arXiv preprint arXiv:1603.07532.

Copyright © 2025 byMaximilian Speicher● Original published by The UX Collective!

*1:訳注:縦に3つの楕円が並び、上から順に『質の高いリサーチ』『リサーチなし』『質の低いリサーチ』と書かれている。中央には点線の縦矢印があり、下から上に向かって『より低品質な結果・より悪い意思決定』から『より高品質な結果・より良い意思決定』へと進む。『リサーチなし』は中間に位置し、『質の低いリサーチ』はそれよりも下にある。『リサーチなし』の横には『テストのしすぎや革新的すぎるデザイン』という注釈がある。図全体として、質の低いリサーチはリサーチをしないよりも害があるというメッセージを示している。

*2:横軸が時間、縦軸が価値を示す折れ線グラフ。左側では価値が一定で、現状維持とされている。そこから価値が一度下がり、『現状維持バイアスイノベーションへの抵抗が働く』と記載されている。そこを過ぎると価値が大きく上昇し、革新的な解決策の効果が現れる。テストでは価値が下がったタイミングでの差分だけを測定しがちであるという注釈が括弧付きで添えられている。図全体のメッセージは、革新的な取り組みは一時的に評価が下がるため、早期の数値だけを見ると誤った判断をしやすいということを示している。