【翻訳】エビデンス・スコアでプロダクトアイデアを試してみる（Itamar Gilad, 2017）

itamargilad.medium.com

次の大きなアイデアを見つけ、それを構築することは、あらゆる技術系企業にとって至上命題です。残念ながら、統計によると、ほとんどのアイデアは、A/Bテストを行っても効果がない、あるいはマイナスの効果しかないことが分かっており、少なくともある分析では、1つの商業的成功を収めるためには、3000の生のアイデアが必要であると言われています。その結果、ほとんどの「大きな賭け」のプロジェクトは失敗に終わり、多くの無駄な投資が発生します。しかし、10億ドルの疑問は、大きな投資をする前に、そのアイデアが優れているかどうかを判断する方法はあるのだろうか、ということです。

しかし、大きな投資をする前に、そのアイデアの良し悪しを見分ける方法はあるのでしょうか。実は、その方法はそれほど難しいものではありません。

そのアイデアの裏付けとなる証拠（市場調査、アンケート、A/Bテストの成功など）を確認します。
その証拠に基づいて、そのアイデアが勝者であるという確信の度合いを示す信頼度（詳細は後述）を付けます。
確信度が高ければ、そのアイデアの構築と立ち上げを進めることができます。
確信度が高くない場合は、より多くの証拠を得るためにそのアイデアをさらにテストする（たとえばユーザー調査を実施する）か、他のアイデアに優先順位を譲るか、あるいはそのアイデアを完全に削除することを決定します。
アイデアへの投資額は、常に自信の度合いに比例するはずです。そうです。裏付けとなるデータがないCEOのペットのようなプロジェクトは、もうやめましょう。このような抽象的な表現にならないように、私はすぐに使える簡単なツールを2つ作りました。

ツールその1：クイックリファレンス表

時間がないときは、次の表を使ってください。左側には、人々や企業がアイデアを検証する最も一般的な方法をいくつか挙げ、右側には、それぞれからどれだけの信頼が得られるかを示しました。

このように、私たちがプロジェクトの初期に行いがちな活動は、重要ではありますが、そのアイデアが本当に良いものであるかどうかを検証するものではありません。良いピッチとそれを支える「市場調査」は、私たちに大きな自信を与えてくれません。実際、統計的に見ても、この段階ではアイデアに対してかなり懐疑的であるはずです。しかし、後者のテストに限っては、その有効性を実質的に証明することができるのです。その理由は以下の通りです。

段階的に難しくなるテスト - Min-viable Product（MVP）にお金を払うようユーザーを説得するテストよりも、プロジェクトをサポートするよう同僚やマネージャーを説得するテストの方が、多くのアイデアが生き残ることができます。テストが進むにつれて、確率は急激に低下するため、初期のテストだけを受けたアイデアよりも、後期段階を生き残ったアイデアの方が、良いものである可能性が桁違いに高くなります。
より信頼性の高い予測 - 初期の検証段階では、個人やグループによる主観的な意見、予測、解釈に頼ることがほとんどです。研究によって、個人もグループも、どのアイデアがより良い結果をもたらすかを予測するような難しい分析的問題に苦戦し、結局、偽陽性と偽陰性の両方を生み出していることが繰り返し示されています。例えば、資金調達に成功したアイデアの多く（おそらくほとんど）は必ずしも良いものではなく、資金調達に失敗したアイデアも必ずしも悪いものではありません。したがって、「資金を得る」テストは、あまり信頼できる予測因子ではありません。一方、A/Bテストは、将来のパフォーマンスを予測する、より信頼性の高いものです（完全ではありませんが）。
学習 - 検証のステップを経るにつれて、ユーザー、市場、そして、あなたのアイデアがその両方にどの程度適合するかについて、より多くを学ぶことになります。これは、アイデアを検証するだけでなく、通常は販売のかなり前に、アイデアを改善する機会を与えてくれます。実際、ほとんどの優れたアイデアは、生まれながらにして優れているわけではなく、テスト、学習、改良、ピボットのプロセスを経て、優れたものになるのです。

しかし、残念なことに、ほとんどの企業は、低信頼度と中信頼度の違いを見逃しており、非常に低い信頼度から中程度の信頼度でプロジェクトを立ち上げることに満足しているのが現状です。ここでは、最も一般的な誤ったシグナルと誤解について見ていきましょう。

ツール2 - アイデアを採点する

複数のアイデアを比較する場合、それぞれのアイデアに細かく点数をつけるとよいでしょう。この表を使って、あなたのアイデアに点数をつけ、その点数が何を意味するのかを下のほうで読んでみてください。

自己満足 - 各0点追加
- あなたは、このアイデアを良いアイデアだと考えている
- あなたは自分がスマートで有能なプロダクト担当者だと認識している
- 自分のプロダクトアイデアはたいていかなり良い(時には素晴らしい)と感じている
巧みなピッチ - 各0.1点追加
- なぜそれがユーザーや会社のためになるのかを明確に説明できる
- 短くてエレガントなエレベーターピッチを持っている
- 洗練されたピッチデッキを持っている
テーマ性 - 各0.2点追加
- 企業や投資家のビジョンや戦略に合致するアイデアであること
- アイデアが現在の業界トレンド/バズワードに合致している
- 外部の調査レポートを解釈して、そのアイデアを支持することができる
- 経済/社会のマクロトレンドに沿ったアイデアであると思われる
- 現在のプロダクト開発・設計の方法論・哲学に合致している
他の人の意見 - 各1点追加
- チームが良いアイデアだと考えている
- 経営陣が良いアイデアだと考えている
- 外部の専門家が良いアイデアだと考えている
- 投資家が良いアイデアだと考えている
- 技術系プレスが良いアイデアだと考えている
ハイレベルな計画と見積もり - 各5点追加
- ファネル数などの裏計算で、良い可能性を示している
- エンジニアリングとUXが、このアイデアは実現可能だと感じている
- チームの努力の見積もりは、合理的なプロジェクトのタイムフレームに収束する
- ビジネスモデルやビジネスプランの草案は、ビジネスとしての可能性を示唆している
逸話的証拠 - 各20点追加
- プロダクトデータのうち2-3点がそのアイデアをサポートしている
- 営業担当者が最も重要な要求であると言っている
- 1-3人の顧客と話をし、その顧客が興味を示している
- 競合他社が導入している
市場データ - 各100点追加
- あなたが実施または依頼したアンケートで、そのアイデアに対するユーザーや顧客の支持が明確に示されている
- スモークテスト（例えば「偽のドア」広告キャンペーン）で強い肯定的な結果（例えば高い広告CTR）を得ている
- 複数の/すべての競合他社が持っている
ユーザー/顧客の証拠 - 各500点追加
- 複数の月にわたる相当量のプロダクトデータが、このアイデアの裏付けとなっている
- 顧客サポート/サクセスレポートにおいて、複数の顧客からトップリクエストとして挙げられている
- 20人以上の潜在的なユーザーや顧客にインタビューを行い、そのうちの70％以上がこれを使うか、あるいはお金を払ってもいいと答えた
- 10人以上のユーザーを対象にユーザビリティ調査を実施し、80％以上のユーザーがアイデアを理解し、使用することができ、使用すると回答した場合
- 1～5人のユーザーで小規模なコンシェルジュのMVP調査を行い、成功させた
テスト結果 - 各2000点追加
- あなたは、2-4週間の縦断的な研究を開始し、70％以上の参加者がプロダクトを使い続け、テスト終了時に購入または継続使用に興味を示した
- MVPを作成し、50人以上のアクティブユーザー/顧客が使用/購入の意思を持ち、興味を持ってくれた
- アルファ版またはベータ版をリリースし、20人以上の早期テスターの顧客を獲得した
- A/Bテストを実施し、実験グループが概略の主要な指標を示し、他の主要な指標に低下が見られないすべての結果は、5%以下のp値で統計的に有意です
発売初期の結果 - 各10,000点追加
発売から1ヶ月後。
- かなりの割合のユーザーから繰り返し利用されている
- 5%のホールドバックグループと比較して、プロダクト変更を受けたユーザーグループは、より良いプロダクト統計（例：より良いリテンション、滞在時間）を示している
- カスタマーサポート/サクセスレポートにおいて、ユーザーから非常にポジティブなフィードバックが得られた
- 発売以来、ビジネス指標が改善された
発売後期の結果 - 「グッドアイディア！」バッジをつける
発売から12-24ヶ月後、あなたはこうなっている。
- ユーザーからのポジティブなフィードバックが、ネガティブなフィードバックを10対1で上回っている
- 新機能の強力なリピート利用を示す指標
- ビジネス指標は上昇し、その状態が続いている

注：これは、ほとんどのソフトウェアプロダクトで使用できる一般的なテストのリストです。あなたの業界では、もっと適切なテストがあるかもしれません。重要なことは、それらがどの程度示唆的であるかを決定し、適切な信頼性のバケツに入れることです。

結果

0-5点 - 非常に低い信頼性 - このアイデアは、データや事実よりもむしろ意見や理論にほぼ完全に基づいています。最も経験豊富で成功したプロダクトマインドでさえ、どのアイデアが成功するか予測するのに苦労しています。Google、Twitter、AirBNB、Androidは、持続不可能なプロダクトアイデアとしてほぼ例外なく却下されたが、Google Wave、The Semantic Web、AppleのNewton、Windows 8 Metro UIは、当時は素晴らしいアイデアに思えたのです。自分、上司、同僚、投資家、外部の専門家がより良いものを作れると思い込んではいけないのです。自分のアイデアを考え抜き、他人の意見を聞くことは非常に重要ですが、それで十分だと思い込まないでください。重要な意見を見つけるには、建物の外に出る必要があります。
ビジョンや戦略、そして業界アナリストのレポートの多くは、非常にハイレベルで抽象的であり、未来を予測することには適していません。業界のトレンドの波に乗ったり（例えばVRやウェアラブル）、現在のプロダクト/デザインのパラダイムに基づくアイデア（マイクロアプリやSoAなど）は、信頼性を高めるものではありません。トレンドやバズワードは、すべてのプロダクトに適用するにはあまりに単純で、しかも数四半期ごとに変化する傾向があります。さらに、それらは数四半期ごとに変化する傾向があります。優れたプロダクトを作るために自分のやり方を理論化する方法はない。
6-100点 - 低い自信 - あなたは、コストの見積もりと大まかな計画を通して、アイデアの実現可能性を確認し始めました。あなたは、ビジネスの数字が加算されることを確認し、おそらくビジネスモデルキャンバスやビジネスプラ- ンも作成しました。それは素晴らしい前進です。しかし、プランニングの誤りに注意してください。私たちは、自分のアイデアのコストとインパクトの両方について、過度に楽観的になりがちです。ビジネスプランも同様で、現時点ではほとんど推測に過ぎず、検証して現実に適合させる必要があります。
逸話的な証拠は役に立つ（実際、多くのアイデアは逸話的な証拠から生まれている） - それは、少なくとも一部の人々がそのアイデアに同意していることを示しています。しかし、私たち人間は、ノイズの中にパターンや傾向を見いだすことが簡単にできます。統計学的に言えば、これはたいした証拠にはなりません。自信を深めるには、より多くの実際のデータを取得し、より多くの潜在的なユーザーの声を聞く必要があります。
101-500点 - 中低信頼度 - アンケート、スモークテスト、競合分析によって初期の外部データが得られますが、歪んだり誤解されやすい小さなサンプルで作業しているので、信頼度はまだ中低信頼度に過ぎません。しかし、客観的な証拠に基づいてアイデアを学習し、改善（または放棄）し始めたことは、重要なマイルストーンです。
501-2000点 - 中・高信頼性 - あなたは、アイデアの主要な仮説を検証するために、定量的・定性的調査を使用しています。ほとんどのプロダクトチームはここまでやらず、プロダクトを大幅に改善できたはずの重要なデータや事実を逃しているのですから、誇りに思うべきです。成功すれば、アイデアに対する自信が大きく高まるはずです。しかし、アイデアの簡易版や部分版を少人数のユーザーでテストするだけでは、そのアイデアが発売する価値があるかどうかを確認するのに十分ではありません。続けてください。
2001-10,000 点 - 高信頼性 - 今、あなたは、より多くの実際のユーザーグループと、より長い時間をかけて、プロダクトの初期バージョンであるアイデアを徹底的にテストするために、さらに一歩踏み出しました。もはや実験室での実験ではなく、本番に限りなく近いものです。ここで良い結果が出れば、勝者であることにかなり自信が持てるはずです - 発売しましょう! しかし、統計学や予期せぬ事態に翻弄されることもあるので、楽観視しつつも注意深く見守ってください。
10,000点以上 - 非常に高い自信 - おめでとうございます - アイデアは今、ローンチされています! しかし、発売後数週間から数カ月は、新規性だけでなく、プロダクトがどのように機能しているかについても、まだある程度の不確実性が残っています。これは油断している場合ではありません。データを処理し、人々にインタビューして、見逃しているものがないかを確認し続けましょう。
「グッドアイデア」バッジ - あなたはそれを作り上げ、宇宙をへこませ、人々の生活を少しでも向上させたと自信を持って言うことができます。

もちろん、すべてのアイデアをリストにあるすべてのテストにかける必要はありません。しかし、多額の投資を必要とするような大きなアイデアであれば、テストグループを通して、それぞれ少なくとも2、3のことを実行するのは良い考えです。NetflixやBooking.comのようなデータドリブンな企業は、初期の確信／テーマサポート／ピッチの段階を完全にスキップし、チームにほとんど何でもA/Bテストする権限を与えています。また、定性調査をより重視する企業もあります。いずれにせよ、より多くの、特に中期と後期のテストを行うことは非常に重要です。

以下は、成功した場合の例です。

しばらくは信頼度が非常に低く、その後、確かな証拠が集まるにつれて指数関数的に高まっていることがわかります。ほとんどのアイデアはここまで到達せず、途中で放棄されるか、修正されることになりますが、それはそれで必要なことなのです。

なぜ、このようなことが重要なのか

直感や逸話、あるいはせいぜい散発的な市場データ（「アンケート調査の結果、X％のユーザーがこの機能を望んでいる」）を信じて、100点満点以下の裏付けをほとんど持たずにプロジェクトに全力投球する企業があまりにも多く見受けられるのです。さらに悪いことに、企業幹部は最も基本的な検証から免除されているように見え、自己確信や「市場データ」、強力なピッチ（5点以下）に基づいてのみ、18ヶ月のプロジェクトを承認することができます。これは非常に破壊的なパターンであり、時間、お金、エネルギーを浪費するだけでなく、従業員や中間管理職の士気を著しく低下させるものです。経営陣の支持を得られなかったという理由で、他のもっと良い可能性のあるアイデアが脇に置かれたまま、どこにも進まない死の行進のようなプロジェクトに取り組むのは、不公平で無駄なことのように思えます。

同様に、多くの新興企業の資金調達の決定は、確固たる証拠よりも創業者のプロフィールや直感、決定的でないデータを優先し、非体系的な方法で行われています。

また、信頼性の高いプロジェクトに目を向けないことで、リスクを過小評価または過大評価する可能性もあります。例えば、70/20/10のイノベーションミックスでイノベーションポートフォリオを構築しようとしている企業は、しばしばコアプロジェクトに内在するリスクを評価せず、適切なリスク管理に失敗しています。

エビデンスベースのスコアリングを使えば、こうした投資判断の多くを簡素化し、より体系的で透明性の高い方法で前進させることができます。アイデアが検証段階に合格すれば、次の段階に進むのに必要なだけの資金を得ることができ、さもなければ中止となります。これにより、より多くのアイデアを安価に調査し、本当にインパクトのあるものを立ち上げることができます。

エビデンスに基づいた開発に対する一般的な反論

「とにかくやってみよう」という実行偏重の考え方の人は、たいてい次のような反対意見を述べます。

時間がかかりすぎる - 直感的に、アイデアを全開にしたほうが、市場に出すのが早いように思えります。チームは、「素早く立ち上げる」、「立ち上げては繰り返し行う」、「素早く失敗する」ことを奨励されます。この論理には2つの根本的な欠陥があります
1. 一度市場に出されたプロダクトは、社内外の理由から、イテレーションが難しくなります。実際、市場に出されたプロダクトのほとんどは、数年後に廃止されるまで、ほとんど変更されることなく（そして使用されることなく）残っています。プロダクトがまだ開発段階にあるうちに反復する方が、はるかに簡単で、はるかに効率的です。
2. 実行と学習は相互に排他的なものではありません - 市場投入までの時間的なペナルティをわずか、あるいはゼロにして、両方を同時に行うことは十分に可能であり、実際にその方が良いでしょう。
リスクを避けすぎる - 何年もの間、私たちはビジョンと戦略を構築し、それに従って大胆にローンチするように言われてきました。ビッグベット/ムーンショット/10xの哲学は、ユーザー/市場テストが「増分」のイノベーションしか生まないという信念があるため、信頼性スコアリングと相容れないようです。私の知る限りでは、これらの主張を裏付ける研究はありません。確かに、私たちは過去に徹底的な検証を行わずに大きな成功を収めたアイデアを立ち上げたことがありますが、これは単に確証バイアスの結果である可能性があり、失敗した（より多くの）大きな野心的プロジェクトや脇に置かれたすべての良いアイデアのことは考えていないのです。実際、より少ないカゴに多くの卵を入れることをチームに強いることで、よりリスクを回避し、失敗する可能性が低い（と思われる）プロジェクトを選択するインセンティブを与えているのです。多くの安価な実験をサポートすることで、チームはより冒険的になり、勝者が見つかったときには本当に全力を尽くすことができるようになります。
ローンチ前にユーザーがどのような行動を取るか知ることはできない - これを裏付ける研究はありませんが、私の経験では、すでに何百、何千もの初期テストユーザーにプロダクトを使ってもらい、フィードバックやデータをもらっていれば、ローンチの日に驚くことはほとんどありません。すべての投資問題に言えることですが、常に勝つのではなく、より多く勝つことが重要なのです。

Itamar Gilad (itamargilad.com) はプロダクトコンサルタントとして、技術系企業が多大な価値を提供し、獲得するプロダクトを構築するのを支援しています。専門は、プロダクト戦略、プロダクトマーケットフィット、成長、イノベーションです。以前は、Google、Microsoft、および多くの新興企業でリードプロダクトマネージャーを務めていました。