【翻訳】すべてのデザインチームが追跡すべき指標(Ricky Johnston, UXR @ Microsoft , 2022)

medium.com

プロダクトをゼロからデータサイエンスに導くシリーズへようこそ。予定していたブログの続きから少し寄り道です。因果推論と実験について議論する前に、すべてのデザインチームが追跡すべき、骨太で基本的な指標について深く掘り下げる必要があると考えました(指標がなければどちらもできないからです)。

なぜデザインは指標に注意を払う必要があるのでしょうか?それはエンジニアリングやビジネスの焦点ではないのですか?

要するに、デザイナーにはデザインに対するフィードバックが必要なのです。すべてのデザイナーは、顧客体験を改善したいと望んでいます。カスタマー・エクスペリエンスの真の改善は、行動の変化をもたらし、それがプロダクトの使用状況に現れます。この影響を測定することで、デザイナーは何がうまくいき、何がうまくいかないかについて有益なフィードバックを得ることができます。デザイナー間で結果を共有することは、今後のデザインに役立ち、より集中した創造性を刺激します。実験が実施されることで、デザインは完全なリリースの前にテストされ、ユーザー体験を向上させるものだけを選択することもできます(実りのないプロダクト変更によるユーザーの苦痛を軽減するための大きなメリットです)。

データ指向でない人たちと指標について議論するにはどうすればよいですか?

職場には誰でも専門分野と弱点があります。デザイナーは深いデータには疎い傾向があります(そして、私はデザイナーになろうとはしません)。このような専門的なスキルセットがなくても、デザイナーやPM、その他のプロダクトの意思決定者は、デザイン(または機能)がどのように顧客体験を向上させるかを簡単な文章で明確に定義できるはずです。適切な測定基準のセットがあれば、この書かれた設計意図は、影響を与えようとするユーザー測定基準の組み合わせとして定義(または代理)することができます。データアナリストはデザイナーと協力して、これを意味のある指標に変換することができます。何度かウォークスルーを行うことで、デザイナーはこれがどのように機能するかのリズムを掴み、自ら指標を特定し始めるでしょう。

例えば、新しい設計がPower Virtual Agentsで新しいボットを簡単に作成することを意図している場合、作成されたボットの数の増加、作成時間の短縮、ヘルプへのアクセスの減少、または提出されたサポートチケットの減少、またはそのような指標のいくつかの組み合わせによって改善を測定することができるはずです。さらに高い指標レベルでは、(長期的には)この設計は全体的により良いプロダクトを生み出し、より高い定着率、高い満足度、より高い収益をもたらすはずです。当初は、設計の影響は小さすぎて測定できないかもしれませんが、理論的には、たとえ小さな変更であっても、指標が評価に役立つような段階的な影響があるはずです。

よし、さて、始めよう。

このブログ記事では、基本的な指標をいくつか紹介します。このリストは、デザインチームにとっての必需品だと考えてください。プロダクトのステージにもよりますが、これらの多くはすでにプロダクトチームがカバーしているでしょう。車輪を再発明してはいけません。構築する前に、プロダクトチームがすでにどのようなものを持っているかを確認しましょう。これらの指標を構築するには、いずれにせよPM/Devとのやり取りが必要になります。

以下は、私が提案する、すべてのデザインチームが追跡すべき必須の指標のリストです。どれも新しいものでも画期的なものでもありませんし、このリストがすべてを網羅しているわけでもありません。だからこそ、これらは基本中の基本なのです。

すべてのデザインチームが追跡すべき指標

すべてのプロダクトのためのハイレベルな指標

  • 北極星の指標
  • MAU (月間アクティブユーザー数) とオーディエンスカット
  • NPS、NSATまたはCSAT(少なくとも1つ)
  • 収益

ユーザー・レベル指標

  • 新規ユーザー/獲得
  • リテンション(解約)

タスク完了指標/ファネル

  • タスク完了ファネル
  • ファーストランエクスペリエンスファネル測定基準

利用レベル測定基準:

  • 機能エンゲージメント

リストを見たところで、それぞれの詳細についてディープダイブしてみましょう。

ディープダイブ

すべてのプロダクトに関する高レベルの指標

プロダクトチームは通常、すべてのプロダクトについて特定の指標を追跡し、報告します。これらは通常、OKR/KPIとして設定される一連の指標です。大規模な組織では、これらのOKR/KPIはすでにカバーされているでしょう。よくある質問は、「私のデザイン変更は<KPIを挿入>にどのような影響を与えましたか?」というものです。問題は、これらの指標のほとんどは、個々の機能や設計変更を結びつけるにはレベルが高すぎるということです。これらの指標は通常、シニア・リーダーシップや目標設定のために存在するものであり、小さな漸進的な変更のために存在するものではありません。では、なぜこれらの指標がリストにあるのでしょうか?第一に、組織の全員がハイレベルな目標に合わせる必要があります。第二に、すべての指標は、(少なくとも理論的には)より高いレベルのOKRの推進に結びつくべきです。理想的には、因果関係のあるデータ・サイエンス・プロジェクトを実施し、すべてのメトリクスがOKRに関連していることを示す必要があります(時間と十分なデータがある場合)。

ほとんどの高レベルの指標は、集約された遅行指標になりがちです。一旦変化が起こると、その変化の原因となった真のイベントはしばらく前に起こったことになります。集計は月次レベルで行われることが多く、統計的に有意な変化が現れるまでに数ヶ月かかることもあります。プロアクティブなプロダクト設計者には、リリースを追跡するための先行指標とリアルタイム指標が必要です。そのためには、より低いレベルの指標が必要です。低レベルの指標に入る前に、最も一般的な高レベルの指標について説明しましょう。

  • 月間アクティブユーザー数(MAU) - これは、目標設定のためにLTレベルで使用される標準的な指標です。あなたのプロダクトではすでに導入されているはずです。アクティブユーザーを定義するのは難しい試みで、プロダクトに依存します。ほとんどのプロダクトは、少なくとも1つのアクションを使用しますが、これは「真の」プロダクト利用がどれだけ遅れているか、多くの結果をもたらす可能性があります。多くの場合、これらの指標は四半期決算で報告されます。
  • ユーザー満足度(User Satisfaction)*-顧客がプロダクトにどれだけ満足しているか、満足しているか、喜んでいるかを測定する方法。一般的には、プロダクトやウェブページのポップアップなど、何らかの方法でユーザーに直接質問することで行われります。最も一般的な質問には、ネットプロモータースコアやネット満足度があります。
  • NPS - ネット・プロモーター・スコア。質問です: 「<商品>を薦める可能性はどれくらいですか?」 回答は10点満点で、9と10が推進派、7と8が消極派、6以下が消極派となります。そして、推進派の割合から消極派の割合を引くことでスコアが算出されます。この指標の背景にあるのは、顧客ロイヤルティを測定することです。この指標の1つの課題は、「他の人に薦める 」ことに適さないプロダクトもあるということです。その場合、ユーザーはどう答えたらいいのかわからなくなったり、質問が自分には関係ないと感じたりします。
  • NSAT - ネット満足度。質問: 「過去3ヶ月の経験について考えて、<商品>に対する満足度を評価してください」 回答は、「非常に満足」、「やや満足」、「(中立)」、「やや不満」、「非常に不満」の4~5段階。スコアリングは、一番上のボックスから下の2つのボックスを差し引き、回答者の総数で割ることによって行われます。4つまたは5つの選択肢から選ぶ場合、指標作成者は、肯定的または否定的な意見を強制するか、中立を認めるかを決定しなければならないのです。
  • 収益 -有料顧客ライセンスから発生する収益。プロダクトのライフサイクルのステージや役割によっては、これは関連する指標ではないかもしれないのです。代わりに、あなたの会社で収益を生み出しているプロダクトの主要な指標や収益にどのように貢献しているかに関連する指標があるかもしれません。デザインの場合、収益の優先順位は低く、このブログの焦点ではありません。

すべてのプロダクトは、そのプロダクトの使用目的を測定する指標を持つべきです。あなたのプロダクトのノーススターはMAUである可能性がありますが、ほとんどの場合、これはプロダクトの真の目的の十分な強力な指標ではありません。これは、あなたの組織が定義していない指標かもしれないので、あなたが彼らを助ける必要があるかもしれないのです。この指標を定義する1つの方法は、シンプルな質問をすることです: 「このプロダクトはユーザーが何を達成するのを助けるのか?」あるいは 「このプロダクトの目的は何か?」 プロダクトが何をするものなのか」を一文で説明する文章を作れば、何を測定したいのかの良い候補を定義する良いきっかけになります。そして、それを最もよく代弁する指標を見つけ出す必要があります。

例えば、Power Virtual Agentsは、他の人が自分の問題に対するソリューションを見つけられるように、ボットを作成する手助けをします。NorthStarの指標としては、ボットの公開数やボットがセッションを成功させた回数などが考えられます。他のさまざまなプロダクトの例を下表に示します:

出典:https://www.growth-academy.com/north-star-metric-examples

ユーザー・レベルの指標

ユーザーレベルの指標は、月間アクティブユーザー数(MAU)の自然な流出です。MAUを構成するものを分解すると、ユーザーの変化がどこから来ているかがわかります。

MAU = 新規ユーザー + リテイン・ユーザー + リターン・ユーザー - 非アクティブ・ユーザー

なぜこれを分けるのか?何がMAUを動かしているのかがわかるからです。例えば、MAUは伸びているように見えるかもしれないが、実際には新規ユーザーの数が非アクティブ/解約ユーザーの数よりも多いという漏れのあるバケツを持っています。MAUが良く見えても、新規ユーザーの入会がなくなれば、そのプロダクトは大きな解約による問題を抱えていることになります。

リターンユーザーと新規ユーザーは、どの程度の期間ユーザーが「いない」と、解約されたユーザーとしてカウントされ、また新規ユーザーとしてカウントされるかという点で、チームによって定義される必要があります。プロダクトによっては、アクティブでないユーザが新規ユーザとしてカウントされる前に(または二度と新規ユーザとしてカウントされない前に)、複数ヶ月の不在期間が必要となる場合があります。

プロダクトによって 「解約 」の定義が異なるため、解約されたユーザーはこの式には直接表示されません。あるプロダクトは1ヶ月の離脱と定義し、あるプロダクトは複数ヶ月の離脱を解約と定義します。プロダクトの使用目的や使用頻度によって異なります。

MAUは遅行変数です。一旦ユーザーが解約してしまうと、それに気づくまでに最低でも1ヶ月はかかりますし、MAUのトレンド的な減少を確認するには複数ヶ月かかります。さらに、MAUには「アクティブユーザー」の定義という課題があります。1回の訪問は1秒と数えるのか?多くのプロダクトは、長い時間ユーザーを追跡することをより明確にするために、最終的にエンゲージユーザー指標を定義しています。

タスク完了指標/ファンネル

ほとんどの場合、タスク完了ファネルはノーススター指標から自然に流れます。このプロダクトのメインタスクを完了するために必要なステップは何か?北極星が定義されたら、指標をステップに分解します。ファネルダッシュボードビューで、特に追跡される指標として設定します。より多くのステップに分けることが出来れば、より良い問題領域に気づくことができ、それぞれを具体的なデザイン変更でターゲットにすることが出来ます。おそらくここでの最大の課題は、多くのステップがオプションであったり、ループステップが発生する可能性があるため、綺麗に流れるファネルを構築することでしょう。

新規ユーザーファネル

新規ユーザーを追跡するための特定のファネルを設定することは、新規ユーザーの獲得と維持における問題点を見つけるのに特に役立ちます。これらのファーストランエクスペリエンス(FRE)は新規月間ユーザー数に貢献し、新規ユーザーの維持はMAU数に影響を与えます。初回体験ファネルは、ほぼリアルタイムで測定するのに適しています。悪い初回体験は、タスク完了の失敗やユーザーの減少を素早く表示します。それに比べ、MAUは新規ユーザーの減少を1ヶ月以上後にしか表示しません。初回体験とアクティビティ完了を追跡するファネルを構築することは、あなたのプロダクトが新規ユーザー維持のどこで苦戦しているかを見る素晴らしい方法です。このファネルは、タスク完了ファネルと同じかもしれません(その場合、新規ユーザーのみのフィルターが必要です)。最初のプロジェクトが始まる前に、アカウント作成、ログイン、セットアップなど、他のアクティビティが必要です。これらはファーストラン体験のファネルの一部であり、最高の第一印象を与えるために追跡するデザインにとって重要です。ファーストラン体験は、消費者に焦点を当てた直感的なプロダクトの構築とテストに最適です。ユーザーがどれだけ早くプロダクトに慣れたと感じるかは、プロダクトの最初の使用で観察する方がはるかに簡単です。

使用(機能)レベルの測定基準

プロダクトのいくつかの機能は、きれいなファネルフローに当てはまりませんが、それでもプロダクトにとって重要であると考えます。これらの機能は、やはりダッシュボード/スコアカードで追跡されるべきです。これらの各機能は、長期的に北極星指標やSLT指標を促進する他の重要な指標を促進するために、どのように結びついているかを正当化する必要があります。この例は、Spotifyが、エンゲージメント指標を特徴とする 「インプット 」指標を、音楽を聴くのに費やされた時間という、より大きな北極星指標にどのように結びつけているかに見ることができます。特徴的な指標の概要を説明する際には、それらがどのように上位の指標の結びつきを持つのか、(または視覚的に)説明する必要があります。

画像ソース:https://www.reforge.com/blog/north-star-metric-growth

まとめ

一旦これらの測定基準が設定されると、それはさらに実行可能で顧客改善のための多くのフォローアップの質問と測定基準への扉を開きます。何が指標を動かしているのか?誰が指標を動かしているのか?これをしたら、これらの指標に影響を与えるか?私たちの機能/デザイン変更は、どのように指標を改善したのか?これらはすべて因果関係の質問であり、それに答えるためには実験や因果推論手法が必要だということです。疑問を生み出すだけでなく、これらの指標は実験や因果推論、その他の高度な手法のためのデータソースになります。次回は、この上に構築する因果推論手法を取り上げます。