【翻訳】MVPで機械学習への資本投資を実らせるには?(Kant, sennalabs.com, 2021)

sennalabs.com

最小実行可能プロダクト(MVP)とは、初期の顧客を満足させ、将来の開発のために開発サイクルの早い段階でアイデアを検証するのに十分な機能を含むプロダクトのバージョンです。MVPは、プロダクトチームが反復的な開発と改善のためにユーザーからのフィードバックを受けるのに役立ちます。

「MVPの定義は、Eric Riesが「MVPは、チームが最高の努力で顧客に関する有効な学習を最大量収集することを可能にする新プロダクトのバージョンです。」 ― エリック・リースによるMVPの定義

従来のソフトウェア開発サイクルでは、MVPはリーン開発サイクルの一般的な部分です。開発前にプロダクトに関連する課題を知るために、マーケットを探索したり、研究したりする方法は山ほどあります。一方、機械学習プロダクトの開発は、複雑なシステムから学習し、確実に作ることが難しいため、リーンな分野になるのはかなり難しくなります。

ソース 最小限の製品を作る方法 - アナスタシア・クリハノフスカ(※日本語部分のみ訳者による)

機械学習プロダクトの場合、MVPの構築は絶対に必要です。というのも、モデルの弱点がデータの質の悪さに由来する場合、モデルを改善するための更なる投資は、いくらプロジェクトに資金を投入しても失敗する運命にあるからです。同様に、モデルの導入や監視が適切でなかったためにパフォーマンスが低下した場合、データ品質を改善するために費やした資金は無駄になります。チームは、まずMVPを開発し、失敗した試みから学ぶことで、こうした落とし穴を避けることができます。

機械学習モデルを立ち上げる前に、MVPから始めましょう」 - Jennifer Prendki

機械学習の投資戦略

一般的に、機械学習のプロダクト開発には、機械学習モデルのパイプラインの設計、データセットの準備、クリーニングプロセスなど、膨大なオーバーヘッド作業が必要で、機械学習のプロダクト開発のほとんどは、このステップやデータ管理フレームワーク、データ可視化システムなどに留まっている。このような作業は、「S」字型の投資回収曲線を引き起こします。このS字型のROIを適切に管理しないと、プロジェクトは失敗に終わるかもしれません。

従来のソフトウェア開発プロジェクトと比較した、機械学習の投資対効果曲線。(※日本語部分のみ訳者による)

MVPを構築するための機械学習への投資

  • データ収集:構築するプロダクトの種類や、データの収集・更新の頻度によってコストが異なります。
  • データパイプライン構築:データ転送パイプラインは1回限りの取り組みですが、その分コストと時間がかかります。
  • データの保存:保存は非常に高価になり、必要最低限のもの、つまり本当に情報価値があり実用的なデータのみにこだわる必要があります。
  • データクリーニング:データサイエンスがモデル開発を担当するようになると、データ量は常に増加傾向にあるため、このプロセスにはより多くのコストがかかる。
  • データアノテーション:大量のデータには当然ながら多くのラベルが必要であり、大勢の人間のアノテーターだけではもはや十分ではありません。半自動ラベリングや能動学習は、多くの企業、特に非常に大量のデータを持つ企業にとってますます魅力的になってきています。しかし、これらのプラットフォームのライセンスは、機械学習システムの価格全体に占める割合が高くなる可能性があります。
  • 計算能力:機械学習の学習プロセスには膨大な量の数理処理装置が必要ですが、大量のデータと複雑なモデルでは、この費用が予算全体のかなりの部分を占め、時にはサーバー・ソリューションへの高額な投資さえ必要になる場合があります。
  • モデリングコスト:「モデル開発に要する時間は、機械学習チームのスキル、問題の複雑さ、要求される精度、データの品質、時間的制約、さらには運など、さまざまな要因に左右されるため、最終的な請求書の中で最も予測不可能なコストを占めるのは、モデル開発フェーズなのです。ディープラーニングのハイパーパラメータチューニングは、開発のこの段階においてほとんど経験から恩恵を受けず、通常は試行錯誤のアプローチのみが優勢であるため、事態をさらに多忙なものにしています。」- アナスタシア・クリハノフスカ
  • デプロイメントコスト:このフェーズは、機械学習のMVPを作成する上で最も時間とコストがかかる部分かもしれません、あなたのプロジェクトのサイズに依存します。

機械学習のMVPを成功させる方法

データサイエンティストは、データとモデルを別々に評価する必要がある

データサイエンスは、データ収集プロセスを改善するオプションがあるため、この事実を心に留めておく必要がある、そうでなければ絶望的と判断されたであろうモデルを正当に評価することができる。

ROIは気長に待つ

S字型のMVPは、一般的に予想されるよりも多くの作業工程を必要とします。私たちが見てきたように、機械学習プロダクトは完成に至るまで多くの複雑なステップを必要とします。これは、フラストレーションやプロジェクトの早すぎる放棄のリスクを抑えるために、ステークホルダーに深く伝える必要があることです。

デバッグにはコストがかかるが重要

機械学習システムのデバッグは、特に多くの最新モデル(Deep Learningなど)の説明不足のために、ほとんどの場合、非常に時間がかかります。問題を診断することで、チームは失敗から貴重な教訓を得ることができ、将来のプロジェクトサイクルを短縮できる可能性があります。

実現させる

この記事は、機械学習のMVPを開発することはそれほど簡単ではなく、近道はないこと、そして、あなたのチームがAI分野でどれだけ長く働いた経験があっても、機械学習モデルは、特にデータが高次元で大量である場合には、あなたが考えているよりも非常に強力であることを認識させるものです。MVPの段階で非常に早い段階でモデルをテストし、証明し、弱点を修正するために時間とお金を投資する必要があります。次回は、機械学習モデルの構築とその強力さについて詳しく見ていきます。