多腕バンディット(Multi-Armed Bandit)とは?

読み方: たわんばんでぃっと

30秒まとめ

複数の選択肢(腕)の中から、試行しながら成果の良いものへ自動的に配分を寄せていく最適化手法。A/Bテストの『探索と活用』のジレンマを解き、機会損失を抑える。CRO・推薦・広告配信で活用。

多腕バンディット(Multi-Armed Bandit)の意味・定義

多腕バンディット(Multi-Armed Bandit)とは、複数のスロットマシン(腕)を限られた試行回数でプレイし、報酬を最大化する問題になぞらえた最適化手法です。各選択肢(LPのパターン、広告クリエイティブ、推薦アイテムなど)を試しながら、成果(クリック率・CVR等)の良いものへ自動的にトラフィック配分を寄せていきます。\n\n核心は『探索と活用(Exploration vs Exploitation)のジレンマ』です。まだ十分に試していない選択肢を試す(探索)べきか、今のところ最も成果が良い選択肢に賭ける(活用)べきか——このバランスを取りながら、全体の機会損失(リグレット)を最小化します。代表的なアルゴリズムに、ε-グリーディ(一定確率でランダム探索)、UCB(上側信頼限界・不確実な選択肢を優先的に試す)、トンプソンサンプリング(ベイズ的に確率分布から選ぶ)があります。\n\nA/Bテストとの違い:A/Bテストは均等配分で統計的有意差が出るまで待ち、勝者を決めてから全配分を切り替えます(学びは明確だが、検証中の機会損失が大きい)。多腕バンディットは検証中から良い腕へ配分を寄せるため機会損失が小さい反面、純粋な効果測定や因果の解釈はA/Bテストに劣ります。\n\n活用領域:CRO・LP最適化、広告クリエイティブ配信、レコメンド、価格・クーポン最適化、ニュース記事の見出しテスト。文脈情報を使う発展形が『コンテキストバンディット』で、ユーザー属性に応じて最適な腕を選びます。注意点:(★)短期キャンペーンや選択肢が多い場合に有効だが、明確な因果を学びたいならA/Bテスト、(★)報酬の遅延や非定常性(時間で最適が変わる)への対応設計が必要。2026年トレンドは、CRO・推薦・LLMの出力選択における自動最適化の標準化。

関連する用語

運営者が開発したAIマーケティングツール