メニュー

混合戦略とは:ゲーム理論の基礎知識4

ゲーム理論の基礎知識

更新日:2021年7月28日(初回投稿)
著者:東京都立大学 経済経営学部 教授 渡辺 隆裕

前回は、戦略形ゲームの解であるナッシュ均衡を説明しました。しかし、ゲームによっては、ナッシュ均衡がないように見えるゲームも存在します。今回は、確率的に戦略を選ぶ混合戦略という考え方を紹介します。混合戦略を考えると全てのゲームにナッシュ均衡が存在する、ということについても解説します。

今すぐ、技術資料をダウンロードする!(ログイン)

1. ナッシュ均衡が存在しないゲーム?

前回に説明したナッシュ均衡とは、全てのプレイヤーが自分の利得を一番高くする戦略を選びあっている、という状態でした。言い換えると、他のプレイヤーがそのナッシュ均衡の戦略を選んでいるときには、自分だけが他の戦略に変えても利得が高くならないような状態である、といえます。

ところが、私たちがよく知っているじゃんけんには、このナッシュ均衡がないように見えます。図1は、2人じゃんけんの利得行列です。じゃんけんは、どの戦略の組み合わせも、一方のプレイヤーが戦略を変えた方が利得は高くなります。利得が一番高くなる最適反応戦略を選び合う戦略の組はありません。

図1:じゃんけんの利得行列-ナッシュ均衡はないように見える

図1:じゃんけんの利得行列-ナッシュ均衡はないように見える

このようなゲームは、スポーツやボードゲーム、テレビゲームなど本当のゲームのように、敵同士やライバル同士が競い合う状況によく現れます。ある状態が確定的に良い状態であれば、ゲームにはなりません。ここで、図2に示すテロリストと特殊警察の警備の例を考えてみましょう。

図2:テロリストvs特殊警察の警備ゲーム

図2:テロリストvs特殊警察の警備ゲーム

テロリストが、AとBの施設のどちらかにテロを仕掛けようと狙っており、特殊警察はそれを防衛しようとしています。テロリストも特殊警察も、攻撃する施設と防衛する施設を1つだけ選ぶものとします。お互いが同じ施設を選んだときは、防衛が成功して、双方の利得は0です。お互い異なる施設を選んだ場合は、テロリストの攻撃が成功し、その被害額がテロリストの利得であり、特殊警察の損失であるとします。Aの方が重要度の高い施設であり、テロリストがAの施設で攻撃を成功させるとテロリストの利得は+3億円(特殊警察の利得は-3億円)、Bの施設で攻撃を成功させるとテロリストの利得は+2億円(特殊警察の利得は-2億円)とします。このゲームの結果はどうなるでしょう?

このゲームは、テロリストがAを選ぶならば、警察もAを選ぶことが良い戦略です。しかし、もし警察がAを選ぶならばテロリストはBが良い…と、どの戦略の組み合わせも一方のプレイヤーは戦略を変えた方が良くなります。お互いに戦略を変えても利得が高くならない、という戦略の組み合わせであるナッシュ均衡は存在しません。

2. 混合戦略のナッシュ均衡

混合戦略とは、ゲーム理論の創始者であるフォン・ノイマンらが導入した、複数の戦略を確率的に混合して選ぶという考え方です。フォン・ノイマンらが最初に問題にしたのは、「見かけ上は解がないゲームでは、何が答になり、それはいつでも存在するのか」ということでした。混合戦略のナッシュ均衡を考えれば、このようなゲームも解くことができます。

戦略を確率的に選ぶとは、どのようなことでしょうか。じゃんけんで考えると、それほど不自然なことではありません。じゃんけんの混合戦略のナッシュ均衡は「全ての手を1/3ずつ組み合わせて出す」ということです。もし、一方のプレイヤーがそうするならば、もう一方のプレイヤーは、グー・チョキ・パーのどの戦略を選んでも、また、全ての手を1/3ずつ組み合わせて出しても、勝ちと負けとあいこの確率は1/3ずつになり、利得の期待値は全て0になります。つまり、一方のプレイヤーが「全ての手を1/3ずつ組み合わせて出す」と、もう一方のプレイヤーも、そうするより利得を高くすることはできない、ということになります。

反対に、一方のプレイヤーが「全ての手を1/3ずつ組み合わせて出す」以外の戦略を選ぶと、どれかの手を出す確率が高くなります。すると、もう一方のプレイヤーは、その出す確率が高い手に勝つ手を選ぶことで利得が高くなります。しかし、その相手は、さらにそれに勝つ手を選ぶと考えられ、予測される結果であるナッシュ均衡にはなりません。

じゃんけんの場合は、グー・チョキ・パーを等しい確率で選ぶことがナッシュ均衡でした。一方、先に示したテロリストの例では、確率は等しくなりません。ここで、テロリストの立場で考えてみましょう(図3)。警察がAの施設を確率qで防衛したとすると、確率の合計が1(=100%)になることから、Bの施設を防衛する確率は1-qになります。
ここでテロリストがAの施設を攻撃したときの期待値は
0q+3(1-q)=3-3q
となり、Bの施設を攻撃したときの期待値は
2q+0(1-q)=2q
となります。

もしここで、テロリストがAとB、どちらかを攻撃したときの期待値がより大きいならば、テロリストはそちらの施設を攻撃します。しかし、じゃんけんと同じように、それはゲームの予測される結果とはならないはずです。なぜならば、その予測に対して、警察はテロリストが攻撃する施設を防衛します(確率1:100%、ここでは必ず防衛すること)。そうなれば、テロリストはそれと反対の施設を攻撃するはずなので、最初の予測は外れてしまうからです。つまり、ナッシュ均衡であるためには、テロリストがAとBを攻撃したときの期待値が等しくならなければなりません。これより、3-3q=2qを解いてq=3/5が得られます。つまり、警察はそれぞれ3/5と2/5の確率でAとBの施設を防衛することが、ナッシュ均衡の戦略になります。

図3:混合戦略における利得の期待値とナッシュ均衡(テロリストの期待値)

図3:混合戦略における利得の期待値とナッシュ均衡(テロリストの期待値)

ここで注意すべきは、テロリストの期待値を考えることで警察の戦略を求めることができる、という点です。同様に、警察の期待値を考えることで、テロリストのナッシュ均衡の戦略が求めることができます(図4)。テロリストがAとBの施設を攻撃する確率を、それぞれpと1-pとしましょう。

警察がAの施設を防衛したときの期待値は
0p-2(1-p)=-2+2p
となり、Bの施設を防衛したときの期待値は
-3p+0(1-p)=-3p
となります。-2+2p=-3pを解けばp=2/5が得られ、ナッシュ均衡において、テロリストはAとBの施設をそれぞれ2/5と3/5の確率で攻撃することになります。

図4:混合戦略における利得の期待値とナッシュ均衡(特殊警察の期待値)

図4:混合戦略における利得の期待値とナッシュ均衡(特殊警察の期待値)

テロリストにとっては、Aの施設の方が重要で、攻撃が成功したときの利得が高いにもかかわらず、ナッシュ均衡ではAの施設を攻撃する(2/5)よりも、Bの施設を攻撃する(3/5)確率が高くなっています。ここも、要注目ポイントです。なぜ、こうなるのでしょう。テロリストは、相手(警察)のことを考えなければ、単純にAを攻撃する確率を高くするはずです。しかし警察は、Aの施設が重要であり、なおかつAを攻撃される確率が高いことを推測すれば、確実に(確率1)Aの施設を防衛するため、Aの施設の攻撃は失敗するでしょう。それを読めば、テロリストはBの施設を攻撃する確率をやや高めるということになります。これは、ゲーム理論の特徴である、戦略的な思考方法が現れる結果といえます。

3. 混合戦略のナッシュ均衡の存在と応用

続きは、保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

ピックアップ記事

tags