Bayesian Persuasion

内容提要 

本文是基于 Kamenica and Gentzkow (2011) 的学习笔记,仅对微观课上覆盖的内容做了分析,目的只是通过考试,并不是对文章的全面剖析,但由于上课时一头雾水,为了彻底理解均衡的概念,有必要深入学习。以下分为两节,第一节直接介绍模型框架和重要推论,第二节给出解题的一般方法,此方法是几何直观的,依赖于第一节的分析。

相比于普通的信号博弈,Bayesian persuasion 中的信号发送者表现得既像 informed,又像 uninformed。其 informed 的地方在于,发送者所发送的信号是条件于 state 的;其 uninformed 的地方在于,发送者最大化事前的期望效用(无条件期望)。此外,信号结构并非是给定的,而全由发送者决定,即内生化了。

如前所示,由于信号发送者全权决定信号结构,他可以将信号设计得非常复杂,为简化分析,我们作出一个重要假设:发送者必须如实地告知接收者信号的实现结果。这基本上是在假设信号只有一层。

一般模型框架 

信号发送者(简称「发送者」)所发送的具体内容是什么并不重要,重要的是,其发送的信号是一个(条件)分布,条件于 state,state 不同则分布不同,这种分布上的差异传递出了关于 state 的信息,迫使一个(贝叶斯式的)信号接收者(简称「接收者」)更新自己的信念,反而采取有利于发送者的行动。

模型设定 

基本的模型设定如下:

  • State space $\Omega$ 是一个有限集;
  • 接收者的 action space $A$ 是一个紧集;
  • 发送者有定义在 $A\times\Omega$ 上的(关于 $a$)连续效用函数 $v(a,\omega)$;
  • 接收者有定义在 $A\times\Omega$ 上的(关于 $a$)连续效用函数 $u(a,\omega)$;
  • 发送者和接收者具有共同的关于 state 的先验信念 $\mu_0$,它是 $\Omega$ 上的概率测度,且严格为正(为了应用 Bayes 法则);
  • 一个信号 $\pi$ 是条件于 $\omega$ 的概率测度的集合:$\{\pi(\cdot|\omega)\}_{\omega\in\Omega}$,每个概率测度都定义在同一 realization space $S$ 上,$S$ 由发送者内生决定。

以概率论的视角来看,由于我们引入了条件概率 $\pi(s|\omega)$,$(\omega,s)$ 将有 $\Omega\times S$ 上的联合分布。

Timing 

博弈的 timing 如下:

  1. Nature 从分布 $\mu_0$ 中选择一个 state;
  2. 发送者选择一个信号;
  3. 接收者观察到信号结构和信号的 realization,选择一个行动。

整个 timing 和普通的信号模型本质上并无不同,本质上不同的还是信号结构的内生以及发送者 informed 的程度。

均衡的定义 

称 $(\pi,\hat{a}(\mu_s))$ 为一个有利于发送者的子博弈完美均衡(sender-preferred subgame perfect equilibrium)若

  1. 给定 $\pi$ 和每一个 realization $s$,接收者按照 Bayes 法则形成后验 $\mu(\omega|s)$,简记为 $\mu_s$,$\hat{a}(\mu_s)$ 最大化了接收者的后验期望效用:
$$\hat{a}(\mu_s)\in\arg\max_{a\in A}\mathbb{E}_{\mu_s}[u(a,\omega)]$$
  1. 给定 $\hat{a}(\mu_s)$,$\pi$ 最大化了发送者事前期望效用(无条件期望)$\mathbb{E}[v(\hat{a}(\mu_s),\omega)]$。

Note

这里最重要的设定是发送者最大化事前无条件期望,而不是像一般的发信号模型那样,每个 type 的发送者分别最大化自己的期望效用(即条件于 type)。但信号又条件于 state,此意义上讲,发送者似有多个信息集。这也是为什么我在本文开头说,此模型中的信号发送者表现得既像 informed,又像 uninformed。对此,我的解释是,发送者所设计的信号是 state-contingent,当 state 实现,这个信号就会坍缩为相应的子信号,也就是条件于 state 的一个分布。

为方便起见,定义信号的价值为上述无条件期望。定义信号的增益为其价值和当接收者没有获得任何信息情况下 $v(a,\omega)$ 的期望(即 $\mathbb{E}[v(\hat{a}(\mu_0),\omega)]$)之间的差值(简单来说就是一个信号相比无信息信号能带来多大的期望效用增益)。如果增益严格为正,那么我们说接收者从 persuation 中获益(benefits from persuasion)。最优信号指的是实现了最大增益的信号。显然,在均衡中发送者会选择最优信号。

无条件期望可以根据迭代期望法则写为:$\mathbb{E}[\mathbb{E}[v(\hat{a}(\mu_s),\omega)|\omega]]$,其中内层的条件期望即是在 $\pi(s|\omega)$ 下取得,外层的期望则是在 $\mu_0(\omega)$ 下取得。直接求解最优的条件分布无疑是很困难的,主要有两个原因:第一,realization space 的选择是内生的而非给定的;第二,即便我们能缩小 realization space 的选择范围,也很难有一种直观上的方式求解 $\pi$。如果我们能转换思路,先求最优后验信念 $\mu(\omega|s)$,再恢复 $\pi$,事情将好办很多。这就是下一小节的内容。

对发送者最优化问题的变换 

We can reexpress the problem of choosing an optimal signal as a search over distributions of posteriors subject to the constraint that the expected posterior is equal to the prior.

简单来说,我们先条件于 $s$ 而不是 $\omega$,即

$$ \mathbb{E}[v(\hat{a}(\mu_s),\omega)] = \mathbb{E}[\mathbb{E}[v(\hat{a}(\mu_s),\omega)|s]] $$

内层的条件期望在后验信念 $\mu(\omega|s)$ 下取得。发送者寻找最优信号 $\pi(s|\omega)$ 的目标等价于寻找最优后验信念 $\mu(\omega|s)$ 和 $s$ 的无条件分布 $\tau(s)$,随后可由 Bayes 法则恢复信号:

$$ \pi(s|\omega) = \mu(\omega|s)\tau(s)/\mu_0(\omega) $$

这也必定保证了接收者按照 Bayes 法则更新自己的信念。当然,为保证概率和为 1,即 $\sum_s\pi(s|\omega) = 1$,我们要求 $\mu(\omega|s)$ 和 $\tau(s)$ 满足 $\int_s \mu(\omega|s)\thinspace d\tau(s) = \mu_0(\omega)$,这在文中被称为 Bayes plausibility

不过,我们希望更进一步地简化问题,可能有一些 $s$,它们会导致相同的后验信念,这将意味着条件期望 $\mathbb{E}[v(\hat{a}(\mu_s),\omega)|s]$ 在这些 $s$ 间也是相同的,我们可以将这些 $s$ 视为同一类。这样,不同类可由它们导致的后验 $\mu$ 进行区分,从而得到 $\mu$ 的一个集合,我们再在此上定义概率空间。于是 $(\omega,s)$ 联合分布变成 $(\omega,\mu)$ 联合分布。我们仍用 $\tau$ 表示 $\mu$ 的无条件分布(或边缘分布)。具体而言,我们有

$$\tau(\mu)=\sum_{\{s\colon\mu_s=\mu\}}\tau(s)=\sum_{\{s\colon\mu_s=\mu\}}\sum_{\omega}\pi(s|\omega)\mu_0(\omega)$$

当然,如果 $\mu_s$ 和 $s$ 一一对应的话,我们只是换了一下记号而已。

这种整合并未改变无条件期望,即

$$ \mathbb{E}[v(\hat{a}(\mu),\omega)] = \mathbb{E}[\mathbb{E}[v(\hat{a}(\mu),\omega)|\mu]] = \mathbb{E}_\tau[\mathbb{E}_\mu[v(\hat{a}(\mu),\omega)]] $$

我们将内层的条件期望记作 $\hat{v}(\mu)$,因此上述无条件期望就是 $\mathbb{E}_{\tau}\hat{v}(\mu)$。Bayes plausibility 要求 $\int_{\mu}\mu\thinspace d\tau(\mu) = \mu_0$。

Note

以上的变换本质上是在压缩 realization space,似乎不是很有必要。我们可以假设每个 state 引致的后验都是不同的,即假设 $\mu_s$ 和 $s$ 一一对应。

以上的分析已经足够我们理解本文的核心论断,即下一小节的 推论,只是为了严谨,尚需处理一些细节问题。

技术补充$^*$ 

现在有两个问题,第一,发送者可以选择十分复杂的信号结构,换言之,信号的 realization space 可能大于接收者的 action space。这种情况实际上可以得到简化,我们最终只需考虑和 action space 形成一一对应的 realization space。我们将 realization space 的势不大于 action space 的势的那些信号称为简单信号(straightforward signal1)。第二个问题是,给定满足 Bayes plausibility 的 $\mu$ 和 $\tau$,其背后是否一定有 well-defined 之信号 $\pi$?尽管 Bayes 法则能用于离散和连续情况,但我们希望对于一般的情况进行证明。

我们可以证明如下命题:

Proposition 1.

以下表述等价:

  1. 存在某个信号,其价值为 $v^*$;
  2. 存在简单信号,其价值为 $v^*$;
  3. 存在 Bayes-plausible 分布 $\tau$,使得 $\mathbb{E}_{\tau}\hat{v}(\mu) = v^*$。

根据定义,易知命题 2 可导出命题 1 和 3。现在证明命题 1 可导出命题 2。对于一个信号 $\pi$,假设其价值为 $v^*$,令 $S^a = \{s\colon\hat{a}(\mu_s)=a\}$,也就是说,我们把使得接收者的最优行动为 $a$ 的信号 realization 都收集起来构成一个集合。我们可以据此构造一个新的信号:其 realization space 和接收者的 action space一一对应,即 $S^\prime \leftrightarrow A$,定义 $\pi^\prime(\alpha|\omega) = \sum_{s\in S^a}\pi(s|\omega)$。简单来说,我们对原来的 realization space 按照其引致的 action 做了一个分割,然后将每个子集上的概率加总得到一个新的概率,新的 realization space 则和 action space 构成一一映射($\alpha$ 和 $a$)。因为 $a$ 对每个 $s\in S^a$ 都是接收者的最优行动,对于 $\alpha\in S^\prime$,$a$ 也必定是最优行动。如果要严格证明这一点,只需注意到 $\mu(\omega|\alpha) \propto \pi(\alpha|\omega)\mu_0(\omega) = \sum_{s\in S^a}\pi(s|\omega)\mu_0(\omega)$,而 $\mathbb{E}_{\mu_s}[u(a,\omega)] \propto \sum_{\omega\in\Omega}\pi(s|\omega)\mu_0(\omega)u(a,\omega)$。这种构造意味着,条件于 $\omega$,最优行动在 $\pi^\prime$ 下的分布和在 $\pi$ 下的分布相同;具体而言,在 $\pi^\prime$ 下,最优行动取 $a$ 的条件概率为 $\pi(\alpha|\omega)$,在 $\pi$ 下,取 $a$ 的条件概率为 $\sum_{s\in S^a}\pi(s|\omega) = \pi(\alpha|\omega)$。这意味着 $\mathbb{E}[v(\hat{a}_s,\omega)|\omega] = \mathbb{E}[v(\hat{a}_\alpha,\omega)|\omega]$,从而其无条件期望相等,也就是两种信号的价值都为 $v^*$。

现在证明命题 3 可导出命题 1。注意,我们不能直接根据 $\tau$ 来构造信号,因为 $\tau$ 的支撑集可能是无限集,从而构造的信号为零概率(似乎可以将 $\tau$ 视为概率密度来构造信号的密度,不过这并不能涵盖任意分布)。由于 $\Omega$ 是有限集(假设有 $d$ 个元素),这意味着 $\hat{v}(\mu)$ 可视作 $(\mu_s(\omega_1),\dots,\mu_s(\omega_{d-1}))$ 的函数。于是,我们得到了 $\mathbb{R}^d$ 空间内的一系列点:$(\mu_s(\omega_1),\dots,\mu_s(\omega_{d-1}),\hat{v})\in\mathbb{R}^d$。这样一来,$\mathbb{E}_{\tau}\hat{v}(\mu) = v^*$ 也是 $\mathbb{R}^d$ 空间内的一点:$(\mu_0(\omega_1),\dots,\mu_0(\omega_{d-1}),v^*)$,更重要的是,它位于前述那些点构成的 凸包络集(或凸包) 之内。因此,应用 Carathéodory 定理,它一定可以表述为该凸包络集内有限个点的凸组合,换言之,存在一个支撑集为有限集的 Bayes-plausible 分布 $\tau^*$,使得 $\mathbb{E}_{\tau^*}\hat{v}(\mu) = v^*$。据此,我们可以定义信号的 realization space 为 $\{s\colon\mu_s\in\text{Supp}(\tau^*)\}$,进而定义信号 $\pi(s|\omega) = \mu(\omega|s)\tau^*(\mu_s)/\mu_0(\omega)$,这个信号将引致 $\tau^*$,从而具有价值 $v^*$。

从以上定理我们可以绕过对最优信号的直接求解,而是先求 $\tau$ 和相应的支撑集,再按照 Bayes 法则恢复出 $\pi$,这已经被证明一定可以做到。我们立即有如下推论:

Corollary 2.

发送者可以从 persuation 中获益当且仅当存在一个 Bayes-plausible 分布 $\tau$ 使得

$$\mathbb{E}_{\tau}\hat{v}(\mu) > \hat{v}(\mu_0)$$

此外,最优信号的价值就是

$$\max_{\tau}\ \mathbb{E}_{\tau}\hat{v}(\mu) \quad \text{s.t.}\int\mu\thinspace d\tau(\mu) = \mu_0$$
显然,略。

值得一提,根据 命题 1,我们只需关注 realization space 和 action space 等势的情况。

一般问题中的求解方式 

在一般问题中,我们如何求解最优信号及其价值呢?事实上,上述推论 意味着我们可以有一种几何上非常直观的方式。

假设 action space 有两个元素,那么我们只用考虑 realization space 有两个元素的情况(假设 $s_1$ 和 $s_2$)。因此,$\pi$ 和 $\tau$ 都是二项分布(再次回忆,$\pi$ 是 $s$ 的条件分布,而 $\tau$ 实质上是 $s$ 的无条件分布)。此外,假设 state space 也只有两个元素,这样,我们就可以用一个维度代表后验,例如,$\mu(\omega_1|s)$,不妨简记为 $\mu_s$。按照 推论,信号 $\pi$ 的价值就是在 $\mu$-$\hat{v}(\mu)$ 图像上的 $(\mu_{s_1},\hat{v}(\mu_{s_1}))$ 和 $(\mu_{s_2},\hat{v}(\mu_{s_2}))$ 两点和直线 $\mu=\mu_0$ 交点的纵坐标;交点就是这两点的加权中点,权重就是 $\tau$。需要注意,当两点连线和 $\mu=\mu_0$ 无交点时,说明以这两点为支撑集的任何 $\tau$ 都不是 Bayes-plausible,也就无法实现增益;当然,给定先验,我们总能找到 Bayes-plausible 分布(在 $\mu=\mu_0$ 两边取点即可)。见下图中 Panel B。

Concave Closure (Source: Kamenica and Gentzkow, 2011, Fig.2)

易知两点连线总是在 $\hat{v}(\mu)$ 图像的凸包之内,因此我们取凸包的边界函数,称为 $\hat{v}$ 的凹闭包(concave closure):

$$V(\mu) \equiv \sup\{y\colon (\mu,y)\in\text{conv}(\hat{v})\}$$

这里 $\text{conv}(\hat{v})$ 表示 $\hat{v}$ 图像的凸包络集。$V(\mu)$ 必定是凹函数(因而称为凹闭包),并且是处处大于等于 $\hat{v}$ 的最小凹函数;它衡量了,当 state 的先验为 $\mu$ 时,发送者所能实现的最大价值,如 上图 Panel C 所示。

Note

即便 action space 是无限集,我们也许只需要两个 realization,前提是它们与 $\mu = \mu_0$ 的交点位于 $V(\mu)$ 图像上。

一个例子 

现在用一个简单例子阐述求解过程。假设在一例案件中,检方(发送者)想要说服法官(接收者)对被告作出有罪判决,具体设定如下:

  • 有两种状态:被告是 guilty 或者 innocent,先验信念 $\mu_0(\textit{guilty}) = 0.3$;
  • 法官(接收者)有两种行动:acquitconvict
  • 法官若作出正确判决,则法官效用为 1,否则为 0;
  • 法官若 convict,则检方效用为 1,否则为 0。

试问,法官应该如何设定信号以最大化自己的效用?

首先,我们求法官的最优行动 $\hat{a}(\mu)$,这里 $\mu$ 表示关于被告是 guilty 的信念。显然,当 $\mu < 0.5$ 时,法官最优行动是 acquit,当 $\mu \geq 0.5$ 时是 convict。因此,检方的后验效用就是:当 $\mu < 0.5$,$\hat{v}(\mu) = 0$;当 $\mu \geq 0.5$,$\hat{v}(\mu) = 1$,如 上图 所示。我们可以在其凹闭包上找到对应于先验 $\mu_0 = 0.3$ 的最大信号价值 $V(0.3) = 0.6$。$\tau$ 的支撑集显然是 $\{\mu_{s_1} = 0,\mu_{s_2}=0.5\}$。 随后根据 Bayes plausibility 确定 $\tau$:

$$0\cdot\tau(s_1)+0.5\cdot\tau(s_2)=0.3 \Rightarrow \tau(s_1)=0.4,\tau(s_2)=0.6$$

最后,恢复最优信号:

$$ \begin{aligned} &\pi(s_1|\textit{guilty})=\mu(\textit{guilty}\thinspace|s_1)\tau(s_1)/\mu_0(\textit{guilty}) = 0 \\ &\pi(s_1|\textit{innocent})=\mu(\textit{innocent}\thinspace|s_1)\tau(s_1)/\mu_0(\textit{innocent}) = 4/7 \end{aligned} $$

简单来说,分三步走:第一,确定 $\tau$ 的支撑集;第二,利用 Bayes plausibility 确定 $\tau$;第三,根据 Bayes 法则恢复最优信号。

参考 

  • Kamenica, Emir, and Matthew Gentzkow. 2011. “Bayesian Persuasion.” American Economic Review, 101 (6): 2590-2615.


  1. 原文定义 $S\subseteq A$ 的那些信号为简单信号,这里采用更具一般性的定义。 ↩︎


最后修改于 2024-09-04

此篇文章的评论功能已经停用。