Bayesian Persuasion

内容提要

本文是基于 Kamenica and Gentzkow (2011) 的学习笔记，仅对微观课上覆盖的内容做了分析，目的只是通过考试，并不是对文章的全面剖析，但由于上课时一头雾水，为了彻底理解均衡的概念，有必要深入学习。以下分为两节，第一节直接介绍模型框架和重要推论，第二节给出解题的一般方法，此方法是几何直观的，依赖于第一节的分析。

相比于普通的信号博弈，Bayesian persuasion 中的信号发送者表现得既像 informed，又像 uninformed。其 informed 的地方在于，发送者所发送的信号是条件于 state 的；其 uninformed 的地方在于，发送者最大化事前的期望效用（无条件期望）。此外，信号结构并非是给定的，而全由发送者决定，即内生化了。

如前所示，由于信号发送者全权决定信号结构，他可以将信号设计得非常复杂，为简化分析，我们作出一个重要假设：发送者必须如实地告知接收者信号的实现结果。这基本上是在假设信号只有一层。

一般模型框架

信号发送者（简称「发送者」）所发送的具体内容是什么并不重要，重要的是，其发送的信号是一个（条件）分布，条件于 state，state 不同则分布不同，这种分布上的差异传递出了关于 state 的信息，迫使一个（贝叶斯式的）信号接收者（简称「接收者」）更新自己的信念，反而采取有利于发送者的行动。

模型设定

基本的模型设定如下：

State space $\Omega$ 是一个有限集；
接收者的 action space $A$ 是一个紧集；
发送者有定义在 $A\times\Omega$ 上的（关于 $a$）连续效用函数 $v(a,\omega)$；
接收者有定义在 $A\times\Omega$ 上的（关于 $a$）连续效用函数 $u(a,\omega)$；
发送者和接收者具有共同的关于 state 的先验信念 $\mu_0$，它是 $\Omega$ 上的概率测度，且严格为正（为了应用 Bayes 法则）；
一个信号 $\pi$ 是条件于 $\omega$ 的概率测度的集合：$\{\pi(\cdot|\omega)\}_{\omega\in\Omega}$，每个概率测度都定义在同一 realization space $S$ 上，$S$ 由发送者内生决定。

以概率论的视角来看，由于我们引入了条件概率 $\pi(s|\omega)$，$(\omega,s)$ 将有 $\Omega\times S$ 上的联合分布。

Timing

博弈的 timing 如下：

Nature 从分布 $\mu_0$ 中选择一个 state；
发送者选择一个信号；
接收者观察到信号结构和信号的 realization，选择一个行动。

整个 timing 和普通的信号模型本质上并无不同，本质上不同的还是信号结构的内生以及发送者 informed 的程度。

均衡的定义

称 $(\pi,\hat{a}(\mu_s))$ 为一个有利于发送者的子博弈完美均衡（sender-preferred subgame perfect equilibrium）若

给定 $\pi$ 和每一个 realization $s$，接收者按照 Bayes 法则形成后验 $\mu(\omega|s)$，简记为 $\mu_s$，$\hat{a}(\mu_s)$ 最大化了接收者的后验期望效用：

$$\hat{a}(\mu_s)\in\arg\max_{a\in A}\mathbb{E}_{\mu_s}[u(a,\omega)]$$

给定 $\hat{a}(\mu_s)$，$\pi$ 最大化了发送者事前期望效用（无条件期望）$\mathbb{E}[v(\hat{a}(\mu_s),\omega)]$。

Note

这里最重要的设定是发送者最大化事前无条件期望，而不是像一般的发信号模型那样，每个 type 的发送者分别最大化自己的期望效用（即条件于 type）。但信号又条件于 state，此意义上讲，发送者似有多个信息集。这也是为什么我在本文开头说，此模型中的信号发送者表现得既像 informed，又像 uninformed。对此，我的解释是，发送者所设计的信号是 state-contingent，当 state 实现，这个信号就会坍缩为相应的子信号，也就是条件于 state 的一个分布。

为方便起见，定义信号的价值为上述无条件期望。定义信号的增益为其价值和当接收者没有获得任何信息情况下 $v(a,\omega)$ 的期望（即 $\mathbb{E}[v(\hat{a}(\mu_0),\omega)]$）之间的差值（简单来说就是一个信号相比无信息信号能带来多大的期望效用增益）。如果增益严格为正，那么我们说接收者从 persuation 中获益（benefits from persuasion）。最优信号指的是实现了最大增益的信号。显然，在均衡中发送者会选择最优信号。

无条件期望可以根据迭代期望法则写为：$\mathbb{E}[\mathbb{E}[v(\hat{a}(\mu_s),\omega)|\omega]]$，其中内层的条件期望即是在 $\pi(s|\omega)$ 下取得，外层的期望则是在 $\mu_0(\omega)$ 下取得。直接求解最优的条件分布无疑是很困难的，主要有两个原因：第一，realization space 的选择是内生的而非给定的；第二，即便我们能缩小 realization space 的选择范围，也很难有一种直观上的方式求解 $\pi$。如果我们能转换思路，先求最优后验信念 $\mu(\omega|s)$，再恢复 $\pi$，事情将好办很多。这就是下一小节的内容。

对发送者最优化问题的变换

We can reexpress the problem of choosing an optimal signal as a search over distributions of posteriors subject to the constraint that the expected posterior is equal to the prior.

简单来说，我们先条件于 $s$ 而不是 $\omega$，即

$$ \mathbb{E}[v(\hat{a}(\mu_s),\omega)] = \mathbb{E}[\mathbb{E}[v(\hat{a}(\mu_s),\omega)|s]] $$

内层的条件期望在后验信念 $\mu(\omega|s)$ 下取得。发送者寻找最优信号 $\pi(s|\omega)$ 的目标等价于寻找最优后验信念 $\mu(\omega|s)$ 和 $s$ 的无条件分布 $\tau(s)$，随后可由 Bayes 法则恢复信号：

$$ \pi(s|\omega) = \mu(\omega|s)\tau(s)/\mu_0(\omega) $$

这也必定保证了接收者按照 Bayes 法则更新自己的信念。当然，为保证概率和为 1，即 $\sum_s\pi(s|\omega) = 1$，我们要求 $\mu(\omega|s)$ 和 $\tau(s)$ 满足 $\int_s \mu(\omega|s)\thinspace d\tau(s) = \mu_0(\omega)$，这在文中被称为 Bayes plausibility。

不过，我们希望更进一步地简化问题，可能有一些 $s$，它们会导致相同的后验信念，这将意味着条件期望 $\mathbb{E}[v(\hat{a}(\mu_s),\omega)|s]$ 在这些 $s$ 间也是相同的，我们可以将这些 $s$ 视为同一类。这样，不同类可由它们导致的后验 $\mu$ 进行区分，从而得到 $\mu$ 的一个集合，我们再在此上定义概率空间。于是 $(\omega,s)$ 联合分布变成 $(\omega,\mu)$ 联合分布。我们仍用 $\tau$ 表示 $\mu$ 的无条件分布（或边缘分布）。具体而言，我们有

$$\tau(\mu)=\sum_{\{s\colon\mu_s=\mu\}}\tau(s)=\sum_{\{s\colon\mu_s=\mu\}}\sum_{\omega}\pi(s|\omega)\mu_0(\omega)$$

当然，如果 $\mu_s$ 和 $s$ 一一对应的话，我们只是换了一下记号而已。

这种整合并未改变无条件期望，即

$$ \mathbb{E}[v(\hat{a}(\mu),\omega)] = \mathbb{E}[\mathbb{E}[v(\hat{a}(\mu),\omega)|\mu]] = \mathbb{E}_\tau[\mathbb{E}_\mu[v(\hat{a}(\mu),\omega)]] $$

我们将内层的条件期望记作 $\hat{v}(\mu)$，因此上述无条件期望就是 $\mathbb{E}_{\tau}\hat{v}(\mu)$。Bayes plausibility 要求 $\int_{\mu}\mu\thinspace d\tau(\mu) = \mu_0$。

Note

以上的变换本质上是在压缩 realization space，似乎不是很有必要。我们可以假设每个 state 引致的后验都是不同的，即假设 $\mu_s$ 和 $s$ 一一对应。

以上的分析已经足够我们理解本文的核心论断，即下一小节的推论，只是为了严谨，尚需处理一些细节问题。

技术补充$^*$

现在有两个问题，第一，发送者可以选择十分复杂的信号结构，换言之，信号的 realization space 可能大于接收者的 action space。这种情况实际上可以得到简化，我们最终只需考虑和 action space 形成一一对应的 realization space。我们将 realization space 的势不大于 action space 的势的那些信号称为简单信号（straightforward signal¹）。第二个问题是，给定满足 Bayes plausibility 的 $\mu$ 和 $\tau$，其背后是否一定有 well-defined 之信号 $\pi$？尽管 Bayes 法则能用于离散和连续情况，但我们希望对于一般的情况进行证明。

我们可以证明如下命题：

Proposition 1.

以下表述等价：

存在某个信号，其价值为 $v^*$；
存在简单信号，其价值为 $v^*$;
存在 Bayes-plausible 分布 $\tau$，使得 $\mathbb{E}_{\tau}\hat{v}(\mu) = v^*$。

根据定义，易知命题 2 可导出命题 1 和 3。现在证明命题 1 可导出命题 2。对于一个信号 $\pi$，假设其价值为 $v^*$，令 $S^a = \{s\colon\hat{a}(\mu_s)=a\}$，也就是说，我们把使得接收者的最优行动为 $a$ 的信号 realization 都收集起来构成一个集合。我们可以据此构造一个新的信号：其 realization space 和接收者的 action space一一对应，即 $S^\prime \leftrightarrow A$，定义 $\pi^\prime(\alpha|\omega) = \sum_{s\in S^a}\pi(s|\omega)$。简单来说，我们对原来的 realization space 按照其引致的 action 做了一个分割，然后将每个子集上的概率加总得到一个新的概率，新的 realization space 则和 action space 构成一一映射（$\alpha$ 和 $a$）。因为 $a$ 对每个 $s\in S^a$ 都是接收者的最优行动，对于 $\alpha\in S^\prime$，$a$ 也必定是最优行动。如果要严格证明这一点，只需注意到 $\mu(\omega|\alpha) \propto \pi(\alpha|\omega)\mu_0(\omega) = \sum_{s\in S^a}\pi(s|\omega)\mu_0(\omega)$，而 $\mathbb{E}_{\mu_s}[u(a,\omega)] \propto \sum_{\omega\in\Omega}\pi(s|\omega)\mu_0(\omega)u(a,\omega)$。这种构造意味着，条件于 $\omega$，最优行动在 $\pi^\prime$ 下的分布和在 $\pi$ 下的分布相同；具体而言，在 $\pi^\prime$ 下，最优行动取 $a$ 的条件概率为 $\pi(\alpha|\omega)$，在 $\pi$ 下，取 $a$ 的条件概率为 $\sum_{s\in S^a}\pi(s|\omega) = \pi(\alpha|\omega)$。这意味着 $\mathbb{E}[v(\hat{a}_s,\omega)|\omega] = \mathbb{E}[v(\hat{a}_\alpha,\omega)|\omega]$，从而其无条件期望相等，也就是两种信号的价值都为 $v^*$。

现在证明命题 3 可导出命题 1。注意，我们不能直接根据 $\tau$ 来构造信号，因为 $\tau$ 的支撑集可能是无限集，从而构造的信号为零概率（似乎可以将 $\tau$ 视为概率密度来构造信号的密度，不过这并不能涵盖任意分布）。由于 $\Omega$ 是有限集（假设有 $d$ 个元素），这意味着 $\hat{v}(\mu)$ 可视作 $(\mu_s(\omega_1),\dots,\mu_s(\omega_{d-1}))$ 的函数。于是，我们得到了 $\mathbb{R}^d$ 空间内的一系列点：$(\mu_s(\omega_1),\dots,\mu_s(\omega_{d-1}),\hat{v})\in\mathbb{R}^d$。这样一来，$\mathbb{E}_{\tau}\hat{v}(\mu) = v^*$ 也是 $\mathbb{R}^d$ 空间内的一点：$(\mu_0(\omega_1),\dots,\mu_0(\omega_{d-1}),v^*)$，更重要的是，它位于前述那些点构成的凸包络集（或凸包）之内。因此，应用 Carathéodory 定理，它一定可以表述为该凸包络集内有限个点的凸组合，换言之，存在一个支撑集为有限集的 Bayes-plausible 分布 $\tau^*$，使得 $\mathbb{E}_{\tau^*}\hat{v}(\mu) = v^*$。据此，我们可以定义信号的 realization space 为 $\{s\colon\mu_s\in\text{Supp}(\tau^*)\}$，进而定义信号 $\pi(s|\omega) = \mu(\omega|s)\tau^*(\mu_s)/\mu_0(\omega)$，这个信号将引致 $\tau^*$，从而具有价值 $v^*$。

从以上定理我们可以绕过对最优信号的直接求解，而是先求 $\tau$ 和相应的支撑集，再按照 Bayes 法则恢复出 $\pi$，这已经被证明一定可以做到。我们立即有如下推论：

Corollary 2.

发送者可以从 persuation 中获益当且仅当存在一个 Bayes-plausible 分布 $\tau$ 使得

$$\mathbb{E}_{\tau}\hat{v}(\mu) > \hat{v}(\mu_0)$$

此外，最优信号的价值就是

$$\max_{\tau}\ \mathbb{E}_{\tau}\hat{v}(\mu) \quad \text{s.t.}\int\mu\thinspace d\tau(\mu) = \mu_0$$

显然，略。

值得一提，根据命题 1，我们只需关注 realization space 和 action space 等势的情况。

一般问题中的求解方式

在一般问题中，我们如何求解最优信号及其价值呢？事实上，上述推论意味着我们可以有一种几何上非常直观的方式。

假设 action space 有两个元素，那么我们只用考虑 realization space 有两个元素的情况（假设 $s_1$ 和 $s_2$）。因此，$\pi$ 和 $\tau$ 都是二项分布（再次回忆，$\pi$ 是 $s$ 的条件分布，而 $\tau$ 实质上是 $s$ 的无条件分布）。此外，假设 state space 也只有两个元素，这样，我们就可以用一个维度代表后验，例如，$\mu(\omega_1|s)$，不妨简记为 $\mu_s$。按照推论，信号 $\pi$ 的价值就是在 $\mu$-$\hat{v}(\mu)$ 图像上的 $(\mu_{s_1},\hat{v}(\mu_{s_1}))$ 和 $(\mu_{s_2},\hat{v}(\mu_{s_2}))$ 两点和直线 $\mu=\mu_0$ 交点的纵坐标；交点就是这两点的加权中点，权重就是 $\tau$。需要注意，当两点连线和 $\mu=\mu_0$ 无交点时，说明以这两点为支撑集的任何 $\tau$ 都不是 Bayes-plausible，也就无法实现增益；当然，给定先验，我们总能找到 Bayes-plausible 分布（在 $\mu=\mu_0$ 两边取点即可）。见下图中 Panel B。

Concave Closure (Source: Kamenica and Gentzkow, 2011, Fig.2)

易知两点连线总是在 $\hat{v}(\mu)$ 图像的凸包之内，因此我们取凸包的边界函数，称为 $\hat{v}$ 的凹闭包（concave closure）：

$$V(\mu) \equiv \sup\{y\colon (\mu,y)\in\text{conv}(\hat{v})\}$$

这里 $\text{conv}(\hat{v})$ 表示 $\hat{v}$ 图像的凸包络集。$V(\mu)$ 必定是凹函数（因而称为凹闭包），并且是处处大于等于 $\hat{v}$ 的最小凹函数；它衡量了，当 state 的先验为 $\mu$ 时，发送者所能实现的最大价值，如上图 Panel C 所示。

Note

即便 action space 是无限集，我们也许只需要两个 realization，前提是它们与 $\mu = \mu_0$ 的交点位于 $V(\mu)$ 图像上。

一个例子

现在用一个简单例子阐述求解过程。假设在一例案件中，检方（发送者）想要说服法官（接收者）对被告作出有罪判决，具体设定如下：

有两种状态：被告是 guilty 或者 innocent，先验信念 $\mu_0(\textit{guilty}) = 0.3$；
法官（接收者）有两种行动：acquit 或 convict；
法官若作出正确判决，则法官效用为 1，否则为 0；
法官若 convict，则检方效用为 1，否则为 0。

试问，法官应该如何设定信号以最大化自己的效用？

首先，我们求法官的最优行动 $\hat{a}(\mu)$，这里 $\mu$ 表示关于被告是 guilty 的信念。显然，当 $\mu < 0.5$ 时，法官最优行动是 acquit，当 $\mu \geq 0.5$ 时是 convict。因此，检方的后验效用就是：当 $\mu < 0.5$，$\hat{v}(\mu) = 0$；当 $\mu \geq 0.5$，$\hat{v}(\mu) = 1$，如上图所示。我们可以在其凹闭包上找到对应于先验 $\mu_0 = 0.3$ 的最大信号价值 $V(0.3) = 0.6$。$\tau$ 的支撑集显然是 $\{\mu_{s_1} = 0,\mu_{s_2}=0.5\}$。随后根据 Bayes plausibility 确定 $\tau$：

$$0\cdot\tau(s_1)+0.5\cdot\tau(s_2)=0.3 \Rightarrow \tau(s_1)=0.4,\tau(s_2)=0.6$$

最后，恢复最优信号：

$$ \begin{aligned} &\pi(s_1|\textit{guilty})=\mu(\textit{guilty}\thinspace|s_1)\tau(s_1)/\mu_0(\textit{guilty}) = 0 \\ &\pi(s_1|\textit{innocent})=\mu(\textit{innocent}\thinspace|s_1)\tau(s_1)/\mu_0(\textit{innocent}) = 4/7 \end{aligned} $$

简单来说，分三步走：第一，确定 $\tau$ 的支撑集；第二，利用 Bayes plausibility 确定 $\tau$；第三，根据 Bayes 法则恢复最优信号。

参考

Kamenica, Emir, and Matthew Gentzkow. 2011. “Bayesian Persuasion.” American Economic Review, 101 (6): 2590-2615.

原文定义 $S\subseteq A$ 的那些信号为简单信号，这里采用更具一般性的定义。 ↩︎

最后修改于 2024-09-04