高斯过程是非常重要的一类随机过程,其应用在各领域都非常广泛。本文介绍了高斯过程的一些重要性质,简单说明了高斯过程的应用场景。本文属于随机过程笔记,根据清华大学电子工程系张颢副研究员的随机过程线上课程笔记整理而成,这是课程链接。
高斯过程的性质
基本性质验证:概率的非负性和归一性
在研究高斯过程的性质之前,我们先来验证多元高斯分布概率密度函数是合法的(当然不得不合法,不过我们据此可以熟悉一下矩阵-向量的运算)。
概率密度函数最基本地满足两点要求:
非负性 \[ f\geq0 \]
归一性 \[ \int f =1 \]
前面已经给出,多元高斯分布地概率密度函数为
\[ f_\mathbb{X}(x)=\cfrac{1}{(2\pi)^\frac{n}{2}(\det\Sigma)^\frac{1}{2}}\exp\left(-\cfrac{1}{2}(x-\mu)^\mathrm{T}\Sigma^{-1}(x-\mu)\right) \]
对于非负性,\(e\)指数部分显然非负。而协方差矩阵\(\Sigma=E((x-\mu)(x-\mu)^\mathrm{T})\)是实对称的,且所有主元\(\Sigma_{ii} = E((x_i-\mu_i)^2)\)都是非负的,故\(\Sigma\)是正定的。
不妨回头看看实对称矩阵正定的几个等价充要条件。
因此,作为分母,其行列式恒为正。至此,非负性已得到了验证。
对于归一性,我们可以直接开始计算 \[ \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x = \cfrac{1}{(2\pi) ^ \frac{n}{2} (\det\Sigma) ^ \frac{1}{2}} \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}(x-\mu)^\mathrm{T}\Sigma^{-1} (x-\mu) \right) \mathrm{d}x_1\mathrm{d}x_2\cdots\mathrm{d}x_n \]
这个积分中,可以认为最难搞的就是被积函数中\(e\)指数上的\(\Sigma^{-1}\)了。稍加思考,\(\Sigma\)是对称且正定的,因此可以将其对角化,写作这样的形式 \[ \Sigma = U^\mathrm{T}\Lambda U \] 其中,\(U\)是正交的,\(U^\mathrm{T}U=UU^\mathrm{T}=I\);\(\Lambda\)是对角阵,\(\Lambda = \mathrm{diag}(\lambda_1, \lambda_2, \cdots, \lambda_n)\)。进一步地,有 \[ \Sigma = U^\mathrm{T} \Lambda^{\frac{1}{2}}U U^\mathrm{T} \Lambda^{\frac{1}{2}}U, \\ \Sigma^{-1} = U^\mathrm{T} \Lambda^{-\frac{1}{2}}U U^\mathrm{T} \Lambda^{-\frac{1}{2}}U = B^{\mathrm{T}} B \] 其中,\(B = U^\mathrm{T} \Lambda^{-\frac{1}{2}}U\)。
于是,暂时抛开常数项,积分部分 \[ \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}(x-\mu)^\mathrm{T}\Sigma^{-1} (x-\mu) \right) \mathrm{d}x_1\mathrm{d}x_2\cdots\mathrm{d}x_n = \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}(x-\mu)^\mathrm{T}B^{\mathrm{T}} B (x-\mu) \right) \mathrm{d}x_1\mathrm{d}x_2\cdots\mathrm{d}x_n \\ \] 令\(y=B(x-\mu)\),则有\(y^\mathrm{T}=(x-\mu)^\mathrm{T}B^\mathrm{T}\),积分元 \[ \left( \cfrac{\mathrm{d}y}{\mathrm{d}x} \right) = B \Rightarrow \mathrm{d}x = (\det B)^{-1}\mathrm{d}y \]
具体可以看看雅可比积分换元。
于是上面积分就变为了 \[ \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}y^{\mathrm{T}} y \right) (\det B)^{-1}\mathrm{d}y \]
其中,\((\det B)^{-1} = (\det \Sigma)^{\frac{1}{2}}\),故积分可以继续写作 \[ \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}y^{\mathrm{T}} y \right) (\det \Sigma)^{\frac{1}{2}}\mathrm{d}y = (\det \Sigma)^{\frac{1}{2}} \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}y^{\mathrm{T}} y \right) \mathrm{d}y \] 注意这里\(y^{\mathrm{T}}y=\sum_{k=1}^{n}y_k^2\),再将前面的系数代回,计算\(f_X\)在全空间的积分,有 \[ \begin{equation*} \begin{aligned} \int_{\mathbb{R}^n} f_X(x)\mathrm{d}x & = \int_{\mathbb{R}^n} \cfrac{1}{(2\pi) ^ \frac{n}{2} (\det\Sigma) ^ \frac{1}{2}} \exp \left( -\cfrac{1}{2}(x-\mu)^\mathrm{T}\Sigma^{-1} (x-\mu) \right) \mathrm{d}x \\ & = \cfrac{1}{(2\pi) ^ \frac{n}{2} (\det\Sigma) ^ \frac{1}{2}} \left((\det \Sigma)^{\frac{1}{2}} \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}y^{\mathrm{T}} y \right) \mathrm{d}y \right) \\ & = \cfrac{1}{(2\pi) ^ \frac{n}{2} } \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}\sum_{k=1}^{n}y_k^2 \right) \mathrm{d}y \\ & = \prod_{k=1}^{n} \left( \cfrac{1}{(2\pi) ^ \frac{1}{2} } \int_{\mathbb{R}^n} \exp \left( -\cfrac{1}{2}y_k^2 \right) \mathrm{d}y_k \right) \\ \end{aligned} \end{equation*} \] 括号内积分项可以转换在极坐标下进行很同意得到结果为\(\sqrt{2\pi}\)。至此我们可以得到最终结果 \[ \int_{\mathbb{R}^n}f_X(x)\mathrm{d}x = 1 \] 即多元高斯分布的概率密度函数在整个定义空间上的积分确实是\(1\)。
线性不变性(Linearity Invariance)
定义\(\mathbb{X}\in\mathbb{R}^n\)是\(n\)维高斯随机变量,\(\mathbb{X}\sim N(\mu,\Sigma)\);\(A\in \mathbb{R}^{m\times n}\)是\(m\times n\)的线性变换矩阵,且\(\mathbb{Y} = A\mathbb{X}\)。那么一定有 \[ \mathbb{Y} \sim (A\mu, A\Sigma A^{\mathrm{T}}) \] 通俗地讲,高斯分布的经过线性变换后仍然是高斯分布的。验证这个结论很简单,不过需要一个前提工作,也就是要得到\(\mathbb{X}\)的特征函数
\[ \Phi_\mathbb{X}(\omega) = E \left( \exp(i\omega^\mathrm{T}\mathbb{X}) \right) = \exp \left( i\omega^{\mathrm{T}} \mu - \cfrac{1}{2}\omega ^{\mathrm{T}}\Sigma \omega \right) \]
特征函数是研究随机过程一项很重要的工具,后面会经常用到。这里不妨自己先验证一下,后续有时间我再补充。
据此我们写出\(\mathbb{Y}\)的特征函数 \[ \begin{equation*} \begin{aligned} \Phi_\mathbb{Y}(\omega) & = E \left( \exp(i\omega^\mathrm{T}\mathbb{Y}) \right) \\ & = E \left( \exp(i\omega^\mathrm{T} A\mathbb{X}) \right) \\ & = E \left( \exp(i (A^\mathrm{T}\omega)^\mathrm{T} \mathbb{X}) \right) \end{aligned} \end{equation*} \] 这实际上就是\(\mathbb{X}\)的特征函数\(\Phi_\mathbb{X}(\omega^\prime)\)在\(\omega^\prime = A^\mathrm{T} \omega\)处的取值,故 \[ \begin{equation*} \begin{aligned} \Phi_\mathbb{Y}(\omega) & = \left. \exp \left( i(\omega^\prime) ^{\mathrm{T}} \mu - \cfrac{1}{2}(\omega^\prime) ^{\mathrm{T}}\Sigma (\omega^\prime) \right) \right|_{\omega^\prime = A^\mathrm{T} \omega} \\ & = \exp \left( i\omega^\mathrm{T}A \mu - \cfrac{1}{2}\omega^\mathrm{T}A\Sigma A^\mathrm{T} \omega \right) \end{aligned} \end{equation*} \] 观察这里结果的形式,特征函数\(\Phi_\mathbb{Y}(\omega)\)实际上就是高斯分布\(N(A\mu, A\Sigma A^\mathrm{T})\)所对应的特征函数。至此,\(\mathbb{Y} \sim (A\mu, A\Sigma A^{\mathrm{T}})\)得证。
联合分布(Joint Distribution)与边缘分布(Marginal Distribution)
现在来考察多维随机变量联合高斯分布和边缘高斯分布的关系。
现有\(\mathbb{X} = \left( X_1, X_2, \cdots , X_n\right)^\mathrm{T}\),另\(\widetilde{\mathbb{X}} = \left( X_{n_1}, X_{n_2}, \cdots , X_{n_k}\right)^\mathrm{T}\),其中, \(n_1, n_2, \cdots , n_k \in \left(1,2,\cdots,n\right)\)。根据前面的线性不变性,\(\widetilde{\mathbb{X}}\)显然也是高斯的。即,联合高斯分布是能充分说明其边缘分布也是高斯的。
这个结论反过来成立吗?答案是未必的。那么要如何判断多维随机变量的高斯性呢?这里给出一个判据:
对随机变量\(\mathbb{X} \in \mathbb{R}^n,\forall \alpha \in \mathbb{R}^n\),都有\(\alpha^{\mathrm{T}} \mathbb{X} \sim N\) 是(一维)高斯分布的,则\(\mathbb{X}\sim N\)是多元高斯分布的。
实际上这是一个充分必要条件。下面来证明。
必要性“\(\Leftarrow\)”
这里必要性是显然的,实际上是线性不变性的一种特殊情况而已。
充分性“\(\Rightarrow\)”
证:根据定义,写出随机变量\(\mathbb{X}\)的特征函数 \[ \Phi_\mathbb{X}(\omega) = E\left( \exp\left( i\omega^\mathrm{T}\mathbb{X} \right) \right) \] 由于目前还不知道\(\mathbb{X}\)的情况,不太好继续往下写了。然而这里我们已知\(\forall \alpha \in \mathbb{R}^n\), 都有\(\alpha^{\mathrm{T}} \mathbb{X} \sim N\) ,那么把上面式中\(\omega^\mathrm{T}\mathbb{X}\)整体看作一个(一维的)随机变量,这个随机变量根据已知条件就可以知道是高斯的了。又根据特征函数的形式,我们可以把上式看作是\(\omega^\mathrm{T}\mathbb{X}\)的特征函数\(\Phi_{\omega^\mathrm{T}\mathbb{X}}(\omega^\prime)\)在\(\omega^\prime = 1\)处的取值,即 \[ \begin{equation*} \begin{aligned} \Phi_\mathbb{X}(\omega) & = \left. \Phi_{\omega^\mathrm{T}\mathbb{X}}(\omega^\prime) \right|_{\omega^\prime = 1} \\ & = \exp\left( i\mu_{\omega^\mathrm{T}\mathbb{X}} - \cfrac{1}{2}\sigma_{\omega^\mathrm{T}\mathbb{X}}^2 \right) \end{aligned} \end{equation*} \]
其中,\(\mu_{\omega^\mathrm{T}\mathbb{X}} , \sigma_{\omega^\mathrm{T}\mathbb{X}}^2\)分别是一维随机变量\(\omega^\mathrm{T}\mathbb{X}\)的均值和方差。现计算之。
\[ \begin{equation*} \begin{aligned} \mu_{\omega^\mathrm{T}\mathbb{X}} & = E\left( \omega^\mathrm{T}\mathbb{X} \right) = \omega^\mathrm{T} E\left(\mathbb{X}\right) = \omega^\mathrm{T}\mu \\ \\ \sigma_{\omega^\mathrm{T}\mathbb{X}}^2 & = E\left( \left( \omega^\mathrm{T}\mathbb{X} - E\left( \omega^\mathrm{T}\mathbb{X} \right) \right)^2 \right) \\ & = E\left( \left( \omega^\mathrm{T} \mathbb{X} - \omega^\mathrm{T} \mu \right)^2\right) \\ & = \omega^\mathrm{T} E\left( \left( \mathbb{X} - \mu \right) \left( \mathbb{X} - \mu \right)^\mathrm{T} \right) \omega \\ & = \omega^\mathrm{T}\Sigma \omega^\mathrm{T} \end{aligned} \end{equation*} \]
故
\[ \begin{equation*} \begin{aligned} \Phi_\mathbb{X}(\omega) & = \left. \Phi_{\omega^\mathrm{T}\mathbb{X}}(\omega^\prime) \right|_{\omega^\prime = 1} \\ & = \exp\left( i\mu_{\omega^\mathrm{T}\mathbb{X}} - \cfrac{1}{2}\sigma_{\omega^\mathrm{T}\mathbb{X}}^2 \right) \\ & = \exp\left( i\omega^\mathrm{T}\mu - \cfrac{1}{2}\omega^\mathrm{T}\Sigma \omega^\mathrm{T} \right) \end{aligned} \end{equation*} \]
得到标标准准的高斯分布特征函数。故\(\mathbb{X} \sim N(\mu, \Sigma)\)是服从联合高斯分布的。
至此,上述结论的充分性和必要性都得到了证明。
相关性(Correlation)与独立性(Independence)
首先需要明白的是,相关是描述随机变量在二阶矩上的联系,独立性是以概率密度函数来描述的随机变量之间的联系。
现有随机变量\(X, Y\in \mathbb{R}^n\),其概率密度分布函数和联合概率密度分布函数分别是\(f_X(x), f_Y(y), f_{XY}(x,y)\),那么
- 若\(E(XY)=E(X)E(Y)\),则称随机变量\(X,Y\)是不相关的;
- 若\(f_{XY}(x,y) = f_X(x)f_Y(y)\),则称随机变量\(X,Y\)是独立的。
从定义来看,独立(Independent)的条件是要强于不相关(Uncorrelated)的,即 \[ X, Y \left\{ \begin{array}{rcl} \text{independent} & \Rightarrow & \text{uncorrelated} \\ \text{uncorrelated} & \not \Rightarrow & \text{independent} \end{array} \right. \] 这随便通过一个例子就能看出:
设\(\theta \sim U(0,2\pi)\)满足均匀分布,构建随机变量\(X=\cos(\theta), Y=\sin(\theta)\)。显然\(X,Y\)不独立;计算其相关: \[ E(X) = E(\cos \theta) = 0,\\ E(Y) = E(\sin \theta) = 0,\\ E(XY) = E(\cos\theta \sin\theta) = \cfrac{1}{2}(\sin 2\theta) = 0 \] 故\(E(X)E(Y)=E(XY)\)。尽管\(X,Y\)不独立,不过也是不相关的。
那么,如果是高斯分布的随机变量\(X,Y\),它们独立就能等价不相关吗?继续来个例子:
设\(X\sim N(0,1)\)是服从高斯分布的,又有伯努利随机变量\(Z\sim \left( \begin{array}{} 1 & -1\\ \cfrac{1}{2} & \cfrac{1}{2} \end{array} \right)\),构建\(Y = ZX\)
\(Y\)是高斯的吗?看特征函数。 \[ \begin{equation*} \begin{aligned} \Phi_Y(\omega) & = E\left(\exp (i\omega Y)\right) \\ & = E\left(\exp (i\omega ZX)\right)\\ & = E_Z\left( E_X\left(\left. \exp (i\omega ZX) \right|Z \right) \right) \end{aligned} \end{equation*} \] 其中,\(E_X\)项在,\(Z\)被“条件住”了,在此可以看作是常量,这一项可以看作是\(X\)的特征函数\(\Phi_X(\omega^\prime)\)在\(\omega^\prime = \omega Z\)处的取值 \[ \begin{equation*} \begin{aligned} E_X\left(\left. \exp (i\omega ZX) \right|Z \right) & = \left. \Phi_X(\omega^\prime) \right|_{\omega^\prime = \omega Z} \\ & = \exp \left( i\omega Zm - \cfrac{1}{2}\sigma^2 (\omega Z)^2 \right) \end{aligned} \end{equation*} \] 其中,由于\(X\sim N(0,1)\),故这里的\(m=0, \sigma^2 = 1\)。于是 \[ \begin{equation*} \begin{aligned} \Phi_Y(\omega) & = E_Z\left( E_X\left(\left. \exp (i\omega ZX) \right|Z \right) \right) \\ & = E\left( \exp \left(i\omega Zm - \cfrac{1}{2}\sigma^2 (\omega Z)^2 \right) \right) \\ & = E\left( \exp \left(- \cfrac{1}{2}\omega^2 Z^2 \right) \right) \\ \end{aligned} \end{equation*} \] 由于\(Z\sim \left( \begin{array}{} 1 & -1\\ \cfrac{1}{2} & \cfrac{1}{2} \end{array} \right)\),因此不论取\(1\)还是\(-1\),\(Z^2 \equiv 1\)。故 \[ \Phi_Y(\omega) = \exp(-\cfrac{1}{2}\omega ^2) \] 因此,\(Y\)是标标准准的高斯分布\(Y\sim N(0,1)\)。
\(X,Y\)相关吗?计算\(E(XY), E(X)E(Y)\)。 \[ E(XY) = E(ZX^2) = E(Z)E(X^2) \] 其中,\(E(Z) = 1\times \cfrac{1}{2} + (-1) \times \cfrac{1}{2} = 0\),故\(E(XY) = 0\)。
而\(X, Y\)都是\(m=0, \sigma^2 = 1\)的高斯分布,故\(E(X) = E(Y) = 0\)
故\(E(XY) = E(X)E(Y)\),\(X,Y\)不相关。
\(X,Y\)独立吗? \(Y = ZX\)欸,怎么可能独立?显然不独立啊!
所以,即使\(X,Y\)都是高斯的,其不相关仍然不能推导出独立。
怎样的条件下,独立和不相关才能是等价的呢?答案是联合高斯分布,即 \[ X,Y:\ \left. \begin{array}{rcl} \text{joint Gaussian} \\ \text{uncorrelated} \end{array} \right\} \Rightarrow \text{independent} \] 一般地,如果多维随机变量\(\mathbb{X} = (X_1, X_2, \cdots, X_n)^\mathrm{T}\in \mathbb{R}^n\)是联合高斯分布的,那么\(\mathbb{X}\)各分量不相关\(\Leftrightarrow\)独立。
下面给出二维\(n=2\)情况下的证明。
必要性\(\Leftarrow\)不需要多说,这是显然的。
只需要证明充分性\(\Rightarrow\)
要说明独立性,首先计算\(\mathbb{X} = \left(X_1, X_2\right)^\mathrm{T}\)的联合密度分布函数 \[ f_\mathbb{X}(x_1,x_2) = \cfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left(-\cfrac{1}{2(1-\rho^2)}\left( \cfrac{(x_1-\mu_1)^2}{\sigma_1 ^2} - \cfrac{2\rho(x_1 - \mu_1)(x_2 - \mu_2)}{\sigma_1 \sigma_2} + \cfrac{(x_2-\mu_2)^2}{\sigma_2 ^2} \right) \right) \] 其中,\(\mu_k, \sigma_k\)是\(X_k\)的均值和方差\((k=1,2)\),\(\rho = E\left( (X_1-\mu_1)(X_2-\mu_2) \right)\)。
现在我们来看\(\exp\)指数上的交叉项: \[ \begin{equation*} \begin{aligned} \rho & = E\left( (X_1-\mu_1)(X_2-\mu_2) \right) \\ & = E(X_1X_2) - E(X_1)\mu_2 - E(X_2)\mu_1 + \mu_1\mu_2 \\ & = E(X_1X_2) - \mu_1\mu_2 \end{aligned} \end{equation*} \] 由已知条件,\(X_1,X_2\)不相关,即\(E(X_1X_2) = E(X_1)E(X_2) = \mu_1\mu_2\),故\(\rho = 0\)。因此有 \[ \begin{equation*} \begin{aligned} f_\mathbb{X}(x_1,x_2) & = \cfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left(-\cfrac{1}{2(1-\rho^2)}\left( \cfrac{(x_1-\mu_1)^2}{\sigma_1 ^2} - \cfrac{2\rho(x_1 - \mu_1)(x_2 - \mu_2)}{\sigma_1 \sigma_2} + \cfrac{(x_2-\mu_2)^2}{\sigma_2 ^2} \right) \right)\\ & = \cfrac{1}{2\pi\sigma_1\sigma_2} \exp\left(-\cfrac{1}{2}\left( \cfrac{(x_1-\mu_1)^2}{\sigma_1 ^2} + \cfrac{(x_2-\mu_2)^2}{\sigma_2 ^2} \right) \right)\\ & = \cfrac{1}{\sqrt{2\pi}\sigma_1} \exp\left(-\cfrac{1}{2}\cfrac{(x_1-\mu_1)^2}{\sigma_1 ^2}\right) \cdot \cfrac{1}{\sqrt{2\pi}\sigma_2} \exp\left(-\cfrac{1}{2}\cfrac{(x_2-\mu_2)^2}{\sigma_2 ^2}\right)\\ & = f_{X_1}(x_1)\cdot f_{X_2}(x_2) \end{aligned} \end{equation*} \] 即\(X_1, X_2\)相互独立。至此,二维\(n=2\)情况下,随机变量\(\mathbb{X} = (X_1, X_2)^\mathrm{T}\in \mathbb{R}^n\)是联合高斯分布的,那么\(\mathbb{X}\)各分量\(X_1,X_2\)不相关与独立的等价性便证明出来了。
还有一个比较显然的结论:
给定一多元随机变量\(\mathbb{X} = \left(X_1, X_2, \cdots , X_n\right)^\mathrm{T} \in \mathbb{R}^n\),如果其各分量独立,且都服从高斯分布,则\(\mathbb{X}\)是服从联合高斯分布的。
这个结论过于显而易见了,这里不需要给出证明。
Cochran 定理
设一多维随机变量\(\mathbb{X} = \left(X_1, X_2, \cdots , X_n\right)^\mathrm{T} \in \mathbb{R}^n\)。定义样本均值(sample mean) \[ \bar{X} = \cfrac{1}{n}\sum_{k=1}^{n} X_k \] 和样本方差\(\bar{S^2}\)(sample variance) \[ \bar{S^2} = \cfrac{1}{n-1}\sum_{k=1}^{n}\left( X_k - \cfrac{1}{n}\sum_{k=1}^{n} X_k \right)^2 \]
假设每一个\(X_k\)都有相同的均值和方差,则有\(E(\bar{X}) = E(X_k),\ E(\bar{S^2}) = var(X_K)\)。至于这里前面的分母为什么是\(n-1\)而不是\(n\),将在附章中说明。
补充说明一点,不妨设\(E(\mathbb{X}) = E\left(\cfrac{1}{n}\sum_{k=1}^{n} X_k\right) = E(X_1)\)。
假设\(X_k = A + N_k\),其中\(A\)是实际值,\(N_k\)是噪声,有\(E(X_k)=A\)。
\[ \begin{equation*} \begin{aligned} var(\mathbb{X}) & = E\left(\left(\cfrac{1}{n} \sum_{k=1}^n (X_k - A)\right)^2\right) \\ & = \cfrac{1}{n^2} E\left(\left(\sum_{k=1}^n (X_k - A)\right)^2\right) \\ & = \cfrac{1}{n^2} \left(\sum_{k=1}^nE\left( (X_k - A)^2\right) + \sum_{i \neq j}E\left( (X_i-A)(X_j-A)\right)\right) \end{aligned} \end{equation*} \]
其中,由于\(X_k\)之间独立同分布,故交叉项\(E((X_i - A)(X_j - A)) = 0, \forall i \neq j\)。所以 \[ \begin{equation*} \begin{aligned} var(\mathbb{X}) & = \cfrac{1}{n^2} \sum_{k=1}^nE\left( (X_k - A)^2\right) \\ & = \cfrac{1}{n^2} n E\left( (X_1 - A)^2\right) \\ & = \cfrac{1}{n}var(X_1) \end{aligned} \end{equation*} \]
于是可以看出,在每次试验结果独立同分布的前提下,多次试验取平均可以使得结果方差有所下降。
Cochran定理是指,如果,且\(\mathbb{X}\)各分类独立同分布,且服从高斯分布,则\(\bar{X}, \bar{S^2}\)是独立的。
证明:
构造一个矩阵 \[ Q = \left[ \begin{array}{} \cfrac{1}{\sqrt{n}} & \cfrac{1}{\sqrt{n}} & \cdots & \cfrac{1}{\sqrt{n}} \\ \text{*} & \text{*} & \cdots & \text{*} \\ \vdots & \vdots & \ddots & \vdots \\ \text{*} & \text{*} & \cdots & \text{*} \end{array} \right]_{(n\times n)} \]
这里\(Q\)第一行确定,且满足\(Q\)是正交的\(QQ^\mathrm{T} = I\)。将\(Q\)作用于\(\mathbb{X}\) \[ \mathbb{Y} = Q\mathbb{X} = \left[ \begin{array}{} \cfrac{1}{\sqrt{n}}\sum_{k=1}^n X_k \\ \text{*} \\ \vdots\\ \text{*} \end{array} \right] \]
由高斯线性性质,\(\mathbb{Y} \sim N(Q\mu, Q\Sigma Q^\mathrm{T})\)
计算\(\bar{S^2}\) \[ \begin{equation*} \begin{aligned} \sum_{k=1}^{n}\left( X_k - \cfrac{1}{n}\sum_{k=1}^{n} X_k \right)^2 & = \sum_{k=1}^{n}\left( X_k - \bar{X} \right)^2 \\ & = \sum_{k=1}^{n}\left( X_k ^ 2- 2X_k\bar{X} + \bar{X}^2\right) \\ & = \sum_{k=1}^{n}X_k ^ 2- 2\bar{X}\sum_{k=1}^{n}X_k + n\bar{X}^2 \\ & = \sum_{k=1}^{n}X_k ^ 2- n\bar{X}^2 \end{aligned} \end{equation*} \] 由于\(Q\)正交,\(Y=QX\),故\(Y^{\mathrm{T}} Y = X^{\mathrm{T}} Q^{\mathrm{T}} Q X = X^{\mathrm{T}} X\)。于是,(2.)中, \[ \begin{equation*} \begin{aligned} \sum_{k=1}^{n}\left( X_k - \cfrac{1}{n}\sum_{k=1}^{n} X_k \right)^2 & = \sum_{k=1}^{n}X_k ^ 2- n\bar{X}^2 \\ & = \sum_{k=1}^{n}Y_k ^ 2- n\bar{X}^2 \\ & = \left(\cfrac{1}{\sqrt{n}}\sum_{k=1}^n X_k\right)^2 + \sum_{k=2}^{n}Y_k ^ 2- n\bar{X}^2 \\ & = \cfrac{1}{n} (n\bar{X})^2 + \sum_{k=2}^{n}Y_k ^ 2- n\bar{X}^2 \\ & = \sum_{k=2}^{n}Y_k ^ 2 \end{aligned} \end{equation*} \] 故 \[ \bar{S^2} = \cfrac{1}{n-1} \sum_{k=2}^{n}Y_k ^ 2 \]
计算\(\bar{X}\) 根本就不用计算了。 \[ \bar{X} =\cfrac{1}{\sqrt{n}} Y_1 \]
至此,可以看出,\(\bar{X}\)是取决于\(Y_1\)的,而\(\bar{S^2}\)是取决于\(Y_2, Y_3, \cdots, Y_n\)的,故\(\mathbb{X}\)的样本均值和样本方差是独立的。
条件分布(Condition Distribution)
设\(\mathbb{X} = \left[ \begin{array}{} \mathbb{X}_1 \\ \mathbb{X}_2 \end{array} \right]\in \mathbb{R}^{m+n}\),其中\(\mathbb{X}_1 \in \mathbb{R}^m, \mathbb{X}_2 \in \mathbb{R}^n\)。 \[ \mathbb{X} \sim N \left( \left( \begin{array}{} \mu_1 \\ \mu_2 \end{array} \right), \left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right) \right) \] 其中\(\mu_k, \Sigma_{kl}\)相应的均值和协方差矩阵。
那么在条件\(\mathbb{X}_2\)的约束下,\(\mathbb{X}_1\)的分布如何?
写出条件概率密度分布函数 \[ f_{\mathbb{X}_1|\mathbb{X}_2}(x_1|x_2) = \cfrac{f_{\mathbb{X}_1,\mathbb{X}_2}(x_1, x_2)}{f_{\mathbb{X}_2}(x_2)} = \cfrac{c_1 \exp\left( -\cfrac{1}{2} \left( \begin{array}{} x_1^\mathrm{T} - \mu_1^\mathrm{T} & x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right)^{-1} \left( \begin{array}{} x_1 - \mu_1 \\ x_2 - \mu_2 \end{array} \right) \right) } {c_2 \exp\left( -\cfrac{1}{2} \left( \begin{array}{} x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \Sigma_{22}^{-1} \left( \begin{array}{} x_2 - \mu_2 \end{array} \right) \right) } \]
忽略常数项,指数部分是 \[ -\cfrac{1}{2} \left( \begin{array}{} x_1^\mathrm{T} - \mu_1^\mathrm{T} & x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right)^{-1} \left( \begin{array}{} x_1 - \mu_1 \\ x_2 - \mu_2 \end{array} \right) +\cfrac{1}{2} \left( \begin{array}{} x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \Sigma_{22}^{-1} \left( \begin{array}{} x_2 - \mu_2 \end{array} \right) \] 这里比较棘手的部分是\(\left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right)^{-1}\),要求出这个逆,最好把原矩阵对角化 \[ \left( \begin{array}{} I & -\Sigma_{12}\Sigma_{22}^{-1}\\ 0 & I \end{array} \right) \left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right) \left( \begin{array}{} I & 0\\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{array} \right) = \left( \begin{array}{} \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & 0\\ 0 & \Sigma_{22} \end{array} \right) \]
故 \[ \left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right) ^ {-1} = \left( \begin{array}{} I & 0\\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{array} \right) \left( \begin{array}{} \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & 0\\ 0 & \Sigma_{22} \end{array} \right)^{-1} \left( \begin{array}{} I & -\Sigma_{12}\Sigma_{22}^{-1}\\ 0 & I \end{array} \right) \] 进一步地, \[ \begin{equation*} \begin{aligned} &\left( \begin{array}{} x_1^\mathrm{T} - \mu_1^\mathrm{T} & x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right)^{-1} \left( \begin{array}{} x_1 - \mu_1 \\ x_2 - \mu_2 \end{array} \right)\\ =& \left( \begin{array}{} x_1^\mathrm{T} - \mu_1^\mathrm{T} & x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \left( \begin{array}{} I & 0\\ -\Sigma_{22}^{-1}\Sigma_{21} & I \end{array} \right) \left( \begin{array}{} \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & 0\\ 0 & \Sigma_{22} \end{array} \right)^{-1} \left( \begin{array}{} I & -\Sigma_{12}\Sigma_{22}^{-1}\\ 0 & I \end{array} \right) \left( \begin{array}{} x_1 - \mu_1 \\ x_2 - \mu_2 \end{array} \right)\\ = & \left( x_1^{\mathrm{T}} - \mu_1^{\mathrm{T}} - (x_2^{\mathrm{T}} - \mu_2^{\mathrm{T}}) \Sigma_{22}^{-1}\Sigma_{21} \right) \left( \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \right)^{-1} \left( x_1 - \mu_1 - \Sigma_{12}\Sigma_{22}^{-1} (x_2 - \mu_2) \right) \\ & + (x_2^{\mathrm{T}} - \mu_2^{\mathrm{T}})\Sigma_{22}^{-1} (x_2 - \mu_2) \end{aligned} \end{equation*} \] 故指数部分 \[ \begin{equation*} \begin{aligned}&-\cfrac{1}{2} \left( \begin{array}{} x_1^\mathrm{T} - \mu_1^\mathrm{T} & x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \left( \begin{array}{} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{array} \right)^{-1} \left( \begin{array}{} x_1 - \mu_1 \\ x_2 - \mu_2 \end{array} \right) +\cfrac{1}{2} \left( \begin{array}{} x_2^\mathrm{T} - \mu_2^\mathrm{T} \end{array} \right) \Sigma_{22}^{-1} \left( \begin{array}{} x_2 - \mu_2 \end{array} \right)\\ =& -\cfrac{1}{2} \left( x_1^{\mathrm{T}} - \mu_1^{\mathrm{T}} - (x_2^{\mathrm{T}} - \mu_2^{\mathrm{T}}) \Sigma_{22}^{-1}\Sigma_{21} \right) \left( \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \right)^{-1} \left( x_1 - \mu_1 - \Sigma_{12}\Sigma_{22}^{-1} (x_2 - \mu_2) \right)\\ =& -\cfrac{1}{2} \left( x_1 - \mu_{1|2} \right)^{\mathrm{T}} \Sigma_{1|2}^{-1} \left( x_1 - \mu_{1|2} \right) \end{aligned} \end{equation*} \] 即 \[ f_{\mathbb{X}_1|\mathbb{X}_2}(x_1|x_2) = \cfrac{f_{\mathbb{X}_1,\mathbb{X}_2}(x_1, x_2)}{f_{\mathbb{X}_2}(x_2)} = c\exp\left( -\cfrac{1}{2} \left( x_1 - \mu_{1|2} \right)^{\mathrm{T}} \Sigma_{1|2}^{-1} \left( x_1 - \mu_{1|2} \right)\right) \] 其中 \[ c=\cfrac{c_1}{c_2}, \\ \mu_{1|2} = \mu_1 + \Sigma_{12}\Sigma_{22}^{-1} (x_2 - \mu_2) = E(X_1|X_2),\\ \Sigma_{1|2} = \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \]
现在我们来看看这有什么含义。
常数项\(c\)不用说了。
\(\mu_{1|2} = \mu_1 + \Sigma_{12}\Sigma_{22}^{-1} (x_2 - \mu_2) = E(X_1|X_2)\)指的是,本来在没有已知条件的情况下,对\(X_1\)的期望估计就是纯纯的\(\mu_1\),现加入估计\(X_2\),代表我们有一定的先验信息,那么第二项\(\Sigma_{12}\Sigma_{22}^{-1} (x_2 - \mu_2) = E(X_1|X_2)\)代表的是这一信息对\(\mu_1\)的调整,其可以认为是随机变量\(X_1\)在\(X_2\)方向的投影。\(\Sigma_{12}\Sigma_{22}^{-1}\)则可以认为是两个随机变量的夹角,意味着两个随机变量的相关,如果这个相关性越强,那么先验信息\(X_2\)对结果的影响就越大。在高斯分布的前提下,这样的调整实际上是一种最优的调整。下面我们来说明其为何最优。 现在我们有先验信息\(X_2\),我们要估计在这样的先验信息下\(X_1\)的最优估计。为简化计算,我们假设它们都是均值为\(0\)的高斯分布。
最优线性估计\(X_1\leftarrow X_2\) \[ \min_\alpha E\left((X_1 - \alpha X_2)^2\right) \] 得到的\(\alpha = \cfrac{E(X_1X_2)}{E(X_2^2)}\)就是投影。这里不用证明了,各个学科都证明太多次了。
最优估计\(X_1\leftarrow X_2\) \[ \min_gE\left( (X_1 - g(X_2))^2 \right) \] 实际上,在高斯分布的前提下,上面的最优线性估计就是最优估计了,即\(g\)就是概率期望函数,\(g(X_2) = E(X_1|X_2)\)。这是因为 \[ \begin{equation*} \begin{aligned} E\left( (X_1 - g(X_2))^2 \right) & = E\left( (X_1 -E(X_1|X_2) + E(X_1|X_2) - g(X_2))^2 \right) \\ & = E\left( ((X_1 -E(X_1|X_2))^2 \right) + E\left((E(X_1|X_2) - g(X_2))^2 \right)\\ & + 2E\left( (X_1 -E(X_1|X_2)) (E(X_1|X_2) - g(X_2)) \right) \end{aligned} \end{equation*} \] 得到的第三项 \[ E\left( (X_1 -E(X_1|X_2)) (E(X_1|X_2) - g(X_2)) \right) = E_{X_2} \left(E_{X_1}\left( (X_1 - E(X_1|X_2) ) ( E(X_1|X_2) - g(X_2) ) |X_2 \right)\right) \] 其中 \[ \begin{equation*} \begin{aligned}E_{X_1}\left((X_1 - E(X_1|X_2) ) ( E(X_1|X_2) - g(X_2) ) |X_2 \right) & = ( E(X_1|X_2) - g(X_2) )E_{X_1}\left((X_1 - E(X_1|X_2) ) |X_2 \right) \\ & = ( E(X_1|X_2) - g(X_2) )(E(X_1 |X_2) - E(X_1|X_2) )\\ & = 0 \end{aligned} \end{equation*} \] 这意味着, \[ E\left( (X_1 - g(X_2))^2 \right) = E\left( ((X_1 -E(X_1|X_2))^2 \right) + E\left((E(X_1|X_2) - g(X_2))^2 \right) \] 而第二项作为平方项的期望是非负的,故对于任意的\(g\),都有 \[ E\left( (X_1 - g(X_2))^2 \right) \geq E\left( ((X_1 -E(X_1|X_2))^2 \right) \] 至此,上面的结论得证了。
\(\Sigma_{1|2} = \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\)表示的是加入先验信息后新估计的协方差矩阵,是大于零(正定)的。这是显然的,因为是协方差矩阵嘛,不过同时这可以直接从Cauthy-Schwarz不等式直接导出。另外不难看出第二项也是正定的,也就是说,新的协方差矩阵一定会比有先验信息之前的\(\Sigma_{11}\)更小。从信息的角度上来讲,这是因为引入先验信息后,随机变量的熵一定是减小的,这也是符合直觉的。