0%

随机过程笔记:高斯过程(1)

高斯过程是非常重要的一类随机过程,其应用在各领域都非常广泛。本文介绍了高斯过程的定义,并通过几个例子说明了高斯过程在不同学科领域的重要地位。本文属于随机过程笔记,根据清华大学电子工程系张颢副研究员的随机过程线上课程笔记整理而成,这是课程链接

高斯过程的定义

对于随机过程\(X(t)\),如果有 \[ \forall n,\ \forall t_1\leq t_2\leq \cdots\leq t_n, \\s.t.\ \mathbb{X} = (X(t_1), X(t_2), \cdots,X(t_n))^\mathrm{T} \sim N(\mu, \Sigma) \] 则称\(X(t)\)是高斯过程。

举例:

  1. \(n=1\)时, \[ f_X(x) = \cfrac{1}{\sqrt{2\pi}\sigma} \exp\left(-\cfrac{(x-\mu)^2}{2\sigma ^2}\right) \]

  2. \(n=2\)时, \[ f_\mathbb{X}(x_1,x_2) = \cfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \exp\left(-\cfrac{1}{2(1-\rho^2)}\left( \cfrac{(x_1-\mu_1)^2}{\sigma_1 ^2} - \cfrac{2\rho(x_1 - \mu_1)(x_2 - \mu_2)}{\sigma_1 \sigma_2} + \cfrac{(x_2-\mu_2)^2}{\sigma_2 ^2} \right) \right) \] 其中,\(\mu_k, \sigma_k\)\(X_k\)的均值和方差\((k=1,2)\)\(\rho = E\left( (X_1-\mu_1)(X_2-\mu_2) \right)\)

  3. 一般化的\(n\)时,需要用到矩阵-向量的语言来描述问题: \[ f_\mathbb{X}(x) = \cfrac{1}{(2\pi) ^ \frac{n}{2} (\det\Sigma) ^ \frac{1}{2}} \exp \left( -\cfrac{1}{2}(x-\mu)^\mathrm{T}\Sigma^{-1} (x-\mu) \right) \] 其中,\(x,\mu \in \mathbb{R}^n\)\(n\)维向量,\(\mu\)代表均值;\(\Sigma \in \mathbb{R}^{n\times n}\)是协方差矩阵,\(\Sigma = E\left((x-\mu)(x-\mu)^\mathrm{T}\right)\)

高斯过程的意义

高斯过程是自然界中最为常见、最为普遍的一类随机过程。接下来将用三个例子说明其重要意义。

中心极限定理(Central Limit Theorem, CLT)与大数定律(Law of Large Numbers, LLN)

中心极限定理表述为:

\(n\)个独立同分布的随机变量\(X_1, X_2, \cdots, X_n\),假定他们均值和方差都是\(E(X_k) = 0,\ Var(X_k) = 1\),那么当\(n\)趋于\(\infty\)时,这些随机变量之和与\(\sqrt{n}\)的比值是趋于高斯分布的。即 \[ \lim_{n\rightarrow \infty} \cfrac{X_1 + X_2 + \cdots +X_n}{\sqrt{n}} \sim N(0,1) \]

要验证这个定理,我们首先介绍一个非常常用的工具:特征函数

定义随机变量\(X\)的特征函数 \[ \Phi_X(\omega) = E\left((\exp(i\omega X)\right) \]

忽略系数而言,显然,特征函数\(\Phi_X(\omega) = E(\exp(i\omega X)) = \int _{-\infty}^{+\infty}\exp(i\omega x)f_X(x)\mathrm{d}x\)\(f_X\)的傅里叶逆变换。因此,同分布的随机变量与其特征函数是一一对应的。同时,由于傅里叶变换的性质我们可以得到,由于\(f_X \geq 0\),特征函数\(\Phi_X\)是正定的。

有了特征函数这样一个工具,我们可以来验证中心极限定理了。现有\(n\)个独立同分布的随机变量\(X_1, X_2, \cdots, X_n\),假定他们均值和方差都是\(E(X_k) = 0,\ Var(X_k) = 1\)(这里的假定只是为了简化后面的书写,并不影响该问题的本质),又有随机变量\(Y=X_1 + X_2 + \cdots + X_n = \sum_{k=1}^{n}X_k\),于是\(Y\)的特征函数为

\[ \begin{equation*} \begin{aligned} \Phi_Y(\omega) & = E\left(\exp\left( i\omega Y \right)\right) \\ & = E\left(\exp\left( i\omega \sum_{k=1}^{n} X_k \right)\right) \\ & \overset{\text{(i.i.d)}}{=} E\left(\prod_{k=1}^{n} \exp\left( i\omega X_k \right) \right) \\ & = \prod_{k=1}^n \Phi_{X_k}\left(\omega \right) \\ & = \left(\Phi_X(\omega)\right) ^n \end{aligned} \end{equation*} \]

其中,由于\(X_k,\ k=1,2,\cdots,n\)独立同分布,他们的特征函数一样,\(\Phi_{X_k}(\omega) = \Phi_X(\omega),\ x=1,2,\cdots, n\),又有 \[ \begin{equation*} \begin{aligned} \Phi_{\frac{Y}{\sqrt{n}}}(\omega) & = E\left(\exp\left( i\omega \cfrac{Y}{\sqrt{n}} \right)\right) \\ & = E\left(\exp\left( i \cfrac{\omega}{\sqrt{n}} Y \right)\right) \\ & = \Phi_Y \left(\cfrac{\omega}{\sqrt{n}} \right) \\ & = \left(\Phi_X(\cfrac{\omega}{\sqrt{n}})\right) ^n \end{aligned} \end{equation*} \] 其中 \[ \begin{equation*} \begin{aligned} \Phi_X(\cfrac{\omega}{\sqrt{n}}) & = E\left(\exp\left( i\omega \cfrac{X}{\sqrt{n}} \right)\right) \\ & \overset{\text{(taylor)}}{=} E\left( 1 + i\omega\cfrac{X}{\sqrt{n}} + \cfrac{1}{2} \left( i\omega \cfrac{X}{\sqrt{n}} \right)^2 +o\left(\cfrac{1}{n}\right)\right) \\ & = 1 + i\omega\cfrac{E(X)}{\sqrt{n}} - \cfrac{1}{2} \omega^2 \cfrac{E(X^2)}{n} + o\left(\cfrac{1}{n}\right) \\ & = 1 - \cfrac{\omega^2}{2n} + o\left(\cfrac{1}{n}\right) \end{aligned} \end{equation*} \]

复习一个重要极限: \[ \lim_{n\rightarrow \infty} \left( 1 + \cfrac{a}{n} + o\left(\cfrac{1}{n}\right) \right)^n = \exp(a) \]

现在将\(n\)趋于\(\infty\),有 \[ \lim_{n\rightarrow\infty} \Phi_{\frac{Y}{\sqrt{n}}}(\omega) = \lim_{n\rightarrow\infty} \left(\Phi_X(\cfrac{\omega}{\sqrt{n}})\right) ^n = \lim_{n\rightarrow\infty} \left(1 - \cfrac{\omega^2}{2n} + o\left(\cfrac{1}{n}\right)\right)^n = \exp\left(-\cfrac{\omega^2}{2} \right) \] 那么高斯分布的特征函数是怎样的呢?下面进一步分析。

对于均值为\(m\),方差为\(\sigma^2\)的高斯分布\(X\),其概率密度函数为

\[ f_X (x)= \cfrac{1}{\sqrt{2\pi} \sigma} \exp\left( -\cfrac{(x-m)^2}{2\sigma^2} \right) \]

于是,根据定义,\(X\)的特征函数为 \[ \begin{equation*} \begin{aligned} \Phi_X(\omega) & = \int_{-\infty}^{+\infty} \exp(i\omega x)f_X(x)\mathrm{d}x \\ & = \int_{-\infty}^{+\infty} \cfrac{1}{\sqrt{2\pi} \sigma} \exp\left( -\cfrac{(x-m)^2}{2\sigma^2} + i\omega x \right) \mathrm{d}x \\ & = \int_{-\infty}^{+\infty} \cfrac{1}{\sqrt{2\pi} \sigma} \exp\left( -\cfrac{1}{2\sigma ^2} \left(x - i\omega \sigma ^2 - m\right)^2 + im\omega - \cfrac{1}{2} \omega^2\sigma^2 \right) \mathrm{d}x \\ & = \exp\left(im\omega - \cfrac{1}{2} \omega^2\sigma^2 \right) \cfrac{1}{\sqrt{2\pi} \sigma} \int_{-\infty}^{+\infty} \exp\left( -\cfrac{1}{2\sigma ^2} \left(x - i\omega \sigma ^2 - m\right)^2 \right) \mathrm{d}x \\ & = \exp\left(im\omega - \cfrac{1}{2} \omega^2\sigma^2 \right) \end{aligned} \end{equation*} \] 可以看出,高斯分布的特征函数仍是高斯的形状。令均值\(m=0\),方差\(\sigma ^2=1\),就得到\(\Phi_X(\omega) = \exp\left( -\cfrac{\omega^2}{2} \right)\)。因此,刚才得到的\(\lim\Phi_Y\)是标标准准的高斯分布的特征函数。至此,中心极限定理就证明出来了。

进一步地,我们看看大数定律。大数定律表述为

\(n\)个独立同分布的随机变量\(X_1, X_2, \cdots, X_n\),假定他们均值都是\(E(X_k) = m\),那么当\(n\)趋于\(\infty\)时,这些随机变量之和与\(n\)的比值趋于一个确定的值,这个值就是均值\(m\)。即 \[ \lim_{n\rightarrow \infty} \cfrac{X_1 + X_2 + \cdots +X_n}{n} = m \]

这个定律的验证与中心极限定理类似,不过由于分母是\(n\),后续的泰勒展开就只需要展开到一阶即可 \[ \begin{equation*} \begin{aligned} \Phi_X(\cfrac{\omega}{n}) & = E\left(\exp\left( i\omega \cfrac{X}{n} \right)\right) \\ & \overset{\text{(taylor)}}{=} E\left( 1 + i\omega\cfrac{X}{n} + o\left(\cfrac{1}{n}\right)\right) \\ & = 1 + i\omega\cfrac{E(X)}{n} + o\left(\cfrac{1}{n}\right) \\ & = 1 + \cfrac{i\omega m}{n} + o\left(\cfrac{1}{n}\right) \end{aligned} \end{equation*} \] 进而 \[ \begin{equation*} \begin{aligned} \lim_{n\rightarrow\infty} \Phi_{\frac{Y}{n}}(\omega) & = \lim_{n\rightarrow\infty} \left(\Phi_X(\cfrac{\omega}{n})\right) ^n \\ & = \lim_{n\rightarrow\infty} \left(1 + \cfrac{i\omega m}{n} + o\left(\cfrac{1}{n}\right)\right)^n \\ & = \exp\left(i\omega m \right) \\ & = \Phi_m(\omega) \end{aligned} \end{equation*} \] 得到的是常函数m的特征函数,至此,大数定律就证明结束了。

随机扩散(Random Diffusion)模型

为简化计算,考虑一维情况。现有一维随机扩散模型,用\(f(x,t)\)表示在\(t\)时刻,\(x\)处粒子出现的概率密度。初始化条件为\(f(0,0)=1\),求\(f(x,t)\)的一般表达式。

首先建立模型,用\(\rho(y)\)表示在\(t=\tau\)时位置\(y\)处的粒子出现的概率密度,即\(\rho(y) = f(y,\tau)\),显然,\(\rho(y)\geq0,\ \int_{-\infty}^{+\infty} \rho(y)\mathrm{d}y = 1\)。自然地,还可以有这样两个假设:

  1. \(\rho(-y) = \rho(y)\)
  2. \(\int_{-\infty}^{+\infty} y\rho(y)\mathrm{d}y = 0\)

于是,不难理解, \[ f(x,t+\tau) = \int_{-\infty}^{+\infty} f(x-y, t)\rho(y)\mathrm{d}y \] 方程左右的\(f\)\((x,t)\)处分别对\(x,\ t\)展开,于是 \[ f(x,t) + \cfrac{\partial{f}}{\partial{t}} \tau = \int_{-\infty}^{+\infty} \left( f(x,t) - \cfrac{\partial{f}}{\partial{x}} y + \cfrac{1}{2}\cfrac{\partial^2{f}}{\partial{x^2}} y^2 \right) \rho(y)\mathrm{d}y \] 带入上面条件,积分化简得 \[ \cfrac{\partial{f}}{\partial{t}} \tau = \cfrac{1}{2} \cfrac{\partial^2{f}}{\partial{x^2}} \int_{-\infty}^{+\infty}y^2\rho(y)\mathrm{d}y \]\[ c = \cfrac{1}{2\tau}\int_{-\infty}^{+\infty}y^2\rho(y)\mathrm{d}y \] 上面方程则写作 \[ \cfrac{\partial{f}}{\partial{t}} = c \cfrac{\partial^2{f}}{\partial{x^2}} \] 这个偏微分方程被称为扩散方程(diffusion equation),其解(解法略,很常见的一类微分方程)为 \[ f(x,t) = \cfrac{1}{\sqrt{2\pi ct}} \exp(-\cfrac{x^2}{2ct}) \] 回到模型,可以看出,对于任一时间\(t\),粒子在全空间(模型假设是一维空间,无伤大雅)上密度是标标准准的高斯分布。

最大熵(Maximum Entropy)

对于随机过程\(X\),其概率密度分布函数为\(f_X(x)\),定义\(X\)的熵函数\(H(X)\)

\[ H(X) = -\int_{-\infty}^{+\infty} f_X(x) \log f_X(x) \mathrm{d}x \]

\(H(X)\)反映的是随机过程\(X\)的“无序度”,通俗地说,就是这个随机过程究竟有多“随机”。

现在我们考察,定义在\((-\infty, +\infty)\)上的,确定一阶矩\(E(X)=\mu\),二阶矩\(E(X^2) = \sigma^2\)的随机过程\(X\),要满足怎样的分布才能让自己是最“随机”的,即熵最大。

\(X\)的概率密度函数显然满足 \[ \int_{-\infty}^{+\infty}f_X(x)\mathrm{d}x - 1 = 0 \\ \int_{-\infty}^{+\infty}xf_X(x)\mathrm{d}x - \mu = 0 \\ \int_{-\infty}^{+\infty}x^2f_X(x)\mathrm{d}x - \sigma^2 =0 \\ \] 将这些等式视为约束条件,构建拉格朗日函数 \[ \begin{equation*} \begin{aligned} \mathscr{L}(f_X(x)) = & -\int_{-\infty}^{+\infty} f_X(x) \log f_X(x) \mathrm{d}x \\ & + \lambda_1\left(\int_{-\infty}^{+\infty}f_X(x)\mathrm{d}x - 1\right) \\ & + \lambda_2\left(\int_{-\infty}^{+\infty}xf_X(x)\mathrm{d}x - \mu\right) \\ & + \lambda_3\left(\int_{-\infty}^{+\infty}x^2f_X(x)\mathrm{d}x - \sigma^2\right) \end{aligned} \end{equation*} \] 现在要求得一个\(f_X\),使得\(\mathscr{L}\)取极大值。注意,不同于普通的拉格朗日乘子法,这里待求得是一个函数\(f\)而非自变量\(x\),普通得求导显然不可用,那么要如何做到呢?这里我们利用泛函分析里一个重要工具:变分法(funtional variational method)。

我们假定待求\(f\)的最优解是\(f_0\),并且构造一元函数

\[ G(t) = \mathscr{L}(f_0 + tg) \]

其中\(g\)是与\(f\)自变量一致的任意函数。由于\(f_0\)是待求\(f\)的最优解,有 \[ G(0) = \mathscr{L}(f_0) \geq \mathscr{L}(f_0 + tg) = G(t) \]

\(G(0)\)\(G(t)\)的最大值,故有

\[ \left.\cfrac{\partial}{\partial{t}}G(t)\right|_{t=0} = 0 \]

代入\(G(t) = \mathscr{L}(f_0 + tg)\)

\[ \begin{equation*} \begin{aligned} \left.\cfrac{\partial}{\partial{t}}G(t)\right|_{t=0} = & \cfrac{\partial}{\partial{t}}\left(-\int_{-\infty}^{+\infty} (f+tg) \log (f+tg) \mathrm{d}x \right.\\ & + \left.\lambda_1\left(\int_{-\infty}^{+\infty}(f+tg)\mathrm{d}x - 1\right) \right.\\ & + \left.\lambda_2\left(\int_{-\infty}^{+\infty}x(f+tg)\mathrm{d}x - \mu\right) \right.\\ & + \left.\left.\lambda_3\left(\int_{-\infty}^{+\infty}x^2(f+tg)\mathrm{d}x - \sigma^2\right) \right)\right|_{t=0} \\ = & \int_{-\infty}^{+\infty} g\left( -\log{f} + (\lambda_1 - 1) + \lambda_2x + \lambda_3x^2 \right) \mathrm{d}x\\ = & 0 \end{aligned} \end{equation*} \]

由于\(g\)是任意的函数,因此被积函数中,必然有 \[ -\log{f} + (\lambda_1 - 1) + \lambda_2x + \lambda_3x^2 \equiv 0 \] 于是 \[ f = f_X(x) = \exp\left( \lambda_3 x^2 + \lambda_2 x + \lambda_1 - 1 \right) \] 这是标标准准的高斯概率密度函数,因此随机过程\(X\)是高斯过程时,其熵最大。

实际上,\(\lambda_1,\lambda_2,\lambda_3\)显然是可以解的,虽然过程有点复杂,但结果确确实实是 \[ f_X(x) = \cfrac{1}{\sqrt{2\pi}\sigma}\exp\left( -\cfrac{(x-\mu)^2}{2\sigma^2} \right) \]

上面考虑的是双边无界条件。实际上,如果我们考虑单边无解或者双边有界情况的话,情况会有所不同。

  1. \(x\in [0,+\infty)\),此时只需要约束一阶矩\(\int_{-\infty}^{+\infty}xf_X(x)\mathrm{d}x - \mu = 0\),最大熵的\(f\)为指数分布: \[ f_X(x) = \lambda \exp\left( -\lambda x \right) I_{[0,+\infty)}(x) \]

  2. \(x\in[a,b]\),此时不需要对矩有所约束,最大熵的\(f\)为均匀分布: \[ f_X(x) = \cfrac{1}{b-a} \]