随机微积分入门：理解 Wiener 过程与 Itô 引理

An Introduction to Stochastic Calculus

Source | HN Comments

这篇文章是关于随机微积分的入门介绍，它将常规微积分扩展到随机过程。文章首先从概率论的测度论定义入手，介绍了概率空间、随机变量等基础概念，为理解随机微积分奠定基础。随后，文章重点阐述了随机过程、Wiener过程、Itô微积分等核心概念，并探讨了它们在金融领域的应用，如Black-Scholes-Merton期权定价模型。文章强调了随机微积分在处理随机波动和噪声方面的作用，并以Langevin方程为例说明了其应用。

随机微积分入门

Brian Keng 2022-09-11 21:05 Source

通过几个不同的途径，我再次深入了一个导致本文主题的兔子洞。第一个途径是我主要关注的某个机器学习主题，它利用了物理学的一些概念，这自然而然地引导我学习了随机微积分。第二个途径是通过在定量金融领域的一些工作项目，而定量金融是随机微积分的主要应用之一。天真地，我以为我可以写一篇关于它的简短文章来满足我的好奇心 -- 结果完全不是这样！结果就是这篇超长的文章。

这篇文章是关于随机微积分的，它是常规微积分向随机过程的扩展。虽然这不那么显而易见，但要真正理解一些关键思想所需的严谨性需要回到概率论的测度论定义，所以这就是我在背景部分开始的地方。从那里，我迅速地转向随机过程、Wiener 过程、一种特殊的随机微积分，即 Itô 微积分，最后以几个应用结束。像往常一样，我试图包含直觉、在有助于直觉的地方保持严谨，以及一些简单的例子。这是一个深刻而广泛的主题，我希望你喜欢我对它的摘要。

1 Motivation

许多物理现象（以及金融现象）可以被建模为一个随机过程，它使用一个随机微分方程来描述。这两种东西可能都没有包含在大多数关于概率或微积分的入门课程中。从随机过程开始，最容易想到的方法是将其视为由时间索引的随机变量的集合。因此，在每个时间 \(t\) ，我们不再有一个单一的确定性值，而是有一个随机变量（通常与其他随机变量具有某种关系或共同属性）。因此，尽管表面上看起来相对简单，但我们遇到的一个主要复杂性是当我们让 \(t\) 是连续的时，我们将在后面详细看到这一点。

定义在连续时间上的随机微分方程是建模许多不同现象的一种非常自然的方式。一个常见的随机微分方程，称为 Langevin equation，用于建模许多类型的随机现象：

\begin{equation*} \frac{dX(t)}{dt} = \alpha(X, t) + \beta(X, t)\eta(t) \tag{1.1} \end{equation*}

其中 \(X(t)\) 是一个随机过程，\(\alpha, \beta\) 可以是 \(X\) 和时间 \(t\) 的函数，以及一个噪声项 \(\eta(t)\)。噪声项通过引入一种特殊的随机性使这个微分方程变得特殊。虽然这只是一个例子，但它的确具有许多在随机微积分的其他应用中出现的特征。

直观地，噪声项 \(\eta(t)\) 代表“随机波动”，例如粒子与流体中其他分子的随机碰撞，或股票价格的随机波动。为了精确地描述这些“随机波动”，我们首先必须指定它们的一些特征，例如它们的时间相关性函数：

\begin{equation*} C(\tau) = E[\eta(0)\eta(\tau)] = \lim_{T\to\infty} \frac{1}{T} \int_0^T \eta(t)\eta(t+\tau) dt \tag{1.2} \end{equation*}

它应该是 \(\tau\) 的递减函数，因为它们是随机波动，不应该有持久的影响。但这可能会相对迅速地变得混乱，所以我们通常会寻找更清晰的抽象来描述这些系统。

通常使用的假设是随机波动根本不相关。如果感兴趣的时间尺度远大于随机波动，则可以证明这是合理的。从这个假设，我们有：

\begin{equation*} E[\eta(0)\eta(\tau)] = c\delta(\tau) \tag{1.3} \end{equation*}

其中 \(c\) 是一个常数，\(\delta(\tau)\) 是 Dirac delta 函数。这意味着即使对于无穷小的时间尺度，随机波动也完全不相关。另一个相应的假设是在每个时间步 \(t\)，随机变量 \(\eta(t)\) 是一个零均值高斯分布。

在某些方面，\(\eta(t)\) 简化了事情；在其他方面，它使事情变得更加复杂。首先要注意的是 \(\eta(t)\) 是一个理论构造 -- 没有随机过程可以具有其属性。我们可以从等式 1.3 中看到这一点，我们在其中使用了理论上的 Dirac delta 函数。这也意味着 \(\eta(t)\) 的方差是无限的（\(C(\tau=0)\)）。这种构造还具有所有频率的平坦功率谱密度，这意味着无限带宽信号（参见 Wikipedia），这再次在物理上是无法实现的。

这个定义的另一个结果是 \(\eta(t)\) 在任何地方都是不连续的。\(\eta(t)\) 的值在稍后的一个小时间增量（\(\eta(t + dt)\)）可能会完全不同。这使得简单的操作（如积分）变得更加困难。回到等式 1.1 中的随机微分方程，我们可以乘以 \(dt\) 并积分两边以尝试得到：

\begin{equation*} X(T) = X(0) + \int_0^T \alpha(X, t)dt + \int_0^T \beta(X, t)\eta(t)dt \tag{1.4} \end{equation*}

右侧的第一个积分是一个标准的积分，通常我们知道如何使用微积分工具来解决。第二个涉及 \(\eta(t)\) 的积分是我们遇到问题的地方。正是这个问题催生了一个新的数学分支，称为 *随机微积分 *，这也是本文的主题。

2 Stochastic Processes

2.1 Probability Spaces & Random Variables

（注意：如果你已经熟悉概率的测度论定义，请跳过这部分。）

我们将深入研究概率的测度论定义，试图给出一些直觉，同时仍然保持一定程度的严谨性。首先，让我们检查一下 概率空间 \((\Omega, {\mathcal {F}}, P)\) 的定义。这与你在第一门概率课程中学到的基本思想相同，只是使用了更复杂的数学。

\(\Omega\) 是 样本空间 ，它定义了实验所有可能结果的集合。在有限样本空间中，样本空间的任何子集都称为事件。考虑事件的另一种方法是你想要测量概率的对象的任何分组（例如，\(\Omega\) 的单个元素、元素的并集，甚至空集）。

但是，当我们有某些类型的无限样本空间（例如，实数线）时，这种类型的推理就会失效。为此，我们需要使用称为 \(\sigma\)-代数（“sigma algebra”）的构造，用 事件空间 \(\mathcal{F} \subseteq 2^{\Omega}\) （\(2^{\Omega}\) 表示幂集）更精确地定义一个事件：

设 \(\Omega\) 是一个非空集合，\(\mathcal{F}\) 是 \(\Omega\) 的子集的集合。我们说 \(\mathcal{F}\) 是一个 \(\sigma\)-代数：如果：

空集属于 \(\mathcal{F}\)。

每当集合 \(A\) 属于 \(\mathcal{F}\) 时，它的补集 \(A^c\) 也属于 \(\mathcal{F}\) （在补集下封闭）。

每当集合序列 \(A_1, A_2, \ldots\) 属于 \(\mathcal{F}\) 时，它们的并集 \(\cup_{n=1}^{\infty} A_n\) 也属于 \(\mathcal{F}\) （在可数并集下封闭 -- 意味着在可数交集下封闭）。

\(\sigma\)-代数的元素称为可测集，并且这对 \((\Omega, \mathcal{F})\) 定义了一个可测空间。

因此，我们希望我们的事件空间 \(\mathcal{F}\) 是一个 \(\sigma\)-代数，并且当与 \(\Omega\) 结合时，定义一个可测空间。这听起来很复杂，但它基本上保证了我们用于事件的 \(\Omega\) 的子集具有我们期望从概率中获得的所有好的属性。

直观地，可测空间通过定义“体积”的“块”来帮助精确地定义“大小”或“体积”的概念。使用物理类比，你想确保无论你如何组合非重叠的“块”（即，不相交集合的并集），你最终都会得到一致的“体积”测量。同样，这只有在无限（不可数）集合中才真正需要。对于有限事件空间，我们通常可以使用幂集 \(2^{\Omega}\) 作为事件空间，它具有上述所有这些属性。

这就把我们带到了概率空间的最后一部分：

事件空间 \(\mathcal{F}\) 上的 概率测度 \(P\) 是一个函数，它：

将事件映射到单位区间 \([0, 1]\)，

对于空集返回 \(0\)，对于整个空间返回 \(1\)，

满足所有成对不相交集合的可数集合 \(\{E_i\}\) 的可数可加性：

\begin{equation*} P(\cup_{i\in I} E_i) = \Sigma_{i\in I} P(E_i) \tag{2.1} \end{equation*}

这些属性应该看起来很熟悉，因为它们是每个人在首次学习概率时学到的三个基本公理。唯一的区别是我们正在形式化它们，特别是最后一个，我们可能没有看到它与无限事件集合有关。

回到上面的“体积”类比，概率测度以一致的方式将我们的“体积”的“块”映射到 \([0,1]\) （或一般测度的非负实数）。由于我们已经将事件空间定义为 \(\sigma\)-代数，并结合等式 2.1 中的第三个条件，无论我们如何组合“块”，我们都会得到一致的“体积”测量。同样，对于有限样本空间，想象这个函数并不太难，但对于连续样本空间，它变得更加复杂。所有这些本质上都是为了定义一个严格的构造，该构造与我们对具有样本空间、事件和概率的基本概率的直觉相匹配。

最后，对于给定的概率空间 \((\Omega, {\mathcal {F}}, P)\)：

随机变量 \(X\) 1 是一个可测函数 \(X:\Omega \rightarrow E \subseteq \mathbb{R}\)，其中：

\(X\) 必须是可测空间的一部分，\((E, \mathcal{S})\) （回想一下：\(\mathcal{S}\) 在集合 \(E\) 上定义一个 \(\sigma\)-代数）。对于 \(X\) 的有限或可数无限值，我们通常使用 \(E\) 的幂集。否则，我们通常使用 Borel set 用于不可数无限集合（例如，实数）。

对于所有 \(s \in \mathcal{S}\)，\(X\) 下的 \(s\) 的原像在 \(\mathcal{F}\) 中。更准确地说：

\begin{equation*} \{X \in \mathcal{s}\} \in \mathcal{F} := \{\omega \in \Omega | X(\omega) \in s\} \in \mathcal{F} \tag{2.2} \end{equation*}

我们使用随机变量将事件从我们的事件空间映射到实数线（例如，一个用于抛硬币的 RV，其中正面映射到 1，反面映射到 0）。但是，该映射也必须具有与我们上面定义的相同的一致性。因此，这个定义基本上确保了 \(X\) 可以采用的每个值（必须是可测的）都有一个映射到我们原始事件空间 \(\mathcal{F}\) 中的一个可测事件。我们使用符号 \(\sigma(X)\) 来表示等式 2.2 的所有子集的集合，这些子集形成了随机变量 \(X\) 暗示的 \(\sigma\)-代数。

如果我们没有这个条件，那么要么：（a）我们无法正确测量 \(X\) 的“体积”，因为我们的“块”将不一致（约束 1），要么（b）我们将无法将其映射回原始概率空间中的“块”并应用 \(P\) 来评估随机变量的概率。如果这一切看起来有点抽象，那确实是，但这就是我们在处理不可数无穷时所需要的。同样，对于有限情况，所有这些属性都得到了平凡的满足。

使用概率测度 \(P\)，可以使用等式 2.2 计算 \(X \in \mathcal{S}\) 的概率：

\begin{align*} P(X \in s) &= P(\{\omega \in \Omega | X(\omega) \in s \}) \\ &= P(f \subseteq \mathcal{F}) \tag{2.3} \end{align*}

其中 \(s \subseteq \mathcal{S}\) 并且 \(f\) 是 \(\mathcal{F}\) 中的相应事件。我们可以取 \(s = \{x\}\) 以评估特定值的随机变量。等式 2.3 基本上说明我们使用函数 \(X\) 的逆从一组实数（\(s\)）向后映射到样本空间中的一组值（即，由等式 2.2 给出的事件）。从我们的事件空间 \(f \subseteq \mathcal{F}\) 中的事件，我们知道如何使用 \(P\) 计算概率。

因此，随机变量允许我们从原始样本空间（\(\Omega\)）映射到实数。通常，我们的样本空间没有数字的概念（例如，正面或反面），但是随机变量允许我们将实数分配给这些事件，以计算诸如期望值和方差之类的东西。

对于概率的许多应用，理解以上内容是过度的。概率的大多数从业者都可以通过学习概率的“第一阶段”（参见下面的框）来摆脱困境。但是，特别是对于随机微积分，以上内容有助于我们超越肤浅的层次（可以说是）学习它，因为我们很快就会遇到我们需要了解不可数无穷的数学严谨性的情况。

示例 1：样本空间、事件、概率测度和随机变量

（来自 Wikipedia）

假设我们有一副标准的 52 张牌，没有任何小丑，我们的实验是从这组牌中随机抽一张牌。样本空间 \(\Omega\) 是由 52 张牌组成的集合。事件 \(A \subseteq \mathcal{F}\) 是 \(\Omega\) 的任何子集，即，幂集 \(\mathcal{F} = 2^{\Omega}\)。因此，这将包括空集、任何单个元素，甚至整个样本空间。一些事件的示例：

“同时是红色和黑色的牌”（0 个元素）
“红桃 5”（1 个元素）
“一个国王”（4 个元素）
“一张花牌”（12 个元素）
“一张牌”（52 个元素）

在每张牌被抽出的可能性相同的情况下，我们可以为事件 \(A\) 定义一个概率测度，如下所示：

\begin{equation*} P(A) = \frac{|A|}{|\Omega|} = \frac{|A|}{52} \tag{2.4} \end{equation*}

我们还可以定义一个随机变量：

\begin{equation*} X(\omega \in \Omega) = \begin{cases} 1 &\text{如果 } \omega \text{ 是红色的}\\ 0 &\text{否则} \end{cases} \tag{2.5} \end{equation*}

这是从我们的样本空间 \(\Omega\) 到实数 \(\{0, 1\}\) 的（有限）子集的映射。我们可以使用等式 2.3 计算概率，例如 \(X = 1\)：

\begin{align*} P(X \in \{1\}) &= P(\{\omega \in \Omega | X(\omega) \in \{1\} \}) \\ &= P(\{\omega | \omega \text{ 是一张红色的牌}\}) \\ &= \frac{|\{\text{所有红色的牌}\}|}{52} \\ &= \frac{1}{2} \\ \tag{2.6} \end{align*}

该随机变量暗示的 \(\sigma\)-代数可以定义为：\(\sigma(X) = \{ \emptyset, \text{"所有红色的牌"}, \text{"所有黑色的牌"}, \Omega \} \subset \mathcal{F}\)。

学习概率论的两个阶段

（灵感来自 [1] 中第 1 章的笔记）

概率论通常分两个阶段学习。第一阶段描述了具有概率质量函数的离散随机变量和具有密度的连续随机变量。我们学习从这些变量计算基本量，例如期望值、方差和条件概率。我们学习标准分布及其属性，以及如何操作它们，例如转换连续随机变量。这使我们能够完成概率的大多数标准应用，从基本的统计测试到似然函数。

概率论的第二阶段深入研究严格的测度论定义。在此定义中，人们将随机变量视为从样本空间 \(\Omega\) 到实数 \(\mathbb{R}\) 子集的函数。\(\Omega\) 的某些子集称为事件，所有可能的事件的集合形成 \(\sigma\)-代数 \(\mathcal {F}\)。\(\mathcal {F}\) 中的每个集合 \(A\) 具有概率 \(P(A)\)，由概率测度 \(P\) 定义。此定义以优雅的方式处理离散和连续变量。它还（正如你所期望的那样）引入了我们在第一阶段学到的结果背后的许多细节。例如，随机变量与分布不是同一件事（随机变量可以具有多个概率分布，具体取决于相关的概率测度）。我们经常没有想到的另一个怪癖是并非所有分布都具有密度函数（尽管我们研究的大多数分布都具有密度）。与应用数学中的许多事物一样，通常不需要理解严格的定义，因为大多数用法不会遇到重要情况下的极端情况（直到它不这样做为止）。深入研究也需要做很多工作，因此像我这样的大多数人都很高兴仅“在令人满意的程度上”理解它。

2.2 Stochastic Processes

以下是 [2] 中随机过程的正式定义：

假设 \((\Omega,\mathcal{F},P)\) 是一个概率空间，并且 \(T \subset \mathbb{R}\) 具有无限的基数。进一步假设对于每个 \(t \in T\)，都有一个在 \((\Omega,\mathcal{F},P)\) 上定义的随机变量 \(X_t: \Omega \rightarrow \mathbb{R}\)。由 \(X(t, \omega) = X_t(\omega)\) 定义的函数 \(X: T \times \Omega \rightarrow \mathbb{R}\) 称为具有索引集 \(T\) 的随机过程，并写为 \(X = \{X_t, t \in T\}\)。

太拗口了！让我们分解它并更直观地解释该定义。在上一小节中，我们已经看到了概率空间和随机变量。随机过程的第一层是我们有很多由某个集合 \(T\) 索引的随机变量。通常，\(T\) 是一些全序序列，例如实数线的子集（例如，\((0, \infty)\)）或自然数（例如，\(0, 1, 2, 3 \ldots\)），这直观地对应于连续时间和离散时间。

接下来，我们转向定义每个随机变量的概率空间 \((\Omega,\mathcal{F},P)\)。需要注意的关键是样本空间 \(\omega \in \Omega\) 的元素是无限集合，它们对应于在 \(T\) 中的每个索引处执行的实验。（注意：根据定义，它是无限的，否则它只是一个随机向量。）例如，在从 \(0\) 到 \(\infty\) 的每个（离散）时间抛掷硬币将定义一个特定的正面和反面的无限序列 \(\omega = \{H, T, H, H, H, T, \ldots\}\)。因此，每个随机变量 \(X_t\) 都可能取决于这个无限“实验”结果的整个序列。也就是说，\(X_t\) 是从无限实验的结果到（\mathbb{R}\) 子集的）映射：\(X_t: \Omega \rightarrow E \subseteq \mathbb{R}\)。重要的是要注意，在这个通用定义中，我们没有显式的时间概念，因此我们可以依赖于“未来”。为了包含我们通常的时间概念，我们需要一个额外的概念（参见下面的自适应过程）。

最后，我们可以将随机过程视为时间和样本空间的函数，而不是将随机过程视为由时间索引的随机变量的集合，即，\(X(t, \omega) = X_t(\omega)\)。对于给定的实验结果 \(\omega_0\)，生成的确定性函数 \(X(t, \omega=\omega_0)\) 称为 样本函数 。但是，我们大多数时候都喜欢认为它在每个时间步长都有一个随机变量，如符号 \(X = \{X_t, t \in T\}\) 所示。我们有时使用符号 \(X(t)\) 来引用时间 \(t\) 处的随机变量或随机过程本身。

随机过程可以根据随机变量的值的性质和/或索引集的性质进行分类：

离散值和连续值过程：如果 \(X(t)\) 在所有“时间”都取可数集合（即可映射到自然数的子集）中的值，则 \(X(t)\) 是离散的；否则 \(X(t)\) 是连续的。
离散时间过程和连续时间过程：如果索引集可数（即可映射到自然数的子集），则 \(X(t)\) 是离散时间过程，否则它是连续时间过程。

通常，连续时间过程更难分析，并且将是后面章节的重点。接下来的两个离散时间示例给出了一些关于如何将正式定义与具体随机过程匹配的直觉。

示例 2：Bernoulli 过程

最简单的随机过程之一是 Bernoulli 过程，它是一个离散值、离散时间过程。主要思想是 Bernoulli 过程是每个时间步长处独立且同分布的 Bernoulli 试验序列（想想抛硬币）。

更正式地，我们的样本空间 \(\Omega = \{ (a_n)_1^{\infty} : a_n \in \{H, T\} \}\) 是所有“正面”和“反面”的无限序列的集合。事实证明，事件空间和概率测度的出人意料地难以定义，因此我将这些细节放在附录 A 中。

我们可以定义给定无限抛掷结果 \(\omega\) 的随机变量：

\begin{equation*} X_t(\omega) = \begin{cases} 1 &\text{如果 } \omega_t = H\\ -1 &\text{否则} \end{cases} \tag{2.7} \end{equation*}

对于 \(\omega = \omega_1 \omega_2 \omega_3 \ldots\)，其中每个 \(\omega_i\) 是第 \(i^{th}\) 次抛掷的结果。对于所有 \(t\) 的值，概率 \(P(X_t = 1) = p\)，对于某个常数 \(p \in [0, 1]\)。

示例 3：一维对称随机游走

一个简单的一维对称随机游走是一个离散值、离散时间随机过程。一种简单的思考方式是：从 0 开始，在每个时间步长，抛掷一个均匀的硬币，如果正面朝上则向上移动 (+1)，否则向下移动 (-1)。

缩放对称随机游走

图 1：一维对称随机游走（来源）

这可以使用来自示例 2 的 Bernoulli 过程 \(X_t\) （\(p=0.5\)）（具有相同的概率空间）来定义：

\begin{equation*} S_t(\omega) = \sum_{i=1}^t X_t \tag{2.8} \end{equation*}

请注意，每个时间步长的随机变量都取决于 * 所有 * 先前的“硬币抛掷”\(X_t\)，这与 Bernoulli 过程仅取决于当前的“硬币抛掷”形成对比。

我们将在后面使用的另外几个结果。首先是任何两个给定的非重叠整数对 \(0 = k_0 < k_1 < k_2 < \ldots < k_m\) 之间的增量是独立的。也就是说，\((S_{k_1} - S_{k_0}), (S_{k_2} - S_{k_1}), (S_{k_3} - S_{k_2}), \ldots, (S_{k_m} - S_{k_{m-1}})\) 是独立的。我们可以看到这一点，因为对于这些差异对的任何组合，我们看到独立的 \(X_t\) 变量不重叠，因此它们的总和也必须是独立的。

此外，差的期望值和方差由下式给出：

\begin{align*} E[S_{k_{i+1}} - S_{k_i}] &= E[\sum_{j=k_i + 1}^{k_{i+1}} X_j] \\ &= \sum_{j=k_i + 1}^{k_{i+1}} E[X_j] \\ &= 0 \\ Var[S_{k_{i+1}} - S_{k_i}] &= Var[\sum_{j=k_i + 1}^{k_{i+1}} X_j] \\ &= \sum_{j=k_i + 1}^{k_{i+1}} Var[X_j] && X_j \text{ 独立}\\ &= \sum_{j=k_i + 1}^{k_{i+1}} 1 && Var[X_j] = E[X_j^2] = 1 \\ &= k_{i+1} - k_i \\ \tag{2.9} \end{align*}

这意味着对称随机游走的方差以每个单位时间一的速度累积。因此，如果从当前位置走 \(l\) 步，则可以期望方差为 \(l\)。当我们讨论扩展到连续时间时，我们将看到这种模式。

2.3 Adapted Processes

请注意，在上一节中，我们对随机过程的定义包括随机变量 \(X_t: \Omega \rightarrow E \subseteq \mathbb{R}\)，其中每个 \(\omega \in \Omega\) 是表示无限长实验的给定结果的无限序列。这隐式地意味着在“时间”\(t\)，我们可以依赖于“未来”，因为我们被允许依赖于任何抛掷，包括大于 \(t\) 的那些。在许多应用中，我们确实希望将 \(t\) 解释为时间，因此我们希望限制我们对随机过程的定义。

自适应随机过程是一种不能“看到未来”的过程。非正式地，这意味着对于任何 \(X_t\)，你只能通过查看实验的结果到时间 \(t\) （即，仅 \(\omega_1\omega_2\ldots\omega_t\)）来确定它的值。

为了更正式地定义这一点，我们需要引入一些技术定义。在前面的小节中，我们已经看到了随机变量 \(X\) 暗示的 \(\sigma\)-代数 \(\sigma(X)\) 的定义。假设我们有事件空间 \(\mathcal{G}\) 的子集，我们说 \(X\) 是 \(\mathcal{G}\)-可测量的，如果 \(\sigma(X) \subseteq \mathcal{G}\) 中的每个集合。也就是说，我们可以使用 \(\mathcal{G}\) 来“测量”我们对 \(X\) 所做的任何事情。

使用这个想法，我们定义了事件空间 \(\mathcal{F}\) 和索引集 \(T\) 上的过滤的概念：

过滤 \(\mathbb{F}\) 是子集 \(\mathbb{F} := (\mathcal{F_t}){t\in T}\) 的有序集合，其中 \(\mathcal{F_t}\) 是 \(\mathcal{F}\) 的子 \(\sigma\)-代数，并且对于所有 \(t_1 \leq t_2\)，\(\mathcal{F{t_1}} \subseteq \mathcal{F_{t_2}}\)。

要分解这一点，我们基本上是在说，我们的事件空间 \(\mathcal{F}\) 可以分解为逻辑上的“子事件空间”\(\mathcal{F_t}\)，使得每一个都是下一个的超集。这正是我们想要的，随着时间的推移，我们获得更多的“信息”，但永远不会丢失任何信息。我们还可以使用定义子 \(\sigma\)-代数的这个想法来正式定义条件概率，尽管我们不会在本文中介绍这一点（有关更多详细信息，请参见 [1]）。

使用过滤的构造，我们可以定义：

如果随机变量 \(X_t\) 对于所有 \(t\) 都是 \(F_t\)-可测量的，则随机过程 \(X_t : T \times \Omega\) 适应于过滤 \((\mathcal{F_t})_{t\in T}\)。

这基本上意味着 \(X_t\) 只能依赖于时间 \(t\) 之前或在时间 \(t\) 的“信息”。可用“信息”由事件空间的 \(\mathcal{F_t}\) 子集封装。这些事件子集是我们只能为其特定随机变量计算概率的子集，从而有效地限制了我们可以使用的“信息”。与本主题的许多内容一样，我们需要大量的严谨性，以确保我们没有奇怪的极端情况。下一个示例给出了有关过滤和随机变量之间相互作用的更多直觉。

示例 4：自适应 Bernoulli 过程

首先，我们需要定义我们希望适应 Bernoulli 过程的过滤。从附录 A 借用，重复这两个方程：

\begin{align*} A_H &= \text{以 H 开头的所有序列的集合 } = \{\omega: \omega_1 = H\} \\ A_T &= \text{以 T 开头的所有序列的集合 } = \{\omega: \omega_1 = T\} \\ \tag{2.10} \end{align*}

这基本上定义了两个事件（即，无限抛硬币序列的集合），我们使用它们来定义我们的概率测度。我们使用这两个集合定义我们的第一个子 \(\sigma\)-代数：

\begin{equation*} \mathcal{F}_1 = \{\emptyset, \Omega, A_H, A_T\} \tag{2.11} \end{equation*}

让我们注意 \(\mathcal{F}_1 \subset \mathcal{F}\) （根据定义，因为这就是我们定义它的方式）。另外，让我们看一下由正面和反面的随机变量生成的事件：

\begin{align*} \{X_1 \in \{1\}\} &= \{\omega \in \Omega | X_1(\omega) \in \{1\}\} \\ &= \{\omega: \omega_1 = H\} \\ &= A_H \\ \{X_1 \in \{-1\}\} &= \{\omega \in \Omega | X_1(\omega) \in \{-1\}\} \\ &= \{\omega: \omega_1 = T\} \\ &= A_T \\ \tag{2.12} \end{align*}

因此，\(\sigma(X_1) = \mathcal{F}_1\) （由随机变量 \(X_1\) 暗示的 \(\sigma\)-代数），这意味着 \(X_1\) 确实是 \(\mathcal{F}_1\)-可测量的，如要求。

让我们仔细看看这意味着什么。对于 \(X_1\)，等式 2.11 定义了我们可以测量概率的唯一事件类型，用简单的英语来说：空集、每个可能的结果、以第一个硬币作为正面开始的结果以及以第一个硬币作为反面开始的结果。这对应于 \(0, 1, p\) 和 \(1-p\) 的概率，这正是我们期望 \(X_1\) 能够计算的结果。

但是，经过仔细检查，这与对情况的天真理解并不完全相同。\(A_H\) 包含以正面开头 * 的每个 * 无限长的序列 -- 而不仅仅是第一次抛掷的结果。回想一下，随机过程中的每个“时间”索引的随机变量都是我们样本