🔬

01 概率论基础

TOC

1. 概率测度

Probability Measure
1.1 代数
Sigma field
为样本空间,非空集合 的子集族,且满足:
则称 为样本空间上的一个 代数(-field,事件域)
事件域可以理解为一种分类. 如果 是有限的,一个事件域 必然给出一个分类:它首先把样本空间分成有限个原子事件 的并,原子事件是指它不包含非平凡事件, 中的其他事件是若干原子事件的并,这样 中事件的个数必然为 个, 为原子事件的个数
1.2 概率测度
上的一个函数,满足:
  • 互不相交
则称 上的一个概率测度,三元组 称为概率空间
1.3 可测性及其解释
为一个概率空间. 有很多子事件域,实际上是部分信息。在随机分析中,信息是动态的,我们需要考虑子事件域.
定义)设 上的函数, 是一个子事件域. 如果对任何 有:
那么我们说 是关于 可测的(随机变量). 如果 , 我们就简单说是随机变量.
在初等概率论中,我们一般就简单说 是随机变量,因为那时 是预先给定不变的,而 就取成 . 但在随机分析中,随机变量是依赖于事件域的,因为事件域是在不断变化的.
实际上,样本空间上的函数也直观地给出样本空间的一个分类,比如 表示年龄,那么它给出关于年龄的分类,如果 取有限个值 , 那么自然给出分类
是一般函数时,事情要更复杂. 但无论如何,我们可以认为样本空间上的函数会给出分类,即给出信息. 关于 可测是说它给出的这个分类要比 给出的分类更粗糙. 使用数学语言表达:关于 可测的随机变量 的原子上是常数. 即 不能区分的样本 也不能区分.
由随机变量 生成的子事件域记作 :样本空间上的事件域有的使得 可测,有的不可测,把所有使得 可测的子事件域拿出来取它们的交,即为 .
它由 唯一决定,是使得 可测的最小事件域,可以理解为随机变量 给出的信息. 是关于 可测的当且仅当
给出的信息没有 给出的多. 不同的随机变量可能会给出相同的分类,或者说给出相同的信息. 用 表示 的 Borel 子集在 下的逆像全体,即
则有
可测函数 上的函数 称为是可测函数,如果它关于 上的 Borel 域可测,即对任何 是 Borel 集,等价于
注:
  • 连续函数总是可测的
  • 可测函数的可测函数仍是可测的
函数间可测)设 是样本空间上两个函数,如果 关于 可测,我们说 关于 可测. 这等价于说 , 给出的信息没有 给出的多.
关于 可测,当且仅当存在 上的可测函数 使得:
即: 是由 决定的.
1.4 Borel 代数
由全体开区间生成的 代数称为 Borel 代数(Borel field),记为 .
称为 Borel 集,其是可测的(有概率可言的)
1.5 几乎必然
Almost surely (a.s.)
为概率空间,若 ,则说 几乎必然成立(或几乎处处成立, almost everywhere)

2. 随机变量

Motivation: 针对集合研究较为复杂,将其映射到实轴上,方便进行加减乘除等运算。
2.1 随机变量
⚠️ 随机变量既不随机,也不是变量,而是一个函数
设概率空间 , 定义 上的一个实值函数,若:
为一个随机变量,即:样本空间 上一个 可测的函数称为随机变量。
可知,若 上可测,则 上可测。
注:可测映射的可测映射仍是可测映射
2.2 分布测度
Motivation: 衡量集合的大小
上的随机变量,
的分布测度
2.3 累积分布函数
Cumulative Distribution Function (cdf)
上的随机变量,
的累积分布函数
2.4 概率密度函数
Probability Density Function (pdf)
要求 存在(几乎处处可导),则
2.5 标准正态分布
标准正态 pdf
标准正态 cdf
,

3. 期望

3.1 数学期望
在初等概率论中
  • 为离散变量 ⇒
  • 为连续变量 ⇒ Riemann 积分
对于概率空间 上的一个随机变量 ,其期望的定义为:
  • 为离散变量 ⇒
  • 为连续变量 ⇒ Lebesgue 积分
两种积分方式结果一样,使用Lebesgue积分是为了避免一些阶跳问题
3.2 性质
  1. 可积 存在,要求
  1. a.s. 且 存在,则
  1. a.s. 且 存在,则
  1. , 存在,则
  1. (Jensen 不等式) 若 上的市值凸函数 (convex function) 且 存在,则
3.3 Lebesgue 测度
为 Lebesgue 测度,其定义于 之上且满足:
  • 互斥,则
可知
(Riemenn 积分能求,Lebesgue 积分就能求)
3.4 收敛性
3.4.1 几乎处处(必然)收敛:
其中 均为 上的随机变量
3.4.2 单调收敛定理:
a.s. 且 a.s. 则
3.4.3 控制收敛定理:
a.s. 且 满足 ,则
由收敛定理可证明 (可测)

4. 测度变换

4.1 测度变换
设随机变量 a.s. 且 ,定义概率测度
其中 . 则
, 则
4.2 两个概率测度的等价
等价当且仅当
不是同一个测度,但是同一个世界,在第一种测度下(不)会发生的事件在第二章测度下也(不)会发生
4.3 Radon-Nikodym 定理
等价,则存在随机变量 使得

5. 信息与域流

5.1 域流
为非空集合,对于 上的 代数使得
则称 为域流
5.2 由随机变量生成的 代数
由随机变量 生成的 代数 即包含了 的所有可能取值.
代数,且 ,则称 可测的
5.3 适应的随机过程
为随机变量,若 可测的,则称 适应的随机过程.
例如股价:明天的股价是随机变量,但到了明天就是确定的了。

6. 独立性

6.1 代数的独立性
设概率空间 为概率空间, 的子 代数,则
6.2 随机变量的独立性
随机变量独立等价于随机变量生成的 代数独立
独立,则对任意可测函数 独立
6.3 无穷情况
无穷中任意一个有限子集成立无穷成立

7. 联合分布和边际分布

7.1 联合分布测度
7.2 联合累积分布函数
7.3 联合密度函数
若有 ,则称 为联合密度函数,且
7.4 边际分布测度
7.5 边际累积分布函数
7.6 边际密度
若存在,则
7.7 与独立性的联系
以下条件等价:
  • 独立
  • (若密度函数存在)
注: 独立 ⇒ 但反之不成立,因为 仅能说明 非线性相关

8. 方差与协方差

8.1 方差
8.2 协方差
8.3 相关系数
⇒ 非(线性)相关
注:多元正态下,独立不相关

9. 条件期望

9.1 定义
设概率空间 的子 代数,定义 的条件期望 r.v 满足:
  • 可测的
在初等概率论中有重期望公式:, 上面相当于用重期望公式定义了条件期望,即:
注:若 , 则
9.2 性质
  • ,
  • , 则
  • 的子 代数,则 ,即
  • 独立,则
  • (Jensen 不等式) 若 为凸函数(convex), 则
9.3 独立性引理
可测, 独立于 元函数,则

10. 鞅与马尔科夫过程

10.1 鞅
设概率空间 ,若 的子 代数,其上有一个适应的随机过程
  • ,则称 为鞅
  • ,则称 为下鞅
  • ,则称 为上鞅
10.2 马尔科夫过程
设概率空间 ,若 的子 代数, 为其上一个适应的随机过程。若 非负可测函数可测函数,有:
则称 为一个马尔科夫过程.
即:下一时刻的状态仅取决于当前状态,而与之前的状态无关.

11. Bernoulli 大数定律

11.1 函数收敛
函数的收敛有很多种:
  • 点点收敛(处处收敛):
    • 要求最强
  • 几乎处处收敛:
    • 即收敛的概率为1
    • 等价描述:
  • 依概率收敛:
  • 依距离收敛:
    • 按照某种距离意义下收敛,如 距离
      • 两个可积随机变量 距离为
      • 如果他们平方可积, 距离为
      • 由 Cauchy-Schwarz 不等式可推出 距离不超过 距离
    • -收敛于
    • -收敛于
    • 收敛 收敛
注:
  • 依距离收敛和几乎处处收敛可以蕴含依概率收敛
  • 依概率收敛蕴含依分布收敛
11.2 Bernoulli 大数定律
是成功概率为 的Bernoulli 序列,即它们独立同分布且
则成功的频率 , 依概率收敛于
Proof
引理 - Chebyshev不等式:对于 和正整数 有:
事实上,
, 则 是二项分布,期望为 方差为 , 由 Chebyshev 不等式 ()
趋于无穷时极限为 0.
注:
有反例说明依概率收敛 不能推出几乎处处收敛,但如果加强条件,例如对任何 有:
那么由 Borel-Cantelli 引理可推出几乎处处收敛。
利用 Borel-Cantelli 引理,也可证明 Bernoulli 大数定律不仅依概率收敛,还几乎处处收敛,成为强大数定律.

12. 特征函数

12.1 特征函数
数字特征能够体现随机变量的分布的一些特征,但不足以标识出分布,因为分布是一个函数,是无穷维的。特征函数也称为 Fourier 分析,是一种重要的分析工具。
设随机变量 的分布函数是 , 定义它的特征函数为:
特征函数是分布函数的特征,它只依赖于分布函数,同分布的随机变量有相同的特征函数。特征函数是一个定义在实数域上的复值函数,且有
特征函数的性质:
  • 唯一性:特征函数可以唯一地标识分布函数
  • 连续性:特征函数的收敛可以推出分布函数的收敛
  • 特征函数在零点处总是等于1
  • 如果 , 那么其特征函数 次可导且
  • 是两个独立的随机变量,那么它们的和 的特征函数等于特征函数的乘积,即
    • 该性质是特征函数成为重要分析工具的主要原因,因为两个独立随机变量的和的分布函数是两个分布函数的卷积,使用特征函数将卷积运算变成了乘积运算
12.2 中心极限定理
连续性定理:如果特征函数列 收敛于一个在零点连续的函数 , 则 是特征函数,且 对应的分布函数列也收敛于 对应的分布函数.
中心极限定理:设 是独立同分布平方可积随机序列,其平均 的标准化依分布收敛于标准正态分布.
Proof
不失一般性,设 的期望为零,方差为1,则 的标准化是 . 由连续性定理,只需证明 的特征函数点点收敛于标准正态分布的特征函数. 有特征函数性质最后一条,独立和的特征函数时特征函数的乘积,因此 的特征函数是
其中 的特征函数,因为 的期望为0,方差为1,由 Taylor 展开:
其中 的高阶无穷小,因此
其中 是标准正态分布的特征函数,故得证。

13. 多维正态分布

多维随机变量(向量 维)
其联合分布函数是 上取值为 的函数
它描述了随机向量在空间 上的分布,最自然的情形是分布可以由一个密度函数来描述,即
其中 是全空间上积分为1的非负函数,称为 上的一个密度函数.
当随机变量相互独立时
当随机变量不是独立时,定义协方差
它们组成一个 阶方阵,协方差矩阵,描述随机变量之间的线性关系
定理:协方差矩阵是对称非负定矩阵,即对任何
服从 维正态分布,则其密度函数为:
其中 的期望, 的协方差矩阵,记作 ,令
服从标准正态分布. 相应的,若已知 ,则
多元正态分布的特征函数:
表示两个向量的内积.

14. Hilbert 空间和 Gauss 随机场

14.1 Hilbert 空间
我们最熟悉的空间时 Euclid 空间,它是有限维的,有内积,可以谈论向量的夹角,Euclid 空间的推广是 Hilbert 空间,Hilbert 空间是一个完备的内积空间,一般来说是无限维的.
典型的例子
其中的内积定义为
以及
其中的内积定义为
给定概率空间 ,有一个自然的 Hilbert 空间:把关于事件域 可测的平方可积随机变量全体拿出,记为 ,其中两个随机变量 之间的内积定义为
14.2 Gauss 随机场
对于一个随机变量族,如果其任何有限个随机变量组成的随机向量是正态分布的,则称该随机变量族为 Gauss 族.
现取一个 Hilbert 空间 , 其中的内积为 , 它的标准正交基为
对任何 ,有
取概率空间 ,及其上的独立同分布随机序列
它们都服从标准正态分布,对任何 ,定义
可验证:
  • 是线性映射
  • 是正态分布的
因此 是一个保内积不变的线性算子,或者说是等距嵌入。同时 是一个 Gauss 族,对此仅需验证任取
是正态分布的,这等价于其任何线性组合是正态分布的,显然成立,因为
是正态的. 以上 Gauss 族被称为是由 Hilbert 空间 为指标的 Gauss 随机场.

Loading Comments...