Probability Theory
Table of Contents
- 1. 概率论简介
- 2. 随机变量及其分布
- 3. 多维随机变量及其分布
- 4. 随机变量的数字特征
- 5. 大数定律和中心极限定理
- 6. 数理统计基本概念
- 7. 参数估计
- 8. 随机过程(Stochastic Process)和随机场(Random Field)
- 9. 马尔可夫链(Markov Chain)
- 10. 平稳随机过程
1. 概率论简介
Probability theory is the branch of mathematics concerned with probability, the analysis of random phenomena.
在个别的试验中其结果呈现出不确定性,但在大量重试验中其结果具有统计规律的现象,我们称之为随机现象。
我们是通过研究随机试验来研究随机现象的。什么是随机试验呢?请看下文。
参考:本文很多内容摘自《概率论与数理统计(第四版),浙江大学 盛骤等编》
1.1. Laplace 评概率论
Probability theory is nothing but common sense reduced to calculation. -- by Laplace
1.2. 随机试验、样本空间、事件
在概率论中具有下面三个特点的试验称为 随机试验 :
- 可以在相同的条件下重复地进行;
- 每次试验的可能结果不止一个,并且能事先知道试验的所有可能结果(这些所有可能的结果所组成的集合称为 样本空间 );
- 进行一次试验之前不能确定哪一个结果会出现。
样本空间
样本空间
“连续掷一个硬币两次,正反面的出现情况”是一个随机试验。样本空间可表示为:
1.3. 什么是概率
1933 年,俄国数学家 Andrei N. Kolmogorov 建立了概率论的公理化体 (Probability axioms),给出了“概率”的严格定义。
设
- 非负性:对于每一个事件
,有 - 规范性:对于必然事件
,有 - 可列可加性:设
是两两互不相容的事件,即对于 ,有
则称
1.4. 条件概率
设
例:将一枚硬币抛掷两次,观察其出现正反面的情况(
解法一:样本空间为
解法二:这个问题也从条件概率的含义直接求得。由于事件
1.4.1. Product Rule(即乘法公式)
由条件概率知,设
上式称为 Product Rule ,或 Chain Rule 或乘法公式。
可以推广到
1.4.2. Law of Total Probability(即全概率公式)
先介绍样本空间的划分的定义。
设
(1)
(2)
则称
显然,如果
定理 :设试验
上式称为 全概率公式(Law of Total Probability) 。
全概率公式的意义在于,很多实际问题中
1.4.2.1. Law of Total Probability(连续型随机变量的情况)
后文将介绍连续型随机变量,这里先直接给出连续型随机变量下的全概率公式。
1.4.3. 贝叶斯公式
下面就是著名的 贝叶斯公式 :
贝叶斯公式的更一般性描述如下:设试验
1.4.3.1. 贝叶斯公式应用实例
例:对以往数据分析结果表明,当机器调整得良好时,产品的合格率为 98%,而当机器发生某种故障时,其合格率为 55%,每天早上机器开动时,机器调整良好的概率为 95%。试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?
解:设
这就是说,当生产出第一件产品是合格品时,此时机器调整良好的概率为 97%。
说明:这里概率
1.4.3.2. 再看“贝叶斯公式”
贝叶斯公式可换一个写法:
其中,
这是贝叶斯推断的含义:先假定一个“先验概率”,得到一些信息后可能增强也可能削弱“先验概率”,从而得到更接近事实的“后验概率”。
1.4.4. 用贝叶斯公式推测“事件的主要原因”
贝叶斯公式可以帮助我们确定结果(例如事件
上式中,如果
1.5. 随机事件的独立性
设
则称 事件
如果
2. 随机变量及其分布
2.1. 随机变量
设随机试验的样本空间为
后文将介绍两种常见随机变量:离散型随机变量和连续型随机变量。
2.2. 随机变量的分布函数(Cumulative distribution function, CDF)
设
若已知
分布函数有下面基本性质:
- 非降性。如果
,则 - 有界性。
且 - 右连续性。
2.3. 离散型随机变量及其“概率质量函数”(Probability mess function, pmf)
如果随机变量的全部可能取到的值是“有限个”或“可列无限个”,则这种随机变量称为离散型随机变量。后文将介绍三种重要的离散型随机变量。
如果离散型随机变量
分布律有下面性质:
2.3.1. (0-1)分布(又称 Bernoulli distribution)
设随机变量
则称
(0-1)分布的分布律也可写为:
2.3.1.1. (0-1)分布实例
如果随机试验的样本空间只包含两个元素,即
如“抛硬币”试验可以用(0-1)分布的随机变量来描述。
2.3.2. 二项分布(它是(0-1)分布的更通用形式)
如果试验
设随机变量
可以计算出随机变量
我们说随机变量
特别地,当
2.3.3. 泊松分布(Poisson distribution)
设随机变量
则称
2.3.3.1. 泊松分布实例
泊松分布是概率论中的重要分布,具有泊松分布的随机变量在实际应用中有很多。如一年发生的闪电的数量,某医院一天的急诊病人数量,某地区一个时间段内发生的交通事故的次数等都服从泊松分布。
2.3.3.2. 泊松分布和二项分布区别
二项分布中
2.4. 连续型随机变量及其“概率密度函数”(Probability density function, pdf)
如果对于随机变量
则称
由上面的定义可知,概率密度函数
- 对于任意实数
有: - 若
在点 处连续,则有
对于连续型随机变量
后文将介绍几种重要的连续型随机变量。
2.4.1. 均匀分布
若连续型随机变量
则称
2.4.2. 指数分布
若连续型随机变量
则称
2.4.2.1. 指数分布重要特点——无记忆性
指数分布有下面重要的性质:
这称为无记忆性。
如果
2.4.3. 正态分布(又称高斯分布)
若连续型随机变量
则称
Figure 1: 正态分布概率密度(摘自:https://explorable.com/normal-probability-distribution)
特别地,当
2.5. 随机变量的函数的分布
在实践中,我们有时对随机变量的函数更感兴趣。比如,我们可以测量圆轴截面的直径
例:设随机变量
解:分别记
由于
将
一般地,可以用和上面类似的方法求连续型随机变量的函数的概率密度。
2.6. 其它随机变量
对于随机变量,并不是说除了离散型随机变量就是连续型随机变量。 还有一些随机变量既不是离散型随机变量,又不是连续型随机变量。
如:
概率密度函数 f(x)=1/4, 当 x 在[0,1]范围中;f(x)=3/4, 当 x 在[2,3]范围中。
这个分段函数是非离散型的,但又不是连续的。所以它既不是离散型随机变量,又不是连续型随机变量。
3. 多维随机变量及其分布
设随机试验的样本空间为
3.1. 联合分布
定义:设
称为二维随机变量
3.1.1. 二维离散型随机变量的联合分布律
如果二维随机变量
设二维离散型随机变量
我们称
我们可以用表格来表示二维离散型随机变量的联合分布律,如:
由联合分布函数定义知,离散型随机变量
其中,和式是对一切满足
3.1.2. 二维连续型随机变量的联合概率密度
设二维随机变量
则称
3.2. 边缘分布
二维随机变量
同样,关于
可以认为,边缘分布是随机变量
3.2.1. 二维离散型随机变量的边缘分布律(“边缘”名字由来)
容易得到二维离散型随机变量
同样,关于
说明:记号
边缘分布律实例:
设随机变量
解:先求
我们常常将边缘分布律写在联合分布律表格的边缘上,这就是“边缘”二字的由来。
3.2.2. 二维连续型随机变量的边缘概率密度
容易得到二维连续型随机变量
同样,关于
3.3. 条件分布
3.3.1. 二维离散型随机变量的条件分布律
对于固定的
为 在
同样,对于固定的
为 在
3.3.2. 二维连续型随机变量的条件概率密度
设二维连续型随机变量
同样,在
3.4. 相互独立的随机变量
随机变量相互独立是概率论中非常重要的概念,它是随机事件相互独立的推广。
如果二维随机变量
则称随机变量
显然, 如果随机变量
3.4.1. 离散型随机变量相互独立
设
3.4.2. 连续型随机变量相互独立
设
在平面上几乎处处成立(“几乎处处成立”在此的含义是:在平面上除去“面积”为零的集合以外,处处成立)。
3.5. 两个随机变量的函数的分布
本节讨论两个随机变量的函数的分布。
3.5.1. Z=X+Y 的分布
设
或者:
进一步,如果
或者:
其证明略。
例:设
求
解:由前面给出的结论有:
令
即
更一般地, 若
3.5.2. Z=Y/X 和 Z=XY 的分布
设
进一步,如果
其证明略。
4. 随机变量的数字特征
4.1. 数学期望(Expectation)
设离散型随机变量
设连续型随机变量
数学期望简称期望,又称均值。
数学期望具有下面几个重要性质:
(1) 设
(2) 设
(3) 设
(4) 如果
4.1.1. 随机变量函数的期望
定理(证明略):设
(1) 如果
(2) 如果
4.2. 方差(Variance)和标准差(Standard deviation)
先从例子说起。假设一批灯泡平均寿命为
如何描述和均值偏离程度呢?容易想到
设
由方差的定义知,方差是随机变量
对于连续型随机变量,设
方差的平方根称为标准差(Standard deviation)或者均方差。记为
方差具有下面几个重要性质:
(1) 设
(2) 设
(3) 设
特别地,如果
4.3. 协方差(Covariance)与相关系数(Correlation coefficient)
对于二维随机变量
量
由上面定义知:
随机变量
可以认为相关系数是“归一化”的协方差。相关系数的大小在-1 和 1 之间变化,即有
当
4.4. 协方差矩阵(Covariance matrix)
定义二维随机变量
推广到
由于
一般地,
4.4.1. n 维正态随机变量的概率密度
正态分布是最重要的分布。我们从二维正态随机变量的概率密度开发,介绍
二维正态随机变量
其中,
它的列行式
经过计算可知:
从而,
其中,矩阵
这个定义可以推广到
4.4.1.1. n 维正态随机变量及其性质
记:
其中:
(1)
(2)
服从一维正态分布(其中
(3) 若
(4) 设
4.5. 矩(Moment)和矩生成函数(Moment-generating function)
4.5.1. 矩(Moment)
设
存在,则称它为
设
存在,则称它为
4.5.1.1. 标准矩(Standardized moment)、偏度(Skewness)和峰度(Kurtosis)
标准矩(Standardized moment)是经过标准化后的中心矩,
其中,
其中,3阶标准矩又称为 偏度(Skewness) ,可用来描述概率分布的不对称性;4阶标准矩又称为 峰度(Kurtosis) ,可用来描述分布的中心聚集程度。
4.5.2. 矩生成函数(Moment-generating function)
随机变量
矩生成函数仅当上式中积分收敛时存在(也就是说,矩生成函数可能不存在)。矩生成函数又称矩母函数。
由于:
从而有:
其中,
由上式可知,
这就是
参考:https://en.wikipedia.org/wiki/Moment-generating_function#Calculations_of_moments
4.5.2.1. 矩生成函数和分布函数相互唯一确定
矩生成函数有个重要性质: 如果矩生成函数存在,则矩生成函数和分布函数相互唯一确定。 也就是说,如果两个随机变量的矩生成函数相同,则它们的分布函数一定也相同;如果分布函数相同,则矩生成函数也相同(如果矩生成函数存在的话)。
5. 大数定律和中心极限定理
5.1. 大数定律
大数定理(Law of large numbers)解决了“为什么可以用频率当概率的估计”这个很基本问题。
大数定律有多种数学表述,这里仅介绍伯努利大数定律。
伯努利大数定律:设
大数定律表述了这样一种事实:在相同条件下,随着随机试验次数的增多,频率越来越接近于概率。
5.2. 中心极限定理
中心极限定理(Central limit theorem)指出 大量的独立随机变量之和近似于正态分布。
很多人做过抛硬币的实验。
试验者 | 试验次数 | 正面朝上次数 | 正面朝上频率 |
---|---|---|---|
德摩根 | 4092 | 2048 | 50.05% |
蒲丰 | 4040 | 2048 | 50.69% |
费勒 | 10000 | 4979 | 49.79% |
皮尔逊 | 24000 | 12012 | 50.05% |
罗曼洛夫斯基 | 80640 | 39699 | 49.23% |
大数定理能够说明:当试验的次数非常非常大(接近无穷)时,正面朝上频率会非常非常接近正面朝上的概率。
中心极限定理能够说明:如果很多人都进行抛硬币试验,正面朝上的频率会服从正态分布。
6. 数理统计基本概念
在实践中,我们研究的随机变量的分布往往是未知的,通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出推断。
6.1. 总体、样本
在数理统计中,我们将研究对象的全体称为 总体 ,而组成总体的每一个基本元素称为个体。
设
可以将样本看成是一个随机向量,写成
又若
6.1.1. 抽样方法简介
可以把抽样(Sampling)方法分为两大类:
- 概率抽样(Probability Sampling)
- 又称随机抽样。 总体中,每个观察单位都有被抽中的可能,任何一个对象被抽中的概率是已知的或可计算的。
- 非概率抽样(Non-probability Sampling)
- 又称非随机抽样。 总体中,每个观察单位被抽中的概率是未知的或无法计算的。 抽样时不是遵循随机原则,而是按照研究人员的主观经验或其它条件来抽取样本的一种抽样方法。比如偶遇抽样(Accidental Sampling),判断抽样(Judgmental Sampling),配额抽样(Quota Sampling),滚雪球抽样(Snowball Sampling),应答推动抽样(Respond-driven Sampling)等等。非概率抽样失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体。
6.1.2. 常用概率抽样方法(系统抽样、分层抽样、整群抽样等)
常用概率抽样方法有:
(1) 简单随机抽样(Simple Random Sampling):将调查的抽样框中的全部观察单位进行编号,用抽签或随机数字等方法在抽样框中随机抽取部分观察单位组成样本。
优点:操作简单,均数、率及相应的标准误计算简单。
缺点:总体较大时,难以一一编号。
(2) 系统抽样(Systematic Sampling):又称机械抽样、等距抽样。先将总体的观察单位按某一顺序号分成 n 个部分,再从第一部分随机抽取第 k 号观察单位,依次用相等间距从每一部分各抽取一个观察单位组成样本。
优点:易于理解,简便易行。
缺点:总体有周期或增减趋势时,易产生偏性。
(3) 整群抽样(Cluster Sampling):先将总体分成若干群体,再随机抽取几个群组成样本,群内全部调查。
优点:便于组织,节省经费。
缺点:当样本含量一定时,抽样误差一般大于简单随机抽样的误差。
(4) 分层抽样(Stratified Sampling):将总体样本按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位,合起来组成样本。
优点:样本代表性好,抽样误差减少。
缺点:如果分层变量选择不当,层内变异度较大,层间均数相近,分层抽样就失去了意义。
(5) 多阶段抽样(Multistage Sampling):前述的四种基本抽样方法都是通过一次抽样产生一个完整的样本,称为单阶段抽样。将整个抽样过程分为若干阶段来进行,各阶段可采用相同或不同的抽样方法。
参考:
卫生统计学,常用抽样方法:http://58.20.53.45/files/files_upload/content/material_240/content/010/file_2.htm
百度文库,常用的抽样方法:http://wenku.baidu.com/view/067fb8fe700abb68a982fb85.html
6.2. 统计量
设
统计量是随机变量的函数,它也是随机变量。
6.2.1. 常用统计量
下面列出几个常用的统计量。设
- 样本均值
- 样本方差
- 样本标准差
- 样本
阶(原点)矩 - 样本
阶中心矩
将样本观察值
这些观察值仍然分别称为样本均值、样本方差、样本标准差等等。
6.2.1.1. 样本方差是除以 n-1,而不除以 n
有上面的定义中,为什么样本方差是除以 n-1,而不除以 n?
因为样本方差
6.2.2. 经验分布函数(Empirical distribution function)
下面介绍一个与总体分布函数
设
对于一个样本值,那么经验分布函数
又假设总体
一般,设
则,经验分布函数
经验分布函数的图示如下。
Figure 2: 经验分布函数(蓝色折线),图片摘自https://en.wikipedia.org/wiki/Empirical_distribution_function
Glivenko 在 1933 年证明了, 当
6.3. 抽样分布(统计学三大分布)
统计量的分布称为抽样分布(Sampling distribution)。
下面是
设
服从自由度为
7. 参数估计
7.1. 点估计
设总体
点估计问题的一般提法如下:设总体
在不致混淆的情况下估计量和估计值都可称为估计,并都简记为
7.1.1. 最大似然估计
若总体
设
上式中,
最大似然估计基于以下直观的想法:既然已经取到样本值
最大似然估计法: 固定样本观察值
类似地,若总体
利用微分学中求函数最大值的知识可以求解
很多情况下
由于
上面这个方程称为对数似然方程,求解对数似然方程往往比直接求解似然方程更方便。
如果分布函数中含有多个未知参数
多个参数的最大似然估计也可以从下面的对数似然方程组中求得:
7.1.1.1. 实例——求解最大似然估计
设
解:
所以,似然函数为:
对数似然函数为:
考虑下面对数似然方程组:
求解前一式得:
8. 随机过程(Stochastic Process)和随机场(Random Field)
随机过程(Stochastic process, or random process)的研究对象是随时间演变的随机现象。
随机过程定义:
设
我们常把
样本函数定义:
对随机过程
8.1. 随机过程实例
随机过程实例一:
电子元件由于内部微观粒子的随机热骚动所引起的端电压称为热噪声电压,它在任一确定时刻
在相同条件下,对某种电子元件多次测量热噪声电压,可得到一些样本函数(样本曲线),如:
Figure 3: 某电子元件热噪声电压的样本曲线
随机过程实例二:
设某城市的 120 急救电话台可接收用户的呼叫,以
8.2. 随机过程分类
随机过程可以按照在任一时刻的 状态 是连续型随机变量或离散型随机变量而分为 连续型随机过程 和 离散型随机过程 。
如,前面介绍的热噪声电压就是连续型随机过程的例子,而急救电话台则是离散型随机过程的例子。
随机过程还可以按照 时间 (参数)是连续或离散进行分类。当时间集
8.3. 随机过程的数学特征
给定随机过程
我们称
随机过程
方差函数的平方根
Figure 4: 随机过程的均值函数和标准差函数
8.4. 随机场(Random Field)
A random field is a generalization of a stochastic process such that the underlying parameter need no longer be a simple real or integer valued "time", but can instead take values that are multidimensional vectors.
随机场是随机过程在空间域上的推广。随机过程的基本参数是时间变量
9. 马尔可夫链(Markov Chain)
在物理学中,很多确定性现象具有如下演变规律:时刻
把上述规律延伸到随机现象,可以引入以下的 马尔可夫性 或 无后效性 :过程在时刻
9.1. 马尔可夫过程和马尔可夫链
下面用分布函数来正式表述马尔可夫性和马尔可夫过程。
设随机过程
则称随机过程
如果马尔可夫过程的时间和状态空间都是离散的,则称它为马尔可夫链(Markov Chain)。
10. 平稳随机过程
如果随机过程的统计特性不随时间的推移而变化,则称为 平稳随机过程 。
严格地说,如果对于任意
和
具有相同的分布函数,则称随机过程
平稳过程的参数集
10.1. 平稳随机过程实例
在实际问题中,确定过程的分布函数,并用它来判定其平稳性,一般是很难的。但是,对于一个被研究的随机过程,如果前后的环境和主要条件都不随时间的推移而变化,则一般就可以认为是平稳的。
如,强震阶段的地震波幅、船舶的颠簸过程、照明电网中电压的波动过程以及各种噪声和干扰等待在工程上都被认为是平稳的。