概率论 4. 连续随机变量

什么是连续随机变量
概率密度函数（probability density function， PDF）
期望方差
分布函数
正态分布(normal distribution)
- 标准正态分布
多个随机变量

有了离散随机变量的基本知识，连续随机变量理解起来就容易多了。

如果没有忘记或者对微积分还算有映像的话，应该知道将累加的步进缩小至无穷小，那就是积分了。（数学上可能表达不够严密，凭记忆写的）。

什么是连续随机变量

为什么我没有在书上找到连续随机变量的给人看的定义呢？！？！连MIT的这本书都是给了一个公式啊！！！

按我的理解，那就是可能结果是连续的，那就是连续随机变量。

概率密度函数（probability density function， PDF）

还记得离散随机变量的分布律，也就是概率质量函数（分布律）吗（PMF）？对应在连续随机变量，就是这里的概率密度函数了。

离散情况下，我们可以将离散随机变量看成是空间中一块一块的体积块，每个体积块都有一定的质量，分布律（概率质量函数）就是这些体积块在空间的分布规律。那么在连续的空间中，是不存在一块一块的体积块的，有的只是细细的粉末，每一个粉末质量体积几乎为0，但是无数粉末聚集起来，却有了质量。回忆密度的定义，就是单位体积的质量。回到概率来，那么单位体积的细细的概率粉末的质量，就是概率密度了。

下面看下连续随机变量的概率怎么计算：

$P(X \in B) = \int _{B}f_X(x) dx$

上面公式是说，概率密度函数$f_X$在集合B的积分，就是此事件的概率。

如果B在一个区间[a, b]，那么可以写为：

$P(a \leq X \leq b) = \int _{a}^{b} f_X(x) dx$

因为连续随机变量的连续空间中，只有细细的粉末，所以上面积分有没有边界的a和b关系不大，因为发生他们的概率都是0。所以有下面关系：

$P(a \leq X \leq b) = P(a<X<b) = P(a \leq X < b) = P(a < X \leq b)$

期望方差

没有新的内容，将累加变为积分即可。

分布函数

我们已经分别使用了分布律和概率密度函数来处理离散和连续随机变量, 现在我想知道在某一个范围内, 概率到底多少,可以使用分布函数(cumulative distribution function, CDF). 这个东西概念是新的, 但是我们已经很熟悉了

连续的: $F_X(x) = P(X \leq x) = \int _{-\infty}^x f_X(x) dx$

离散的: $F_X(x) = p(X \leq x) = \sum_{ k \leq x }P_X(k)$

正态分布(normal distribution)

又名高斯分布(Gaussian distribution), 概率密度函数为:

$f_X(x) = \dfrac{1}{\sqrt {2\pi }\sigma }e^{ - \dfrac{(x-\mu)^2}{2\sigma^2}}$

可以证明: $ E[X] = \mu $, $ var(X) = \sigma^2 $

一般我们把正态分布记为:$N(\mu, \sigma^2)$

标准正态分布

$\dfrac {1} {\sqrt {2\pi }}e^{-\dfrac {x^2} {2}}$

及期望为0, 方差为1, 记为:$N(0, 1)$

下图深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中，此范围所占比率为全部数值之68%，根据正态分布，两个标准差之内的比率合起来为95%；三个标准差之内的比率合起来为99%。

正态分布很重要, 概率论里面没有更重要的了, 一定记住.

多个随机变量

考虑连续随机变量X的函数$Y=g(X)$, 我们一直X的概率密度函数(PDF), 如何求Y的概率密度函数(也叫导出密度函数, derived PDF).

这部分的离散部分已经在3. 离散随机变量随机变量的函数部分有过介绍, 这里看一下连续的版本.

Y的分布函数$F_y(y)$可写为:

$F_Y(y) = P((g(X) \leq y) = \int_{\{x|g(x) \leq y\}}f_X(x)dx)$

上面过程可以理解为：Y空间某事件y发生的概率，等于y在X空间对应的所有x发生的概率密度的积分. 可以看到, 这个公式除了积分, 和离散的版本没有区别.