概率论 3. 离散随机变量

什么是离散随机变量
- 分布律（probability mass function， PMF）
几何分布
伯努利试验
二项分布
随机变量的函数
期望
- 随机变量的函数的期望
- 期望的性质
方差
标准差
协方差
相关系数
更多内容

前面已经介绍过随机变量的概念，这里先从离散随机变量说起。

什么是离散随机变量

可能取值是有限多个或者可列无限多个。

可数好理解，什么是可列无限多个呢？比如说所有整数是可以列出的，但是是无限多个的。

分布律（probability mass function， PMF）

分布律的字面翻译就是概率质量函数。

设离散型随机变量X，发生事件$\{X = x_k\} $的概率可以记为：

$p_X(x) = P\{X = x_k\}$

大写字母X代表随机变量，小写字母x代表代表实数值，也就是随机变量X在实数轴上的映射。

我们可以将离散随机变量看成是空间中一块一块的体积块，每个体积块都有一定的质量，分布律（概率质量函数）就是这些体积块在空间的分布规律。

几何分布

假设我们抛硬币，正面概率是p，连续抛直到看到正面。那么需要抛k次的概率是多少？经过前面的介绍，这个分布律应该很容易：

$p_x(k) = (1-p)^{k-1}p$

上面就是几何分布了。这其实就是做重复k次独立试验，直到成功为止。

这里，我先开个小差，说下几何分布为什么叫几何分布。

看图说话

$p_x(k) = (1-p)^{k-1}p$

先看上面公式，随着k的不同，形成的数列是一个等比数列。看下图有个直观感觉：

几何数列

等比数列还有一个名字，叫做几何数列。

那么为什么也叫几何数列呢？因为每项都是前后两项的几何平均数。

那么问题又来了，什么是几何平均数呢？

几何平均数

是指n个观察值连乘积的n次方根:

看到这个公式可能有点懵，但是换一种说法你可能立刻有了感觉，虽然其实你可能一直不知道这是在说啥：方圆八百里。

方圆八百里？到底是多大？我记得语文老师说过古人计算矩形面积，算法是对一个矩形削长补短，然后计算整合出来的这个相同面积的正方形的边长是多少，这个边长就是你可能经常听说的“方圆八百里”的“八百”。

了解这个方圆概念，注意到这就是在做几何平均了吗？一个矩形边长a和b，面积是ab，以古人的算法，乃为方圆$\sqrt {ab} $。这不就是几何平均吗？有没有突然感觉古人好nb。

至此，你知道为什么叫几何分布了吧？

伯努利试验

伯努利试验只有两种可能结果。独立重复进行n次，就是n重伯努利试验。

简单的，抛一次硬币就是一个伯努利试验。

二项分布

假设抛硬币n次，每次正面概率为p，那么反面概率是p-1，每次试验相互独立。那么有k次正面的概率分布就是二项分布。

$p_X(k) = P(X = k) = \left( \begin{matrix} n\\ k\end{matrix} \right)p^{k}(1-p)^{n-k}$

当n足够大时，二项分布会近似为正态分布，如下图n = 6、p = 0.5时的二项分布以及正态近似：

随机变量的函数

已知一个随机变量X，我们也可以将其转换从而生成另一个随机变量。比如说单位转换。

我们可以将这个转换关系写为一个函数：

$Y = g(X)$

可以将这个过程看成一个空间变换的过程，即X空间变到了Y空间。

例如$p_X(x)$在[-4, 4]范围概率是1/9，那么设 $y = |x|$，求$p_Y(y)$。我们可以根据下图来分析：

可见y取值在[0, 4]，而且这个范围内除了0，其他取值概率都是2/9。

上面过程可以归纳为：Y空间某事件y发生的概率，等于y在X空间对应的所有x发生的概率的和，即：

$p_Y(y) = \sum _{\{ x | g(x) = y \} }P_X \left( x\right)$

期望

期望就是平均数。对应概率质量函数的语境，我们可以把它理解为重心。那么，x就是重量为$P_X (x)$这个质量块（或者空间中的体积块）的坐标位置。

$E[X] =\sum_{x}xP_X (x)$

随机变量的函数的期望

假设$ Y = g(X) $，那么我们可以老老实实的计算它的期望：

$E[Y] =\sum_{y}yP_Y (y)$

也可以这样来偷懒：

$E[Y] =\sum_{x}g(x)P_X (x)$

这是为什么呢？我们可以用重心的概念来理解，如下图所示：

X空间通过g(x)变化到Y空间，各个质量块根据g(x)进行了重新分布，形成了新的质量块（上图中摞在一起的质量块看成Y空间的一个质量块），但是不管怎么分布，X空间对应过来的每一个旧质量块的质量$P_X (x)$是不变的。在Y空间相对在X空间，变化的仅仅是每个旧质量块的位置坐标，变为了g(x)。这样，如果我们还以X空间的旧质量块考虑问题，Y空间中心的问题就变成了新的位置和旧的质量块的乘积的和，也就是上面的公式。

期望的性质

$E[C] = C$

一个点的中心，当然还是自己。

$ E[CX] = CE[X] $

放大之后，重心自然有一个等比例的偏移

$ E[X+b] = E[X] + b $

移动位置后，重心肯定会相应的偏移

方差

方差用来描述变量偏离平均值的程度：

$var(X) = E[(X-E(X))^2] = E[X^2] - (E[X])^2$

方差比较难以建立起空间上的直觉，这部分我还要研究一下。

标准差

标准差就是方差的平方根

协方差

我们先来看看它的公式：

$cov(X,Y) = E[(X-E(X))(Y-E(Y))] = E[XY]-E[X]E[Y]$

可以想象，如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

根据上面公式，如果X与Y是独立的，那么二者之间的协方差就是0。但是，如果X与Y的协方差为0，二者并不一定是独立的。

不过协方差不是很好比较，所以我们引入相关的概念。