泊松过程简介
想象你是一个银行的保安, 银行经理有一天给你安排了一个任务, 要求你统计每分钟之内是否有人到达银行, 然后他就可以根据哪些分钟有人进来确定一天有多少人什么时候来到银行. 但是统计的时候, 他的助手突然问到万一一分钟之内来了不止一个人, 那这个统计不就不准确了吗? 经理觉得很有道理, 问助手怎么办. 助手很得意的说, 我们可以一秒统计一次, 银行经理感觉很好, 第二天把这个任务又交给了你. 你听到这个一秒一次统计的任务后, 心中一万只XXX跑过, 但是随即对经理说, 我可以统计每个到达顾客的间隔时间吗? 来一个人, 我记下他的时间, 然后又来一个人, 我又记下他的达到时间. 银行经理恍然大悟, 并且让你和他的助手调换了职位.
上面这个故事, 就是伯努利过程到泊松过程的变化.
伯努利过程考虑的是某个时间段内是否到达, 泊松过程考虑的是某个时间段内有多少个到达. 伯努利过程将时间离散化, 泊松过程考虑的是连续的时间段.
某个时间段内有多少个到达
到达率为\(\lambda\), 在时间长为 \(\tau\)的区间内, 到达总次数\(N_{\tau}\)的分布为泊松分布:
其中到达率\(\lambda\)就是单位时间内到达的次数. 其\(E[N_{\tau}] = \lambda \tau\), 这个很好理解, 单位时间内次数是\(\lambda\), 那么\(\tau\)时间内此时就是\(\lambda \tau\)了.
根据上次内容二项分布的泊松近似的介绍, 这里有\(np = \lambda \tau\), 对比前面公式, 应该可以发现很多近似吧.
泊松过程是伯努利过程的连续化版本, 所以很多特性可以照搬过来.
首次到达时间
对应伯努利过程, 这里是一个指数分布\(T \sim Exp(\lambda)\):
其中\(E[T] = 1/ \lambda\), 单位时间有\(\lambda\)个, 那么首次当然就是速度的倒数\(1/ \lambda\)了.
第k次到达时间
与伯努利过程类似, 把伯努利过程看做若干首次到达问题的和, 第k次成功的时间\(Y_k\)可以写为: \( Y_k = T_1 + … + T_k \), T为相互独立的服从指数分布的随机变量. 这个问题是k阶埃尔朗分布:
这个时候, 猜也能猜出来它的期望\(E[Y_k] = k/\lambda\)了吧.
泊松过程的分裂与合并
若干个泊松过程同时进行, 会怎么样? 一个泊松过程分为若干个, 又会怎么样?
串联灯泡
假设每一个灯泡的寿命 T 满足参数为\(\lambda\)的指数分布, 那么两个这样的灯泡串联, 整个电路的寿命如何分布?
此电路寿命, 取决于两个灯泡寿命最短那一个, 这可以看做两个指数过程的合并:
合并之后, 两个分别参数为 \(\lambda1\) 和 \(\lambda2\) 的指数分布合并为了一个参数 \(\lambda1 + \lambda2\) 的指数分布, 那么电路寿命也服从参数 \(\lambda1 + \lambda2\) 的指数分布.
并联灯泡
这个电路的寿命期望值呢? 简单起见, 假设三个灯泡, 寿命都为参数为 \(\lambda\) 的指数分布.
开始的时候, 一共三盏灯, 根据上面串联讨论, 显然第一盏灯烧坏的时间服从参数为 \(3\lambda\) 的指数分布, 第二盏烧坏时间服从参数为 \(2\lambda\) 的指数分布(指数分布无记忆性, 从任何时刻开始算都是相同的指数分布), 最后一盏灯烧坏时间服从参数为 \(\lambda\) 的指数分布. 那么并联的问题就成了这三个随机变量相加的问题, 这三个随机变量的期望分别为 \(3/\lambda\), \(2/\lambda\), \(1/\lambda\), 那么他们之和这个随机变量(并联)的期望为三者相加: \(3/\lambda + 2/\lambda + 1/\lambda\).
为什么你等的公交车总是不来
你有没有觉得你等的公交车总是最慢的那个? 这个可以用泊松过程来解释.
直觉判断
简单的说, 这是因为公交车到达时间是随机的, 有的时候间隔长些, 有的时候间隔短些. 那么你如果随机选取一个时间去等公交车, 你更大可能是落在了间隔时间长的那个时间段, 那么当然你更大可能是等一辆超级慢的公交车了. 这个故事告诉我们, 如果你要研究公交车的平均到站时间, 那么绝对不要从人的角度研究, 而要从公交车的角度研究.
在举一个例子, 你和你朋友想确定城市公交系统是不是需要增大运力: 你朋友对上班族进行了调查, 他们普遍反映每天上班都很挤, 你朋友得出结论需要增大运力. 你采用了另外的方法, 你调查一天中没量公交车的负载情况, 发现除了上班高峰时段, 公交车人都不多, 你得出结论, 运力需要优化, 而不是增大.
数学角度考虑
看上图, 在[U, V]时间段内选定时刻 \(t^*\) 作为观察点. 由于泊松过程的独立性和无记忆性, 可以认为 \(t^*\) 开始有一个全新的泊松过程, 第一次到达时间 (\([t^*, V]\)) 服从指数分布\(Exp(\lambda)\). 另一方面, 时间段 (\([U, t^*]\)) 也服从指数分布 \(Exp(\lambda)\) . 这是因为泊松过程中, 没有时间的正反顺序, 那么让时间倒着走, 仍然是一个泊松过程, 也就是从 \(t^*\) 到 \(U\) 也是一个泊松过程, 服从指数分布.
这样, 随机变量 \([U, V]\) 之间的时间服从2阶埃尔朗分布, 期望为 \(2/\lambda\). 可见对于一个等车问题, 如果公交成平均15分钟一趟, 你等车的的时间区间的长度平均是30分钟, 那么你等车的时间平均也是15分钟了. 所以不管什么时候到车站, 等车的平均时间都是发车的平均间隔时间.