1. 引言
0x1:人生就是一个马尔科夫稳态
每一秒我们都在做各种各样的选择,要吃青菜还是红烧肉、看电影还是看书、跑步还是睡觉,咋一看起来,每一个选择都是随机的,而人生又是由无数个这样的随机选择组成的结果。从这个前提往下推导,似乎可以得出一个结论,即人生是无常的,未来是不可预测的。但事实真的是如此吗?
以前的老人流行说一句话,三岁看小,七岁看老。这似乎是一句充满迷信主义色彩的俗语,但其实其中暗含了非常质朴而经典的理论依据,即随机过程不管其转移概率分布如何,随着时序的增大,最终会收敛在某个稳态上。用人话说就是:人在七岁时,其核心性格会定型,在今后的一生中,不管其经历了什么,最终都会殊途同归,到达同一个人生结局。
现在很流行一句话叫,性格决定命运。这句话从很多不同的学科中可以得到不同的解释,例如现代心理学会说性格的本质就是潜意识,而潜意识影响所有的思想和行为,进而影响了命运。社会行为学会说性格决定了你的人际网络拓朴结构与网络信息交互率等因素,而成功的人往往是那种同时占据了多个重要结构洞的关键人物,例如国家领导人或者公司高层。用信息论马尔柯夫随机过程的理论来解释就说,每个人的概率转移函数在很小的时候就会基本定型,对于每个人来说,出生、天赋这些都不是至关重要的因素,而相反,决定一个人最终能得到多少成就的决定因素是你的n,也即你能在多大程度上延伸生命的长度,生命周期n越长,就越容易收敛到一个马尔科夫稳态,而只要你的底层性格(概率转移函数)足够优秀,这个稳态一般也不会差到哪里去。用现代育儿学的主流观点就是,对于小孩的教育,素质教育并没有那么重要,而相反,应该更注重性格和人格塑造上的培养。用一句很俗的话来说,就是”起点并不重要,长久的坚持才重要“。
那么这篇文章中,笔者将尝试从信息论中随机过程的相关讨论,来逐步分析和论证一下上述这段人生道(糟)理(粕)的底层逻辑。
0x2:非i.i.d.独立同部分情况下随机过程的熵如何分布
在之前的中,我们讨论了渐进均分性(AEP),AEP表明在平均意义下使用nH(X)比特足以描述n个i.i.d.独立同分布的随机变量。但是,如果随机变量不独立,尤其是随机变量成为平稳过程时,情况又如何呢?
在本文中,我们将证明,对于任意的随机过程,熵H(X1,X2,...,Xn)随n以速率H(X)(渐进地)线性增加(和i.i.d.一样),这个速率称为过程的熵率。事实上,在物理和计算机科学中,非i.i.d.才是占主流的现象,很多事物现象的内部原子状态之间都不是彼此独立的,例如语音序列是上下文依赖关联的,文本序列是前后文文法关联的等等。
Relevant Link:
《信息论基础》阮吉寿著 - 第四章
2. 马尔可夫链
0x1:随机过程
马尔可夫链属于随机过程的一种,因此我们先从随机过程开始讨论起。
1. 随机过程的形式化定义
随机过程{Xi}是一个带下标的随机变量序列。一般允许变量间具有任意的相关性。刻画一个过程需要知道所有有限的联合概率密度函数:
例如N次伯努利实验得到的二项分布序列,就是一个随机过程,当参数p确定时,该随机过程满足一个确定的概率分布函数公式。
2. 平稳随机过程
如果随机变量序列的任何有限子集的联合分布关于时间的下标的位移不变,即对于每个n和位移l,以及任意的x1,x2,...,xn∈X,均满足:
,则称该随机过程是平稳的。
平稳过程也可以叫做稳态系统,这是一个非常重要的概念,在非常多学科和交叉学科中都有相关的概念和理论涉及:
- 系统科学:系统或者过程(Process theory)的稳态是指其行为的变数(称为状态变数)不随时间而变化。
- 热力学
- 经济学:稳态经济(Steady state economy)是指一个国家(或城市、区域或全世界)经济在一个稳定的规模,可以有稳定的人口以及稳定的消费,而且是在其环境承载力的范围内。
- 工程学
- 通信:"时不变稳态系统"
对于许多系统,系统启动后需要一段时间才会进入稳态。进入稳态前的状态称为暂态或启动阶段。例如流过管子的流体会呈现稳态,这表示有持续固定的流体通过,而正在装水的水槽则是暂态,因为水的体积仍随时间而变化。
系统常常是以渐近的方式进入稳态。若系统无法进入稳态,反而发散,这称为不檼定的系统。
3. 马尔科夫过程:一种非独立随机过程
一个非独立随机过程的简单例子是随机序列中的每个随机变量仅依赖于它的前一个随机变量,而于其他更前面的所有随机变量,这样的过程称为马尔科夫过程,或马尔柯夫链。
此时,随机变量的联合概率密度函数可以写成:
4. 时不变马尔科夫过程:一种非独立平稳随机过程
如果条件概率不依赖于n,即对n=1,2,....,有:
,则称马尔柯夫链是时间不变的。
若无特别说明,总假定马尔柯夫链是时间不变的,在大多数应用场景中,我们都假定马尔柯夫链是时间不变的。
0x2:马尔柯夫链
1. 马尔柯夫链的表征定义
如果{Xi}为马尔柯夫链,则称Xn为n时刻的状态。
一个时间不变的马尔柯夫链完全由其初始状态和概率转移矩阵P=[Pij]所表征。其中,i,j∈{1,2,....,m}
2. 马尔柯夫链性质
- 若马尔柯夫链可以从任意状态经过有限步转移到另一个任意状态,且其转移概率为正,则称此马尔柯夫链是不可约的。
- 如果从一个状态转移到它自身的不同路径长度的最大公因子为1,则称此马尔柯夫链是非周期的。
3. 平稳马尔柯夫链及其收敛性
如果在时刻n,随机变量的概率密度函数为p(xn),那么在n+1时刻,随机变量的概率密度函数为:
若在n+1时刻,状态空间上的分布于在n时刻的分布相同,则称此分布为平稳分布。
如果马尔科夫链的初始状态服从平稳分布,那么该马尔柯夫链为平稳过程。
若有限状态马尔柯夫链是不可约和非周期的,则它的平稳分布唯一,从任意的初始分布出发,当n->∞时,Xn的分布必定趋向于此平稳分布。
Relevant Link:
《信息论基础》阮吉寿著
3. 熵率
0x1:熵率形式化定义
如果给定一个长度为n的随机变量序列,则该序列随着n增长而增长的熵的速度,称为熵率。
当如下极限存在时,随机过程{Xi}的熵率定义为:
0x2:熵率的形象化举例理解
熵率是一个纯信息论概念,比较抽象,我们这小节用具体的例子来说明熵率的现实意义。
以打字机为例,假定一台打字机键盘上有m个按键,即该打字机可输出m个等可能的字母。由此打字机可产生长度为n的mn个序列,并且都等可能出现。
因此,,熵率为H(X) = logm bit/字符。
直观上可以这么理解,因为字符表长度 |X| = m,根据熵的基本性质,H(X) <= log|X|,所以该打字机每打出一个字,至多产生了logm的不确定性,熵率衡量的是理论上随机过程每一步产生的最大熵。
上升到抽象思考模式,将打字机打出的字符序列看作是一个随机变量序列X1,X2,...,Xn,此时有下式:
及打字机对应的随机过程的熵率为H(X1),即打出一个字产生的熵值。
0x3:随机过程熵率极限收敛定理
我们定义随机过程熵率的两个公式
上面二式反映了熵率概念的两个不同方面,第一个量指的是n个随机变量的每个字符熵。第二个量指在已知前面n-1随机变量的情况下最后一个随机变量的条件熵。
对于平稳过程来说,以上两者的极限均存在且相等,即,我们分别来讨论。
1. 随机过程条件熵率极限收敛定理
对于平稳随机过程,随n递减且存在极限
证明:
其中:
- 条件作用使熵减小这个性质得到不等号,即新信息的加入会引入熵的减少;
- 由随机过程平稳性得到等号;
因此,是非负且递减的数列,故其极限存在。
2. 随机过程熵率收敛于条件熵率定理
上一小节证明了随机过程的条件熵率收敛于某个确定值,现在证明随机过程的熵率也收敛于同样的值。
借助数学分析中cesaro均值的定理:
若an -> a,且,则bn -> a。
由于序列{ak}中的大部分项最终趋于a,那么,bn是{ak}的前n项的平均,也将最终趋于a。
基于cesaro均值定理,我们来看随机过程的熵率公式,由联合熵的链式法则有下式:
上式中,随机过程的熵率为条件熵的时间平均,如果条件熵趋于极限,则随机过程的联合熵率也同样趋近于同样的极限值,即:
3. 熵率对平稳遍历过程的平均描述长度表征的泛化能力
研究随机过程熵率的重要意义体现在平稳遍历过程的AEP,事实上,对任意的遍历过程,都有下式:
以概率1收敛,即随机过程恒收敛。
我们可以定义典型集,可以证明典型集的概率近似为1,且大约有2nH(X)个长度为n的典型序列,其每个序列出现的概率大约为2-nH(X)。
所以,大约使用nH(X)比特可表示长度为n的典型序列。这体现出熵率可以表征平稳遍历过程的平均描述长度的重要意义。
0x4:马尔可夫链熵率收敛
1. 马尔柯夫链熵率收敛定理形式化描述
对于平稳的马尔柯夫链,熵率为
其中的条件熵可以根据给出的平稳分布计算得到,注意到,平稳分布μ为下列方程组的解:
下面形式化描述马尔柯夫链熵率收敛定理。
设{Xi}为平稳马尔柯夫链,其平稳分布为μ,转移矩阵为P,则熵率为:
2. 两状态马尔柯夫链熵率收敛具体例子
考虑两状态的一个马尔柯夫链,其概率转移矩阵为:
如下图所示:
设向量μ表示平稳分布,其分量分别为状态1和状态2的概率。通过解方程μP = μ,即可求得平稳概率,或者更简便地,利用平衡概率的方法求得。
对于平稳分布,穿越状态转移图中任意割集的网络概率流必为0。将此结论应用于上图,即可得:
由于μ1+μ2=1,则平稳分布为
如果该马尔柯夫链的初始状态服从平稳分布,则导出的过程是平稳的,在n时刻的状态Xn的熵为
根据平稳遍历马尔柯夫链的熵率收敛定理,上式两状态马尔柯夫链的熵率为:
通过这个例子,可以看到:若马尔柯夫链是不可约的且非周期的,那么该马尔柯夫链存在状态空间谁给你的唯一平稳分布,并且给定任意的初始分布,当n->∞时,分布必趋向于此平稳分布。由于熵率是依据序列的长期行为定义的,那么在此情形下,即使初始分布不是平稳分布,熵率也最终会收敛。
3. 加权图上随机游动的熵率:马尔柯夫链熵率收敛的另一个例子
这个小节,我们继续通过一个具体的例子来深入体会马尔柯夫链的渐进收敛性,理解什么是稳态随机过程。
考虑下面这个连通图上的随机游动:
假定图有m个标记{1,2,....,m}的节点,其中连接节点 i 和 j 的边权重为 Wij >= 0。假定此图是无向的,若节点 i 和 j 没有连接边,则设Wij = 0。
现在有一个粒子在图中由一个节点到另一个节点作随机游动,设随机游动的轨迹为一个序列 {Xn},Xn∈{1,2,...,m},若Xn=i,那么下一个顶点 j 只可能是与节点 i 相连的所有节点中的一个,且转移概率为连接 i 和 j 的边权重所占所有与 i 相连的边的权重之和的比例。因此
设
为连接节点 i 的所有边权重总和,再设
为图中所有的边权重总和,所以有
,因为该图是无向图,所以左式中所有节点都被重复多算了一次。
对于这种情况,平稳分布有一个非常简单的形式,将此马尔柯夫链的平稳分布设定为节点 i 的概率是连接 i 的各边权重总和占图中所有的边权重总和的比例,即平稳分布为:
通过验证可证实上述分布确为平稳分布,此时有:
因此,状态 i 的平稳概率是连接节点 i 的各边权重总和占图中所有的边权重总和的比例。此平稳分布是个局部性质:因为它仅仅依赖于总权重以及与该节点相连的所有的边权重之和,因而若改变图中某些部分的权重,但保持总权重为常数,平稳分布不会有所改变。
通过计算,熵率为:
熵率的这个答案是如此的简洁,显然,这个熵率是平均转移熵。这再次体现了,平稳马尔柯夫链的稳态和初始状态无关,而仅仅和概率转移矩阵有关。
同时希望读者朋友注意的是,随机游动也是非常普适泛化的抽象概念,在工程中大量的实际现象都可以抽象为一个随机游动过程,例如:
- 某个系统指标随时间的不断变化,其变动的范围区间就可以抽象为一个随机游动
- 一段文本(例如waf url检测),将其看做char或者token序列,其不同char/token之间的转换就可以抽象为一个随机游动,也有很多地方直接叫马尔柯夫链
笔者思考:另一方面也要注意,在实际工程中应用随机游动渐进收敛理论的时候,要注意考察当前面对的问题是否符合”稳态马尔柯夫过程“这个大前提,即状态概率转移矩阵是否随时间保持不变这个大前提,很多时候,实际问题是一个复杂混沌系统,而状态转移矩阵也是随时间不断变化的,这些都会导致马尔柯夫链的应用失败。很多时候,不是算法和理论错了,是假设前提错了。
Relevant Link:
《信息论基础》阮吉寿著 - 第四章
4. 从热力学第二定律引出马尔柯夫链中不同状态的熵函数之间的关系
0x1:从热力学第二定律中导出的四条关于系统熵的结论
热力学第二定律是物理学中的基本定律之一,表明孤立系统的熵总是不减的。在统计热力学中,熵通常定义为物理系统的微观状态数的对数值,所有单元状态都是等可能发生的,这与熵的概念是一致的。
我们将物理孤立系统建模为一个马尔柯夫链,其中状态的转移规律由控制该系统的物理定律所决定。对于这样的系统,我们可以获得关于热力学第二定律的4种不同解释。
1. 马尔柯夫链状态空间上不同概率分布之间的相对熵随状态n递减
设μn和μn'为n时刻时,马尔柯夫链状态空间上的两个概率分布,而μn+1和μn+1'是时刻n+1时的相应分布。令对应的联合概率密度分别记为p和q,于是有
其中表示马尔柯夫链的概率转移函数。由相对熵的链式法则,可得两种展开方式:
由于p和q都由该马尔柯夫链推导而来,所以条件概率密度函数和都等于。
于是,此时,利用的非负性,可得:
或:
因此,对于任何马尔柯夫链,两个概率密度函数间的距离随时间n递减。
2. 马尔柯夫链n时刻的状态分布和平稳分布之间的相对熵随状态n递减
随着时间的流逝,状态分布将会愈来愈接近于每个平稳分布。序列为单调下降的非负序列,其极限必定存在。
3. 若平稳分布是均匀分布,则系统熵不断增加
熵定理告诉我们,均匀分布是最大熵分布,所以如果马尔柯夫链的稳态是均匀分布,则整个系统将逐渐收敛到这个最大熵分布,在收敛的过程中,整体系统熵也在不断增大。
如果平稳分布为均匀分布,则可以将n状态下概率分布和平稳分布之间的相对熵表示如下:
此时,相对熵的单调递减蕴含了整体系统熵的单增性(和max之间的距离逐渐减小,正说明了当前值在不断增大)。这个解释和统计热力学联系非常紧密,其中所有微观状态都是等可能发生的
4. 平稳马尔科夫过程中初始状态对当前状态的条件熵递增
对于平稳的马尔科夫过程,条件熵H(Xn|X1)随n递增。如果马尔科夫过程是平稳的,则未来状态的条件不确定性是递增的。证明过程如下:
0x2:关于马尔科夫平稳分布和熵增定理的一些延伸思考
笔者思考1:用经济学理论来解释上面的不等式,假定加拿大和英格兰对于财产重新分配都采用相同的税收体系。设μn和μn'分别代表两个国家的私人财产分布,那么由上述不等式可得一个结论,这两个国家之间的私人财产分布的相对熵距离,将随时间而递减。假以时日,加拿大和英格兰的财产分布情况将愈来愈相似。
笔者思考2:从博弈论的角度来解释上面的不等式,在竞争理论中,博弈论告诉我们,追上对手最好的方式就是和对手保持一致,对手做什么,你也做什么。
一个具体形象化的解释就是,如果你和你的对手在一个单人帆船比赛中,你和你的对手之间有一段100米的差距,现在你需要找到一种策略,能稳定地缩短你和对手之间的距离。最好的策略是这样的,你需要紧紧盯着你的对手的一举一动,他做什么你也做什么,他左转你也左转,他右转你也右转,他落水你也落水,只要你100%地保持和他一致,那么你和他之间的距离就会逐渐减少。听起来很匪夷所思,但实际是理论合理的。但这其实只是一种理论策略,在实际情况中,仅仅追上竞争对手是没有用的,一味地模仿是无法真正做到行业老大的,相反,一个好的竞争者需要不断优化自己的概率转移函数,使自己的概率转移函数由于你的竞争对手,做到了这一步后,通过n步的收敛后,你最终达到的稳态才有可能超过你的对手。前面说的模仿策略只适合于一些特殊场景,例如你和对手之间实力差距过大需要先进行模仿,或者说你纯粹是为了打压对手,通过模仿将对手的某一维度(例如创意)的优势磨平,然后通过自己在另一个维度的优势(例如资金)来碾压对手,例如TX的游戏模仿策略。
Relevant Link:
《信息论基础》阮吉寿著 - 第四章
5. 马尔柯夫链的函数
在之前的中,我们从概率论的角度讨论了HMM(隐马尔可夫模型),这个章节,我们重新从信息论中马尔科夫链函数的角度,重新审视一下HMM的思想原理。
0x1:马尔柯夫链函数的收敛性讨论
设X1,X2,...,Xn,....为平稳马尔柯夫链,是一个随机过程,其中每一项均为原马尔柯夫链中对应状态的函数。
现在问题来了,此时熵率H(Y)是多少?Y序列的收敛性性和收敛值如何评估和计算?
有一个好的想法是,如果给出上界和下界,且它们分别从上下收敛于同一极限,这样,当上界和下界差别较小时,我们可以中止计算而获得极限的一个很好的估计。
已知单调地收敛于H(Y),对于下界,将使用下面这个引理
证明过程如下:
其中:
- (a)成立是因为Y1为X1的函数
- (b)成立可由X的马尔科夫性得到
- (c)成立由于Yi为Xi的函数
- (d)成立由于条件作用使熵减小
- (e)成立根据马尔柯夫链平稳性得到
由于对任意的k,不等式都成立,故两边取极限不等式亦成立,所以:
下面引理表明,由上述上界和下界所构成的区间长度是递减的,也即渐进收敛。
0x2:隐马尔可夫模型(HMM)
综合上面定理和引理,我们有如下定理:
若X1,X2,...,Xn构成平稳的马尔柯夫链,且,那么
且:
一般地,给定马尔科夫过程X1,X2,...,Xn,由此定义新过程Y1,Y2,...,Yn,其中每个Yi服从p(yi | xi),且条件独立于其他所有的,即
这样的过程称为隐马尔可夫模型(HMM)。
Relevant Link:
《信息论基础》阮吉寿著 - 第四章