第十章 条件随机场CRF

文章目录

  • 1 条件随机场定义
    • 1.1 马尔科夫随机场
      • 1.1.1 用图模型表示概率
      • 1.1.3 三个马尔科夫性
      • 1.1.3 重点再看局部马尔科夫性
    • 1.2 马尔科夫随机场的因子分解
    • 1.3 条件随机场
    • 1.4 线性链条件随机场
  • 2线性链条件随机场的表示形式
    • 2.1 参数化形式
    • 2.2 简化形式
    • 2.3 矩阵形式
  • 3 条件随机场的概率计算
  • 4 条件随机场的学习算法
    • 4.1 最大熵模型
      • 4.1.1最大熵模型定义
      • 4.1.2 最大熵模型学习
  • 4.2 条件随机场的学习算法
  • 5 条件随机场的预测算法

1 条件随机场定义

1.1 马尔科夫随机场

1.1.1 用图模型表示概率

图G=(V,E),V表示顶点集合,E表示边的集合。

概率图模型表示用图表示概率的分布。

可以用无向图G表示联合概率分布P(Y)。Y一定是一个矢量。
顶点v∈Vv \in VvV表示一个随机变量YvY_vYvY=(Yv)v∈VY = (Y_v)_{v \in V}Y=(Yv)vV
e∈Ee \in EeE表示随机变量之间的概率依赖关系。

这样对联合概率分布的计算转为对无向图的计算。联合概率分布P(Y)需要满足三个马尔科夫性。

1.1.3 三个马尔科夫性

1 成对马尔科夫性
讲的是两个没有边连接的节点,联合概率等于概率的乘积。
假设无向图G中,u和v是两个没有边连接的结点,分别对应随机变量YuY_uYuYvY_vYv。其他所有节点为O,对应随机变量组YOY_OYO。那么:
P(Yu,Yv∣YO)=P(Yu∣YO)P(Yv∣YO)P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)P(Yu,YvYO)=P(YuYO)P(YvYO)

2 局部马尔科夫性
讲的是一个节点和与它没有任何边连接的节点的集合,联合概率等于概率的乘积。
假设无向图G中,v是任意一个结点,对应随机变量YvY_vYv。W是与v有边连接的所有节点的集合,对应随机变量组YWY_WYW。O是v和W之外的所有节点,对应随机变量组YOY_OYO。那么:
P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)P(Yv,YOYW)=P(YvYW)P(YOYW)

3 全局马尔科夫性
讲的是两个集合,一个集合中的任意一个点,与另外一个集合中的任意一个点没有边连接, 那两个集合的联合概率等于概率的乘积。
假设节点集合A、B,是在无向图G中被集合C分开的任意节点的集合,分别对应随机变量组YAY_AYA,YBY_BYB,YCY_CYC。那么:
P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC)P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)P(YA,YBYC)=P(YAYC)P(YBYC)

1.1.3 重点再看局部马尔科夫性

成对马尔科夫性,局部马尔科夫性以及全局马尔科夫性是等价的。

v是无向图G中任意一个结点,对应随机变量YvY_vYv
W是与v有边链接的所有结点,对应随机变量组是YWY_WYW
O是v,W以外的所有结点,对应随机变量组是YOY_OYO
那么 P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)P(Y_v,Y_O|Y_W) =P(Y_v|Y_W)P(Y_O|Y_W)P(Yv,YOYW)=P(YvYW)P(YOYW)说明给定YWY_WYW条件下YvY_vYvYOY_OYO是条件独立的。也就是说v只与W有关系。
在这里插入图片描述
如图所示W表示所有与v相连的点。O表示除v和W之外的所有点。

我们再看P(Yv,YO∣YW)=P(Yv∣YO,YW)P(YO∣YW)P(Y_v,Y_O|Y_W) =P(Y_v|Y_O,Y_W)P(Y_O|Y_W)P(Yv,YOYW)=P(YvYO,YW)P(YOYW)(根据条件概率公式)

两个公式联合起来得到结论:P(Yv∣YW)=P(Yv∣YO,YW)P(Y_v|Y_W) = P(Y_v|Y_O,Y_W)P(YvYW)=P(YvYO,YW)(记为公式1)

1.2 马尔科夫随机场的因子分解

团:无向图中任意两个结点均有边相连的节点子集。
最⼤团:⽆向图 中的⼀个团,并且不能再加进任何⼀个结点使其成为⼀个更⼤的团。
在这里插入图片描述
这个图中的最大团是(v1,v2,v3)或者(v1,v3,v4)
概率无向图的联合概率分布P(Y)=1Z∏CΦC(YC)P(Y) = \dfrac{1}{Z}\prod_C \Phi_C(Y_C)P(Y)=Z1CΦC(YC)
(概率无向图的联合概率分布就等于所有最大团的一个累乘,所有最大团上势函数的累乘)
其中C是无向图的最大团,YCY_CYC是C的节点对应的随机变量,
势函数ΦC(YC)=exp{−E(YC)}\Phi_C(Y_C)=exp\{-E(Y_C)\}ΦC(YC)=exp{E(YC)}
Z是规范化因子,是一个全概率分布,Z=∑Y∏CΦC(YC)Z=\sum_Y\prod_C\Phi_C(Y_C)Z=YCΦC(YC)
乘积是在无向图所有的最大图上进行的。
势函数会根据模型的不同而不同。

1.3 条件随机场

设X与Y是随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布。如果Y构成一个由无向图G表示的马尔科夫随机场,则称条件概率分布P(Y|X)为条件随机场。
对于任意v,都有P(Yv∣X,Yw,w≠v)=P(Yv∣X,Yw,w−v)P(Y_v|X,Y_w,w\ne v) = P(Y_v|X,Y_w,w-v)P(YvX,Yw,w=v)=P(YvX,Yw,wv) w-v表示w是与v相连的所有点。也就是说v事件发生的概率只与与它相连的点有关系。
说明:X是Y的条件,X是输入,Y是输出。
这个公式的由来是从公式1对比得到的。增加了条件X。
这个公式可以描述为:任意一个节点v的在与它有边相连的条件下的概率,等于非v条件下的概率。

1.4 线性链条件随机场

再进一步约束:我们用无向图G表示事件Y的概率,Y中包含Y1,Y2,Y3…Yn。这些事件之间具有线性关系。
再假设条件X,X包含X1,X2,X3…Xn。X和Y之间具有线性关系。如下图所示。
在这里插入图片描述

也就是说加上条件Y是具有线性关系的,X和Y具有相同的线性结构。上面的公式可以写为:P(Yi∣X,Y1,Y2...Yi−1,Yi+1,...Yn)=P(Yi∣X,Yi−1,Yi+1)P(Y_i|X,Y_1,Y_2...Y_{i-1},Y_{i+1},...Y_n) = P(Y_i|X,Y_{i-1},Y_{i+1})P(YiX,Y1,Y2...Yi1,Yi+1,...Yn)=P(YiX,Yi1,Yi+1)。这个公式称为线性链条件随机场。记为公式2。
与节点i有边相连的节点时候i−1i-1i1i+1i+1i+1
不等于i的节点有:1,2,…i-1,i+1,…n
X是条件

2线性链条件随机场的表示形式

在这里插入图片描述
可以看到在图中是有7个最大团。计算P(Y|X)就是所有最大团的势函数的累乘。

2.1 参数化形式

定义了每个节点和每条边的特征函数,用特征函数表示概率。
P(Y)=s1t1s2t2...tn−1snP(Y)=s_1t_1s_2t_2...t_{n-1}s_nP(Y)=s1t1s2t2...tn1sn
设P(Y|X)为线性链条件随机场,则在随机变量X取值为x的条件下,随机变量Y取值为y的条件概率
在这里插入图片描述

其中,
在这里插入图片描述
tkt_ktk是定义在边上的特征函数。依赖于当前和前一个位置。
sls_lsl是定义在结点上的特征函数,称为状态特征,依赖于当前位置。
tkt_ktksls_lsl值为1或者0。
λk\lambda_kλkμl\mu_lμl是对应的权值。
Z(x)是规范化因子,求和是在所有可能的输出序列上。

注意:这两句话没理解明白,暂时记录在这里。
sls_lsl的个数应该等于边的个数 x 每个顶点可能的取值集合个数
tkt_ktk个数=边的个数 x(第一个顶点取值个数 x 第二个顶点取值个数)

这是按照上面最大团的定义来确定的。

2.2 简化形式

fkf_kfk表示边的特征函数和节点的特征函数。
设有K1K_1K1个边的特征函数,有K2K_2K2个节点的特征函数,K=K1+K2K=K_1+K_2K=K1+K2
在这里插入图片描述

wkw_kwk表示边的权重和节点的权重。
在这里插入图片描述

则条件随机场表示为:
在这里插入图片描述

用向量化表示为:
P(y∣x)=exp(w.F(y,x))Zw(x)P(y|x)=\dfrac{exp(w.F(y,x))}{Z_w(x)}P(yx)=Zw(x)exp(w.F(y,x)),其中
Zw(x)=∑yexp(w.F(y,x))Z_w(x) = \sum_y exp(w.F(y,x))Zw(x)=yexpw.F(y,x)

2.3 矩阵形式

引入一个特殊的起点标记y0=starty_0=starty0=start表示开始状态,yn+1=stopy_{n+1}=stopyn+1=stop表示终止状态。定义一个m阶矩阵。
m是yiy_iyi取值的个数。
如果yiy_iyi表示骰子出现的某一面,那么m=6;如果yiy_iyi表示一枚硬件哪面朝上,那么m=2。
在这里插入图片描述

P(y∣x)=1Zw(x)∏i=1n+1Mi(yi−1,yi∣x)P(y|x) = \dfrac{1}{Z_w(x)}\prod^{n+1}_{i=1}M_i(y_{i-1},y_i|x)P(yx)=Zw(x)1i=1n+1Mi(yi1,yix)

其中Zw(x)=(M1(x),M2(x),...Mn+1(x))start,stopZ_w(x)=(M_1(x),M_2(x),...M_{n+1}(x))_{start,stop}Zw(x)=(M1(x),M2(x),...Mn+1(x))start,stop

矩阵最关注矩阵的形状。

3 条件随机场的概率计算

条件随机场的概率计算问题是:计算条件概率P(Yi=yi∣x)P(Y_i=y_i|x)P(Yi=yix),P(Yi−1=yi−1,Yi=yi∣x)P(Y_{i-1}=y_{i-1},Y_{i}=y_i|x)P(Yi1=yi1,Yi=yix) 以及它们的希望。

前向计算
后向计算
计算特征函数fk(x,y)f_k(x,y)fk(x,y)关于条件分布P(Y|X)的数学期望:
在这里插入图片描述

计算特征函数fk(x,y)f_k(x,y)fk(x,y)关于联合分布P(X,Y)的数学期望:
在这里插入图片描述

这里的结果是中间量

4 条件随机场的学习算法

4.1 最大熵模型

4.1.1最大熵模型定义

模型就是一个从输入到输出的一个映射,可以是一个f(x),也可以是一个P(y|x)。当在所有条件都满足的时候,这个函数不唯一的时候,就使用最大熵策略来选择模型。所以最大熵模型是一种选择策略,是一种世界观。

熵最大=变量几乎可以均匀分布

假设分类模型是条件概率分布P(Y|X)。给定条件X,以条件概率P(Y|X)输出Y。
给定训练集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,分别以P^(X,Y)\hat{P}(X,Y)P^(X,Y)P^(X)\hat{P}(X)P^(X)。这里
P^(X=x,Y=y)=v(X=x,Y=y)N\hat{P}(X=x,Y=y)=\dfrac{v(X=x,Y=y)}{N}P^(X=x,Y=y)=Nv(X=x,Y=y)
P^(X=x)=v(X=x)N\hat{P}(X=x)=\dfrac{v(X=x)}{N}P^(X=x)=Nv(X=x)

其中,v(X=x,Y=y)v(X=x,Y=y)v(X=x,Y=y)表示训练样本中(x,y)出现的频率,v(X=x)v(X=x)v(X=x)表示训练样本中x出现的频率。N表示样本容量。

特征函数f(x,y)描述输入x和y之间的某一事实。
在这里插入图片描述
特征函数f(x,y)关于经验分布P^(X,Y)\hat{P}(X,Y)P^(X,Y)的期望:
EP^(f)=∑x,yP^(x,y)f(x,y)=∑x,yP^(x)P^(y∣x)f(x,y)E_{\hat{P}}(f)=\sum_{x,y}\hat{P}(x,y)f(x,y)=\sum_{x,y}\hat{P}(x)\hat{P}(y|x)f(x,y)EP^(f)=x,yP^(x,y)f(x,y)=x,yP^(x)P^(yx)f(x,y)(公式1)

特征函数f(x,y)关于模型P(Y|X)与经验分布P^(X)\hat{P}(X)P^(X)的期望
EP(f)=∑x,yP^(x)P(y∣x)f(x,y)E_{P}(f)=\sum_{x,y}\hat{P}(x)P(y|x)f(x,y)EP(f)=x,yP^(x)P(yx)f(x,y)(公式2)

假设:特征函数f(x,y)关于经验分布P^(X,Y)\hat{P}(X,Y)P^(X,Y)的期望应该等于关于模型P(Y|X)与经验分布P^(X)\hat{P}(X)P^(X)的期望。那么P(y∣x)=P^(y∣x)P(y|x)=\hat{P}(y|x)P(yx)=P^(yx)(对比公式1和公式2),也就是说数据集的条件概率分布可以反映出模型的条件概率分布。这就可以达到我们的目的了。

最⼤熵模型:假设满⾜所有约束条件的模型集合为
在这里插入图片描述

定义在条件概率分布P(Y|X)上的条件熵为:
H(P)=−∑x,yP^(x)P(y∣x)logP(y∣x)H(P)=-\sum_{x,y}\hat{P}(x)P(y|x)logP(y|x)H(P)=x,yP^(x)P(yx)logP(yx)

4.1.2 最大熵模型学习

优化函数:在这里插入图片描述

拉格朗日乘子法
1 构建拉格朗日乘子
在这里插入图片描述

2 求min
3 求max
最⼤熵模型的极⼤似然估计等价于对偶函数极⼤化。
对偶函数如下:
在这里插入图片描述

4 模型学习:迭代尺度法
在这里插入图片描述

这部分的学习跳过了。直接用结论。

4.2 条件随机场的学习算法

由训练数集,计算经验概率分布P^(X,Y)\hat{P}(X,Y)P^(X,Y)
目标函数是对数似然函数。计算其中的参数W
在这里插入图片描述

5 条件随机场的预测算法

给定条件随机场P(Y|X)和输入观测序列x,求条件概率最大的标记序列y*。
维特比算法。
公式太多,没有记录。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424057.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js中同名的函数的调用情况

转自:https://www.cnblogs.com/wshiqtb/p/3480597.html html中如果出现函数同名时:如果有多个外部引入的js文件,例如a.js和b.js(引入顺序假定是a.js,然后是b.js),同时html中本身也有内部的js.那么针对出现函数名一样的情况时&…

第一百二十五期:程序员的自我救赎,使用Python开发性格分析工具

如此不均衡的贫富差距,各行业的领导者如何能管理好公司,让员工们既努力产出,又能安于现状呢?每个领导者必学的一门课程就是职场心理学。只有你充分了解员工心理与对应的行为表现,才能从容的掌控各类型的人员,从而达到…

笛卡尔乘积算法的体现

一个商品有多项属性,多项属性的组合就产生不同的商品型号如:衣服:颜色:红、绿尺寸:大、中、小产生的系列就有:红|大、红|中、红|小、绿|大、绿|中、绿|小如果商品的属性不至两个,则产生的系列会…

知识图谱基础

本系列是学习七月算法知识图谱课程的笔记。感觉自己完全就是一个托儿。前面七月算法机器学习,七月算法深度学习的笔记。现在又来了知识图谱课程的笔记。 文章目录1 why知识图谱2 知识图谱前世今生3 知识图谱相关技术4 知识图谱应用案例1 why知识图谱 没有知识图谱&…

第一百二十六期:代码以外的生存之道,献给每位入了坑的码农

本篇内容主要是对这本书的一个总结概括,也希望能用作抛砖引玉,让读者在看完之后,对这本书有所兴趣,或者希望能让读者对代码以外的需要做的事情更加积极明朗一点。 作者:码农三哥 前言 最近刚刚读完了一本书&#xf…

DataDirectory是什么?

asp.net 2.0有一个特殊目录app_data,通常Sql server 2005 express数据文件就放在这个目录,相应的数据库连接串就是:connectionString"…… data source.\SQLEXPRESS;Integrated SecuritySSPI;AttachDBFilename|DataDirectory|data.mdf;User Instanc…

【UOJ 51】最接近神的人

【题目描述】: 破解了符文之语,小FF开启了通往地下的道路。当他走到最底层时,发现正前方有一扇巨石门,门上雕刻着一幅古代人进行某种活动的图案。而石门上方用古代文写着“神的殿堂”。小FF猜想里面应该就有王室的遗产了。但现在的…

知识图谱存储与搜索

本系列是学习七月算法知识图谱课程的笔记 知识图谱存储是一个技术活。根据数据量以及关系复杂程度可能会选择不同的介质。课程里面直接用了neo4j。 讲了neo4j安装、语法、建库、添加数据、导入数据、查询数据。 最后讲了在应用中的一些高级查询。例如朋友圈检测、欺诈团检测。…

第一百二十七期:程序员41岁创业逆袭成全美最受欢迎CEO,公司市值近200亿美金

袁征(Eric Yuan)在国内鲜为人知,却在硅谷的商业世界,创造了华人新的可能性——带领公司成功上市,成为全美国上市公司当中、美国面向全球的企业里估值最高的华人CEO。 作者:新芽NewSeed 导语:袁…

老生常谈的思考

其实这些话题还都是老生常谈的话题了,经常在我的博客上面说这些东西。最近一段时间来我确实比较痛苦,在人生最迷茫的时候经历一场感情风波,可能让我这个人有些显得颓废崩溃。这段时间谢谢温温等其他一些博客园好友的宽慰,劝解&…

词汇挖掘与实体识别(未完)

文章目录1 概述2 词汇挖掘2.1 关键词提取2.1.1 基于特征统计2.1.2 基于主题模型2.1.3 Text-Rank算法提取2.2 同义词挖掘2.2.1 同义词类型2.2.2 挖掘2.3 缩略词挖掘2.4 新词挖掘3 实体识别(NER)3.1 基于概率图模型3.2 基于深度学习1 概述 实体:是文本中的一些词汇或…

第一百二十八期:推荐几个IDEA插件,Java开发者撸码利器,你get到了吗

一款热部署插件,只要不是修改了项目的配置文件,用它都可以实现热部署。收费的,破解比较麻烦。不过功能确实很强大。 作者:编程届java员 JRebel for IntelliJ 一款热部署插件,只要不是修改了项目的配置文件&#xff…

jeecg流程梳理学习

jeecg 流程梳理 角色admin 管理员 fgld学校分管领导 bgs学校办公室 xbld系部领导 xbky系部科员jxky bmld部门领导 发文申请applyUserIdadmin${assigneeUserId} 并行cgAutoListController.do?list&idjfrom_huiq顺会签cgAutoListController.do?list&idsx_huiqian 加班申…

lighttpd,thttpd,shttpd - 轻量级WebServer介绍

lighttpd,thttpd,shttpd - 轻量级WebServer介绍 lighttpd,thttpd,shttpd - 轻量级WebServer介绍 Filed under: lighttpd, Web Server, thttpd — allen 8:27 pm 转自 Zhiqiang::He 博客. 国内绝大部分的web server不是IIS就是Apache,而论市场占有率,我认…

spring mvc学习(35):restful的put

创建maven项目就不说了&#xff0c;需要的找我前面的博客 pom.xml文件 <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http…

一、词向量模型

因为计算机不能理解词语&#xff0c;所以我们需要用词向量表示一个词。 词向量有一个发展历程&#xff1a;从one-hot到word embedding。 1 one-hot 设词典的大小为n&#xff08;词典中有n个词&#xff09;&#xff0c;假如某个词在词典中的位置为k&#xff0c;则设立一个n维向…

【广告】我妹妹导演的毕设——数字传媒摄影作品

我妹妹涂华思宇导演的作品&#xff0c;也是她的本科毕业设计&#xff5e; https://www.xinpianchang.com/a10452218 欢迎各位点击&#xff01; 涂华思宇,initiated四川文化艺术学院 2019/6/30 tz,postedcroplab,HZAU 2019/7/16转载于:https://www.cnblogs.com/acm-icpcer/p/111…

spring mvc学习(36):jstl的jar包的下载

1. 我们在使用spring框架的时候导入jstl标签库需要使用到jstl的jar包&#xff0c;假如没有加入到eclipse的lib目录下&#xff0c;使用alt /的时候不会有提示&#xff0c;所以我们需要把这个jar包加进来 首先登陆网址&#xff1a;http://tomcat.apache.org/taglibs/ 找到下面的…

同学的QQ群上

这是去年5月25日事情&#xff0c;现在看着还挺逗 一个新上任的管理员突然很郁闷发言说道“还没踢过人呢&#xff0c;哪个同学能让我踢一下&#xff1f;”立即有2个响应者&#xff0c;这2个同样是管理员&#xff0c;但也同样没有踢过人的经验&#xff0c;对此极感兴趣。于是遍寻…

二、语言模型

文章目录1 语言模型2 语言模型评价指标&#xff1a;Perplexity3 基于神经网络的语言模型3.1 RNN3.2 LSTM3.3 GRU4 优化函数5 模型代码6 用途与评价1 语言模型 语言模型的任务是判断一句话出现的概率&#xff08;也就是说一句话是不是人说的&#xff09;&#xff0c;可以表示为…