Jelinek-Merer与Absolute discounting 平滑方法

Jelinek-Merer

Jelinek-Merer平滑方法的基本思想是利用低元n-gram模型对高元n-gram模型进行线性插值。
在这里插入图片描述
PML(wi∣wi−1)=c(wi,wi−1)c(wi−1)P_{ML}(w_i|w_{i-1})=\dfrac{c(w_i,w_{i-1})}{c(w_{i-1})}PML(wiwi1)=c(wi1)c(wi,wi1)

c(wi,wi−1)c(w_i,w_{i-1})c(wi,wi1)是指词i和词i-1共同出现的次数。

PML(wi)=c(wi)NP_{ML}(w_i)=\dfrac{c(w_i)}{N}PML(wi)=Nc(wi)
N: term总数

Absolute discounting 绝对值减法

也是一种插值方式。通过从每个非零计数中减去一个固定的值D来建立高阶分布。
在这里插入图片描述

D应该是在0到1之间。D的估计值可以是:D=n1n1+2n2D=\dfrac{n_1}{n_1+2n_2}D=n1+2n2n1
n1n_1n1是训练语料库中出现了1次的term总数,在n元语法模型中。
n2n_2n2是训练语料库中出现了2次的term总数,在n元语法模型中。

在这里插入图片描述
这部分的含义是:在n元语法模型中,和wi−1w_{i-1}wi1出现的不同元素个数。
∑wic(wi−n+1i)\sum_{w_i}c(w_{i-n+1}^i)wic(win+1i)的含义是与wiw_iwi一起出现次数为0的不同元素的个数。

心存疑问,这里不太确定。
对于一元模型,Panyunsheng8讲解的还是很清楚的。对于二元模型存在疑问。
在这里插入图片描述

参考资料:
MacCartney, B. (2005). Nlp lunch tutorial: Smoothing.
https://www.jianshu.com/p/a28acdc32b56
https://github.com/PangYunsheng8/Smoothing-Techniques-in-NLP/blob/master/smoothing.ipynb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/423927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

超级实用且不花哨的js代码大全

****************************************************************(一)常用元素,对象,事件,技巧事件源对象 event.srcElement.tagName event.srcElement.type 捕获释放 event.srcElement.setCapture(); event.srcEl…

phpMyAdmin 配置

下载:http://downloads.sourceforge.net/project/phpmyadmin/phpMyAdmin/4.0.2/phpMyAdmin-4.0.2-all-languages.tar.bz2?rhttp%3A%2F%2Fsourceforge.net%2Fprojects%2Fphpmyadmin%2F&ts1370058054&use_mirrorncu 输入用户名和密码后点击“执行”&#xff…

三种平滑方法

为了理解《LETOR: A benchmark collection for research on learning to rank for information retrieval》中提出的数据特征中的三个:LMIR.ABS、LMIR.DIR、LMIR.JM的计算方法,我查阅了很多资料。前面一篇博客是理解。这一篇也是。这篇博客的内容来自《A…

控制台读写

program Project1;{$APPTYPE CONSOLE}varstr: string; beginWriteln(请输入:);Readln(str);Writeln(你输入的是: str);Readln; end.转载于:https://www.cnblogs.com/del/archive/2007/11/21/967013.html

基于Chromium构建Chrome WebBrowser for .net 控件(还有点心得体会)

http://blog.csdn.net/lllllllllluoyi/article/details/8540054 首先向360说句sorry,在2011年360极速浏览器出现的时候我去他们论坛里骂过。为什么要到歉呢,因为2012年我把我们公司使用IE WebBrowser改为Chrome控件了,中间遇到的辛酸使我明白…

我们“老实”么?

我们“老实”么? 不知道现在的人,对老实这个词语是怎样的看法。“聪明”的人应该觉得那是个贬义词吧,因为他们总是在利用那些他们认为的“老实”人,有好事的时候他们想到的是那些他们畏惧或者讨好自己的人,有麻烦的时候…

从决策树到xgboost(一)

文章目录1 决策树1.1决策树定义1.2信息增益1.3 信息增益的算法1.4 信息增益比2 决策树ID32.1 ID3树的构建2.2 决策树的剪枝2.2.1 损失函数定义与计算2.2.2 剪枝过程2.3 CART树2.3.1 CART回归树2.3.2 CART分类树2.3.3 CART树剪枝1 决策树 1.1决策树定义 决策树的基本组成&…

网络媒体的赢利模式

首先我们先确定几个概念,网络媒体本质上是媒体的一种,它具有媒体的一切共性,同时它的经营也具有媒体经营的一切共性,而媒体除网络媒体以外,我们把其余的统称为传统媒体,其中又把电视、电台和报刊称之为传统…

从决策树到xgboost(二)

文章目录3 集成学习4 Adaboost4.1 Adaboost算法4.1.1 初始化训练数据的起始权值分布4.1.2 对m个弱分类器m1,2,3...M4.1.3 构建弱分类器的线性组合4.1.4 得到最终的分类器5 Boosting5.1 加法模型5.2 前向分布算法6 提升决策树BDT6.1 BDT算法6.2 回归问题提升树7 梯度提升决策树G…

[伤了昨天的心 裂成碎片和沙一起飞]五香里脊

今晨3点挂的电话,6点睁开的眼。困到头痛,但还是烧了道肉菜。…**…**…**…**…**…**…**…*分隔 五香里脊*…**…**…**…**…**…**…**…五香里脊 材料:1.里脊肉、油、麻油。2.蒜末、辣椒末、水、生抽、老醋、糖、…

python 字符串format使用

python字符串的格式化输出 格式化字符串是程序设计语言中用于指定输出参数的格式化与相对位置的字符串参数。其中的转换说明用于把随后的对应一个或多个函数参数转换为相应的格式输出:格式化字符串中转换说明以外的其他字符原样输出。 1>>>"I like %s…

MOTOMAN-SV3X运动学建模验证图

以下是正解,逆解 结果 转载于:https://www.cnblogs.com/wqj1212/archive/2008/01/01/1022177.html

极客时间算法练习题总结

文章出处:极客时间《数据结构和算法之美》-作者:王争。该系列文章是本人的学习笔记。 在极客时间《数据结构和算法之美》最后,王争老师加餐了7天训练内容,对每一部分需要掌握的数据结构与算法做了总结。现在我把这些题目放在一起&…

小程序·云开发实战 - 迷你微博

0. 前言 本文将手把手教你如何写出迷你版微博的一行行代码,迷你版微博包含以下功能: Feed 流:关注动态、所有动态发送图文动态搜索用户关注系统点赞动态个人主页使用到的云开发能力: 云数据库云存储云函数云调用没错,几…

看看自己08年的基金是否能赚钱

你的机器人已通过审核, 机器人名称:天才小猪仔-基金定投 机器人帐号:sharetop.cnhotmail.com 机器人地址: http://contest.xiaoi.com/listRobot.do?actionshowDetail&id61 欢迎进入 http://contest.xiaoi.com 为你的机器人…

spring mvc学习(60):ssm项目整合

SSM整合 建立springmvc项目&#xff0c;先跑起来&#xff0c;再整合spring和mybatis 一.SpringMVC建立 1.新建maven工程&#xff0c;安装tomcat 2.导入pom <!-- springmvc --><dependency><groupId>org.springframework</groupId><artifactId>…

回溯算法归纳

回溯算法解题思路回溯的两种思路题目描述按照思路1解决按思路2解决回溯的两种思路 看不同的解题方法&#xff0c;形成不同的思维。 先说结论。回溯解题思路1&#xff1a;是对可选择每个元素&#xff0c;采取不选择、选择两种策略&#xff0c;不断递归下去。最近看花花酱的视频…

Des与3Des加密解密

/// <summary>/// Des和3Des算法/// </summary>public class Des{/// <summary>/// Des加密/// </summary>/// <param name"pToEncrypt">明文</param>/// <param name"sKey">密钥</param>/// <returns…

Javascript中Date对象的使用

JavaScript 没有一个基本的日期数据类型&#xff0c;所以我们只能显式地创建Date对象。我们创建新的Date对象和创建String对象的方式是一样的&#xff0c;使用关键字new和Date构造函数。下面这行创建了一个包含当前日期和实践的Date对象&#xff1a;var todaysDate new Date()…

数据结构与算法总结(完结)

极客时间算法学习之后开始跟着花花酱刷题。大概从4月份开始的。从今天开始&#xff08;2020-8-24&#xff09;开始做总结&#xff0c;复习一下已经刷过的题目。到目前为止leetcode刷题323道。 2020/8/24 完成题目整理&#xff0c;下一步是将每个题目都加上超链接。这个超链接尽…