语言统计学中的几个定律,可作为设计检索的参考

30定律:出现频率最高的30个词占全文本总词数的30%
如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%
Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数
freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N
那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推
heaps定律,在自然语料库中不重复term的个数和语料库数据量成指数关系
因为是指数关系,可以知道下面几个特征
1 文档数无限增大,不重复term的个数也不会趋于一个常数
2 随着文档数的增加,不重复term的增长率会有所下降,增长率渐渐趋于平稳
Benford law在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)

转载于:https://www.cnblogs.com/hdflzh/p/4034622.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/432240.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

so打包进APK

问题描述我本身有个现成的SO文件,想通过编译方式打包进APK里,不知道该怎么做? 解决方案1libs/armeabi/是在项目根目录中,应该可以 解决方案2大哥,so放到lib目录中,打包时,会自动编入APK&#xf…

保存hbitmap到文件

void SaveBitmapToFile(HBITMAP hBitmap, char* szfilename) {HDC hdc; //设备描述表int ibits;WORD wbitcount; //当前显示分辨率下每个像素所占字节数//位图中每个像素所占字节数,定义调色板大小,位图中像素字节大小,位图文件大小 &a…

linux rz批量上传

rz -be 转载于:https://www.cnblogs.com/hh6plus/p/5548082.html

Linux makefile 教程 很具体,且易懂

近期在学习Linux下的C编程,买了一本叫《Linux环境下的C编程指南》读到makefile就越看越迷糊,可能是我的理解能不行。 于是google到了下面这篇文章。通俗易懂。然后把它贴出来,方便学习。 后记,看完发现这篇文章和《Linux环境下的C…

不要怂!就是干!

来大学快两个月了,总的来说还可以,顺利进入了学生会,成为了ACM协会的外部人员,没有水土不服关系不合等大碍,一切都很正常。 可是,我最害怕的事还是发生了,C语言的学习遇到了瓶颈,往前…

JQuery学习记录——DOM的加载

一、加载DOM 在页面加载完毕后,浏览器会通过javaScript为DOM元素加载事件,在js中通常使用window.οnlοadfunction(){...}方法,在JQuery中使用$(document).ready(function(){...}),或简写成$(function{...}),这个方法使…

UE4 定时器

h文件 FTimerHandle MemberTimerHandle; void RepeatingFunction(); cpp文件 GetWorldTimerManager().SetTimer(MemberTimerHandle, this, &AMyStaticMeshActor::RepeatingFunction, 0.015f, true, 0.0f); 第三个参数是需要定时运行的逻辑函数 tick代理方式 h文件 FT…

CSU 1259 bfs找最短路

题目大意: 不想介绍,题目链接:http://acm.csu.edu.cn/OnlineJudge/problem.php?id1259 bfs求最短路。 这里因为2-9,到达同样的点不计步数,那我们不能每次bfs都遍历一个图找到所有相同的点,所以这里用vecto…

如何改善虚幻引擎中的游戏线程CPU性能表现

您游戏中的帧频率是不是太低? 您了解为什么会发生这种现象吗? 这是不是由于您同时生成了太多敌人?还是由于某个特定敌人过于消耗系统资源? 是由于您设置了过多的视觉特效,还是由于您所设计的战斗系统所造成的&#xff…

mysql timeout

(待更新整理) 因为最近遇到一些超时的问题,正好就把所有的timeout参数都理一遍,首先数据库里查一下看有哪些超时: rootlocalhost : test 12:55:50> show global variables like "%timeout%"; -----------…

UE 光影参数

平行光的光影效果参数 天光的光影效果参数 让材质不反射光,也就是材质本身的颜色不起作用,只能使用自发光 去掉模型光影效果

《BI项目笔记》多维数据集中度量值设计时的聚合函数

Microsoft SQL Server Analysis Services 提供了几种函数,用来针对包含在度量值组中的维度聚合度量值。默认情况下,度量值按每个维度进行求和。但是,通过 AggregateFunction 属性,您可以修改此行为。聚合函数的累加性可确定度量值…

零基础Unreal Engine 4(UE4)图文笔记之粒子系统

1.我们需要创建两个东西,一个材质一个粒子。先打开材质,在制作粒子之前,我们首先需要自己创建一个粒子效果能用的材质 在材质编辑器中,修改细节中Blend Mode类型为Translucent,Shading Model 为Unit,这一步…

string.Format 指定字符串宽度

语法: { index[,alignment][:formatString]} index,为索引号,不用多说.alignment,是一个带符号的整数,绝对值的大小表示字段的宽度.formatString,格式字符串组件.需要注意的是,alignment对于字符串是不起作用的.转载于:https://www.cnblogs.com/listened/p/4052078.html

[UE4]性能优化指南(程序向)

零散记录 GPUProfile来统计性能消耗的时候,在editor模式下不是很准,因为编辑器的消耗也算进去了,如果要用,最好以Game模式来查看。UE4不支持640X480的分辨率,如果在这个分辨率下运行程序,会导致程序崩溃&a…

武汉大学2013年数学分析考研试题参考解答

来源 [尊重原有作者劳动成果] 一: 1:解:\[\because \underset{x\to 0}{\mathop{\lim }}\,\ln (1x)x\] \[\therefore \underset{x\to 0}{\mathop{\lim }}\,\frac{\sqrt[n]{1x}-1}{\ln (1x)}\underset{x\to 0}{\mathop{\lim }}\,\frac{\sqrt[n]…

[UE4]性能优化指南(美术向)

参考自官方文档: Performance Guidelines for Artists and Designershttps://docs.unrealengine.com/en-us/Engine/Performance/Guidelines 但是官方文档写的太粗燥,对UE4没有一定了解,很难理解文档的意图。这里我在官方文档的基础上&#x…

HTTP协议中返回代码302的情况

http协议中,返回状态码302表示重定向。 这样的情况下,server返回的头部信息中会包括一个 Location 字段,内容是重定向到的url 转载于:https://www.cnblogs.com/mengfanrong/p/4059628.html

UE4 Fix – “Lighting build failed. Swarm failed to kick off.”

Hello! Have you encountered the “Swarm Failed to Kick Off” error on an Unreal Engine project when trying to build a level? I did, after we switched to a custom engine build. Since most of the resources on the web were not helpful. Here’s a really simpl…