2019年认证杯SPSSPRO杯数学建模B题(第一阶段)外星语词典全过程文档及程序

2019年认证杯SPSSPRO杯数学建模

基于方差分布的方法对未知语言文本中重复片段的自动搜索问题的研究

B题 外星语词典

原题再现:

  我们发现了一种未知的语言,现只知道其文字是以 20 个字母构成的。我们已经获取了许多段由该语言写成的文本,但每段文本只是由字母组成的序列,没有标点符号和空格,无法理解其规律及含义。我们希望对这种语言开展研究,有一种思路是设法在不同段文本中搜索共同出现的字母序列的片段。语言学家猜测:如果有的序列片段在每段文本中都会出现,这些片段就很可能具备某种固定的含义 (类似词汇或词根),可以以此入手进行进一步的研究。在文本的获取过程中,由于我们记录技术的限制,可能有一些位置出现了记录错误。可能的错误分为如下三种:
  1. 删失错误:丢失了某个字母;
  2. 插入错误:新增了原本不存在的字母;
  3. 替换错误:某个字母被篡改成了其他的字母。
  第一阶段问题: 假设我们已经获取了 30 段文本,每段文本的长度都在5000–8000 个字母之间。我们希望找到的片段的长度在 15–21 个字母之间。为简单起见,我们假设文本中出现的错误只有替换错误,而且对我们要找的片段而言,在文本中每次出现时,最多只会出现 4 个字母的替换错误。请设计有效的数学模型,快速而尽可能多地找到符合要求的字母片段,并自行编撰算例来验证算法的效果。

整体求解过程概述(摘要)

  本文针对未知语言文本中重复片段自动搜索的问题,运用了模式识别、非监督学习中的聚类算法等思想理论,构建了含有重复字母序列片段的未知语言文本模型,综合运用了 Matlab, Excel 等软件编程以及数据分析,最终能够高效、准确的找到重复出现的字母序列片段。
  本文的特色是借鉴模式识别中非监督学习的思想,利用方差这一数据统计特征把未知的样本数据中具有相似特点的数据归为一类,进而搜索出重复片段。由于重复出现字母序列片段的长度,所在文本段落中的出现位置都是随机的。针对这样的随机性和未知性,先通过方差这一数据统计特性,缩小搜索范围,相比于传统的穷举遍历法可减少搜索次数近 50 倍,大大提高了搜索速度。
  针对问题一,要求解决文本长度在 5000-8000 个未知语言字母(未知语言的文字由20 个字母构成)之间的 30 段文本中,搜索到长度为 15-21 个字母的重复出现的字母序列片段,并且此字母序列片段中会出现 0 至 4 个字母被篡改的替换错误的问题。首先,运用了随机取样的方法,构建了含有重复字母序列片段的未知语言文本模型,运用了Matlab 软件编写基于方差分布的自动搜索算法,再通过该算法能够搜索到重复的字母序列片段。
  针对问题二,要求解决评价所编写的算法的有效性及时效性问题,运用了 Matlab软件编程求解。最终得出本文所编写的算法有较高的准确率和时效性的结论。
  本文最后给出了基于方差分布的自动搜索算法的评价,客观地评价算法的优点和缺点。优点:1.提高运算速度,简化搜索过程;2.搜索到的重复字母序列片段准确性高;3. 此算法适应性强,对模型要求低。缺点:1.搜索的结果中会有一定数量的字母片段丢失;2. 当样本增长时,搜索时间将急速增长,不适用于过大的样本数量情况下的搜索。

问题分析:

  对问题一的分析
  该问题要求在文本长度在 5000-8000 个未知语言字母(未知语言的文字由20 个字母构成)之间的 30 段文本中,搜索到长度为 15-21 个字母的重复出现的字母序列片段,并且此字母序列片段中会出现 0 至 4 个字母被篡改的替换错误。首先,所研究的语言文字—字母未知,所以需要先将用已知语言的字母标记未知语言的字母。其次,实验所需的 30 段文本样本未知,我们需要建立 30 段未知语言的文本库。再次,保证每段文本中会含有重复出现的字母序列片段,同时也需要建立随机的目标字母序列片段库,并将产生的目标字母序列片段随机插入30 段文本中的随机位置。最后,根据非监督学习中的聚类算法的思想,编写程序算法,在文本中快速且多地搜索到含有替换错误的重复出现的目标字母序列片段。
  对问题二的分析
  由于模型一设计的算法已可以查找出问题中所要找的片段,但为了评价算法的查找能力,我们需要建立如下评价标准。我们通过实际算例验证所编写的算法的有效性及时效性。

模型假设:

  (1) 为方便计算,假设每段文本的长度均相同;
  (2) 假设希望找到的片段长度在 15-21 个字母之间;
  (3) 为了简化问题,假设问文本中出现的错误只有替换错误,并且所找片段中最多只出现 4 个字母的替换错误;
  (4) 为了方便提取随机样本,假设随机抽取的 30 段样本均满足均匀分布;
  (5) 由于语言未知,目前已知此语言由 20 个字母构成,为了方便生成样本研究,故使用英文字母 A~T(共 20 个)代表未知语言的 20 个未知字母。

论文缩略图:

在这里插入图片描述
在这里插入图片描述

全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可

部分程序代码:(代码和文档not free)

clc;
clear;
%假设有original_num段原始数据,有target_num段目标数据,有替换错误
出现(每段目标数据有一个被随机替换)
%假设原始数据长度一致,目标数据长度随机,每段原始数据随机插入随机
段不同目标数据
%生成原始数据及目标数据
original_num = 30;
original_length = 5000; %原始数据长度
target_num = 10; %目标数据段数
target_length = ceil(rand(1,target_num)*7)+14; %目标数据长度矩阵,每一
列为对应段目标数据长度,取值为15~21
Origin_Data = ceil(rand(original_length,original_num)*20);
for i=1:target_numtemp = ceil(rand(target_length(1,i),1)*20); %按长度生成每段数据temp = [temp;zeros(21-length(temp),1)]; %将数据补零至21位(最大),
以便于合成矩阵Target(:,i) = temp; %生成的目标数据,每一列为一段
end
temp = []; %清空temp
%初始化替换后的目标数据
for i=1:original_numTarget_after(:,:,i) = Target; %每一列为目标数据,第三维为原始数据
个数
end
%生成替换后的目标数据
for i=1:original_numfor j=1:target_numreplace_index(i,j) = ceil(rand*target_length(1,j));replace_value(i,j) = ceil(rand*20);Target_after(replace_index(i,j),j,i) = replace_value(i,j);end
end
%生成插入下标,0表示不插入
Insert_index = zeros(original_num,target_num); %初始化插入位置下标
for i=1:original_num
index = 0; %当前插入下标
last_index = 0; %记录上一次插入下标for j=1:target_numtemp = rand;if temp>=0.5overlap_flag = 0; %下标重叠标志位while(overlap_flag==0)index = ceil(rand*(original_length-target_length(1,j))); %
随机生成下标
%如果当前生成下标与上一次生成下标差大于目标数据长度,则生成有效,
防止覆盖上一次插入值if(abs(index-last_index)>target_length(1,j))Insert_index(i,j) = index;
overlap_flag=1;
last_index = index;endend endend
end
temp = []; %清空temp
%将目标数据随机插入到原始数据中
for i = 1:original_numfor j=1:target_numif Insert_index(i,j) ~= 0 %只插入下标不为0的Origin_Data(Insert_index(i,j):Insert_index(i,j)+target_length(1,j)-1,i) = 
Target_after(1:target_length(1,j),j,i);endend
end
%%以上为随机生成的模型代码
%%以下为自动搜索算法的代码
%开始计时
tic
%采样参数
sample_length = 14; %单次采样长度
sample_count = original_length-sample_length+1; %采样次数
%存放采样后的矩阵
Origin_Data_sample = zeros(sample_length,sample_count,original_num);
%存放方差的矩阵
Origin_Data_var = zeros(original_num,sample_count);
%采样并计算方差
for i=1:original_numfor j=1:sample_lengthfor k=1:sample_countOrigin_Data_sample(:,k,i) = Origin_Data(k:k+sample_length-1,i);Origin_Data_var(i,k) = var(Origin_Data_sample(:,k,i),1); endend
end
%计算方差分布
var_divide_num = 13; %划分端点数,划分段数=段点数-1
max_var = max(max(Origin_Data_var)); %最大方差值
min_var = min(min(Origin_Data_var)); %最小方差值
var_divide_point = linspace(min_var,max_var,var_divide_num); %计算分割
点
var_divide_center = zeros(1,var_divide_num-1);
for i=1:var_divide_num-1var_divide_center(i) = mean(var_divide_point(i:i+1)); %计算分割中心
end
var_distribution_num = zeros(original_num,var_divide_num-1);
for i=1:original_numvar_distribution_num(i,:) = 
hist(Origin_Data_var(i,:),var_divide_center); %进行分割
end
%方差分布直方图
% figure(1)
% bar(var_divide_center,A_var_distribution_num);
% figure(2)
% bar(var_divide_center,B_var_distribution_num);
% figure(3)
% bar(var_divide_center,C_var_distribution_num);
% 
%对方差及其下标进行排序
var_order = zeros(original_num,sample_count);
var_index_order = zeros(original_num,sample_count);
for i=1:original_num[var_order(i,:),var_index_order(i,:)] = sort(Origin_Data_var(i,:));
end
%生成下标重排序矩阵,按照方差分布排序,便于后续寻找下标
for i=1:original_numfor j=1:var_divide_num-1for k=1:var_distribution_num(i,j)var_index_reorder(k,j,i) = 
var_index_order(i,sum(var_distribution_num(i,1:j-1))+k);endend
end
%两两按方差分布比较,位于同一方差分布段内的才进行比较,减少比较次
数
compare_count = 1;
similar_count = 1;
similar_num = 0;
for x=1:original_num-1for y=x+1:original_numfor n=1:var_divide_num-1for i=1:var_distribution_num(x,n)for j=1:var_distribution_num(y,n)error_count = 0; %初始化错误计数位for k=0:sample_length-1if Origin_Data(var_index_reorder(i,n,x)+k,x) ~= 
Origin_Data(var_index_reorder(j,n,y)+k,y) %如果不相等则error_count+1error_count = error_count+1; endif error_count>=4 %error_count>=4时,跳出
循环
break;endif k == sample_length-1 %k到达最大值,判断
AB相似,则记录下标similar_index(similar_count,compare_count) = var_index_reorder(i,n,x);similar_index(similar_count,compare_count+1) = var_index_reorder(j,n,y);similar_index(similar_count,compare_count+2) = var_index_reorder(i,n,x)-
var_index_reorder(j,n,y);similar_count = similar_count+1;
similar_num = similar_num+1;endendendend endcompare_count = compare_count+3;similar_count = 1;end
end
%计时结束
toc
全部论文及程序请见下方“ 只会建模 QQ名片” 点击QQ名片即可

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/613038.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年【熔化焊接与热切割】考试内容及熔化焊接与热切割免费试题

题库来源:安全生产模拟考试一点通公众号小程序 熔化焊接与热切割考试内容是安全生产模拟考试一点通总题库中生成的一套熔化焊接与热切割免费试题,安全生产模拟考试一点通上熔化焊接与热切割作业手机同步练习。2024年【熔化焊接与热切割】考试内容及熔化…

ceph、gluster、longhorn选型对比

Ceph Ceph是一个分布式的存储系统,可以在统一的系统中提供唯一的对象、块和文件存储。 名词解释: RADOS: 由自我修复、自我管理、智能存储节点组成的可靠、自主、分布式对象存储LIBRADOS: 一个允许应用程序直接访问 RADO 的库&…

怎么做拼团链接_生鲜果蔬商家都在用的小程序拼团系统

拼团链接:重塑营销新格局 在当今这个信息爆炸的时代,消费者面对海量信息,选择变得尤为重要。如何在众多品牌中脱颖而出,让消费者愿意主动为你驻足?答案就是——拼团链接。 拼团,是一种社交电商的创新形式。…

Clickhouse实时指标加工

Starwift实时指标加工方案 方案介绍 ​ Starwift(ClickHouse)是京东云上的一款云原生数据仓库,为用户带来极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。实时指标加工是从离线指标加…

Windows RPC运行时漏洞事后总结

2022年4月前后,Windows RPC运行时被曝出存在远程代码执行漏洞,当时曾引起很多人广泛关注。微软很快做出反应,发布补丁程序进行修补。这次事件中,Windows远程过程调用(RPC)运行时共出现三个关键漏洞&#xf…

Xcode15一个xcworkspace管理多个xcodeproj从零开始,一个主程序,多个子程序,一个主程序引用多个静态库

创建主程序:MainProject 目录结构: sandbox设置成NO:否则Xcode15不能运行 创建子程序 创建Framework 创建多个子程序后的目录结构 在主程序的Podfile中添加代码 # Uncomment the next line to define a global platform for your project pla…

Zabbix6.4 监控系统 密码忘记怎么办

Zabbix6.4 监控系统 密码忘记怎么办? 如下图 本次主要介绍在Zabbix6.4中重置用户密码的步骤。 步骤 如果您忘记了Zabbix密码并且无法登录,请向Zabbix管理员求助。 超级管理员用户可以在用户配置表单中更改所有用户的密码。 如果超级用户忘记了密码&a…

U8 内嵌.Net UserControl,winform挂菜单

目录 1.创建类库2.项目引用U8安装路径dll:3.新建类MyLoginable 继承 NetLoginable:4.新建类 MyNetUserControl 实现接口 INetUserControl:5.新建类 NetSampleDelegate 实现上面的CreateToolbar方法6.新建你的用户控件7.最后一步到UAP挂接菜单…

【设计模式-02】Strategy策略模式及应用场景

一、参考资料 Java 官方文档 Overview (Java SE 18 & JDK 18)module indexhttps://docs.oracle.com/en/java/javase/18/docs/api/index.html Java中使用到的策略模式 Comparator、comparable Comparator (Java SE 18 & JDK 18)declaration: module: java.base, pa…

计算数学表达式的程序(Java课程设计)

1. 课设团队介绍 团队名称 团队成 员介绍 任务分配 团队成员博客 XQ Warriors 徐维辉 负责计算器数据的算法操作,如平方数、加减乘除,显示历史计算记录 无 邱良厦(组长) 负责计算器的图形设计,把输入和结果显…

模型评估:ROC曲线

二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。评价二值分类器的指标很多,比如precision、recall、F1 score、P-R曲线等。相比而言,ROC曲线有很多优点,经常作为评估而知分类器最重要的…

斯坦福Mobile ALOHA提到的ACT之外的另两项技术:Diffusion Policy、VINN

前言 本文接上一篇文章《斯坦福机器人Mobile ALOHA的关键技术:动作分块ACT的算法原理与代码剖析》而来,当然最开始本文是作为上一篇文章的第二、第三部分的 但因为ACT太过关键,除了在上一篇文章中写清楚其算法原理之外,还得再剖…

数控开料机对比木工雕刻机的优势

数控开料机和木工雕刻机都属于木工机械加工设备,都可以用来开料和雕刻,但在市场价格、床体结构、技术要求等方面二者存在不小的差异,那么全自动数控开料机对比普通木工雕刻机有什么优势呢。 首先我们都知道,木工雕刻机主要应用于…

Prometheus实战篇:Alertmanager配置概述及告警规则

Prometheus实战篇:Alertmanager配置概述及告警规则 在此之前,环境准备和安装我就不在重复一遍了.可以看之前的博客,这里我们直接步入正题. Alertmanager配置概述 Alertmanager主要负责对Prometheus产生的告警进行统一处理,因此在Alertmanager配置中一般会包含以下几个主要部分…

电脑提示dll丢失怎么办,教你一招将dll修复

使用电脑时,你的电脑是否出现关于dll文件丢失或找不到的问题,出现这种问题又该如何解决呢,dll文件问题会导致软件无法打开,或者会导致系统崩溃。今天就来教大家如何快速解决dll文件修复。 一.如何修复dll修复 方法一:…

虹科分享 | 实现网络流量的全面访问和可视性——Profitap和Ntop联合解决方案

文章速览: 为什么客户抱怨“网速太慢”?网络流量监控联合解决方案Profishark&Ntop联合解决方案的优势 这次和大家分享如何捕捉、分析和解读网络数据,从而更有效地监控网络流量,实现网络性能的最大化。先来看一个实际的问题—…

计算机体系结构----重排序缓冲(ROB)

ROB的思想:不按顺序完成指令,但在使结果对体系结构状态可见之前重新排序 当指令被解码时,它会在 ROB 中保留下一个顺序条目当指令完成时,它将结果写入 ROB 条目当指令在 ROB 中最早并且无一例外地完成时,其结果移动到…

mathglm代码调试记录

论文地址:https://arxiv.org/pdf/2309.03241v2.pdf 项目地址:https://github.com/THUDM/MathGLM#arithmetic-tasks 数据集格式: 读取数据集代码: def make_loaders(args, create_dataset_function):"""makes t…

检测并批量导出项目文件中所有最近修改文件的实用工具

本篇文章主要讲解工具的使用和操作教程,这是一个能够检测项目内最近修改的文件并保留路径导出文件的实用工具。 日期:2024年1月10日 工具介绍: 这是一款可以帮助你自动检测并导出指定文件修改时间内的文件及文件目录的实用工具,在…

Python语言基础

目录 任务驱动式学习 任务一:输出问候语 一、Python程序的两种编程模式 二、Python程序的执行方式——解释执行 三、基本输入输出函数 任务二:计算圆的周长和面积 一、语句块缩进 二、变量与对象 三、数据类型及转换 四、数字类型及运算 五、…