2024年第十四届MathorCup数学应用挑战赛B题思路分享(妈妈杯)

B题 甲骨文智能识别中原始拓片单字自动分割与识别研究

甲骨文是我国目前已知的最早成熟的文字系统,它是一种刻在龟甲或兽骨上的古老文字。甲骨文具有极其重要的研究价值,不仅对中国文明的起源具有重要意义,也对世界文明的研究有着深远影响。在我国政府的大力推动下,甲骨文研究已经进入一个全新的发展阶段。人工智能和大数据技术被应用于甲骨文全息性研究及数字化工程建设,成为甲骨文信息处理领域的研究热点[1]。

甲骨文拓片图像分割是甲骨文数字化工程的基础问题,其目的是利用数字图像处理和计算机视觉技术,在甲骨文原始拓片图像的复杂背景中提取出特征分明且互不交叠的独立文字区域。它是甲骨文字修复、字形复原与建模、文字识别、拓片缀合等处理的技术基础[2]。然而,甲骨拓片图像分割往往受到点状噪声、人工纹理和固有纹理三类干扰元素的严重影响[3]。且甲骨文图像来源广泛,包括拓片、拍照、扫描、临摹等,不同的图像来源,其干扰元素的影响是不同的。由于缺乏对甲骨文字及其干扰元素的形态先验特征的特殊考量,通用的代表性图像分割方法目前尚不能对甲骨文原始拓片图像中的文字目标和点状噪声、人工纹理、固有纹理进行有效判别,其误分割率较高,在处理甲骨拓片图像时均有一定局限性。如何从干扰众多的复杂背景中准确地分割出独立文字区域,仍然是一个亟待解决的具有挑战性的问题。

图1为一张甲骨文原始拓片的图像分割示例,左图为一整张甲骨文原始拓片,右图即为利用图像分割算法[4]实现的拓片图像上甲骨文的单字分割。甲骨文的同一个字会有很多异体字,这无疑增加了甲骨文识别的难度,图2展示了甲骨文中“人”字的不同异体字。

图1甲骨文原始拓片和自动识别单字分割情况

图2甲骨文中“人”字的不同异体字

现希望通过对已标记的甲骨文图像进行分析、特征提取和建模,从而实现对一张新的甲骨文图像进行单个文字的自动分割和识别。具体任务如下:

问题1

对于附件1 (Pre_test文件夹)给定的三张甲骨文原始拓片图片进行图像预处理,提取图像特征,建立甲骨文图像预处理模型,实现对甲骨文图像干扰元素的初步判别和处理。

问题2

对甲骨文原始拓片图像进行分析,建立一个快速准确的甲骨文图像分割模型,实现对不同的甲骨文原始拓片图像进行自动单字分割,并从不同维度进行模型评估。其中附件2(Train文件夹)为已标注分割的数据集。

问题3

利用建立的甲骨文图像分割模型对附件3(Test文件夹)中的200张甲骨文原始拓片图像进行自动单字分割,并将分割结果放在“Test_results.x1sx”中,此文件单独上传至竞赛平台。

问题4

基于前三问对甲骨文原始拓片图像的单字分割研究,请采用合适的方法进行甲骨文原始拓片的文字识别,附件4 (Recognize文件夹)中给出了部分已标注的甲骨文字形(不限于此训练集,可自行查找其他资料,如使用外部资料需在论文中注明来源),请对测试集中的50张甲骨文原始拓片图像进行文字自动识别,并以适当结果呈现。

参考文献

[1]高旭.基于卷积神经网络的甲骨文识别研究与应用[D].吉林大学,2021.
[2]Yabing S. Manifold and splendid: 120 Years of research on the oracle bone inscriptions
and Shang history[J]. Chinese Studies in History, 2020,53(4):351-368.
[3]宋传鸣,乔明泽,洪题.边缘梯度协方差引导的甲骨文字修复算法[J].辽宁师范大学学报(自然科学版),2023,46(02):194-207.
[4]Zhang C, Zong R, Cao S, et al.AI-powered oracle bone inscriptions recognition andfragments rejoining[C]I/Proceedings of the Twenty-Ninth Intemational Conference onInternational Joint Conferences onArtificial Intelligence.2021:5309-5311.

附件说明:

附件下载链接

https://pan.baidu.com/s/1cp-DUwgS3cd8EFhBwXRHw2pwd=pflt
提取码:pflt

附件1:Pre_test文件夹

三张甲骨文图像(.jpg)

附件2:Train文件夹

训练数据集,文件夹中包含6150张甲骨文图像(.jpg)和对应的标注文件(.json)。
标注方式为矩形框,每个框用两个坐标表示(矩形的左上顶点和右下顶点)。
如:{" img_name": “w01906”, “amn”:[111.0,197.0,152.0,257.0,1.0],[108.0,283.0,157.0,335.0,1.0],[108.0,356.0,144.0,416.0,1.0],[69.0,192.0,102.0,301.0,1.0],[106.0,27.0,139.0,79.0,1.0],[103.0,77.0,147.0,163.0,1.0]]}

其中“img_name”表示标注对应的图像,“an”表示图像上的标注。“an”中前四个数字为对应的坐标;末位为校验位,表示其是否为甲骨字:“1.0”表示为甲骨文,“0.0”表示其不是甲骨文。

附件3:Test文件夹

测试数据集,Figures文件夹中包含200张未标注甲骨文图像(.jpg)和Test _results.xlsx文件。

附件4: Recognize文件夹

甲骨文识别训练集和测试集,训练集文件夹中包含76个常见甲骨文及其对应的异体字。测试集中包含50张甲骨文原始拓片。

附件:MathorCup高校数学建模挑战赛历年优秀论文下载

MathorCup高校数学建模挑战赛历年优秀论文(2017-2022)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/809572.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

必须掌握的这4种缓存模式

概述 在系统架构中,缓存可谓提供系统性能的简单方法之一,稍微有点开发经验的同学必然会与缓存打过交道,起码也实践过。 如果使用得当,缓存可以减少响应时间、减少数据库负载以及节省成本。但如果缓存使用不当,则可能…

java 邮件发送表格

邮件发送表格 问题导入效果图 实现方案1. 拼接HTML文件(不推荐)2. excel 转HTML使用工具类来转化依赖工具类代码示例 使用已工具包 如 aspose-cells依赖代码示例 3.使用模板生成流程准备模板工具类代码示例 问题导入 在一些定时任务中,经常会…

C语言之位运算符

一、原码反码补码的转换 ①对于正数而言,它的原码反码补码 eg: 以8bit的数据存储为例讲解。 10 原码:00001010反码:00001010补码:00001010 在内存中以补码存储②对于负数而言 负数的反码:符号位不变&am…

【STM32G431RBTx】备战蓝桥杯嵌入式→省赛试题→第十四届

文章目录 前言一、题目二、模块初始化三、代码实现interrupt.h:interrupt.c:main.h:main.c: 四、完成效果五、总结 前言 无 一、题目 二、模块初始化 1.LCD这里不用配置,直接使用提供的资源包就行 2.KEY, 四个按键IO口都要配置,分别是PB0, PB1,PB2,PA…

Unity单个物体绑定多个相机在轨道上移动,录制不同角度视频

环境搭建 下载Cinemachine插件安装 打开包管理器 下载cinemachine插件 创建轨道 使用dolly track 创建轨道 右侧可以删减关键点,注意调整y坐标 创建cart 把前面的轨道拖到path中,注意这里的speed要设定不为0才会动 设置VItual Camera 根据需…

使用Code开发Django_模版和CSS

转到定义 和 查看定义 在使用Django或任何其他库的过程中,我们可能需要检查这些库中的代码。VS Code提供了两个方便的命令,可以直接导航到任何代码中的类和其他对象的定义: 转到定义 在Python开发环境中,我们可以轻松地对函数、类或者其他导入模块中的成员使用“Go to Def…

【C 数据结构】双向链表

文章目录 【 1. 基本原理 】【 2. 双向链表的 创建 】实例 - 输出双向链表 【 3. 双向链表 添加节点 】【 4. 双向链表 删除节点 】【 5. 双向链表查找节点 】【 7. 双向链表更改节点 】【 8. 实例 - 双向链表的 增删查改 】 【 1. 基本原理 】 表中各节点中都只包含一个指针&…

【算法练习】30:快速排序学习笔记

一、快速排序的算法思想 原理:快速排序基于分治策略。它的基本思想是选择一个元素作为“基准”,将待排序序列划分为两个子序列,使得左边的子序列中的所有元素都小于基准,右边的子序列中的所有元素都大于基准。这个划分操作被称为分…

2024年 最火的Python学习路线

写在前面:Python是一种广泛使用的高级编程语言,以其简洁易读的代码和强大的库支持而受到开发者的青睐。作为一名刚开始学习Python的新手,或许您会对如何系统地学习这门语言感到困惑。接下来,我将为您提供一个详细的Python学习路线…

Elasticsearch部署安装

环境准备 Anolis OS 8 Firewall关闭状态,端口自行处理 Elasticsearch:7.16.1(该版本需要jdk11) JDK:11.0.19 JDK # 解压 tar -zxvf jdk-11.0.19_linux-x64_bin.tar.gz# 编辑/etc/profile vim /etc/profile# 加入如下…

Halcon颜色抽取-多产品颜色(MLP)

前言 //颜色抽取,单产品多区域 https://blog.csdn.net/m0_51559565/article/details/135216905由于在颜色抽取上面,我已经发了一篇博客了,是单产品多区域的情况。所以对于细分原理上就不过多的描述了。 本文主要是针对多产品多颜色的情况进行…

VSCode 作者插件大全

01. Chinese (Simplified) (简体中文) 02. C/C Themes 03. GitHub Copilot 04. GitHub Copilot Chat 05. Remote - SSH 06. Remote - SSH: Editing Configuration Files 07. Remote Explorer 08. VS Code Speech 09. vscode-icons 10. C/C 11. C/C Extension Pack 1…

代码随想录刷题随记19-二叉树8

代码随想录刷题随记19-二叉树8 235. 二叉搜索树的最近公共祖先 leetcode 因为是有序树&#xff0c;所以 如果 中间节点是 q 和 p 的公共祖先&#xff0c;那么 中节点的数组 一定是在 [p, q]区间的。即 中节点 > p && 中节点 < q 或者 中节点 > q &&…

中科软面试题

1、用户注册登录这一块用了哪些技术&#xff1f;数据库主要涉及那些表&#xff1f; 用了BCrypt加密算法&#xff0c;jwt生成token&#xff0c;网关实现全局过滤器校验token&#xff0c;还用了拦截器&#xff0c;获取在网关是指到请求头的userid存到threadlocal里面&#xff0c…

模型训练-保存训练数据

1.目的 找到一个可运行的代码&#xff0c;可以每个epoch打印训练数据&#xff0c;但是不会保存。因为在改进模型需要这些训练数据进行对比&#xff0c;所以需要将每个epoch的训练数据保存下来&#xff0c;写到一个文件中。 2.解决方案 直接问ChatGPT&#xff0c;提示词如下&…

SpringMVC原理及工作流程

组件 SpringMVC的原理主要基于它的各个组件之间的相互协作交互&#xff0c;从而实现了Web请求的接收&#xff0c;处理和响应。 它的组件有如下几个&#xff1a; DispatcherServlet前端控制器 HandlerMapping处理器映射器 Controller处理器 ModelAndView ViewResolver视图…

0基础刷图论最短路 3(从ATcoder 0分到1800分)

AT最短路刷题3&#xff08;本文难度rated 1200~ 1400&#xff09; 题目来源&#xff1a;Atcoder 题目收集&#xff1a; https://atcoder-tags.herokuapp.com/tags/Graph/Shortest-Path &#xff08;里面按tag分类好了Atcoder的所有题目&#xff0c;类似cf&#xff09; &#x…

Ubuntu22.04安装ffmpeg(v7.0)

需下载文件&#xff1a;ffmpeg-7.0.tar.gz 安装步骤 1. 创建目录 mkdir -p /ffmpeg && cd ffmpeg2. 下载文件 wget https://ffmpeg.org/releases/ffmpeg-7.0.tar.gz3. 解压 tar -zxvf ffmpeg-7.0.tar.gz && cd ffmpeg-7.04. 安装环境依赖 官网说明&#…

练习题(2024/4/11)

1每日温度 给定一个整数数组 temperatures &#xff0c;表示每天的温度&#xff0c;返回一个数组 answer &#xff0c;其中 answer[i] 是指对于第 i 天&#xff0c;下一个更高温度出现在几天后。如果气温在这之后都不会升高&#xff0c;请在该位置用 0 来代替。 示例 1: 输入…

Leetcode刷题之消失的数字(C语言版)

Leetcode刷题之消失的数字&#xff08;C语言版&#xff09; 一、题目描述二、题目解析 一、题目描述 数组nums包含从0到n的所有整数&#xff0c;但其中缺了一个。请编写代码找出那个缺失的整数。你有办法在O(n)时间内完成吗&#xff1f; 注意&#xff1a;本题相对书上原题稍作…