题目B 题 甲骨文智能识别中原始拓片单字自动分割与识别
甲骨文是我国目前已知的最早成熟的文字系统,它是一种刻甲或兽骨上的古老文字。甲骨文具有极其重要的研究价值,不仅对中国文明的起源具有重要意义,也对世界文明的研究有着深远影响。在我国政府的大力推动下,甲骨文研究已经进入一个全新的发展阶段。人工智能和大数据技术被应用于甲骨文全息性研究及数字化工程建设,成为甲骨文信息处理领域的研究热 点[1]。
甲骨文拓片图像分割是甲骨文数字化工程的基础问题,其目的是利用数字图像处理和计算机视觉技术,在甲骨文原始拓片图像的复杂背景中提取出特征分明且互不交叠的独立文字区域。它是甲骨文字修复、字形复原与建模、文字识别、拓片缀合等处理的技术基础[2]。然而,甲骨拓片图像分割往往受到点状噪声、人工纹理和固有纹理三类干扰元素的严重影响[3]。且甲骨文图像来源广泛,包括拓片、拍照、扫描、临摹等,不同的图像来源,其于扰元素的影响是不同的。由于缺乏对甲骨文字及其干扰元素的形态先验特征的特殊考量,通用的代表性图像分割方法目前尚不能对甲骨文
问题
问题1:对于附件1(Pre test 文件夹)给定的三张甲骨文原始拓片图片进行图像预处理,提取图像特征,建立甲骨文图像预处理模型,实现对甲骨文图像干扰元素的初步判别和处理
问题 2:对甲骨文原始拓片图像进行分析,建立一个快速准确的甲骨文图像分割模型,实现对不同的甲骨文原始拓片图像进行自动单字分割并从不同维度进行模型评估。其中附件2(Tain 文件夹)为已标注分割的数据集。
问题3:利用建立的甲骨文图像分割模型对附件3(Test文件夹)中的200张甲骨文原始拓片图像进行自动单字分割,并将分割结果放在“Test results.xlsx”中,此文件单独上传至竞赛平台。
问题 4:基于前三问对甲骨文原始拓片图像的单字分割研究,请采用合适的方法进行甲骨文原始拓片的文字识别,附件4(Recognize 文件夹)中给出了部分已标注的甲骨文字形(不限于此训练集,可自行查找其他资料,如使用外部资料需在论文中注明来源),请对测试集中的 50 张甲骨文原始拓片图像进行文字自动识别,并以适当结果呈现。
思路内容如下:
1、手写版资料主要包括模型部分及论文框架
使用方法:模型由小驴老师建立,大家根据视频讲解进行理解
论文框架是论文的主体,文字的描述千变万化,这个可避免重复,主体可确保逻辑性准确性。
2、视频讲解包括详细讲解模型、数据处理、程序讲解、补讲、问题分析讲解、摘要书写方法及获奖技巧讲解等;
注:视频讲解是对论文书写的进一步说明,务必将视频讲解的内容转化为自己的语言写到论文中。
3、整体答疑视频,在QQ群文件
4、中途部分发现大家存在的问题,会在QQ群对话框直接发布。
论文助攻
一篇原创完整论文以及修改说明(限量出售,不是一对一,有详细的修改说明):
格式为pdf带水印(防止二道贩子)版本,包含问题重述、分析、假设、符号说明、模型建立求解、评价、推广、附录。保证原创,保证质量,一般会在30页左右,下图为之前比赛的成品
助攻预订链接,预订后刷新购买页有我的微信)
爱数模的小驴