前置知识 部件:大部分的汉字是由若干组笔画结构拼合而成的,这些相对独立的笔画结构称为「部件」。 部件是大于基本笔画(例如:点、横、撇、捺等)而小于或等同于 偏旁 的结构单位。 例如「测」字有三个部件:「氵」、「贝」和「刂」异体字:跟国家规定的正体字(标准字体)字音和字义相同而字形不同的一组字长尾效应:类别数量严重不平衡 研究现状 研究意义及主要创新点 存在的问题 异体字 相似文字 现有数据集小 长尾效应 对于样本数量不足的数据,“数据重构” 对于样本数量超过阈值上限的数据,采取随机采样方法 研究方法及技术路线