2024泰迪杯c题详细思路代码讲解:竞赛论文的辅助自动评阅

C:竞赛论文的辅助自动评阅

步骤一:理解拆解题目,并对附件1中的论文集进行初步分析。

步骤二:特征构造
论文完整性:开发算法以检查论文是否全面回答了赛题。这包括自然语言处理(NLP)技术来识别关键段落和论证的完整性。
利用自然语言处理(NLP)技术:信息抽取、关键词识别等,自动提取和识别论文中与赛题相关的内容和章节。
应用关键词匹配和主题建模技术识别是否存在与赛题内容相关的段落和章节:包括但不限于:“摘要”, “目录”, “问题重述”, “假设条件”, “符号说明”, “模型建立”, “模型求解”, “模型检验”, “结果分析”, “结论”, “参考文献”, "附录"等。

实质性工作:利用文本分类和信息抽取技术,识别和评估论文中对赛题问题的研究深度和质量。
将文本分成段落或句子,经过分词处理后从中提取赛题相关的关键词。
创建并训练LDA主题模型,总结题目关键词语。
将关键词转化为词向量,基于相关性分析评估提取的信息与赛题要求的匹配度

摘要质量:通过比较摘要和全文内容,评估其一致性和准确性。可以使用摘要生成和评估技术来实现。
主要从摘要与全文等一致性和准确性角度进行评估。
一致性评价:评估摘要中的信息是否与正文内容一致,是否存在误导性或缺失重要信息的情况。
完整性评价:检查摘要是否包含了所有必要的信息元素,评估其对正文内容的完整反映。
识别摘要中应包含的关键信息元素,如研究问题、研究方法、主要结果和研究意义等。
可考虑从以下角度进行分析:
相似度分数:计算摘要和正文的文本相似度分数,较高的分数表明更好的一致性。
信息覆盖率:评估摘要对正文关键信息的覆盖率,完全覆盖得分更高。
清晰度和准确性:评价摘要的表达是否清晰、准确,无歧义。
简洁性:摘要应简洁扼要,避免冗余和非必要信息。

写作水平:结合传统的文本评分技术和深度学习方法,从文本流畅性、逻辑性、结构等方面评价写作水平。
载入中文NLP模型
nlp = spacy.load(‘zh_core_web_sm’)
分别构建写作规范性评价函数,篇章结构评价函数,评价论文立意的函数,计算得到加权后等结果。

步骤三:评分算法实现
评分模型:根据构造的特征和训练好的模型,为每篇论文设计综合评分算法。

使用熵权法(Entropy Weight Method)来设定权重,我们首先需要计算每个评价指标的熵值,再据此确定各指标的权重。熵权法是一种客观赋权方法,能有效地根据数据的离散程度确定各评价指标的重要性,从而计算出每个指标的权重。下面的步骤将通过熵权法重新计算权重,并按照新的权重计算综合评分,最后调整分数分布以满足题目要求。
步骤:
计算指标的熵值:利用各指标的数据计算每个评价指标的信息熵。
计算指标的差异系数和权重:根据熵值,计算每个指标的差异系数,再根据差异系数计算权重。
计算综合评分:根据熵权法得到的权重,计算每篇论文的综合评分。
后续步骤为调整分数分布:按照题目要求调整分数分布。

符合分布要求:确保最终的评分分布符合赛题要求,包括各分数段的比例限制。需要调整评分策略或后处理以满足这些要求。
我们需要根据熵权法计算出的综合评分进行分数分布的调整。这涉及到根据分布条件,设定分数范围的阈值,并确保每个分数段的比例符合要求。让我们继续以前的计算,现在专注于调整分数分布。
我已根据熵权法分配的权重和给定的分数分布要求调整了分数,并保存了调整后的评分结果。
这次调整确保了分数分布满足以下条件:
8-10分的比例不超过3%;
6-7分的比例至少为10%,且6-10分的总比例不超过15%;
4-5分的比例至少为20%,且4-10分的总比例不超过35%;
其余的评分在0-3分之间。
关键代码:
df[‘综合评分’] = df.iloc[:, 1:].mul(weights).sum(axis=1)

调整分数分布

sorted_scores = df[‘综合评分’].sort_values(ascending=False).reset_index(drop=True)
threshold_8_10 = sorted_scores[int(n_papers * 0.03)] # 3%
threshold_6_7 = sorted_scores[int(n_papers * 0.15)] # 15%的上限
threshold_4_5 = sorted_scores[int(n_papers * 0.35)] # 35%的上限
df[‘最终评分’] = np.select(
[ df[‘综合评分’] >= threshold_8_10,
df[‘综合评分’] < threshold_8_10,
df[‘综合评分’] <= threshold_6_7,
df[‘综合评分’] <= threshold_4_5 ],
[ np.random.uniform(8, 10, n_papers), # 8-10分
np.random.uniform(6, 7, n_papers), # 6-7分
np.random.uniform(4, 5, n_papers), # 4-5分
np.random.uniform(0, 3, n_papers) # 0-3分 ], default=0 )

保存到result.xlsx中

步骤四:结果呈现和验证
结果保存:将每篇论文的评分结果按照要求保存到result.xlsx文件中。
性能验证:通过与人工评阅结果的比较,验证模型的有效性和准确性。
调优和改进:根据验证结果,进一步调整和优化模型和评分策略。

###https://docs.qq.com/doc/DVVlhb2xmbUFEQUJL

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/801096.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用vscode启动Flask并实现无公网IP远程访问内网服务

文章目录 1. 安装部署Flask2. 安装Cpolar内网穿透3. 配置Flask的web界面公网访问地址4. 公网远程访问Flask的web界面 本篇文章主要讲解如何在本地安装Flask&#xff0c;以及如何将其web界面发布到公网进行远程访问。 Flask是目前十分流行的web框架&#xff0c;采用Python编程语…

LeetCode初级算法书Java题解日常更新

LeetCode初级算法高效题解&#xff08;含思路注释&#xff09; 文章目录 LeetCode初级算法高效题解&#xff08;含思路注释&#xff09;前言一、数组1.删除排序数组中的重复项2.买卖股票的最佳时机 II3.旋转数组4.存在重复元素 总结 前言 决定用四个月过一下算法 一、数组 1.…

【绩效管理】帮助零售企业建立分层分类绩效考核体系项目纪实

购物中心张经理评价&#xff1a;“员工的绩效管理一直是困扰我公司的难题&#xff0c;我们只懂得怎么经营&#xff0c;至于怎么做人力资源管理&#xff0c;真是一点都不懂。这次华恒智信为我们提供的服务对我们的帮助很大。基于企业实际调研情况&#xff0c;华恒智信专家明确指…

Linux-等待子进程

参考资料&#xff1a;《Linux环境编程&#xff1a;从应用到内核》 僵尸进程 进程退出时会进行内核清理&#xff0c;基本就是释放进程所有的资源&#xff0c;这些资源包括内存资源、文件资源、信号量资源、共享内存资源&#xff0c;或者引用计数减一&#xff0c;或者彻底释放。…

PANet网络

PANet&#xff08;Path Aggregation Network&#xff09;是一种用于语义分割任务的神经网络结构&#xff0c;旨在解决多尺度特征融合的问题。该网络结构由中国科学院计算技术研究所提出&#xff0c;在2018年的论文中首次提出。 PANet的主要目标是解决语义分割任务中多尺度信息…

电脑开机启动项设置

电脑开机启动项设置 一、Windows 系统&#xff1a; 1、Windows 系统&#xff0c;可以通过【系统配置实用程序】来设置开机启动项&#xff1a; 1&#xff09;、按【WinR】组合键&#xff0c;打开【运行】对话框。 2&#xff09;、输入【msconfig】&#xff0c;点击【确定】或…

Transformer 模型及其典型应用研究

摘要&#xff1a; Transformer 模型是一种基于自注意力机制的深度学习架构&#xff0c;在自然语言处理等领域取得了巨大成功。本文介绍了 Transformer 模型的原理和结构&#xff0c;并探讨了其在语言翻译、文本生成、对话系统、语言模型、图像处理和推荐系统等典型应用领域的研…

Java中的Stream流常用接口和方法

​TOC 第一章&#xff1a;Stream流是什么 1.1&#xff09;简单介绍 学习Stream流就绕不开Lambda表达式&#xff0c; 需要了解Lambda表达式可以看一下这篇–>&#xff1a;Lambda表达式学习 1.其实“流”是个抽象概念&#xff0c;我们把现实世界中与Stream流有相同特性的…

一条SQL查询语句的执行顺序

SQL常用字段书写顺序 SELECT&#xff1a;选择要查询的列。 FROM&#xff1a;指定数据来源&#xff0c;即表名。 JOIN&#xff1a;根据指定的连接条件将多个表连接在一起。 ON&#xff1a;指定连接条件&#xff0c;即哪些列的值匹配时&#xff0c;应该将两个表中的行组合在一起。…

目标 url 存在 host 头攻击漏洞

安全问题九: 目标 url 存在 host 头攻击漏洞 解决方案: 方法-: 修改 nginx.conf 添加一个默认server,当host头被修改匹配不到server时会跳到该默认server 该默认 server 直接返回 403 错误。 例子如下: server { listen 8888 default; server name ; location /{ return 403; }…

【Angular】什么是Angular中的APP_BASE_HREF

1 概述: 在这篇文章中&#xff0c;我们将看到Angular 10中的APP_BASE_HREF是什么以及如何使用它。 APP_BASE_HREF为当前页面的基础href返回一个预定义的DI标记。 APP_BASE_HREF是应该被保留的URL前缀。 2 语法: provide: APP_BASE_HREF, useValue: /gfgapp3 步骤: 在app.m…

SAP ERP 公有云有哪些模块?

随着全球化竞争的加剧和企业管理需求的日益复杂化&#xff0c;越来越多的企业开始采用云端企业资源计划&#xff08;ERP&#xff09;系统来优化业务流程。SAP ERP 公有云&#xff08;SAP S/4HANA Cloud, public edition&#xff09;作为一款领先的云端ERP解决方案&#xff0c;为…

不要再使用 @Builder 注解了!有深坑呀!

曾经&#xff0c;我在《千万不要再随便使用 lombok 的 Builder 了&#xff01;》 一文中提到 Builder 注解的其中一个大坑会导致默认值失效&#xff01; 最近阅读了 《Oh !! Stop using Builder》 发现 Builder 的问题还不止一个&#xff0c;Builder 会让人误以为是遵循构建器…

掌握Linux虚拟网络设备:从基础到应用的全面指南

在现代计算环境中&#xff0c;尤其是云计算☁️、容器化&#x1f4e6;和微服务架构&#x1f3d7;️大行其道的时代&#xff0c;了解和掌握Linux虚拟网络设备变得极为重要。本文将深入探讨Linux虚拟网络设备的世界&#xff0c;带你了解它们是什么、包含哪些类型、为什么需要它们…

LeetCode热题Hot100 - 电话号码的字母组合

一刷~ 给定一个仅包含数字 2-9 的字符串&#xff0c;返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下&#xff08;与电话按键相同&#xff09;。注意 1 不对应任何字母。 思路&#xff1a; 首先&#xff0c;需要数字到字母表的映射&#xf…

揭秘淘宝商品详情数据接口(Taobao.item_get)

淘宝商品详情数据接口&#xff08;Taobao.item_get&#xff09;是一种允许开发者通过API访问淘宝平台上的商品详情信息的接口。通过该接口&#xff0c;开发者可以获取到商品的标题、价格、销量、描述等详细信息&#xff0c;为商品展示和销售提供数据支持。 请求示例&#xff0…

K8s学习八(配置与存储_配置)

配置与存储 配置管理 ConfigMap ConfigMap的创建 一般用于去存储 Pod 中应用所需的一些配置信息&#xff0c;或者环境变量&#xff0c;将配置于 Pod 分开&#xff0c;避免应为修改配置导致还需要重新构建 镜像与容器。configmap缩写为cmkubectl create cm -h来查看创建命令…

#Java# ATM机系统(登录账号和退出账号大体结构和想法)

1.功能分析&#xff08;登录页面还未完善&#xff0c;所以这里只是简写&#xff09; landAccount()方法&#xff0c;登录账户&#xff1a; 从保存用户信息的文件中查找是否存在该账户&#xff0c;如果不存在则提示”该用户不存在“&#xff0c;如果存在则对用户输入的密码和该…

三星:HBM4的16层堆叠技术验证成功

随着人工智能、大数据分析、云计算及高端图形处理等领域对高速、高带宽存储需求的激增&#xff0c;下一代高带宽内存&#xff08;High Bandwidth Memory, HBM&#xff09;——HBM4已成为全球存储芯片巨头三星、SK海力士和美光竞相追逐的技术高地。 随着AI、机器学习以及高性能…

【JavaWeb】Day38.MySQL概述——数据库设计-DQL

数据库设计——DQL 介绍 DQL英文全称是Data Query Language(数据查询语言)&#xff0c;用来查询数据库表中的记录。 查询关键字&#xff1a;SELECT 查询操作是所有SQL语句当中最为常见&#xff0c;也是最为重要的操作。在一个正常的业务系统中&#xff0c;查询操作的使用频次…