使用AI大模型统计英语四六级试题高频词汇

引子

前些年我做过商品搜索,当时为了优化一些搜索词和搜索关联提示,接触到一点NLP的知识。所以后来有一场非全日制的研究生考试,为了高效的复习英语单词,我爬取了往年的历史真题数据,以及其他模拟等各种试题的数据。然后再通过python去分词、计算词频、词权以及各种优化,还有一些语气词辅助词的分析去除等。大概用了差不多一周的时间,才完整弄出来一个高频词汇的结果。

传统的分析方式

这里先介绍下,使用传统的方式如何去分析和计算。
github地址:https://github.com/Kingsea442/nlp_word/tree/master
原始真题数据:在这里插入图片描述
结果:
分析出来每个单词的权重之后,再调用百度的API做了下翻译,结果如下图:
在这里插入图片描述

最后使用词云的sdk工具生成了一个云图。
在这里插入图片描述

使用ChatGPT分析

其实以上做了很多数据处理和优化的工作,最近在学习大模型提示词工程,偶然想到如果使用大模型来处理和分析,是不是很快就能拿到结果,不用自己再逐步去分析和计算数据了。

这里使用的是豆包大模型进行分析:https://www.doubao.com

Step1: 数据上传

将试题中的文本内容,放到一起上传到ChatGPT,这里方便演示,只复制一份试题数据进行演示。
在这里插入图片描述

Step2 根据提示词工程原则,描述要求

clickable Avatar: undefined
这份文件中的内容是一份英语试题数据,文件中的----------------------------作为文档的分隔符,将文件内容分割成多个文档,文档用于后面的逆文档频率计算。
目标:要求统计试题中出现的高频词汇
要求1:按照词汇的权重从高到底输出Top50,权重的计算按照TF-IDF方法计算
要求2:去除常见的语气词等,比如the, is, are, you, me, I 等等
要求3:去除常见的基础单词比如you,I,car,play,test等基础词汇
要求3:按照格式输出 1. 单词 翻译 权重值

Step3 结果

1. parent 父母 0.045
2. child 孩子 0.045
3. parenting 养育 0.036
4. style 风格 0.027
5. different 不同的 0.027
6. sort 种类 0.027
7. respond 回应 0.027
8. patient 耐心的 0.027
9. benefit 受益 0.027
10. maintain 保持 0.027
11. style 风格 0.027
12. happen 发生 0.027
13. lose 失去 0.027
14. patience 耐心 0.027
15. say 说 0.027
16. something 某事 0.027
17. child 孩子 0.027
18. only 仅仅 0.027
19. human 人类 0.027
20. sometimes 有时 0.027
21. kids 孩子(复数) 0.027
22. little 一点 0.027
23. far 远 0.027
24. then 然后 0.027
25. either 要么 0.027
26. scream 尖叫 0.027
27. wish 希望 0.027
28. clock 时钟 0.027
29. start 开始 0.027
30. over 结束 0.027
31. all 所有 0.027
32. been 是(过去分词) 0.027
33. there 那里 0.027
34. even 甚至 0.027
35. though 尽管 0.027
36. common 常见的 0.027
37. important 重要的 0.027
38. mind 头脑 0.027
39. single 单一的 0.027
40. moment 时刻 0.027
41. fatigue 疲劳 0.027
42. can 能够 0.027
43. long 长的 0.027
44. time 时间 0.027
45. may 可能 0.027
46. damage 损害 0.027
47. relationship 关系 0.027
48. child 孩子 0.027
49. also 也 0.027
50. self-esteem 自尊 0.027

在这里插入图片描述
可以看到,使用GPT可以快速得到我们想要的结果,当然还有很多需要优化才能拿到最准确的结果。

使用AI大模型推断和汇总能力

不做过多要求,让大模型自己发挥统计重要词汇

在这里插入图片描述

假设具有一定的英语四级水平

在这里插入图片描述

具有英语六级水平

在这里插入图片描述
可以看到统计的英语单词越来越难了,说明是有效的。

总结

为什么写这篇文章呢?其实是深感大模型带来的变化很大。我以前想去学习NLP知识,然后有很多方向需要接触和研究,很多高深的算法和公式让我没有坚持下去,而现在即使我不会NLP,但是只要借助大模型API也能很顺利的完成NLP相关的任务。所以大模型给普通开发者赋予了AI能力,大模型降低了AI入门的成本,借助大模型就可以开发出各种新的AI应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/50554.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AcWing最长连续不重复子序列

哈希表就完事儿了,key是a[j],value是a[j]出现次数 i丢到前面,j丢到后面,然后j往后面遍历,每次记录a[j]出现次数 m a p [ a [ j ] ] map[a[j]] map[a[j]],如果a[j]出现次数2次及其以上 m a p [ a [ j ] ] > 1 map[a[…

Element Plus 动态编辑标签Tag使用@keyup.enter与@Blur冲突问题,

这是官方文档示例代码,文档具体链接https://element-plus.org/zh-CN/component/tag.html 问题描述: 发现存在使用keyup.enter与Blur冲突问题, keyup.enter(就是按回车键)发现handleInputConfirm方法被执行了两次,下面是问题代码 <template> <div class"flex ga…

PS5测试更新推送自适应充电功能:自带充电器码

原标题&#xff1a;PS5 更新推送自适应充电功能&#xff1a;仅适用于新型号 易采游戏网7月26日消息&#xff1a;近年来&#xff0c;游戏界的科技进步日新月异&#xff0c;各大厂商不断推出新的功能和技术来吸引玩家。作为游戏机市场的领导者之一&#xff0c;索尼的PlayStation…

Docker Minio rclone数据迁移

docker minio进行数据迁移 使用rclone进行数据迁移是一种非常灵活且强大的方式&#xff0c;特别是在处理大规模数据集或跨云平台迁移时。rclone是一款开源的命令行工具&#xff0c;用于同步文件和目录到多种云存储服务&#xff0c;包括MinIO。下面是使用rclone进行数据迁移至Mi…

学习型组织:知识创造的 SECI 螺旋模型 —— 隐性知识和显性知识的转换

《创造知识的企业》的日本学者野中郁次郎用了 30 多年的时间跟踪日本企业的变化&#xff0c;揭示日本企业成功的奥秘。 在野中之前和之后&#xff0c;也有不少学者聚焦日本&#xff0c;但是&#xff0c;多数人看到的&#xff0c;只是优良的生产技术&#xff0c;企业和顾客、供…

打卡Datawhale第一天!!!

最近参加了Datawhale的一个活动学习一些有趣的知识。 官方发的教程还是挺详细的嘛&#xff0c;跟着官方教程走&#xff0c;基本没什么错误 跑模型中... 跑完咯...gpu跑得就是快 等待评分... 最后结果&#xff1a; 总结&#xff1a;这次都是跟着教程来走的 &#xff0c;希望在后…

力扣高频SQL 50题(基础版)第十八题

文章目录 力扣高频SQL 50题&#xff08;基础版&#xff09;第十八题1633. 各赛事的用户注册率题目说明思路分析实现过程准备数据实现方式结果截图 力扣高频SQL 50题&#xff08;基础版&#xff09;第十八题 1633. 各赛事的用户注册率 题目说明 用户表&#xff1a; Users --…

柯达sd卡数据丢失怎么办?分享有效数据恢复方法

随着科技的进步&#xff0c;数码相机已成为我们生活中不可或缺的一部分&#xff0c;而柯达作为摄影界的知名品牌&#xff0c;其相机及配件更是广受欢迎。然而&#xff0c;在日常使用中&#xff0c;难免会遇到数据丢失的情况&#xff0c;特别是SD卡中的数据丢失&#xff0c;常常…

AJAX-XMLHttpRequest 详解

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;请留下您的足迹&#xff09; 目录 前言 XMLHttpRequest 概述 主要用途 工作流程 示例代码 GET 请求示例 POST 请求示例 注意事项 工作…

API签名认证

前言&#xff08;项目背景&#xff09;&#xff1a; 这个API签名认证是API开放平台得一个重要环节&#xff0c;我们知道&#xff0c;这个API开发平台&#xff0c;用处就是给客户去调用现成得接口来完成某些事情得。 在讲API签名认证之前&#xff0c;我们先模拟一个场景并且介绍…

产业分析三部曲:如何快速完成存客产业识别、产业分布分析、区域产业分析?

2024年7月15日至18日&#xff0c;中国共产党第二十届中央委员会第三次全体会议在北京举行&#xff0c;审议通过了《中共中央关于进一步全面深化改革、推进中国式现代化的决定》。 《决定》提出&#xff0c;深化国资国企改革&#xff0c;完善管理监督体制机制&#xff0c;推动国…

Mistral新旗舰决战Llama 3.1,最强开源Large 2 123B,扛鼎多语言编程全能王

【新智元导读】紧跟着Meta的重磅发布&#xff0c;Mistral Large 2也带着权重一起上新了&#xff0c;而且参数量仅为Llama 3.1 405B的三分之一。不仅在编码、数学和多语言等专业领域可与SOTA模型直接竞争&#xff0c;还支持单节点部署。 昨天正式发布的Llama 3.1模型&#xff0…

react中路由跳转以及路由传参

一、路由跳转 1.安装插件 npm install react-router-dom 2.路由配置 路由配置&#xff1a;react中简单的配置路由-CSDN博客 3.实现代码 // src/page/index/index.js// 引入 import { Link, useNavigate } from "react-router-dom";function IndexPage() {const …

CSS常见属性详解——内边距与外边距

内边距与外边距 内边距 外边距 应用场景 在网页排版布局时&#xff0c;我们经常会希望元素与元素之间有一定的间距&#xff0c;此时我们可能会用到CSS的外边距或内边距属性&#xff0c;这两个属性都能让元素之间产生距离&#xff0c;那么他们之间有什么不同呢&#xff1f; …

Nginx系列-10 realIp模块使用

背景 Nginx对每个模块都有说明文档&#xff0c;可参考:https://nginx.org/en/docs/ 当请求被代理后&#xff0c;真实客户端相对服务器被隐藏&#xff0c;即服务端无法判断HTTP消息来源。 如上图所示&#xff0c;IP分别为100.100.100.1和100.100.100.2的两个客户端向服务器200.…

08 字符串和字节串

使用单引号、双引号、三单引号、三双引号作为定界符&#xff08;delimiter&#xff09;来表示字符串&#xff0c;并且不同的定界符之间可以相互嵌套。 很多内置函数和标准库对象也都支持对字符串的操作。 x hello world y Python is a great language z Tom said, "Le…

centos7 mysql 基本测试(6)主从简单测试

centos7 xtrabackup mysql 基本测试&#xff08;6&#xff09;主从简单测试 mysql -u etc -p 1234aA~1 参考&#xff1a; centos7 时区设置 时间同步 https://blog.csdn.net/wowocpp/article/details/135931129 Mysql数据库&#xff1a;主从复制与读写分离 https://blog.csd…

HTML常见标签——超链接a标签

一、a标签简介 二、a标签属性 href属性 target属性 三、a标签的作用 利用a标签进行页面跳转 利用a标签返回页面顶部以及跳转页面指定区域 利用a标签实现文件下载 一、a标签简介 <a>标签用于做跳转、导航&#xff0c;是双标签&#xff0c;记作<a></a>&#…

移动式气象站:科技赋能,精准预报的新篇章

在这个气候多变、极端天气频发的时代&#xff0c;气象信息的准确性与及时性成为了社会各界关注的焦点。从农业生产到城市规划&#xff0c;从航空航海到日常生活&#xff0c;气象服务无处不在&#xff0c;其重要性不言而喻。而在这场气象科技的变革中&#xff0c;移动式气象站以…

数据结构(Java):Map集合Set集合哈希表

目录 1、介绍 1.1 Map和Set 1.2 模型 2、Map集合 2.1 Map集合说明 2.2 Map.Entry<K&#xff0c;V> 2.3 Map常用方法 2.4 Map注意事项及实现类 3、Set集合 3.1 Set集合说明 3.2 Set常用方法 3.3 Set注意事项及其实现类 4、TreeMap&TreeSet 4.1 集合类TreeM…