04-12 周五 基于VS Code + Python 实现单词的自动提取

04-12 周五 基于VS Code + Python 实现单词的自动提取
时间版本修改人描述
2024年4月12日21:30:56V0.1宋全恒新建文档
2024年4月12日22:29:26V1.0宋全恒完成撰写

简介

 在之前的文章中,我们 03-11 周一 zotero文献阅读时生词提取步骤这个文章中,我们详细的介绍了我们通过如下的流程将阅读文献时的生词摘录出来,专门进行专项日常生词积累。

[外链图片转存中…(img-F4e7x8Ek-1712933099672)]

 那么该如何进行呢?我们怎么才能将枯燥的切换转换为程序的执行呢?这便是这个文章要记录的内容管理。

前提

 要达到当前的要实现的效果,需要使用如下的工具:

  • VS Code
  • Python开发环境

 使用Python开发环境,是因为楼主最近两年一直使用这个语言来开发项目,所以相对熟悉一点。

本质就是将枯燥的手动查找替换输入正则匹配转换为程序执行

配置过程

如下的配置均在VSCode环境中进行,相当于只需要vscode,然后执行一个动作就完成替换即可。

配置任务

 这一步的本质是相当于配置一个执行文本处理的入口,我们可以使用快捷键Ctrl + Shift + P,

[外链图片转存中…(img-zmMyDhtR-1712933099675)]

 然后在task.json我们撰写如下的内容:

{"version": "2.0.0","tasks": [{"label": "word extractor","type": "shell","command": "python","args": ["D:\\400-工作\\420-资源\\423-script\\word_extractor.py", "${file}"],"problemMatcher": [],"group": {"kind": "build","isDefault": true}}]
}

 在上面,我们指定了command为python,所以需要实现在windows机器上安装Python3,然后关键是args,是要执行的过程,另外我们要指定这个参数,即处理的当前文件

我们将word_extrctor.py封装了单词提取的完整的流程,然后我们取名word extractor,这就是vscode的插件强大之处,很灵活的可以扩展。只要我们熟悉Python,熟悉正则表达式,我们基本上可以做各种各样的处理。

撰写脚本

 我们按照想要的流程处理当前文件。

注: "${file}"是必须要有的,标记待处理的文件路径

 下面我们看一下这个word_extractor.py的基本逻辑:

# -*- coding: utf-8 -*-import re
import os
import sys# print("文件路径: ", sys.argv[1])
# 确保文件路径正确
file_path = sys.argv[1]
# print(file_path.split("\\"))# paths = file_path.split("\\")
# file_path=os.path.join(paths[0], "/".join(paths[1:]))
# 读取文件内容
with open(file_path, 'r', encoding='utf-8') as file:content = file.read()# “implications” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=GWMLFT4K)) implications  处理成implications
new_content = re.sub( r'“(\w+)”.*\n', r'\1\n', content)lines = new_content.split("\n")# 匹配中文
pattern = r'[\u4e00-\u9fff]+'# 使用列表推导式和re.sub函数删除包含中文字符的行
new_lines = [re.sub(pattern, '', line) for line in lines if not re.search(pattern, line)]# 使用列表推导式移除空行,一个非空行定义为至少包含一个非空格字符
new_lines = [line for line in new_lines if line.strip()]# 将单词排序,并获取排序后的单词列表
new_lines.sort()
new_content="\n".join(new_lines)# 将新内容写回文件
with open(file_path, 'w', encoding='utf-8') as file:file.write(new_content)print(f"Replaced Markdown images with HTML in {file_path}")

 上述的代码逻辑基本上就是读取文件,逐行处理每一行内容。首先是处理单词的提取,然后使用正则表达式替换有中文的内容,然后进行了一次排序。

 这样就大功告成了,我们就将正则查找替换的命令固定成了一个函数了,这也就是程序开发的魅力所在,移除所有的枯燥,让世界美丽起来。

使用

 我们首先在zotero完成一篇文献的阅读,然后将标记为红色的生词全部提取出来。然后复制到txt文件中,然后,我们使用Ctrl + Shift + P,然后点击task: run,然后点击word extractor,即可以完成单词的提取。

然后我们登录不背单词,就可以完成自制词书的导入了。这个过程之前在文档中有记录,不再赘述。

总结

 最近状态还好吧,人还是要自律,最近自己对自己的手机使用屏幕时间限制,限制之后,再也不用担心因为手机放纵,看电子书,或者看短视频了,每天清净心不少。人真的是,不能收欲望的胁迫,然后为什么要不断地使用外在的刺激来获取快感呢,短视频是这样,电子书是这样,都是挺假的,只有生活才是真实的,所以大家还是要努力的认真的生活。

脚踏实地踏踏实实的去工作,去生活,去运动,去拥抱美好的生活!慢慢的,我发现自己的工作越来做好,人际关系越来越融洽,生活越来越充实,身体越来越健康!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/811836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DC-2渗透测试复现

DC-2渗透测试复现 目的: 获取最高权限以及5个flag 过程: 信息打点-ssh连接-git提权 环境: 攻击机:kali(192.168.85.136) 靶机:DC_2(192.168.85.132) 复现: 一.信息收集 nmap -sP 192.168.85.0/24 …

如何用个人电脑搭建一台本地服务器,并部署项目到服务器详细教程

服务器是一种高性能计算机,作为网络的节点,它存储、处理网络上80%的数据、信息,因此也被称为网络的灵魂。与普通计算机相比,服务器具有高速CPU运算能力、长时间可靠运行、强大I/O外部数据吞吐能力以及更好的扩展性。 服务器的主要…

c# refc# substring c# 反射c# split c# websocket c# datatable使用

在C#编程中,ref关键字、Substring方法、反射(Reflection)、Split方法、WebSocket通信以及DataTable的使用都是常见的技术和方法。下面我将逐一为您详解这些内容。 1. C# ref关键字 ref关键字在C#中用于按引用传递参数。这意味着当您将变量作…

傻瓜式远程P2P联机局域网游戏

概述 最近在折腾的一件事:朋友天南海北,如何进行局域网游戏? 若干年前,一伙同学约战网吧,CS、红警之类的联机游戏玩的不亦乐乎,如今再想找回当年的感觉已经非常不容易。其中一个比较直接的原因是&#xff…

优雅关闭jar程序shell 脚本

参考竽道Linux部署 #!/bin/bash set -eDATE$(date %Y%m%d%H%M) # 基础路径 BASE_PATH/work/projects/yudao-server # 服务名称。同时约定部署服务的 jar 包名字也为它。 SERVER_NAMEyudao-server # 环境 PROFILES_ACTIVEdev# heapError 存放路径 HEAP_ERROR_PATH$BASE_PATH/he…

原型模式:复制对象的智能解决方案

在软件开发过程中,对象的创建可能是一个昂贵的操作,特别是当对象的初始化包括从数据库加载数据、进行IO操作或进行复杂计算时。原型模式是一种创建型设计模式,它通过复制现有的实例来创建新的对象实例,从而避免了类初始化时的高成…

扭蛋机小程序:线上扭蛋机模式发展空间有多大?

潮玩行业近几年的发展非常快,推动了扭蛋机市场的发展,越来越多的人加入到了扭蛋机赛道中,市场迎来了新的发展期。如今,我国的二次元文化的发展不断成熟,扭蛋机主打的二次元商品迎来了更多的商业机会。 一、互联网扭蛋机…

httpsok-快速申请谷歌SSL免费证书

🔥httpsok-快速申请谷歌SSL免费证书 使用场景: 部署CDN证书、OSS云存储证书证书类型: 单域名 多域名 通配符域名 混合域名证书厂商: ZeroSSL Lets Encrypt Google证书加密类型: ECC、 RSA 一、证书管理 进入 证书管…

B站基于Apache Ranger的大数据权限服务的技术演进

01 背景 随着云计算、大数据技术的日趋成熟,复杂多元、规模庞大的数据所蕴含的经济价值和社会价值逐步凸显,数据安全也是企业面临的巨大挑战,B站一直致力于对用户隐私数据的保护。 02 Ranger概述 2.1 用户认证 提到安全,就不得不…

如何取安全的密码?

写在前面:在数字信息时代,密码安全是网络安全的重要组成部分。一旦密码泄露,就可能导致个人敏感信息被非法获取,从而造成财产损失和隐私泄露。因此,选择一个安全的密码至关重要。 现在,我将为您分享一些创建…

小程序上拉触底节流处理

原理: 在onReachBottom中进行节流处理,如果当前正在请求下一页的数据,则把后续所有的请求都屏蔽掉,如果当前没有请求任何数据,才允许发起下一页数据的请求。 实现步骤: 在data中定义isloading节流阀 fal…

iMazing如何备份手机资料 iPhone的资料可以传到iPad里吗 iphone备份到mac 苹果导入备份

在当今信息化快速发展的时代,手机已经成为我们生活中不可或缺的一部分。随着资料的积累,备份手机数据成了一个重要的问题。本文将介绍iMazing如何备份手机资料,并为大家解答“iPhone的资料可以传到iPad里吗”这一问题。这不仅可以帮助你有效管…

Android 软件盘的弹出和消失的监听

监听接口 OnKeyboardListener.java public interface OnKeyboardListener {void onKeyboardHidden();void onKeyboardShow(int keyboardHeight);} KeyBoardUtil.java public class KeyBoardUtil {private final static String TAG "KeyBoardUtil";public PopupWi…

2024-简单点-观察者模式

先看代码: # 导入未来模块以支持类型注解 from __future__ import annotations# 导入抽象基类模块和随机数生成器 from abc import ABC, abstractmethod from random import randrange# 导入列表类型注解 from typing import List# 定义观察者模式中的主体接口&…

出海企业如何从海外云手机中受益?

随着全球化的推进,越来越多的企业开始将目光投向海外市场。然而,不同国家和地区的网络环境、政策限制,以及语言文化的差异,给出海企业的市场拓展带来了诸多挑战。在这一背景下,海外云手机作为一种新兴解决方案&#xf…

npm ERR! code CERT_HAS_EXPIREDnpm ERR! errno CERT_HAS_EXPIRED

解决npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to 分析过后这个问题是证书过期的意思 考虑到其他的原因 这里给出三个解决方案 一: 清除npm缓存 npm cache clean --force 取消ssl验证: npm config set strict-…

Fastgpt配合chatglm+m3e或ollama+m3e搭建个人知识库

概述: 人工智能大语言模型是近年来人工智能领域的一项重要技术,它的出现标志着自然语言处理领域的重大突破。这些模型利用深度学习和大规模数据训练,能够理解和生成人类语言,为各种应用场景提供了强大的文本处理能力。AI大语言模…

ARL资产侦察灯塔系统

1、资产侦察灯塔系统搭建 1.1、系统要求 目前暂不支持 Windows,Linux 和 MAC 建议采用 Docker 运行,系统配置最低 2 核 4G。 由于自动资产发现过程中会有大量的的发包,建议采用云服务器可以带来更好的体验 实验环境: 系统&…

c++命令行解析开源库cxxopts上手教程

文章目录 cxxopts快速入门1. cmake环境配置2. 定义解析的规则3. 使用例子 cxxopts 简介 cxxopts是一个轻量级的C命令行解析库,它提供了易于使用的API来定义和解析命令行选项。它支持多种类型的选项,并且允许用户自定义选项的处理逻辑。 项目地址&#x…

【Django】使用captcha自动创建验证码

目录 1.安装 django-simple-captcha模块 2. 在INSTALLED_APPS设置中添加对其配置类的引用 3.迁移数据库 4.添加路由 5.在自定义的登录表单中添加验证码字段 6.在视图函数中验证验证码 7.在html模板中使用验证码 1.安装 django-simple-captcha模块 pip install django-si…