使用正则表达式在中英文之间添加空格

有时为了排版需要,我们可能需要在文章的中英文之间添加空格,特别是中文中引用了英文单词时,这种情况使用正则表达式整体修订是最明智的做法。首先,推荐使用在线的正则表格式工具:https://regex101.com/ , 该工具非常强大,支持几乎所有的编程语言风格!

本文所谓的“英文单词”实为:由多个英文字符、空格、数字、小数点、连字符、下划线构成的复合短语,其中英文字符是必须的(避免替换类似:“第1节” 这样的文本),其他字符可选,这种Pattern除了可以匹配纯单词外,还能匹配类似S3EC2V1.0Example-1等文本。以下具体的做法,由于替换的方式不同,所以以下几种替换需要依次执行。

1. 前后都是中文字符,中间是英文单词

正则表达式:

([\u4e00-\u9fa5]+)([A-Za-z]+[\s\d\.\-_]*)+([\u4e00-\u9fa5]+)

替换表达式:

$1 $2 $3

2. 前面是中文字符,中间是英文单词,后面是中文标点符号

正则表达式:

([\u4e00-\u9fa5]+)([A-Za-z]+[\s\d\.\-_]*)+([\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b])

替换表达式:

$1 $2$3

3. 以英文单词开头(段落开始处),后面是中文字符

正则表达式:

(^([A-Za-z]+[\s\d\.\-\_]*)+)([\u4e00-\u9fa5]+)

替换表达式:

$1 $3

细节说明:

在测试第3种情况时,遇到一个“弯”,简单记录一下。起初测试的是下面的版本:

^([A-Za-z]+[\s\d\.\-\_]*)+([\u4e00-\u9fa5]+)

发现对于Spark 2 Spark-2 Spark_2 Spark2.0是种测试情况这样的文本,虽然能匹配上,但是替换时的分组有问题:
在这里插入图片描述

从上面的截图来看,第1分组实际上是最后一组单词,这就导致替换后前面的Spark 2 Spark-2 Spark_2 都丢失了。这个问题并不是匹配表达式写的不对,而是提取分组不对,对比上面的正确版本可知,我们需要在^([A-Za-z]+[\s\d\.\-\_]*)+的外面再用小括号包裹一层,从而形成一个独立分组,相应的分组替换就变成了$1 $3
在这里插入图片描述

测试文本:

测试Spark 2这种情况测试Spark-2这种情况测试Spark_2这种情况测试Spark2.0这种情况测试Spark 2 Spark-2 Spark_2 Spark2.0这种情况Spark 2是种测试情况Spark-2是种测试情况Spark_2是种测试情况Spark2.0是种测试情况Spark 2 Spark-2 Spark_2 Spark2.0是种测试情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/68337.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++11

全文目录 {}列表初始化initializer_list 声明autodecltype nullptrSTL中一些变化右值引用左值引用和右值引用的区别左值引用与右值引用比较移动构造和移动赋值模板的万能引用和完美转发 类的新功能新的类的成员函数强制生成和删除默认成员函数 可变参数模板emplace 和 insert l…

【pytest】tep环境变量、fixtures、用例三者之间的关系

tep是一款测试工具,在pytest测试框架基础上集成了第三方包,提供项目脚手架,帮助以写Python代码方式,快速实现自动化项目落地。 在tep项目中,自动化测试用例都是放到tests目录下的,每个.py文件相互独立&…

在VSCode上画UML的三个插件

2023年9月2日,周六晚上 因为写代理模式的博客时需要画UML,所以就在网上找了半天, 最后觉得VSCode上的这三个插件比较好用 目录 三个画UML的VSCode插件PlantUMLDraw.io IntegrationUMLet我个人推荐使用PlantUML 三个画UML的VSCode插件 Pla…

blender基本操作

文章目录 引言一、选择二、移动1. xyz轴移动2. xyz平面移动3. 精确移动4. 快捷键移动G 三、旋转四、缩放五、变换1. 变换坐标系2. 变换轴心: 六、吸附七、模式切换八、物体的合并和分离1. 合并2.分离 九、设置父子级关系十、叠加层和快速收藏夹1. 叠加层2. 快速收藏…

配电室电力智能运维云平台

目前电力运维面临的问题和困扰: 配电室安全稳定运行、电能使用高效节能是每个企业关注的问题,然而,由于供用电系统的运行维护又是一项复杂而且专业性很强的工程,如果没有先进的技术手段,靠人工值班、人工操作的运行方…

day30 日期转换

一:Date Date类: 这个类是java.util.Date getTime() : 获取内部维护的long值 Date date new Date(); long time date.getTime(); setTime():按照指定的long值(表示的时间)设置Date表示的时间 time 60*60*24*1000;…

【力扣每日一题】2023.9.4 序列化和反序列化二叉搜索树

目录 题目: 示例: 分析: 代码: 题目: 示例: 分析: 题目给我们一棵搜索二叉树,要我们将这棵二叉树转变为字符串,同时我们需要根据字符串再变回二叉树,具体…

Linux之虚拟主机功能

目录 虚拟主机功能 概述 基于 IP 地址的虚拟主机 原理 案例 --- 增加多个IP地址,实现基于不同IP地址的虚拟主机功能 基于端口号的虚拟主机 原理 案例 --- 基于不同端口号的虚拟主机 基于域名的虚拟主机 原理 域名解析 案例 --- 使用2个域名建立虚拟主机网…

Mysql 高阶语句

高阶语句 对 MySQL 数据库的查询,除了基本的查询外,有时候需要对查询的结果集进行处理; 例如只取 10 条数据、对查询结果进行排序或分组等,来获取想要有用的数据 无非还是对于MySQL —— 增、删、改、查 的操作 升降序 SELECT…

基于单片机的万年历温度无线传输控制系统系统

一、系统方案 本设计采用DS1302采集年月日时分秒,DS18B20采集温度值,按键设置温度报警上下限,实际测量温度低于下限或高于上限,蜂鸣器报警,同时将测量温度上传到蓝牙助手。 二、硬件设计 原理图如下: 三…

R语言图形的组合( par(),layout(),par(fig()) )

引入d.class进行画图 > d.class<-read.csv("D://class.csv",header T) > attach(d.class) > opar<-par(no.readonly TRUE)非常简单的数据&#xff0c;需要可自取 链接&#xff1a;https://pan.baidu.com/s/1zNx5z9JsaaRqFueRgGY3mQ 提取码&#x…

3D开发工具HOOPS Publish如何快速创建交互式3D PDF文档?

HOOPS Publish是一款功能强大的SDK&#xff0c;可以创作丰富的工程数据并将模型文件导出为各种行业标准格式&#xff0c;包括PDF、STEP、JT和3MF。HOOPS Publish核心的3D数据模型是经过ISO认证的PRC格式(ISO 14739-1:2014)&#xff0c;它为装配树、拓扑和几何、产品制造信息和视…

Seata1.5.2+Nacos分布式事务环境搭建详解

文章目录 一、下载seata server二、配置application.yml三、初始Mysql数据库四、导入初始配置到nacos五、启动测试 本文以seata-server-1.5.2&#xff0c;以配置中心、注册中心使用Nacos&#xff0c;store.modedb&#xff08;mysql&#xff09;为例进行操作。 Seata简介及入门参…

[深度学习]1. 深度学习知识点汇总

本文记录了我在学习深度学习的过程中遇到过的不懂的知识点&#xff0c;为了方便翻阅&#xff0c;故将其发表于此&#xff0c;随时更新&#xff0c;供大家参考。 深度学习常见知识点 1. 测试精度和训练精度 在深度学习中&#xff0c;测试精度和训练精度是两个重要的指标&#…

【zip密码】zip压缩包删除密码方法

Zip压缩包设置设置了密码&#xff0c;想要删除密码&#xff0c;除了将压缩包解压出来之后再将文件压缩为不带密码的压缩文件以外&#xff0c;还有一种删除密码的方法。设置方法如下&#xff1a; 右键点击zip文件&#xff0c;找到打开方式&#xff0c;以Windows资源管理器方式打…

VBA技术资料MF52:VBA_在Excel中突出显示前 10 个值

【分享成果&#xff0c;随喜正能量】一言之善&#xff0c;重于千金。善良不分大小&#xff0c;有时候你以为的一句话&#xff0c;小小的举手之劳&#xff0c;也可能就是别人的救赎&#xff01;不要吝啬你的善良&#xff0c;因为你永远不知道那小小的善良能给多少人带来光明。。…

【 ARMv9 Cluster BUS QoS 配置】

文章目录 ARM Cluster QoS ARM Cluster QoS QoS&#xff08;Quality of Service&#xff0c;服务质量&#xff09;在 ARM 架构中&#xff0c;主要指的是一种机制&#xff0c;它可以控制和管理系统资源&#xff08;如内存、总线带宽等&#xff09;的使用&#xff0c;以满足各种…

Cyber RT学习---5.Cyber RT通信机制解析与实践

5.Cyber RT通信机制解析与实践 5.1 通信机制简介 5.1.1 话题通信 模式&#xff1a; 以发布订阅的方式实现不同节点之间数据交互的通信模式。 如图1-1所示&#xff0c;Listener-Talker通信首先创建了两个Node&#xff0c;分别是Talker Node和 Listener Node。 每个Node实例化…

【B树 B+树】B树、B+树理论

目录 引入B树B树定义和性质m阶B树核心特性 B树B树的查找 引入B树 满足上面两个策略就是B树&#xff1a; m 叉查找树中&#xff0c;规定除了根节点外&#xff0c;任何结点至少有 ⌈ m / 2 ⌉ \lceil m/2 \rceil ⌈m/2⌉ 个分叉&#xff0c;即至少含有 ⌈ m / 2 ⌉ \lceil m/2 \…

Python爬虫——新手使用代理ip详细教程

Python代理IP爬虫是一种可以让爬虫拥有更多网络访问权限的技术。代理IP的作用是可以为爬虫提供多个IP地址&#xff0c;从而加快其爬取数据的速度&#xff0c;同时也可以避免因为访问频率过高而被网站封禁的问题。本文将介绍如何使用Python实现代理IP的爬取和使用。 一、代理IP的…