python的百分号和斜杠除_关于python：如何替换除字母，数字，正斜杠和反斜杠之外的所有字符...

想要解析文本并仅返回字母，数字，正斜杠和反斜杠，并用''替换所有其他斜杠。

是否可以仅使用一种正则表达式模式，而不是随后需要循环的几种正则表达式模式？无法获取下面的样式，不能替换正斜杠。

line1 ="1/R~e`p!l@@a#c$e%% ^A&l*l( S)-p_e+c=ial C{har}act[er]s ;E xce|pt Forw:ard" $An>d B,?a..ck Sl'as

line2 = line

RGX_PATTERN ="[^\w]","_"

for pattern in RGX_PATTERN:

line = re.sub(r"%s" %pattern, '', line)

print("replace1:" + line)

#Prints: 1ReplaceAllSpecialCharactersExceptForwardAndBackSlashes2

以下来自SO的代码已经过测试，发现比regex更快，但随后它替换了所有要保留的特殊字符，包括/和。有什么方法可以对其进行编辑以使其适合我的用例，并且仍然保持它在正则表达式方面的优势？

line2 = ''.join(e for e in line2 if e.isalnum())

print("replace2:" + line2)

#Prints: 1ReplaceAllSpecialCharactersExceptForwardAndBackSlashes2

作为一个额外的障碍，要解析的文本应采用ASCII格式，因此，如有可能，其他编码中的字符也应替换为''

更快一点并且适用于Unicode：

full_pattern = re.compile('[^a-zA-Z0-9\\\/]|_')

def re_replace(string):

return re.sub(full_pattern, '', string)

如果您真的想要它，那是迄今为止最好的方法(但有点晦涩)：

def wanted(character):

return character.isalnum() or character in '\\/'

ascii_characters = [chr(ordinal) for ordinal in range(128)]

ascii_code_point_filter = [c if wanted(c) else None for c in ascii_characters]

def fast_replace(string):

# Remove all non-ASCII characters. Heavily optimised.

string = string.encode('ascii', errors='ignore').decode('ascii')

# Remove unwanted ASCII characters

return string.translate(ascii_code_point_filter)

时序：

SETUP="

busy = ''.join(chr(i) for i in range(512))

import re

full_pattern = re.compile('[^a-zA-Z0-9\\\/]|_')

def in_whitelist(character):

return character.isalnum() or character in '\\/'

def re_replace(string):

return re.sub(full_pattern, '', string)

def wanted(character):

return character.isalnum() or character in '\\/'

ascii_characters = [chr(ordinal) for ordinal in range(128)]

ascii_code_point_filter = [c if wanted(c) else None for c in ascii_characters]

def fast_replace(string):

string = string.encode('ascii', errors='ignore').decode('ascii')

return string.translate(ascii_code_point_filter)

python -m timeit -s"$SETUP""re_replace(busy)"

python -m timeit -s"$SETUP""''.join(e for e in busy if in_whitelist(e))"

python -m timeit -s"$SETUP""fast_replace(busy)"

结果：

10000 loops, best of 3: 63 usec per loop

10000 loops, best of 3: 135 usec per loop

100000 loops, best of 3: 4.98 usec per loop

在所有这些方面产生与我的输出完全相同的输出：

@Master_Yoda; 您可能正在使用Python2。OP正在使用Python 3。

好电话，没有注意到这一点。

经过测试，它确实处理了非ascii文本

你为什么不能做这样的事情：

def in_whitelist(character):

return character.isalnum() or character in ['\','/']

line2 = ''.join(e for e in line2 if in_whitelist(e))

根据建议进行编辑以压缩功能。

为了简洁起见，我个人将最后一部分更改为character in [\, ]。

好。这工作了。只是必须转义反斜杠[\\, ]

转义字符串文字后为我工作...哦，@ Khaelid同意。

无法完成所有这些操作：(等)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/486245.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python的百分号和斜杠除_关于python：如何替换除字母，数字，正斜杠和反斜杠之外的所有字符...

相关文章

php-curl-class,一个简单PHP CURL类

input输入数字验证

平行进化论再添证据牙形刺远隔千里却发育模式相同

word光标一直闪动_6个一分钟就能学会的Word实用小技巧，你会几个?【Word教程】...

timewait php,timewait是什么意思

DARPA新局长维多利亚·科尔曼展望未来发展

死磕JDK源码之String

一个神奇的测试_这4个在线黑科技工具拥有神奇的魔法，值得收藏！

php task todolist,Todolist--（4）登录

量子纠缠背后的故事（廿五）：深藏幕后的神秘力量

Python day7之mysql

vuerouter传参方式_VUE Router学习原理(一)

php为图片添加渐变背景,HTML_CSS实例:通过定义渐变边框给图片加阴影，一般我们可以使用背景图的方 - phpStudy...

Nature：新聘“诺奖级泰斗”研究揭示大脑中执行不同认知功能环路之间的协同作用

Java基础11-封装（思想、访问权限、this、构造方法）

值对于 int32 太大或太小_怎样将视频文件变小却对画质没有太大影响呢？

matlab神经网络动量因子,bp神经网络的动量因子

世界互联网大会上发布的《中国互联网发展报告2020》显示——中国人工智能专利申请数跃居世界第一...

hessian学习笔记

谷歌浏览器手势_分享一些日常手势[狗头]

python的百分号和斜杠 除_关于python：如何替换除字母，数字，正斜杠和反斜杠之外的所有字符...

相关文章

python的百分号和斜杠除_关于python：如何替换除字母，数字，正斜杠和反斜杠之外的所有字符...