python正则中如何匹配汉字以及encode(‘utf-8’)和decode(‘utf-8’)的互转

正则表达式:
  [\u2E80-\u9FFF]+$ 匹配所有东亚区的语言 
  [\u4E00-\u9FFF]+$ 匹配简体和繁体 
  [\u4E00-\u9FA5]+$ 匹配简体 
  <input type="text" name="username" οnkeyup="value=value.replace([\u4E00-\u9FA5]+$)">

正则表达式速查表:https://www.jb51.net/shouce/jquery1.82/regexp.html

 1  1 # -*- coding:utf-8 -*-
 2  2 
 3  3 import re
 4  4 
 5  5 '''
 6  6 python 3.5版本
 7  7 正则匹配中文,固定形式:\u4E00-\u9FA5
 8  8 '''
 9  9 
10 10 words = 'study in 山海大学'
11 11 regex_str = ".*?([\u4E00-\u9FA5]+大学)"
12 12 match_obj = re.match(regex_str, words)
13 13 if match_obj:
14 14     print(match_obj.group(1))
15 15 
16 16 
17 17 结果:山海大学

 

这里面表示的是一个正则表达式语句的啦,http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

Python添加对Unicode的支持,以Unicode表示的字符串用u’ABC’来表示。
字符串’xxx’虽然是ASCII编码,但也可以看成是UTF-8编码,而u’xxx’则只能是Unicode编码。


把u’xxx’转换为UTF-8编码的’xxx’用encode(‘utf-8’)方法。

1 >>> u'ABC'.encode('utf-8')
2 'ABC'
3 >>> u'中文'.encode('utf-8')
4 '\xe4\xb8\xad\xe6\x96\x87

反过来,把UTF-8编码表示的字符串’xxx’转换为Unicode字符串u’xxx’用decode(‘utf-8’)方法。

1 >>> 'abc'.decode('utf-8')
2 u'abc'
3 >>> '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
4 u'\u4e2d\u6587'
5 >>> print '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
6 中文

由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:

1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-

第一行注释是为了告诉Linux/OS X系统,这是一个Python可执行程序,Windows系统会忽略这个注释;

第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。

关于Python正则表达式匹配中文:

这里边重点用到了  r'[\u4e00-\u9fa5]+'  的正则规则,表示1到多个任意汉字。

 1 import re
 2 str=u"【心理箴言】现实是污浊的河流,要想接受污浊的河流而自身不被污染,我们必须成为大海。 ​​=-=4845/.?'​"
 3 # py2.7,所以字符串前加u,在正则表达式前也加u即可。
 4 # pattern =re.compile(u'[\u4e00-\u9fa5]')
 5 pattern =re.compile(r"[\u4e00-\u9fa5]+")
 6 result=pattern.findall(str)
 7 result1=re.findall(pattern,str)
 8 for w in result:
 9     print(w)
10 
11 str1='hjggj小vjjk明'
12 pat=re.compile(r'[\u4e00-\u9fa5]+')
13 result=pat.findall(str1)
14 print(result)

运行结果:

如果全是汉字 指定输出某些汉字呢:

见 Unicode 中文编码表: https://www.bejson.com/convert/unicode_chinese/

 

转载于:https://www.cnblogs.com/Army-Knife/p/10691407.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/277970.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【区块链】认识区块链的基本概念

2018年区块链技术风卷全球&#xff0c;似乎大家都在谈论区块链&#xff0c;那到底什么区块链&#xff0c;区块链到底能干什么&#xff0c;对普通人会有什么影响&#xff0c;很多人还是稀里糊涂&#xff0c;那么就谈谈我的一些理解吧&#xff0c;抛砖引玉欢迎探讨。 我是如何接触…

Java 分割、合并byte数组

场景&#xff1a;上传文件较大&#xff0c;把存放文件内容byte数组拆分成小的。下载的时候按照顺序合并。 起初觉得挺麻烦的&#xff0c;写完觉得挺简单。 切割&#xff1a; /*** 拆分byte数组* * param bytes* 要拆分的数组* param size* 要按几个组成一…

Java版本的Bot Framework SDK

微软为了鼓励Java开发人员开发bot&#xff0c;在上个月推出了Java的Bot SDK v4.6版本&#xff0c;目前还在Preview版本&#xff0c;相信不用多久就可以赶上其他版本了。 我的java还停留在 n 年前的水平&#xff0c;但是处于好奇&#xff0c;决定玩一下这套sdk。 这套sdk目前建…

jquery方法.serializeArray()获取name和value并转为json数组

jquery的.serializeArray()方法可以获取形如以下 [ {name: firstname, value: Hello}, {name: lastname, value: World}, ] name value组成的对象数组&#xff0c;如果我们想得到key为name,value为value的json对象&#xff0c;则如下转换&#xff1a; var m {}; $.each($(&quo…

Teams Bot 如何使用新的 System.Text.Json 库

我最近把 LuckyDraw的代码升级到了 .net core 3.1&#xff0c;当然我也很想使用最新的微软json库&#xff0c;System.Text.Json这个库的性能比之前Newtonsoft.Json速度更快&#xff0c;而且就我本人爱好来说&#xff0c;更加喜欢System.Text.Json的命名&#xff0c;之前一直觉得…

将Teams Template升级到dotnet core 3.1

为了方便开发者开发Teams应用&#xff0c;我在2018年做了dotnet c#的一套模板&#xff0c;这套模块一共有三种类型&#xff0c;一个是Teams OutgoingWebhook&#xff0c;一个是MessagingExtension&#xff0c;还有一个就是Tab。 今天特地去nuget上看了一下&#xff0c;下载量还…

【动态规划】cf1034C. Region Separation

质因数分解套路的复杂度分析的动态规划 题目大意 有一颗$n$个节点有点权的树&#xff0c;初始整棵树为$1$号区域&#xff0c;要求满足下列规则&#xff1a; 除非$i$是最后一个等级&#xff0c;否则每一个$i$级区域都要被分成至少两个$i1$级区域对于每种等级&#xff0c;每个点必…

阿里大鱼短信介入demo分享

下面是关于大鱼短信平台对接的例子&#xff0c;发短信的话&#xff0c;可以用这个&#xff0c;很好用 /*** 通过阿里短信接口发送短信验证码* ***/ public class SendSmsUtil {private static Logger logger Logger.getLogger(SendSmsUtil.class);/*** 生成验证码* return*/pu…

GraphAPI 1.0中新增加的Teams API

这篇继续介绍BUILD大会里的内容&#xff1a;两个新加入GraphAPI 1.0的关于Teams的API。 这两个新增api是关于在频道Channel里发送消息和回复消息的。实际上这两个api在beta版本中早就已经加入&#xff0c;上个月build大会中公布的只是把这两个api正式发布到1.0版本&#xff0c…

【数据结构】线性表(一):顺序列表

线性表(linear_list)是最常用且最简单的一种数据结构&#xff0c;简言之&#xff0c;一个线性表是n个数据元素的有序序列。 例如&#xff1a;&#xff08;a1 , ... , ai-1 , ai , ai1 , ... , an)&#xff1a;ai-1 是 ai 的直接前驱&#xff0c;ai1 是 ai 的直接后驱。 并且&am…

Python_XlrdXlwt

1 import xlrd 2 # \U 开始的字符被编译器认为是八进制 解决方法 r 3 objWB xlrd.open_workbook(rC:\Users\IBM\Desktop\S1\7月下旬入库表.xlsx) 4 # 索引号 objTable objWB.sheet_by_index(0) 5 objTable objWB.sheet_by_name(7月下旬入库表) 6 # 单元格3种读取方式 7 print…

校招需要看的书 巩固的知识

前言 感谢教练&#xff0c;学长们&#xff0c;队友&#xff0c;lollipop&#xff0c;猫哥&#xff0c;李哥&#xff0c;表哥&#xff0c;鸡哥&#xff0c;样样&#xff0c;咸糖&#xff0c;茗记&#xff0c;明沙&#xff0c;嘻&#xff0c;树佬(排名不分先后)等等太多太多的人的…

新的Teams API权限控制

这篇继续介绍BUILD大会里的内容&#xff1a;新的Teams API权限。这些新的权限让开发者可以更加细粒度的设置权限。 之前有些开发人员有问过我&#xff0c;为什么Graph API的权限这么多&#xff0c;为什么不针对Teams弄一个总的权限&#xff0c;这样不是更加简单吗&#xff1f;…

物料主数据(MM03)跳转函数

CP_08_MATERIAL_SHOW 使用感觉能使自己的代码显得更改高端些。 其中参数MTSTA_IMP的选值参照表T132。转载于:https://www.cnblogs.com/tangcy1110/p/9081380.html

二叉树的蛇形遍历 leetcode 103

给定一个二叉树&#xff0c;返回其节点值的锯齿形层次遍历。&#xff08;即先从左往右&#xff0c;再从右往左进行下一层遍历&#xff0c;以此类推&#xff0c;层与层之间交替进行&#xff09;。 例如&#xff1a;给定二叉树 [3,9,20,null,null,15,7], 3/ \9 20/ \15 7返回…

Teams Tab的Single Sign-On

在我写这篇文章的时候&#xff0c;这个SSO机制还是在 Developer Preview 阶段&#xff0c;可能在发布前还会有一些改进。不过我觉得这个功能很好&#xff0c;所以先和大家分享一下。 如果大家之前已经开发过Teams的tab应用&#xff0c;可能会发现如果你需要一个当前用户的toke…

vim编辑器的使用--转自MJ学长

一、引言 1. vim是一款功能强大的文本编辑器&#xff0c;如果使用熟练&#xff0c;将会有效帮助我们提高编辑文本、程序的效率。vim编辑器的上手使用门槛比较高&#xff0c;很多人怯于要记很多命令&#xff0c;往往在学习的初期阶段就望而却步。 2. vim的学习需要不断的练习、使…

算法引入

算法的概念&#xff1a; 解决问题的思路。 时间复杂度&#xff1a; 定义&#xff1a; 基本运算的执行数量。是算法效率的衡量的量。 计算准则&#xff1a; 基本操作&#xff1a;即只有常数项。复杂度认为1顺序&#xff0c;按照加法计算循环&#xff0c;按照乘法计算条件。按照最…

如何开发Teams Bot

很多朋友问我如何开发一个成功的Teams Bot&#xff0c;他们说Bot Framework SDK看起来简单&#xff0c;但是真要的去开发一款成熟的bot&#xff0c;很多地方还是不知道如何使用。我从最早的bot framework还在beta的时候开始用&#xff0c;后来framework经历了多次大的改动&…

[CF903G]Yet Another Maxflow Problem

[CF903G]Yet Another Maxflow Problem 题目大意&#xff1a; 有\(A\)类点和\(B\)类点各\(n(n\le2\times10^5)\)个&#xff0c;所有\(A_i\)到\(A_{i1}\)有一条权值为\(a_i\)的有向边&#xff0c;所有\(B_i\)到\(B_{i1}\)有一条权值为\(b_i\)的有向边&#xff0c;另有\(m(m\le2\t…