正则表达式和爬虫

目录

一、正则表达式:

        作用:

字符类(只匹配一个字符)

                细节

预定义字符字符(只匹配一个字符)

                细节

数量词

二、爬虫

        Pattern

        Matcher

                要点说明


一、正则表达式:

        作用:

                1、校验字符串是否满足规则

                2、在一段文本中查找满足要求的内容(爬虫)

字符类(只匹配一个字符)

[abc]只能是a,b或c
[^abc]除了这三个之外的任何字符
[a-zA-Z]a-z,A-Z(字符串出现的字符只要在两个范围(包括z,Z)之内就为true)
[a-d[m-p]]a-d或者m-p
[a-z&&[def]]a-z和def的交集
[a-z&&[^bc]]a-z和非def的交集(即:[ad-z])
[a-z&&[^m-p]]a-z和除了m-p的交集(即:[a-[q-z]]])
                细节:如果要求两个范围的交集,那么需要写符号“&&”。如果写成一个&那么此时“&”表示的就不是交集了,而是一个简简单单的“&”符号。
System.out.println("&".matches("[a-z&&[def]]"));//false
System.out.println("&".matches("[a-z&[def]]"));//true

 

预定义字符字符(只匹配一个字符)

.任何字符
\d一个数字[0-9]
\D非数字:[^0-9]
\s一个空白字符:[\t\n\x0B\f\r]
\S非空白字符
\w[a-za-Z_0-9]英文、数字、下划线
\W[^\w]一个非单词字符
                细节:在Java中“\”为转义字符,表示改变后面那个字符原本的含义。双引号""在Java中表示字符串的开头或结尾。“\"”表示把"变成普普通通的"(仅仅只是一个符号,不具备任何含义)

“\\”表示把\变成普普通通的\

System.out.println("你a".matches("."));//false
System.out.println("你a".matches(".."));//true
System.out.println("你".matches("\\w"));//false
System.out.println("你".matches("\\W"));//true

数量词

X?X出现一次或零次
X*X出现零次或多次
X+X出现一次或多次
X{n}X出现正好n次
X{n,}X出现至少n次
X{n,m}X出现至少n次但不超过m次

二、爬虫

        Pattern:表示正则表达式

        Matcher:文本匹配器,作用按照正则表达式的规则去读取字符串,从头开始读取。在大串中去找符合匹配规则的子串

                eg.有如下文本:Java自从95年问世,经历了很多版本,目前企业中用到的最多的是Java8和Java11,因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在不久Java17也会逐渐登上历史舞台。

                要求:找出里面所偶的JavaXX。

代码如下:

import java.util.regex.Matcher;
import java.util.regex.Pattern;public class 爬虫demo {public static void main(String[] args) {String str = "Java自从95年问世,经历了很多版本,目前企业中用到的最多的是Java8和Java11,因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在不久Java17也会逐渐登上历史舞台";//获取正则表达式的对象Pattern p = Pattern.compile("Java\\d{0,2}");//获取文本匹配器的对象Matcher m = p.matcher(str);//利用循环从头获取,寻找是否有满足规则的子串。while(m.find()){String s = m.group();System.out.println(s);}}
}

运行结果如下:

                要点说明:代码:

Matcher m = p.matcher(str);

中的——m:文本匹配器的对象

str:大串

p:规则

m:要在str中找符合p规则的小串

m.find()会返回一个boolean类型的结果。如果没有,返回false。反之返回true,并在底层记录字串的起始索引和结束索引+1(+1之后再作为结束索引进行传递)
String s = m.group();————方法底层会根据find方法记录的索引进行字符串的获取:subString(起始索引,结束索引);包头不包尾(所以find方法在结束索引位置+1就很有必要)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/625815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytorch集智-5手写数字识别器-卷积神经网络

1 简介 简称:CNN,convolutional neural network 应用场景:图像识别与分类(CNN),看图说话(CNNRNN)等 优越性:和多层感知机相比,cnn可以识别独特的模式&…

【经验总结】使用静态库编译静态库的方法

一,简介 本文主要介绍,如何使用静态库编译生成另外一个静态库的方法。由于编译静态库不能直接链接静态库,需要将静态库解压成.o文件,然后将解压之后的.o文件,连同其他.o文件一起打包成为.a文件。 二,操作…

Kubernetes (K8S) 3 小时快速上手 + 实践

1. Kubernetes 简介 k8s即Kubernetes。其为google开发来被用于容器管理的开源应用程序,可帮助创建和管理应用程序的容器化。用一个的例子来描述:"当虚拟化容器Docker有太多要管理的时候,手动管理就会很麻烦,于是我们便可以通…

二叉树:从基础结构到高级遍历技术

. 个人主页:晓风飞 专栏:数据结构|Linux|C语言 路漫漫其修远兮,吾将上下而求索 文章目录 引言结构定义接口需求构建二叉树销毁二叉树计算节点和叶子的数量二叉树节点个数二叉树叶子节点个数二叉树第k层节点个数 二叉树查找值为x的节点二叉树的…

立白科技集团:研发安全推动数字化蜕变,日化业务再上新高度

立白科技集团成立于1994年,是我国日化行业的领军企业,致力于成为一家“品牌引领、数字经营、富有创新、富有活力”的智慧服务型企业。从2018年开始,立白科技集团加速数字化转型,打造数据和业务中台,并建立toB和toC平台…

修改和调试 onnx 模型

1. onnx 底层实现原理 1.1 onnx 的存储格式 ONNX 在底层是用 Protobuf 定义的。Protobuf,全称 Protocol Buffer,是 Google 提出的一套表示和序列化数据的机制。使用 Protobuf 时,用户需要先写一份数据定义文件,再根据这份定义文…

【Android Studio】使用简单的adb命令远程连接设备进行调试以及文件推送

在使用Android Studio开发时候遇到设调试的时候,由于需要调试的设备不是这种移动设备,需要连接线路到电脑上很不方便操作,后面发现可以通过远程连接的方式,减少不必要的操作复杂度。 一、找到项目中adb配置的工具位置 一般情况下…

使用 rinetd 搭建简单端口重定向服务

rinetd是什么 rinetd(Redirector for TCP connections)是一个用于重定向TCP连接的工具。它允许你将传入的TCP连接从一个指定的IP地址和端口号重定向到另一个地址和端口号。rinetd通常用于端口重定向,使得可以将流量从一个端口转发到另一个端…

【C语言】指针知识点笔记(2)

目录 一、野指针 二、assert断言 三、指针的使用和传址调用 四、数组名的理解 五、使用指针访问数组 一、野指针 二、assert断言 三、指针的使用和传址调用 四、数组名的理解 五、使用指针访问数组

Vue响应式系统(二)

Vue响应式系统(一) 六、嵌套的effect与effect栈。 什么场景会用到effect嵌套呢?听我娓娓道来。 就用Vue.js来说吧,Vue.js的渲染函数就是在effect中执行的: /*Foo组件*/ const Foo {render() {return /*.....*/} }// effect中执行Foo组件中…

kubectl与 jq的另外一些用法

背景: 在日常运维工作中,我们需要管理和操作大量的配置文件,这在使用 Kubernetes 集群管理应用时尤为常见。Kubernetes 提供了一个名为 ConfigMap 的资源对象,它用于存储应用的配置信息。有时,我们需要查找哪些 Confi…

2、python函数和获取帮助

调用函数、定义自己的函数以及使用Python的内置文档 你已经见过并使用了print和abs等函数。但是Python还有许多其他函数,而定义自己的函数是Python编程的一个重要部分。 在这个课程中,你将学习更多关于使用和定义函数的知识。 文章目录 1.获取帮助1.1定义函数1.1.1注释1.2无…

基于SSM的驾校信息管理系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue、HTML 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是…

人机协同中存在一个独特的时空体系

一、在人机协同中存在一个独特的时空体系 在人机这个独特的时空体系中,人和机器之间的时间和空间的交织和共同作用。 在时间维度上,人机协同体系中的人和机器具有不同的时间节奏和速度。人类有限的生命周期和有时候需要休息的需求使得他们的工作时间和生…

机器人制作开源方案 | 智能循迹避障小车

作者:刘元青、邹海峰、付志伟、秦怀远、牛文进 单位:哈尔滨信息工程学院 指导老师:姚清元 智能小车是移动式机器人的重要组成部分,而移动机器人不仅能够在经济、国防、教育、文化和生活中起到越来越大的作用,也是研究…

【Redis】windows上安装的Redis,并在springboot中配置并且连接详细(排坑)

比如在开发测试阶段,为了方便就直接使用自己windows装好redis进行简单测试了,在项目中不去单独配置yam的redis属性可以正常操作,但是在springboot的yam中配置redis连接属性时候却连不上,特意记录一下方便后续再遇到能快速解决 一、Redis配置文件位置(windows) 一般情况下…

Codeforces Round 114 (Div. 1) C. Wizards and Numbers(思维题 辗转相除+博弈 巴什博弈)

题目 t(t<1e4)组询问&#xff0c;每次询问(a,b)&#xff08;0<a,b<1e18&#xff09;&#xff0c; 不妨a<b&#xff08;a>b时需要交换两个数考虑&#xff09; ①令b减去a的k次方&#xff08;k>1&#xff09;&#xff0c;要求减完之后b非负 ②令bb%a 当a和…

java处理16进制字符串的一些方法和基础知识

前言&#xff1a;本篇文章是对于基础数据的处理的一些简单经验总结里边包含了一些基础的数据储存和数据转化的一些知识&#xff0c;同样也包含有部分快捷的数据处理方法。主要用于个人知识的一个记录和方便进行对应的数据转换和处理。 1、bit,字节和字的关系 1.1 bit和字节的…

2024全新开发API接口调用管理系统网站源码 附教程

2024全新开发API接口调用管理系统网站源码 附教程 用layui框架写的 个人感觉很简洁 方便使用和二次开发

腾讯云MPS为出海媒体企业助力

在如今互联网发达的时代&#xff0c;一个视频通过网络发布即可供给全球用户进行观看。其中视频媒体企业便其中的领头先锋&#xff0c;为了让创作者们以及全球各大用户的视频进行快速推广&#xff0c;出海则是不二之选。但是因为各地区域的不同&#xff0c;带宽的不同与网络的限…