Java提取文本文档中的所有网址(小案例介绍正则基础知识)

正则表达式基础以及Java中使用正则查找

定义: 正则表达式是一些用来匹配和处理文本的字符串

正则的基础(先大致了解下)

1. 正则表达式的作用

  1. 查找特定的信息(搜索)

  2. 替换一些文本(替换)

2. 正则基础知识

1. 元字符

  • . 匹配除换行符(\n)以外的任何单个字符
  • w 匹配字母、数字、下划线、汉字
  • s 匹配任意空白字符(包括空格、制表符、换页符等)
  • d 匹配数字,匹配单词的开始或结束
  • ^ 匹配字符串的开始
  • $ 匹配字符串的结束

例子:

#匹配abc开头的字符串  
^abd#匹配8位数字的QQ号
^dddddddd$#匹配以153开头的11位数字手机号  
^153dddddddd$  

2. 重复限定符

  • * 重复0次或更多次
  • + 重复1次或更多次
  • ? 重复0次或1次
  • {n} 重复n次
  • {n,} 重复n次或更多次
  • {n,m} 重复n到m次
#匹配8位数字QQ号    
^d{8}$#匹配153开头11位手机号  
^(153)d{8}$#匹配身份证号第7到14位(出生日期)    
^d{7,14}$  #匹配以a开头的,0个或者多个以b结尾的字符串
^ab*$

3. 分组

#匹配字符串中包含0到多个ab开头
^(ab)*$

4. 条件或

正则用【|】表示或,当满足分支里任何一种条件时,就会匹配成功

#匹配手机号中联通的手机(联通号段130/131/132等)
^(130|131|132)d{8}$

5. 区间

正则提供‘[]’表示区间条件

  • [0-9] 限定0到9
  • [a-z] 限定a-z
  • [165] 限定某些数字

Java中使用正则表达式

这里会说一个例子:在一段txt文档中找出所有的网址

Java与正则

1. 这里有一段100000000(自己数,我也不知道几个0)行的文本,如图

原始文档

2. 高手写好的匹配url的正则(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]当然还有n多种方式

3. Java代码献上

正则表达式匹配使用方式

/*** 参数1 regex:我们的正则字符串* 参数2 就是一大段文本,这里用data表示*/
private String filterSpecialStr(String regex, String data) {//sb存放正则匹配的结果StringBuffer sb = new StringBuffer();//编译正则字符串Pattern p = Pattern.compile(regex);//利用正则去匹配Matcher matcher = p.matcher(data);//如果找到了我们正则里要的东西while (matcher.find()) {//保存到sb中,"\r\n"表示找到一个放一行,就是换行sb.append(matcher.group() + "\r\n");}return sb.toString();
}

4. 这里增加两个文件的读写

Java读取文本文件

private String readFile(String pathName) {//读取到的文件内容放到这个sb里StringBuffer sb = new StringBuffer();//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice (这种写法是Java7的一种语法,自动管理资源,不理解自行百度)try (BufferedReader br = new BufferedReader(new FileReader(pathName))) {String line;while ((line = br.readLine()) != null) {sb.append(line + "\r\n");}System.out.println("读取文件完成");} catch (IOException e) {e.printStackTrace();}return sb.toString();}

Java写入文本文件

private void writeFile(String pathName, String data) {try {//文件不存在的话新建,存在覆盖File file = new File(pathName);file.createNewFile();//The Java 7 try-with-resources syntax (Automatic Resource Management) is nicetry (BufferedWriter bw = new BufferedWriter(new FileWriter(file))) {bw.write(data);bw.flush();System.out.println("文件写入完成");} catch (IOException e) {e.printStackTrace();}} catch (IOException e) {e.printStackTrace();}
}

5. 执行结果

测试代码

把文档.txt读取到Java中,然后处理完,最后写到我指定的文件中

public static void main(String[] args) {//0. 准备好正则String regex = "(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]";//1. 读取文档String data = readFile("F:\\test\\文档.txt");//2. 正则查找String needData = filterSpecialStr(regex, data);//3. 写到某个文件中writeFile("F:\\test\\needData.txt", needData);
}

结果

过滤之后的文档

转载于:https://www.cnblogs.com/baijinqiang/p/11067033.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/263715.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机鼓轮

计算机鼓轮是一种计算机早期应用的机械式模数转换器转载于:https://www.cnblogs.com/emanlee/archive/2010/12/08/1900053.html

字符串大小写字母转换c 语言,towlower()

wint_t towlower ( wint_t wc );towlower() 函数用来将大写字母转换为小写字母(针对宽字符)。只有当参数 wc 是一个大写字母,并且存在对应的小写字母时,这种转换才会发生。towlower() 是 tolower() 的宽字符版本。参数wc要被转换的宽字符。它可以是一个有…

Windows与Linux之间海量文件的传输与Linux下大小写敏感问题

Windows与Linux之间海量文件的传输与Linux下大小写敏感问题 mount.cifs 支持通过网络文件系统挂载,不过需要安装cifs-utils,也可通过mount -t cifs挂载,详细的选项可参见man mount.cifs 1. 通过Windows共享文件夹 1.1 设置windows共享1.2 Lin…

Hashtable和HashMap的区别

HashTable的应用非常广泛,HashMap是新框架中用来代替HashTable的类,也就是说建议使用HashMap,不要使用HashTable。可能你觉得HashTable很好用,为什么不用呢?这里简单分析他们的区别。 1.HashTable的方法是同步的&#…

SQL解析之硬解析和软解析

当客户端进程,将SQL语句通过监听器发送到Oracle时, 会触发一个Server process生成,来对该客户进程服务。Server process得到SQL语句之后,对SQL语句进行Hash运算,然后根据Hash值到library cache中查找,如果存在&#xf…

ORA-00018: maximum number of sessions exceeded 超出最大会话数

ORA-00018: maximum number of sessions exceededORA-00018: 超出最大会话数 Cause: All session state objects are in use. 所有会话状态对象都在使用中。 Action: Increase the value of the SESSIONS initialization parameter. 增加会话初始化参数的…

对象关系映射(ORM)及代码生成器和插件C#源码(DBFrameworkV4.5.3)

1. ORM及代码生成器和插件C#源码(DBFrameworkV4.5.3) 一、使用对象关系映射组件Kenly.DBFramework.dll不用编写任何SQL或者存储过程即可实现下列功能:1、数据表、视图和存储过程与对象之间的转换。2、数据表、视图的自定义条件查询。3、数据表、视图的分页查询。4、…

念一城,安一世

时光飞快的流逝,岁月总是行行匆匆,随着迷茫的脚步渐行渐远,伴随着若有若无的孤单心事,猛然间离道阻挡在路中央,才诚惶诚恐的发现,留一份是匆忙,取一分就变成了离殇。在多愁中起步,在…

c语言如何读取mp3歌曲信息,VC中读取mp3文件信息的方法

标准格式的mp3文件中,都有一些自身描述的信息,比如歌曲名称、歌手、专辑名称等信息。这些信息都记录在mp3文件中,而且格式是固定的。那么,我们就可以用编程的方式来获取这些信息。其实说简单一点,就是VC文件读取的操作…

kvm虚拟机热迁移

1. 迁移介绍 迁移: 系统的迁移是指把源主机上的操作系统和应用程序移动到目的主机,并且能够在目的主机上正常运行。在没有虚拟机的时代,物理机之间的迁移依靠的是系统备份和恢复技术。在源主机上实时备份操作系统和应用程序的状态&#xff0c…

使用Backtrace函数打印调用栈 - Debug居家必备

glibc提供了backtrace这个库函数,可以用来打印call stack。比如我们可以在程序中注册常见的一些signal,比如SIGSEGMENT, SIGPIPE,然后在这些信号的回调函数中,利用backtrace打印出call stack,这样debug就非常的方便。 …

《C语言及程序设计》实践项目——三种循环语句

返回:贺老师课程教学链接 【项目1:利用循环求和】求1000以内所有偶数的和要求:请编出3个程序来,分别用三种循环语句完成,注意体会各种循环语句的执行过程及语法特点。[参考解答]【项目2:求阶乘】输入n&…

C语言数组学完学啥,我的c语言学习-数组专题

学到最后的数组专题了。数组数组,怎么着也要是一组数吧,对,数组是按顺序排列的一组同类型的数据构成的集合,用来保存大量同类型的相关数据。一 一维数组定义一个一维数组int a[5],表示有五个元素,a[0]、a[1]、a[2]…

通过图表简化sql语句的表关联

在之前的博文中分享过一个执行了两天的一条sql语句,走了两个大表的扫描,导致执行时间很长,通过简化sql做了不小的改进,今天我们来看看还可以做些什么。 上次简化后的语句如下:with tmp_logical_date as (SELECT logica…

输入三个数,按照由大到小的顺序输出

voidswap(int*p1,int*p2)/*实现两个数交换的函数*/{inttemp; temp*p1;*p1*p2;*p2temp;}voidexchange(int*p1,int*p2,int*p3)/*实现3个数两两比较、交换的函数*/{if(*p1<*p2) swap(p1,p2);/*比较第一个数和第二个数*/if(*p1<*p3) swap(p1,p3);/*比较第一个数和第三个数*/i…

android 自定义text,android – 使用自定义textSize实现自定义TextView

我已经实现了自定义TextView,然后我需要更改其文本大小以供将来使用.在那一步,我决定使用style.xml和attr.xml进行textSize自定义但是,当我的自定义布局膨胀时,我收到运行时错误.与我为了自定义而更改的部件相关的错误.这是我实现的代码片段.attr.xmlstyles.xml?attr/right_de…

[翻译] BFKit

BFKit BFKit is a collection of useful classes to develop Apps faster. BFKit是一个有用的工具集合&#xff0c;帮助你快速开发。 Installing and Usage Pod Pod安装 Create a Podfile in your project directoryWrite:platform :ios, 7.0xcodeproj Project.xcodeproj pod …

Camera Vision - video surveillance on C#

http://www.codeproject.com/KB/audio-video/cameraviewer.aspx 开发的资源 介绍&#xff1a;纵观当今的监控系统的发展趋势&#xff0c;能很容易发现基于IP的解决方案正在迅速的普及。有许多的制造商&#xff0c;提供广泛的IP视频射像和视频服务器&#xff0c;意味着个人的IP…

android 接口定义常量,Android开发笔记(5):常量的合理使用

今天&#xff0c;我们来聊一些“细枝末节”的问题——java中的常量。觉得很有意思&#xff0c;给大家分享一下&#xff1a;下面是我见过的几种常量定义操作&#xff1a;1.普通款&#xff1a;public class Constants {private Constants(){}public static final int MAX Intege…

mysql数据库操作手册

1 存储过程的写法 以下是一个带有入参的存储过程模板&#xff0c; #删除方案-存储过程 CREATE PROCEDURE procPersonAppointRecallPlanByPlanUuidDelete(in planUuid varchar(48)) BEGIN update PERSON_APPOINT_RECALL_DUTY set duty_status 2 WHERE duty_list_uuid in (sel…