Java提取文本文档中的所有网址(小案例介绍正则基础知识)

正则表达式基础以及Java中使用正则查找

定义: 正则表达式是一些用来匹配和处理文本的字符串

正则的基础(先大致了解下)

1. 正则表达式的作用

  1. 查找特定的信息(搜索)

  2. 替换一些文本(替换)

2. 正则基础知识

1. 元字符

  • . 匹配除换行符(\n)以外的任何单个字符
  • w 匹配字母、数字、下划线、汉字
  • s 匹配任意空白字符(包括空格、制表符、换页符等)
  • d 匹配数字,匹配单词的开始或结束
  • ^ 匹配字符串的开始
  • $ 匹配字符串的结束

例子:

#匹配abc开头的字符串  
^abd#匹配8位数字的QQ号
^dddddddd$#匹配以153开头的11位数字手机号  
^153dddddddd$  

2. 重复限定符

  • * 重复0次或更多次
  • + 重复1次或更多次
  • ? 重复0次或1次
  • {n} 重复n次
  • {n,} 重复n次或更多次
  • {n,m} 重复n到m次
#匹配8位数字QQ号    
^d{8}$#匹配153开头11位手机号  
^(153)d{8}$#匹配身份证号第7到14位(出生日期)    
^d{7,14}$  #匹配以a开头的,0个或者多个以b结尾的字符串
^ab*$

3. 分组

#匹配字符串中包含0到多个ab开头
^(ab)*$

4. 条件或

正则用【|】表示或,当满足分支里任何一种条件时,就会匹配成功

#匹配手机号中联通的手机(联通号段130/131/132等)
^(130|131|132)d{8}$

5. 区间

正则提供‘[]’表示区间条件

  • [0-9] 限定0到9
  • [a-z] 限定a-z
  • [165] 限定某些数字

Java中使用正则表达式

这里会说一个例子:在一段txt文档中找出所有的网址

Java与正则

1. 这里有一段100000000(自己数,我也不知道几个0)行的文本,如图

原始文档

2. 高手写好的匹配url的正则(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]当然还有n多种方式

3. Java代码献上

正则表达式匹配使用方式

/*** 参数1 regex:我们的正则字符串* 参数2 就是一大段文本,这里用data表示*/
private String filterSpecialStr(String regex, String data) {//sb存放正则匹配的结果StringBuffer sb = new StringBuffer();//编译正则字符串Pattern p = Pattern.compile(regex);//利用正则去匹配Matcher matcher = p.matcher(data);//如果找到了我们正则里要的东西while (matcher.find()) {//保存到sb中,"\r\n"表示找到一个放一行,就是换行sb.append(matcher.group() + "\r\n");}return sb.toString();
}

4. 这里增加两个文件的读写

Java读取文本文件

private String readFile(String pathName) {//读取到的文件内容放到这个sb里StringBuffer sb = new StringBuffer();//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice (这种写法是Java7的一种语法,自动管理资源,不理解自行百度)try (BufferedReader br = new BufferedReader(new FileReader(pathName))) {String line;while ((line = br.readLine()) != null) {sb.append(line + "\r\n");}System.out.println("读取文件完成");} catch (IOException e) {e.printStackTrace();}return sb.toString();}

Java写入文本文件

private void writeFile(String pathName, String data) {try {//文件不存在的话新建,存在覆盖File file = new File(pathName);file.createNewFile();//The Java 7 try-with-resources syntax (Automatic Resource Management) is nicetry (BufferedWriter bw = new BufferedWriter(new FileWriter(file))) {bw.write(data);bw.flush();System.out.println("文件写入完成");} catch (IOException e) {e.printStackTrace();}} catch (IOException e) {e.printStackTrace();}
}

5. 执行结果

测试代码

把文档.txt读取到Java中,然后处理完,最后写到我指定的文件中

public static void main(String[] args) {//0. 准备好正则String regex = "(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]";//1. 读取文档String data = readFile("F:\\test\\文档.txt");//2. 正则查找String needData = filterSpecialStr(regex, data);//3. 写到某个文件中writeFile("F:\\test\\needData.txt", needData);
}

结果

过滤之后的文档

转载于:https://www.cnblogs.com/baijinqiang/p/11067033.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/263715.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows与Linux之间海量文件的传输与Linux下大小写敏感问题

Windows与Linux之间海量文件的传输与Linux下大小写敏感问题 mount.cifs 支持通过网络文件系统挂载,不过需要安装cifs-utils,也可通过mount -t cifs挂载,详细的选项可参见man mount.cifs 1. 通过Windows共享文件夹 1.1 设置windows共享1.2 Lin…

c语言如何读取mp3歌曲信息,VC中读取mp3文件信息的方法

标准格式的mp3文件中,都有一些自身描述的信息,比如歌曲名称、歌手、专辑名称等信息。这些信息都记录在mp3文件中,而且格式是固定的。那么,我们就可以用编程的方式来获取这些信息。其实说简单一点,就是VC文件读取的操作…

kvm虚拟机热迁移

1. 迁移介绍 迁移: 系统的迁移是指把源主机上的操作系统和应用程序移动到目的主机,并且能够在目的主机上正常运行。在没有虚拟机的时代,物理机之间的迁移依靠的是系统备份和恢复技术。在源主机上实时备份操作系统和应用程序的状态&#xff0c…

通过图表简化sql语句的表关联

在之前的博文中分享过一个执行了两天的一条sql语句,走了两个大表的扫描,导致执行时间很长,通过简化sql做了不小的改进,今天我们来看看还可以做些什么。 上次简化后的语句如下:with tmp_logical_date as (SELECT logica…

[翻译] BFKit

BFKit BFKit is a collection of useful classes to develop Apps faster. BFKit是一个有用的工具集合,帮助你快速开发。 Installing and Usage Pod Pod安装 Create a Podfile in your project directoryWrite:platform :ios, 7.0xcodeproj Project.xcodeproj pod …

Camera Vision - video surveillance on C#

http://www.codeproject.com/KB/audio-video/cameraviewer.aspx 开发的资源 介绍:纵观当今的监控系统的发展趋势,能很容易发现基于IP的解决方案正在迅速的普及。有许多的制造商,提供广泛的IP视频射像和视频服务器,意味着个人的IP…

11次作业

1、实验要求&#xff1a;建立一个通信录&#xff0c;通信录的结构体记录包括&#xff1a;姓名、生日、电话号码&#xff1b;其中生日又包括三项&#xff1a;年、月、日。编写程序&#xff0c;定义一个嵌套的结构类型&#xff0c;输入n&#xff08;n<10&#xff09;个联系人的…

android内存卡测试,安卓sd卡真假检测工具_内存卡检测扩容卡软件_sd insight

内存卡检测扩容卡软件内存卡检测扩容卡软件由于U盘、TF卡&#xff0c;sd内存卡等移动存储设备越来越便宜&#xff0c;导致很在某宝上买到便宜且容量大的U盘或者内存卡&#xff0c;结果基本上都是扩容盘&#xff0c;所谓扩容盘&#xff0c;就是实际容量比如2G的U盘&#xff0c;经…

Linux nohup和的功效

Linux nohup和&的功效 https://www.cnblogs.com/laoyeye/p/9346330.html 这是我转载的文章&#xff0c;写的很好&#xff0c; nohup Command [ Arg ... ] [ & ] &&#xff1a;进程后台执行 不挂断地运行命令。no hangup的缩写&#xff0c;意即“不挂断” 例如&…

MySql Workbench 安全模式(safe mode)

默认情况下&#xff0c;MySql WorkBench 的安全模式是打开的&#xff0c;即&#xff1a;update、delete语句必须带 where 条件字句&#xff0c;单条记录更新或删除。 如果关闭安全模式&#xff08;safe mode&#xff09;&#xff1a; 菜单栏&#xff1a;编辑(Edit) ---> 个…

13 个超炫的 Conky 配置

Conky 是一款桌面美化及系统信息监控软件&#xff0c;有着很强的自定义性&#xff0c;如果你熟悉的话可以配置出各类不同效果的界面&#xff0c;而下面列出了 13 个超炫的 Conkey 配置&#xff0c;你可以尝试其中之一。 Bionic Conky&#xff1a; Hi-Tek Conky&#xff1a; Con…

大型门户网站的可伸缩性架构设计

大型门户网站的可伸缩性架构设计2009-12-28 来源&#xff1a;网络我们知道&#xff0c;对于一个大型门户网站来说&#xff0c;可伸缩性是非常重要的&#xff0c;怎么样在纵向和横向有良好的可伸缩性&#xff0c;就需要在做架构设计的时候考虑到一个分的原则&#xff0c;我想在多…

实现 laravel 的artisan

laravel 的 artisan 命令行太好用了&#xff0c;换个框架没有这个功能&#xff0c;于是自己学习实现一些&#xff0c;直接上代码 新建目录 -artisan --bin --src 进入artisan composer init composer require symfony/console #!/usr/bin/env php<?phpuse Symfony\Comp…

计算机语言学 考研学校,2019考研专业:语言学及应用语言学

中国教育在线讯 2019考研&#xff0c;对考研专业了解越多&#xff0c;考研人越易选出适合自己的方向&#xff0c;中国教育在线考研频道将陆续推出2019考研业解析系列&#xff0c;进行基本的专业介绍&#xff0c;探析就业前景与方向&#xff0c;推荐知名院校&#xff0c;介绍相近…

iOS CoreAnimation

为什么80%的码农都做不了架构师&#xff1f;>>> 前言&#xff1a;这篇文章太全了&#xff0c;忍不住就转了&#xff0c;原地址 CoreAnimation&#xff0c;另外前面写过一篇简单的动画IOS简单动画 核心动画,开发人员可以为他们的应用创建动态用户界面,而无需使用低级…

asp.net MVC 权限设计(续)

asp.net MVC 权限设计一文中没有demo放出来,应大家的要求&#xff0c;这里补充上文并放出demo。 几点说明&#xff1a; 1、基于将角色与controller、action相关联来判断用户是否有权 2、通过自定义AuthorizeAttribute实现 3、demo 仅供参考&#xff0c;一些规则可以根据实际情况…

C# winForm 定时访问PHP页面小工具

IDE&#xff1a;vs2019 项目文件&#xff1a; 链接: https://pan.baidu.com/s/1H-Q3nc6sKQbD32pp0vuQIg 提取码: ncce 使用场景&#xff1a;定时访问本机&#xff08;服务器&#xff09;的某个页面&#xff0c;发送参数。执行计划任务。 界面&#xff1a; C# 代码&#xff1a;…

响应式html5模板代码,响应式多用途HTML5模板

跨浏览器兼容&#xff0c;视网膜准备&#xff0c;响应式 HTML5 / CSS3 模板&#xff0c;具有触摸支持&#xff0c;具有简洁的设计&#xff0c;多用途模板&#xff0c;适用于各种网站&#xff0c;使用此模板可以进行大量自定义&#xff0c;这将有助于您重新定义网站的品牌价值。…

HDU 2095 find your present (2)

原以为这是一纯水题&#xff0c;就果断开了1000000了数组给它&#xff08;1300多K&#xff09;&#xff0c;没想Memory果断超了&#xff0c;后来又用链表做&#xff08;写了2000多K&#xff09;&#xff0c;再次无情的被Memory刷了&#xff0c;无耐百度一下&#xff0c;竟然发现…