java正则匹配非html字符串_java正则表达式去除html中所有的标签和特殊HTML字符(以开头的)...

packagecom.comcons.utils;importjava.io.BufferedReader;importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.IOException;importjava.util.regex.Pattern;public classReduceHtml2Text {/*** 删除Html标签

*@paraminputString

*@return

*/

public staticString removeHtmlTag(String inputString) {if (inputString == null)return null;

String htmlStr= inputString; //含html标签的字符串

String textStr = "";

java.util.regex.Pattern p_script;

java.util.regex.Matcher m_script;

java.util.regex.Pattern p_style;

java.util.regex.Matcher m_style;

java.util.regex.Pattern p_html;

java.util.regex.Matcher m_html;

java.util.regex.Pattern p_special;

java.util.regex.Matcher m_special;try{//定义script的正则表达式{或

String regEx_script = "<[\s]*?script[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?script[\s]*?>";//定义style的正则表达式{或

String regEx_style = "<[\s]*?style[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?style[\s]*?>";//定义HTML标签的正则表达式

String regEx_html = "<[^>]+>";//定义一些特殊字符的正则表达式 如:     

String regEx_special = "\&[a-zA-Z]{1,10};";

p_script=Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);

m_script=p_script.matcher(htmlStr);

htmlStr= m_script.replaceAll(""); //过滤script标签

p_style =Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);

m_style=p_style.matcher(htmlStr);

htmlStr= m_style.replaceAll(""); //过滤style标签

p_html =Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);

m_html=p_html.matcher(htmlStr);

htmlStr= m_html.replaceAll(""); //过滤html标签

p_special =Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);

m_special=p_special.matcher(htmlStr);

htmlStr= m_special.replaceAll(""); //过滤特殊标签

textStr =htmlStr;

}catch(Exception e) {

e.printStackTrace();

}return textStr;//返回文本字符串

}/*** 测试用的main函数

*@paramargs*/

public static voidmain(String[] args) {

StringBuffer sb= newStringBuffer();try{

FileReader fr= new FileReader("D:/test.html");

BufferedReader br= newBufferedReader(fr);

String s= "";while((s = br.readLine())!=null){

sb.append(s);

}

}catch(FileNotFoundException e) {//TODO Auto-generated catch block

e.printStackTrace();

}catch(IOException e) {//TODO Auto-generated catch block

e.printStackTrace();

}

String ssss=ReduceHtml2Text.removeHtmlTag(sb.toString());

System.out.println(ssss);

}

}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

院士论坛 | 郭毅可院士:人工智能的热望与冷思考

本文转载自微信公众号&#xff1a;慧天地&#xff0c;来源&#xff1a;上海人工智能学会。版权归原作者及刊载媒体所有&#xff0c;所刊载内容仅供交流参考使用&#xff0c;不代表本刊立场。郭毅可 欧洲科学院院士、英国皇家工程院院士、香港浸会大学副校长。1985年本科毕业于清…

sae 微信 java web_[1] 微信公众号与sae的web应用之间的配置

第一步&#xff1a;申请sae账号&#xff0c;并新建web应用。第三步&#xff1a;配置微信公众号接口&#xff1a;输入接口配置信息&#xff0c;填写URL和Token。点击提交按钮。※ 此时会发现配置不成功&#xff01;需要在代码中添加&#xff1a;header(content-type:text);全部代…

protocol buffer相关

protocol buffer简介 protocol buffer全称Google Protocol Buffers&#xff0c;是google开发的一套用于数据存储&#xff0c;网络通信的协议编解码的工具库&#xff0c;与XML或者JSON相差不多&#xff0c;即把某种数据结构的信息&#xff0c;以某种格式&#xff08;XML&#xf…

用肖像画追踪历史上的信任度变化 |《自然-通讯》论文

来源&#xff1a;Nature自然科研《自然-通讯》发表的一项研究Tracking historical changes in trustworthiness using machine learning analyses of facial cues in paintings指出&#xff0c;从1500年到2000年&#xff0c;欧洲肖像画中传递信任度的面部表达有所增加&#xff…

python url中传递中文_Python编程:URL网址链接中的中文编码与解码

网址链接中的中文编码中文的gbk(GB2312)编码&#xff1a; 一个汉字对应两组%xx&#xff0c;即%xx%xx中文的UTF-8编码&#xff1a; 一个汉字对应三组%xx&#xff0c;即%xx%xx%xx可以利用百度进行URL编码解码 默认gbkhttps://www.baidu.com/s?wd%E4%B8%AD%E5%9B%BDpython3编码解…

华为:求生存是当前主线 下阶段重点 to B数字化

作者 | 王刚出品 | 雷锋网产业组华为全联接&#xff08;HUAWEI CONNECT &#xff09;是华为自办、规模最大的面向ICT行业的全球生态大会&#xff0c;今年是第五载。 这里一直是华为公司发布重大战略的平台。 过去在这个舞台上&#xff0c;华为呼吁过全球伙伴共建哥斯达黎加式生…

maven java管理_java – 依赖管理与maven

我最近成了Maven的大粉丝,用于控制我的应用程序的构建周期.然而,我遇到了一些粗暴的边缘与Maven的依赖管理.我想知道这些是否是工具和范例的限制,依赖管理的必要的邪恶,或者我是否使用错误的工具.>首先是传递依赖关系的问题.据了解,如果您提供依赖关系,Maven将依次找到依赖关…

发新款电池!成本降低14%,特斯拉会继续降价吗?

来源&#xff1a;网易智能在美国当地时间周二举行的“电池日”活动上&#xff0c;电动汽车制造商特斯拉公布了其“无极耳电极”电池计划(极耳是电池正极突出的那一小块)&#xff0c;可以提高电动汽车的续航里程和功率。特斯拉将在内部生产新电池&#xff0c;其首席执行官埃隆马…

[并查集][排序][dfs][启发式合并] JZOJ P3635 Peaks

Description 有一个居住在多山岛屿的登山家&#xff0c;已经攀上了一座山峰&#xff0c;并且要攀爬另外一座更高的山峰。 更精确地说&#xff0c;岛上的每一点都有一个大于零的海拔&#xff08;海面的海拔为零&#xff09;&#xff0c;并且如果登山家位于海拔Ei的山峰上&#x…

华为汪涛:打造全场景智能联接解决方案,共建行业智能体

来源&#xff1a;华为2020年9月24日&#xff0c;在HUAWEI CONNECT 2020期间&#xff0c;华为全面阐述全场景智能联接解决方案&#xff0c;从技术、网络、行业三个层面打造泛在千兆、确定性体验和超自动化的智能联接&#xff0c;共建行业智能体。同时&#xff0c;华为面向企业发…

斐波那契数java实现_斐波那契数列Java实现[剑指offer]

描述大家都知道斐波那契数列&#xff0c;现在要求输入一个整数n&#xff0c;请你输出斐波那契数列的第n项(从0开始&#xff0c;第0项为0)。n<39题解1.递归实现采用递归的方式进行实现时&#xff0c;从第n个节点向下递归时&#xff0c;存在重复节点&#xff0c;当n越大时&…

Oracle IMPDP

1.授权IMP_FULL_DATABASEgrant imp_full_database to ygqd; 2.将作业参数存储在一个参数文件中dp_ygqd.pardirectoryYGQD_PUMPdumpfileYGQD.dmpcontentmetadata_only3.启动导入作业 impdp ygqd/ygqd parfiledp_ygqd.par 4.停止和重启正在运行的作业关闭窗口&#xff1a;CtrlC退…

Facebook发布AR眼镜研究项目Project Aria

Facebook来源&#xff1a;IEEE电气电子工程师近日&#xff0c;在Oculus Connect直播活动中&#xff0c;Facebook宣布了Aria项目&#xff0c;这是一个专注于构建可穿戴增强现实设备的研究项目。但这些智能眼镜更像是一个研究平台&#xff0c;而不是为消费者提供的现成的小玩意。…

java 随机生成图,Java中的快速实值随机生成器

java.util.Random.nextDouble() is slow for me and I need something really fast.I did some google search and Ive found only integers based fast random generators. Is here anything for real numbers from interval <0, 1) ?解决方案If you need something fast …

isinstance函数

最近学习python涉及到两个函数&#xff1a; if isinstance(str,bs4.element.Tag): 一个是isinstance函数&#xff0c;一个是bs4.element.Tag 1.isinstance:判断一个对象是否是一个已知的类型&#xff0c;类似于type&#xff08;&#xff09; type&#xff08;&#xff09;不考虑…

博士发公众号文章也能评国奖?双一流高校新规引热议!

来源&#xff1a; 募格学术本文为募格学术撰写。参考资料&#xff1a;南京大学官网、百度百科、知乎、中央广电总台中国之声等。作为研究生来说&#xff0c;如果能在读研期间获得国家奖学金&#xff0c;是一项莫大的荣誉。不过一般&#xff0c;国家奖学金的申请条件要求都比较高…

新视窗java_《计算机组成原理实验》教学大纲 - 兰州大学信息科学与工程学院.DOC...

《计算机组成原理实验》教学大纲 - 兰州大学信息科学与工程学院目 录《C课程设计》教学大纲1《C语言课程设计》教学大纲3《C语言课程设计》教学大纲5《Java EE 编程思想课程设计》教学大纲7《JAVA语言课程设计》教学大纲9《JAVA语言课程设计》教学大纲11《编译原理课程设计》教…

java EL表达式中${param.name}详细

在浏览器地址输入&#xff0c;表示传入一个参数test&#xff0c;值为123URL:http://localhost:8888/Test/index.jsp?test123<body>${test}${requestScope.test} <%request.getAttribute("test"); %> </body> 以上代码均不能取出值 仅当 使用 <…

世界的下一个主宰——人工智能

一、人工智能的诞生及发展艾伦图灵是英国数学家、逻辑学家、密码学家&#xff0c;对计算机科学的发展具有重大影响。他于1936 年提出了抽象计算“图灵机”&#xff0c;使算法的概念得以形式化&#xff0c;至今仍在许多理论和实践研究中得到应用。世人公认&#xff0c;图灵的科学…

源码调试debug_info 的作用和使用方法

在他通过gcc来编译程序时&#xff0c;在map文件中&#xff0c;经常会遇到如下的情况&#xff1a; .debug_info 0x002191b6 0x1aa9 XXX .debug_info 0x0021ac5f 0xce4 XXX .debug_info 0x0021b943 0x9cf XXX .debug_info 0x0021c312 0x1119 XXX最近遇到了一些问题&#xff0c;需…