一个从源代码里提取中文字符串的java类

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

工作中需要优化代码里的中文警示语和异常信息,实在比较多,所以就写了个程序专门从代码里提取中文字符串。

java做的,比较简单,放上来备忘

package com.extractstr.app;import java.io.*;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;/*** 搜索字符串并输出到控制台*/
public class ExtractStr {public static String getHelpString(String[] args){String result = String.format("%s [path]", new Object[]{"a"});return result;}private void getFiles(String rootPath, final String fileExt, List<File> fileList){File f =new File(rootPath);File[] list=f.listFiles(new FileFilter() {@Overridepublic boolean accept(File f) {boolean ret = f.isDirectory() || (f.isFile() && f.getName().endsWith(fileExt));return ret;}});for(File fn : list){if (fn.isDirectory()){this.getFiles(fn.getAbsolutePath(), fileExt, fileList);}else{fileList.add(fn);}}}public List<File> run(String rootPath, String fileExt){List<File> result = new LinkedList<File>();this.getFiles(rootPath, fileExt, result);return result;}public List<String> parserSourceFile(List<String> patternList, File file, int miniCharCount) throws Exception {List<String> result = new LinkedList<String>();BufferedReader r = new BufferedReader(new FileReader(file));char[] buffer = new char[(int)file.length()];r.read(buffer, 0, (int)file.length());String text=new String(buffer, 0, buffer.length);for(String patternStr : patternList){//Pattern pattern = Pattern.compile("\"(.*?)\"");Pattern pattern = Pattern.compile(patternStr);Matcher matchers= pattern.matcher(text);while(matchers.find()){String t=matchers.group();if (t.length()>=miniCharCount)result.add(t);}}return result;}public static void main(String []args){if (args.length==0){StringBuilder sb = new StringBuilder().append("未传入需要搜索的有效的源代码路径").append("\n").append(ExtractStr.getHelpString(args));System.out.println(sb.toString());System.exit(1);}List<String> searchFolders=new ArrayList<String>(100);for(int i=0; i<=args.length-1;i++){File f=new File(args[i]);if (!f.isDirectory() || !f.exists())continue;searchFolders.add(f.getAbsolutePath());}List<String> patternList = new LinkedList<String>();patternList.add("'([\\u4E00-\\u9FA5]+)'");patternList.add("\"([\\u4E00-\\u9FA5]+)\"");ExtractStr es = new ExtractStr();List<File> fileList = new ArrayList<File>(1000);for(String sarchFolder : searchFolders){List<File> t=es.run(sarchFolder, ".php");fileList.addAll(t);}Set<String> outList=new HashSet<String>();for(File f : fileList){try{List<String> items=es.parserSourceFile(patternList, f, 12);outList.addAll(items);}catch(Exception e){e.printStackTrace();}}for(String str : outList){System.out.println(str);}}
}

对于拼接字符串的中文输出支持的不算好,而且也对中文的长度有限制(最少12个字符)

转载于:https://my.oschina.net/jim19770812/blog/467598

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/460089.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle RAC切换归档

&#xff08;转自leshami&#xff09; RAC环境下的归档模式切换与单实例稍有不同&#xff0c;主要是共享存储所产生的差异。在这种情况下&#xff0c;我们可以将RAC数据库切换到非集群状态下&#xff0c;仅仅在一个实例上来实施归档模式切换即可完成RAC数据库的归档模式转换问…

linux启用ipmi服务,使用 ipmitool 实现 Linux 系统下对服务器的 ipmi 管理

简介&#xff1a; IPMI 是一种可扩展的标准&#xff0c;它定义了如何监控硬件和传感器、控制系统部件以及记录重大事件&#xff0c;随着 ipmi 技术在服务器中的应用&#xff0c;利用 ipmi 的众多优势就成为服务器管理特别是集群管理中不可缺少的部分。本文首先介绍了 ipmi 的一…

linux中bc用法英文,使用GNU bc在Linux Shell中进行数学运算

在 shell 中使用 bc 更好地做算数&#xff0c;它是一种用于高级计算的数学语言。大多数 POSIX 系统带有 GNU bc&#xff0c;这是一种任意精度的数字处理语言。它的语法类似于 C&#xff0c;但是它也支持交互式执行语句和处理来自标准输入(stdin)的数据。因此&#xff0c;它通常…

Linux C Socket编程原理及简单实例

部分转自&#xff1a;http://goodcandle.cnblogs.com/archive/2005/12/10/294652.aspx 1. 什么是TCP/IP、UDP&#xff1f; 2. Socket在哪里呢&#xff1f; 3. Socket是什么呢&#xff1f; 4. 有很多的框架&#xff0c;为什么还在从Socket开始&#xff1f; 5. Linux C…

蜉蝣极客

蜉蝣极客 百科名片 蜉蝣目&#xff08;英文&#xff1a;mayfly&#xff0c;学名&#xff1a;Ephemeroptera&#xff09;通称蜉蝣&#xff0c;具有古老而特殊的性状&#xff0c;是最原始的有翅昆虫。和蜻蜓目可同分为古翅次纲&#xff0c;他们的翅不能折叠。蜉蝣目昆虫体形细长…

解决Web部署 svg/woff/woff2字体 404错误

原文:解决Web部署 svg/woff/woff2字体 404错误问题&#xff1a;最近在IIS上部署web项目的时候&#xff0c;发现浏览器总是报找不到woff、woff2字体的错误。导致浏览器加载字体报404错误&#xff0c;白白消耗了100-200毫秒的加载时间。 原因&#xff1a;因为服务器IIS不认SVG&am…

压缩感知先进——关于稀疏矩阵

前《初识压缩感知Compressive Sensing》中我们已经讲过了压缩感知的作用和基本想法&#xff0c;涉及的领域&#xff0c;本文通过学习陶哲轩对compressive sensing&#xff08;CS&#xff09;的课程&#xff0c;对压缩感知做进一步理解。针对其原理做出解说。本文较为理论性&…

基于环信sdk的陌生人交友php服务器代码开源

2019独角兽企业重金招聘Python工程师标准>>> 这个是代码结构 服务器端需要两个服务器端软件的支持&#xff1a; 1&#xff1a;weed-fs golang写的海量小文件存储工具 2&#xff1a;memcache 流行的缓存服务器 服务器端主要配置是 conf.php 文件&#xff0c;配置数据…

Linux视频 pad,Wine 1.9.10 发布下载, 改善视频输出

Wine 1.9.10最近发布下载&#xff0c;改进了大量的新功能和错误修正。一个显著的更新是此版本改善视频输出&#xff0c;更兼容目录列表&#xff0c;修复一些C 运行时。Wine 1.9.10 Bug 修复Month calendar control uses 0sunday for firstDayOfWeektooltips not working proper…

EXCEL数据导入dataset

一、开工必备 1、micorosoft office2007 2、VS2010、Oracle 11 二、界面 三、内部代码 (1)获取数据库连接&#xff0c;定义全局变量 private static string connString System.Configuration.ConfigurationSettings.AppSettings[ "connStr" ]; D…

JDBC连接MySQL数据库及演示样例

JDBC是Sun公司制定的一个能够用Java语言连接数据库的技术。 一、JDBC基础知识 JDBC&#xff08;Java Data Base Connectivity,java数据库连接&#xff09;是一种用于执行SQL语句的Java API&#xff0c;能够为多种关系数据库提供统一訪问&#xff0c;它由一组用Java语言…

Single Image Haze Removal(图像去雾)-CVPR’09 Best Paper

公式推导 paper闪光点 找到了一个很简洁的假设。 paper不足 代码跑起来很慢。据说2010年的ECCV那篇是改进的。

EasyUI学习总结(二)——easyloader分析与使用

使用脚本库总要加载一大堆的样式表和脚本文件&#xff0c;在easyui 中&#xff0c;除了可以使用通常的方式加载之外&#xff0c;还提供了使用 easyloader 加载的方式。这个组件主要是为了按需加载组件而诞生。什么情况下使用它呢&#xff1f; 你觉得一次性导入 easyui 的核心 m…

c语言switch scanf语句,C语言中scanf函数与switch语句

----------------switch----------------1)使用格式switch(表达式){case 常量表达式1: 语句1;case 常量表达式2: 语句2; ...case 常量表达式n: 语句n;default: 语句n1;}判断月份代码实现int main(int argc, const char * argv[]) {//定义变量int month;//提示用户输入一个月份p…

JadClipse eclipse反编译插件

A.下载JadClipse&#xff0c;http://jadclipse.sourceforge.net/wiki/index.php/Main_Page#Download&#xff0c;注意选择与eclipse版本一致的版本&#xff0c;我用的是Eclipse3.4&#xff0c;所以选择下载版本net.sf.jadclipse_3.3.0.jar B.下载Jad&#xff0c;http://www.…

Sublime 资源汇总

2019独角兽企业重金招聘Python工程师标准>>> 《sublime text2使用经验》&#xff1a;里面插件的推介和使用、截图。《Sublime Text 2 入门及技巧》&#xff1a;技巧&#xff0c;可惜是4年前的东西了。《Sublime Text 2安装插件方法详解》&#xff1a;介绍了使用 GoA…

c汇编语言程序框架培训,[010][x86汇编语言]学习用户程序的编写(c08.asm)

源程序来源加载程序c08_mbr.asm用户源程序&#xff1a;增加注释;;文件名&#xff1a;c08-2.asm;文件说明&#xff1a;用户程序;创建日期&#xff1a;13:08 2018/5/23;----------------------------------------------------------------------SECTION header vstart0 ;定义用户…

文件共享服务器搭建

详细需求描述1、网络拓扑图如下&#xff1a;2、利用虚拟机实现网络拓扑&#xff0c;要求如下&#xff08;1&#xff09;虚拟机环境使用hostonly&#xff08;2&#xff09;服务器要求&#xff1a;安装Widnwos Server 2008 R2操作系统内存要求&#xff1a;750MB安装五块物理SCSI磁…

当c语言老师遇到网络崩溃,网络教学搞不定?工科教授来支招!

新学期已经到来但是由于新冠病毒肆虐我们不得不在“线上会面”网络远程教学颠覆了传统课堂模式的同时&#xff0c;也为教员们的教学工作带来极大的挑战。想想看&#xff0c;面对一个计算机屏幕滔滔不绝地讲上90分钟&#xff0c;确实需要大量的准备工作。网课平台怎么选&#xf…

在JS函数中执行C#中的函数、字段

1、调用字段 cs文件的代码&#xff1a; public int id 0;protected void Page_Load(object sender, EventArgs e){id 2;} View Codejs页面的代码&#xff1a; function CheckFunc() {alert("<% id%>");} View Code2、调用函数&#xff1a; 在JS函数中访问或执…