使用ANTLR在5分钟内用Java解析任何语言:例如Python

我喜欢出于多种目的处理代码,例如静态分析或自动重构。 对我来说,有趣的部分是推理从抽象语法树(AST)构建的模型。 为此,您需要一种从源文件中获取AST的方法。 使用ANTLR和完整的语法集合可在此处轻松完成: https : //github.com/antlr/grammars-v4

谢谢大家的语法!

谢谢大家的语法!

我们将只为Python 3选择一个,而在Python 2上也应该可以正常工作。如果我们需要做一些小的调整,我们可以从这个基础上轻松地做到这一点。

获得语法

首先,我们要学习语法。

只需访问https://github.com/antlr/grammars-v4并获取所需的语法即可。 大多数语法都有非常宽松的许可。

R,Scala,Python,Swift,PHP等许多语言都有数十种语法。 Java也有一个,但是对于Java,您更喜欢使用JavaParser,对吗?

只需将语法复制到src / main / antlr下的新项目中

使用Gradle设置项目

现在,我们将使用Gradle设置构建脚本。

我们将使用ANTLR4插件从melix ,因为我觉得它更灵活的中描述的的官方文件 。

我们将在特定的程序包( me.tomassetti.pythonast.parser )中生成代码,因此将在从该程序包派生的目录(build / generate-src / me / tomassetti / pythonast / parser)中生成代码。

buildscript {repositories {maven {name 'JFrog OSS snapshot repo'url  'https://oss.jfrog.org/oss-snapshot-local/'}jcenter()}dependencies {classpath 'me.champeau.gradle:antlr4-gradle-plugin:0.1.1-SNAPSHOT'}
}repositories {mavenCentral()jcenter()
}apply plugin: 'java'
apply plugin: 'me.champeau.gradle.antlr4'antlr4 {source = file('src/main/antlr')output = file('build/generated-src/me/tomassetti/pythonast/parser')extraArgs = ['-package', 'me.tomassetti.pythonast.parser']
}compileJava.dependsOn antlr4sourceSets.main.java.srcDirs += antlr4.outputconfigurations {compile.extendsFrom antlr4
}task fatJar(type: Jar) {manifest {attributes 'Implementation-Title': 'Python-Parser','Implementation-Version': '0.0.1'}baseName = project.name + '-all'from { configurations.compile.collect { it.isDirectory() ? it : zipTree(it) } }with jar
}

我还添加了fatJar任务。 该任务将产生一个包含所有依赖项的JAR。 我使用它可以更轻松地将解析器导入Jetbrains MPS。

要从语法生成解析器,您只需运行gradle antlr4。

然后,您必须向您的IDE解释它应该考虑build / Generated-src下的代码

如何调用解析器

现在让我们看看如何调用解析器。

public class ParserFacade {private static String readFile(File file, Charset encoding) throws IOException {byte[] encoded = Files.readAllBytes(file.toPath());return new String(encoded, encoding);}public Python3Parser.File_inputContext parse(File file) throws IOException {String code = readFile(file, Charset.forName("UTF-8"));Python3Lexer lexer = new Python3Lexer(new ANTLRInputStream(code));CommonTokenStream tokens = new CommonTokenStream(lexer);Python3Parser parser = new Python3Parser(tokens);return parser.file_input();}
}

我们的ParserFacade只有一个名为parse的公共方法。 它获取一个文件并返回AST。 没有比这更简单的了。

让我们看一些AST

让我们看一个简单的文件:

def sum(a, b):return a + bprint("The sum of %i and %i is %i" % (5, 3, sum(5, 3)))

现在获取AST。 我们可以使用以下代码进行打印:

public class AstPrinter {public void print(RuleContext ctx) {explore(ctx, 0);}private void explore(RuleContext ctx, int indentation) {String ruleName = Python3Parser.ruleNames[ctx.getRuleIndex()];for (int i=0;i<indentation;i++) {System.out.print("  ");}System.out.println(ruleName);for (int i=0;i<ctx.getChildCount();i++) {ParseTree element = ctx.getChild(i);if (element instanceof RuleContext) {explore((RuleContext)element, indentation + 1);}}}}

如果我们解析简单的示例并使用AstPrinter进行打印,我们将获得一个超级复杂的AST。 第一行看起来像:

file_inputstmtcompound_stmtfuncdefparameterstypedargslisttfpdeftfpdefsuitestmtsimple_stmtsmall_stmtflow_stmtreturn_stmttestlist...

对于解析器的构建方式,有很多废止的规则。 在解析时这很有意义,但是会产生非常污染的AST。 我认为有两种不同的ASTS:一种易于生成的解析AST ,另一种易于推理的逻辑AST 。 幸运的是,我们可以在不花太多精力的情况下改造第一个。

一种简单的方法是列出仅包装程序的所有规则,然后跳过它们,取而代之的是唯一的子规则。 我们可能必须对此进行优化,但作为第一步的近似,我们只是跳过只有一个子节点的节点,这是另一个解析器规则(无终端)。

这样,我们从164个节点增加到28个。结果逻辑AST为:

file_inputfuncdefparameterstypedargslisttfpdeftfpdefsuitesimple_stmtreturn_stmtarith_expratomatomsimple_stmtpoweratomtrailertermstringatomtestlist_compintegerintegerpoweratomtrailerarglistintegerinteger

在这棵树中,我们应该将所有内容映射到我们理解的概念,而无需人工节点,只是出于解析原因而创建的节点。

结论

编写解析器并不是我们可以产生最大价值的地方。 我们可以轻松地重用现有语法,生成解析器并使用这些解析器构建我们的智能应用程序。

那里有几个解析器生成器,其中大多数足以满足您可以实现的大多数目标。 在它们当中,我倾向于比其他人更多地使用ANTLR:它已经成熟,被支持并且速度很快。 它产生的AST可以使用异构API(我们为每种类型的节点生成单个类)和同类API(我们可以询问每个节点代表哪个规则及其子代列表)进行导航。

ANTLR的另一个巨大好处是存在随时可以使用的语法。 构建语法需要经验和一些工作。 特别是对于Java或Python这样的复杂GPL。 它还需要非常广泛的测试。 即使我们已经使用JavaParser解析了成千上万的文件,我们仍然发现JavaParser背后的Java 8语法存在一些小问题。 如果可以避免的话,这是现在编写自己的语法的一个很好的理由。

  • 顺便说一下,所有代码都可以在github上找到: python-ast

翻译自: https://www.javacodegeeks.com/2016/02/parsing-language-java-5-minutes-using-antlr-example-python.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/354418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux服务器配置ssl证书

一、申请ssl证书 这里有申请域名的ssl证书的步骤&#xff1a; https://blog.csdn.net/weixin_38797742/article/details/109471250 二、配置服务器 打开项目对应的配置文件&#xff0c;配置图中三行信息&#xff0c;端口、还有申请的证书的所在目录。 listen 443 ssl; ssl_…

视图层的数据绑定

数据绑定WXML 中的动态数据均来自对应 Page 的 data。 只要把data中的数据改变&#xff0c;视图层就会自动改变&#xff0c;无需使用DOM操作。 简单绑定数据绑定使用 Mustache 语法&#xff08;双大括号&#xff09;将变量包起来 使用方法&#xff1a; {{ 内容 }} 在组件中使用…

【原创】Linux安装Redis

【注】说是原创其实是从各个博客中copy出来的&#xff0c;不过经本人总结&#xff0c;也算是半个原创吧&#xff0c;哈哈... 1.安装环境&#xff1a; 2.安装步骤 2.1 安装目录 cd /usr/local mkdir redis 2.2 下载包 wget http://download.redis.io/releases/redis-3.2.11.tar…

原型链继承

转载于:https://www.cnblogs.com/cmblog/p/8079773.html

java线程死锁_Java线程死锁–案例研究

java线程死锁本文将描述从在IBM JVM 1.6上运行的Weblogic 11g生产系统中观察到的最新Java死锁问题的完整根本原因分析。 此案例研究还将证明掌握线程转储分析技能的重要性&#xff1b; 包括用于IBM JVM Thread Dump格式。 环境规格 – Java EE服务器&#xff1a;Oracle Weblo…

linux下安装pm2

提前安装node linux下安装pm2 全局安装 npm install pm2 -g安装完成后可以查看pm2的所在目录 创建软连接----根据上面的安装目录创建 ln -s /home/node/nodejs/lib/node_modules/pm2/bin/pm2 /usr/local/bin/查看进程 pm2 list安装成功&#xff01;&#xff01;&#xff…

主机关机后第二天就无法开机_工控机几种常见的在开机或关机后不能正常使用的故障处理方法汇总...

工控机开机启动时我们经常会碰到各种不能正常使用的问题&#xff0c;下面我们把这类故障现象及处理方法在这里给大家汇总分析一下&#xff0c;希望你在碰到类似的问题时&#xff0c;能给你们提供一定的帮助&#xff01;故障现象一&#xff1a;工控机在开机过程中出现死机故障.故…

网站添加页面热力图--百度统计

1&#xff0c;注册百度统计的账户并登录 https://tongji.baidu.com/web/10000307684/welcome/login 2&#xff0c;新增网站 管理-网站列表-自有网站-新增网站 3&#xff0c;新增网页热力图 基础报告-页面点击图-新增点击图 4&#xff0c;复制统计代码 把统计的代码放到…

pandas中inplace_pandas回顾小结(二)

上一篇&#xff1a;橘猫吃不胖&#xff1a;pandas回顾小结&#xff08;一&#xff09;​zhuanlan.zhihu.comIndexIndex也有很多种类型&#xff0c;官方文档介绍&#xff1a;Index objects - pandas 1.1.4 documentationindex是可以包含重复值的df pd.DataFrame([[1,2,3],[4,5,…

Swing应用程序中的CDI事件可将UI与事件处理分离

在享受了几年围绕CDI构建我的代码的乐趣之后&#xff0c;使用它根据众所周知的模式来构造我的代码非常自然。 CDI是一种旨在在Java EE应用程序服务器中使用的依赖项注入机制&#xff0c;这可能被视为不利。 但是&#xff0c;我想证明它可以在Java SE应用程序中使用并且具有巨大…

keras 多层lstm_机器学习100天-Day2403 循环神经网络RNN(训练多层RNN)

说明&#xff1a;本文依据《Sklearn 与 TensorFlow 机器学习实用指南》完成&#xff0c;所有版权和解释权均归作者和翻译成员所有&#xff0c;我只是搬运和做注解。进入第二部分深度学习第十四章循环神经网络循环神经网络可以分析时间序列数据&#xff0c;诸如股票价格&#xf…

新手上路之django项目开发(一)-----创建项目并运行

一&#xff0c;创建项目 1&#xff0c;PyCharm创建 或者 2&#xff0c;django-admin startproject mysite mysite 是项目名。 二&#xff0c;配置settings.py文件 创建templates目录&#xff0c;static目录 settings.py文件中加入&#xff1a;os.path.join(BASE_DIR, ‘tem…

lisp语言画阿基米德线_中国油画艺术表达着艺术家思想情感,而且展现了油画语言独特之美...

感谢大家阅读&#xff0c;在阅读之前&#xff0c;麻烦您先点击上面的“蓝色字体”&#xff0c;再点击“关注”&#xff0c; 因为微信更改了推送规则&#xff0c;推文不再按照时间线显示&#xff0c;如果不点『在看』或者没有『星标』&#xff0c;可能就看不到我们的推送了&…

java btrace_BTrace for Java应用程序简介

java btrace本文的目的是学习如何使用BTrace动态跟踪/观察正在运行的Java应用程序&#xff08;JDK 6&#xff09;&#xff0c;而无需更改应用程序的代码和配置参数。 什么是BTrace&#xff1f; BTrace是一个开源项目&#xff0c;始于2007年&#xff0c;最初由A.Sundararajan和…

我的世界javamod怎么装_「装修细节」除了中央空调外的高颜值装空调大法

一直觉得中央空调是高颜值神器但是对于我这种万年单身狗在考虑开启率的情况下好像还是风管机和挂机比较实用但是又嫌弃挂机的电线冷凝水管丑到不行直到我看到了-----管线背出的挂机仿佛开启了新世界的大门| 怎么做到的 |我问了好多卖中央空调的有没有管线背出的挂机都和我说不清…

rm删除文件显示:Operation not permitted

当需要删除某个文件夹或者文件时&#xff0c;提示Operation not permitted&#xff0c;表示不允许操作。 解决方法如图 chattr -i .user.ini 注释&#xff1a; rm -rf 目录名字 &#xff1a;删除 -r 就是向下递归&#xff0c;不管有多少级目录&#xff0c;一并删除 -f 就是直…

sublime 代码格式化

插件&#xff1a; SublimeAStyleFormatter Package Control Messages SublimeAStyleFormatter---------------------- SublimeAStyleFormatter SublimeAStyleFormatter is a simple code formatter plugin for Sublime Text 2. It provides ability to format C, C, C#, and J…

Linux下安装并使用MySQL数据库

注意&#xff1a;如果是配合python使用的话&#xff0c;连接数据库的时候注意python2使用的是mysqldb&#xff0c;python3使用的是pymysql。详细看第三点。 一&#xff0c;首先设置安全组 开放MySQL的默认端口3306 二&#xff0c;安装MySQL服务 在官网查找最新版本的下载链…

Windows下安装并使用MySQL数据库

MySQL是一款免费开源的关系型数据库&#xff0c;很多中小型企业开发项目都选择使用MySQL数据库&#xff0c;所以大家也在优先选择学习MySQL数据库。 一&#xff0c;安装 1.打开MySQL下载地址&#xff0c;MySQL官方下载地址https://dev.mysql.com/downloads/mysql/。 2.选择自…

您的第一个Lagom服务– Java Microservices入门

在撰写我的下一份OReilly报告时&#xff0c;我一直很沮丧&#xff0c;而且一段时间内没有足够的时间来撰写博客。 是时候赶快来这里&#xff0c;让您真正快速地开始使用名为Lagom的新微服务框架。 它与您从Java EE或其他应用程序框架中可能了解到的有所不同。 这对您来说是学习…